2013. 8. 22. 09:30

<2013년8월22일 내용추가>

생물학&생명과학&생물정보학 관점에서 Bootstrap은?


  생물학(생명과학, 생물정보학) 분야에서 부트스트랩은 주로 계통수(phylogenetic tree) 관련 분석에서 많이 이용되고 있다.


  부트스트랩 검정법은 추론된 계통수의 부분별(분기점) 신뢰도를 평가하는 방법 중 하나이다.

  원래의 데이터로부터 중복을 허용하면서 일부분을 반복적으로 무작위로 추출하여 새로운 데이터를 구성한 후, 많은 수의 부트스트랩 계통수에서 공통적으로 나타난 분기점들이 원래의 데이터에 의해 높은 지지를 받는 분기점(신뢰도가 높은 분기점)이 된다. 따라서 각 분기점들의 신뢰도는 모든 부트스트랩 계통수 중에서 어느정도의 비율(%)로 해당 분기점을 나타내는지 표시하게 된다.

 부트스트랩 반복 횟수가 수백 이하인 경우는 결과의 신뢰성이 떨어질 수 있는데, 반복횟수를 수천회 정도로 증가시키는 등의 방법으로 해결할 수 있다.


- 출처 : 생명정보학 (Fundamental concepts of bioinformatics, 대표역자 조재창, 월드사이언스)






  생물학에서 계통수를 그린다거나 다른 통계분석을 수행할 때 bootstrap이라는 용어가 자주 등장하는데요. 나도 처음에는 정확한 의미를 모르고 자주 쓰이는 값을 입력해서 분석하곤 했습니다. 그래서 bootstrap이 무엇인지에 대해서 간단하게 정리해 보았습니다. 영어를 번역한것이다보니 말이 조금 어색할 수 있습니다. 영어를 잘 하시는 분은 밑에 출처 링크를 따라가서 원문을 직접 읽어보시기 바랍니다.

(만약 본문에서 틀린 내용이 있다면 댓글에 적어주세요.)

  간단하게 정리해보면... 실제 조사한 결과를 바탕으로 가상의 샘플링을 수행하고, 수행된 결과를 기반으로 결과의 정확성을 평가하거나 분포를 추정하는 것입니다. 즉, 통계 프로그램에서 Bootstrap의 수치는 가상의 샘플링 횟수를 의미합니다.



  통계학에서, bootstrapping은 컴퓨터를 기반으로 할당된 값으로부터 추정된 시료의 정확성을 측정하는 방법이다 (Efron and Tibshirani 1994).이 기술은 매우 간단한 방법을 이용하여 거의 모든 통계치의 샘플 분포의 추정을 가능하게 한다.
  Bootstrapping은 대략적인 분포로부터 샘플링할 때 그들의 속성을 측정하기 위해 평가자(estimator, 변수 등)로부터 추정된 속성의 실행(practice)이다. 대략적인 분포에 대한 기준이 되는 선택은 실제 관찰된 데이터의 경험적인 분포이다. 관찰치의 세트가 있을 경우 독립적이면서 동일하게 분포된 집단으로부터 추정할 수 있다. 이것은 조사된 데이타세트의 수많은 리샘플을 구성하여 실행할 수 있으며, 이들 각각의 결과는 본래의 데이타세트로부터 무작위로 얻은 샘플로 대체함으로써 얻을 수 있다.



Bootstrap은 샘플의 통계값으로부터 통계학적인 정확성을 평가하거나 분포를 추정하기 위한 방법으로, 단순하지만 강력한 Monte Carlo method이다.

What is boostsrap sampling? (Bootstrap 샘플링이란 무엇인가?)

Bootstrap은 샘플로부터 교체하면서 샘플링한다. Bootstrap은 샘플 안에서의 샘플링이다. Bootstrap 샘플링은 연구자가 갖고 있는 자신의 샘플만을 의지한다. Bootstrap correspondence principle (Bootstrap 대응 원리)에서는 (bootstrap 방법에 의하 수행되는) 하위 샘플링의 평가자(estimator)는 샘플의 추정치와 동일하다고 말한다.

Bootstrap의 아이디어는 아래에 도식화되어 있다. 당신이 당신의 샘플 데이터(샘플의 통계치)의 통계학적 정확성을 평가하고자 한다면, 당신은 N bootstrap 샘플링(=bootrap resampling)을 수행하고, 각 bootstrap 샘플링으로부터 통계치를 계산할 수 있다. Bootrap 통계값은 원래 샘플 통계치의 통계학적 정확성을 평가하는데 이용될 수 있다.



- 출처 : Wikipedia.org (http://en.wikipedia.org/wiki/Bootstrapping_(statistics))
            Kardi Teknomo's Homepage (http://people.revoledu.com/kardi/tutorial/Bootstrap/index.html)





Posted by 토리군