2011. 4. 15. 16:21

  Bayesian skyline plot의 논문을 보면서 Introduction 부분만 정리해봤습니다. 집단 유전의 추정(inference)과 Bayesian skyline plot에 대한 설명이 포함되어 있습니다. 여기서의 inference는 집단 유전학에서 조사된 유전정보를 바탕으로 과거의 집단을 추정하여 분석하는 통계분석의 한 방법 입니다. 즉, 현재 조사된 DNA 염기서열을 기반으로 통계학적인 과정을 거쳐 과거의 집단을 추정하여 시간의 흐름에 따른 집단의 크기, 변이 등이 어떻게 변화하였는지를 분석하는 방법입니다.

  여기 있는 내용은 Bayesian skyline plot에 대한 논문인 Drummond AJ et al., 2005. Molecluar Biology and Evolution 22:1185-1192.의Introduction을 번역한 것입니다. 더 자세한 내용은 위 링크를 따라가서 해당 논문을 참고하시기 바랍니다.
  Bayesian skyline plot은 BEAST software package와 Tracer software 를 이용하여 수행할 수 있습니다.



Lopez, et al., 2009. Genetic variation and recent positive selection in worldwide human populations: evidence from nearly 1 million SNPs.Frappe results. Frappe라는 프로그램을 이용해 통계학적인 방법으로 전 세계의 집단을 비교한 결과.(Lopez, et al., 2009. Genetic variation and recent positive selection in worldwide human populations: evidence from nearly 1 million SNPs.)

  현재 집단 유전의 추정에 가장 많이 쓰이는 방법은 coalescent theory(융합 이론)를 기반으로 하여, 집단유전학적 과정에서 어떻게 수집된 유전자 서열의 계통 형태를 정의하는지를 표시하는 stochastic(추계학의, 확률적인) 과정이다.
  Coalescent 기반의 추정 방법은 다양한 시나리오(재조합, 집단 분화, 변화하는 집단 크기 등)를 겪은 유전자 서열 정보로부터 직접 집단 유전학적 변수들을 추측할 수 있다.

  유전 정보로부터 인구학적 역사(Demographic histories)를 추정하는 것은 인류학(anthropology), 전염병학(epidemiology), 보존 생물학(conservation biology), 생태학(ecology) 등 다양항 생물학 분야에서 가설을 검증하는데 매우 가치있다는 것이 증명되었다.


  인구학적 역사를 추정하기 위한 coalescent 방법은 "인구학적 모델(demographic model)"이 필요하다. 간단히 말해서, 시간이 흐르면서 유효 집단의 수가 변하는 것을 묘사하기 위해 이용되는 수학적인 함수이다.
  각각의 demographic model은 하나 이상의 변수(parameters)를 갖는다. 일반적으로 이용되는 demographic modelconstant size (변하지 않는 집단 규모, 한 개의 변수), exponential growth(시간이 흐르면서 집단의 증가율이 일정함, 두 개의 변수), logistic growth(시간이 흐르면서 증가율이 감소, 세 개의 변수), expansion growth(시간이 흐르면서 증가율이 상승, 세 개의 변수)가 있다.
  과거 집단의 역학관계(dynamics)는 manimum likelihood 또는 Bayesian 방법을 이용해 각종 변수들을 계산함으로써 재구성할 수 있다. 표준 모델 선택 기술을 이용해서 각각의 모델중 어떤 모델이 적합한지 비교하는 것은 시간이 많이 소요되고, 비교된 모델이 데이터에 적합한 것인지 보장받을 수 없다. 잘못된 인구학적 모델을 사용하면 편차가 생기거나 잘못된 계산값을 도출할 수 있다. 게다가 재조합율 또는 전체적인 돌연변이율과 같은 진화 모델의 변수에 편차를 유발할 수 있다.
  이러한 염려들을 처리하기 위해 2000년에 skyline plot이라 부르는 유연한 모델이 개발되었다. "Skyline plot"은 넓은 범위의 인구학적인 시나리오들에 일치시킬 수 있는 구분적으로-일정한 모델(piecewise-constant model)이다. 보통 skyline plot은 "noisy"한 plot을 만들기 때문에, 2001년에는 noise를 감소시키기 위한 "generalized skyline plot"을 개발했다.
  그러나 skyline plot과 generalized skyline plot은 수집된 유전자 서열보다는 추정된 계통으로부터 인구학적 역사를 추측한다. 그러므로 계통학적 재구성과 연관된 오류를 무시하며, 이러한 것은 비현실적이다. 이러한 문제를 해결하기 위한 것이 "Bayesian skyline plot"이다. Bayesian skyline plot은 표준 Markov chain Monte Carlo (MCMC) 샘플링 과정을 이용해서, 수집된 유전자 서열로부터 직접적으로 시간의 흐름에 따라 이어지는 유효 집단 크기의 분포를 추정한다. Bayesian skyline plot은 시간의 매 순간마다 유효집단의 크기를 추정하기 위해 신용 간격(credibility intervals)을 포함한다. 이러한 신용 간격은 계통학적 그리고 융합의 불확실성을 나타낸다. MCMC 샘플링의 "평균화(averaging) 효과는 이전의 skyline plot보다 더 부드러운 계산값을 생산한다.
  아래 그림은 Bayesian skyline plot을 이용해서 1993년에 수집된 이집트의 C형 간염 염기서열을 분석한 결과이다. 20세기 초반에 바이러스가 급격히 증가하는 모습을 볼 수 있는데, 1920년대에 이집트에서 널리 이용된 주사가능한 anti-schistosomiasis(anti-주혈흡충병) 치료의 바이러스 오염에 의해 야기된 것으로 추정된다.

Drummond AJ et al., 2005. Molecluar Biology and Evolution 22:1185-1192.A Bayesian skyline plot (m524) derived from an alignment of Egyptian HCV sequences (63 partial E1 gene sequences, sampled in 1993). The x axis is in units of years before 1993, and the y axis is equal to Nes (the product of the effective population size and the generation length in years). The thick solid line is the median estimate, and the dashed lines show the 95% HPD limits. The thick dashed line shows the mean estimate for the four-parameter model used in Pybus et al. (2003) (see text for details). The plot shows a sharp increase in the effective number of infections in the early 20th century, probably caused by viral contamination of injectable antischistosomiasis treatment that was widely used in Egypt from 1920s (see text for details).





Posted by 토리군