토리군의 생물노트 :: 분자생물학의 중심 원리, 센트럴 도그마

2017. 8. 21. 08:26

분자생물학의 중심 원리, 센트럴 도그마 - 두번째 이야기

지난 글에서는 분자생물학의 중심원리(Central dogma)가 뭔지에 대해 이야기했습니다. 오늘은 이어서 역사를 잠깐 살펴보고, 이 원리에 따라 현재 어떤 연구들이 이루어지고 있는지 한번 써보도록 하겠습니다.

◆◆◆◆◆◆◆◆◆◆

중심원리는 1958년 실험생물학회 심포지엄에서 프란시스 크릭(Francis Crick)에 의해 처음 규정되었습니다(Wikipedia 참조). 네... 여러분이 많이 들어본 DNA 구조 발견하신 그분들, 바로 왓슨과 크릭의 크릭 입니다. 그리고 1970년에 업데이트된 내용이 Nature 저널에 논문으로 발표되었고요. 아래는 Wikipedia에 소개된 Nature 논문의 문구입니다.

The central dogma of molecular biology deals with the detailed residue-by-residue transfer of sequential information. It states that such information cannot be transferred back from protein to either protein or nucleic acid.

관련 논문은 이곳에서 찾을 수 있네요.: Central dogma of molecular biology

1953년에 발표된 DNA 구조발견 논문도 그렇지만, 이 논문도 겨우 3 페이지에 불과합니다. 요즘 논문들이 10페이지 이상+서플멘터리 자료들로 가득한게 보통이라는걸 생각하면... 굉장히 심플하네요. 역시 위대한 발견은 단순한가 봅니다.

중심원리가 왜 중요한지는 굳이 설명 안해도 모두 알겠죠. 지금은 당연한 얘기지만 당시에는 꽤 획기적이었죠. 클로닝부터 PCR, 시퀀싱 등 현대 분자생물학의 주요 실험 기법들은 모두 이 원리를 기반으로 합니다. 물론 그 이전에 DNA 구조의 발견이 어떤 생각의 돌파구 역할을 했겠죠.

이러한 원리에 따라 모든 유전 정보는 DNA에 담겨 있습니다. 따라서 과학자들은 DNA의 암호를 파헤치기 시작합니다. DNA 연구의 전환점중 하나는 모두 알고있는 생어 시퀀싱(Sanger sequencing)일 것입니다. 조금 전문적인 용어로 dideoxy chain termination method라고 하죠. (NGS는 아직 아니고...) 영국의 생화학자 프레데릭 생어(Frederick Sanger)가 개발한 DNA 시퀀싱 방법을 이용해서 DNA 염기서열의 암호를 해독할 수 있게 된 것이죠. Sanger는 DNA 이전에 단백질의 염기서열 분석방법을 먼저 개발하여 인슐린의 아미노산 서열을 처음 해독했습니다. 그 다음 RNA의 서열을 해독하고, 이후 DNA 염기서열 해독(시퀀싱) 기술을 개발하게 됩니다. 중심원리의 순서와 반대이죠... 생어는 이 두가지 기술을 개발함으로써 무려 두 번의 노벨상을 수상하게 됩니다!!

생어 시퀀싱

----------

사실 과학자들은 단백질이 중요하다는건 모두 잘 알고 있습니다. 심지어 과거에는 단백질이 유전정보를 저장할거라고 생각 했으니까요... 지금도 중요성은 모두 알고 있죠. 하지만 문제는 아미노산 서열 분석 기술의 한계로 인해 비용이 비싸고 긴 서열을 해독하는게 매우 어렵다는 것 입니다. 그래서 사람들은 더 쉬운 DNA 염기서열 분석에 집중하게 되죠(이건 토리군의 개인적인 생각일수도 있지만...). 게다가 이미 DNA가 유전정보를 저장하고 있다는건 알고 있으니 (앞서 얘기했다시피) 그 정보만 알게되면 숨겨진 모든걸 파헤칠 수 있을거라 생각했습니다. 그래서 휴먼 게놈 프로젝트도 진행되고 엄청난 돈을 DNA 염기서열 분석에 쏟아부었죠.

그리고 2000년대 초반, 차세대 염기서열 분석(Next generation sequencing, NGS)기술이 개발되고 DNA 염기서열을 대량으로 분석할 수 있는 길이 열립니다. 휴먼게놈프로젝트에 이용되었던 생어 시퀀싱은 NGS보다 더 정확하긴 하지만 한 서열씩 분석해야 했기 때문에 시간과 비용이 많이 들었죠. 하지만 NGS는 정확도는 조금 떨어지지만 수천 수만 가닥의 염기 서열을 동시에 분석할 수 있기 때문에 더 저렴하게 많은 서열을 연구할 수 있게 되었습니다. 질은 조금 떨어지지만 엄청난 양으로 승부하는거죠. 일종의 박리다매랄까... 이 기술 덕분에 지놈 수준의 염기서열 분석이 가능해지고 사람들이 더 많은 DNA 서열 데이터를 생산하기 시작합니다.

(각 기술들에 대한 자세한 내용은 나중에 기회가 되면 하나씩 설명해 보도록 하겠습니다.)

----------

그러나!!! 2003년 휴먼 게놈 프로젝트가 완료되고, 2002년 NGS가 소개된 후 지난 약 10여년간 우리는 수천~수만명의 DNA 지놈 서열 데이터를 생산했지만, 여전히 하나하나의 DNA 서열이 무엇을 의미하는지 모르는 부분이 더 많습니다. 그래서 여전히 많은 과학자들이 DNA에 집중하고 있지만, 최근 많은 과학자들은 DNA만으로 만족하지 못하고 RNA에 집중하기 시작합니다. NGS 기술의 발전은 RNA 마저도 대량으로 분석할 수 있게 해주죠. 우리는 그 기술을 RNA-Seq이라고 부릅니다.

RNA-Seq 실험 과정

하지만 기본적으로 이 기술도 DNA 염기서열 분석입니다. 왜냐하면 기존의 RNA를 직접 분석하는 기술도 매우 까다롭고 시간이 많이 걸리기 때문이죠. 한편... 역전사 효소(reverse transcriptase)라고 하는 효소가 발견되면서 문제가 간단해집니다. RNA를 DNA로 역전사한 후 시퀀싱하면 되기 때문이었죠. 이 효소는 1970년에 University of Wisconsin–Madison의 Howard Temin과 MIT의 David Baltimore가 동시에 발견하였고 이 공로로 1975년에 노벨상을 수상합니다. (노벨상 타기 참 쉬워보이죠?)

어쩃든... 그래서 요즘은 DNA뿐 아니라 RNA도 대량으로 분석하고 있습니다. 한 개체(세포)의 전체 DNA 서열을 유전체(genome)라고 한다면, 전체 RNA는 DNA가 전사(transcription)된 결과들이기 때문에 전사체(transcriptome)라고 합니다. 그럼 단백질은... 번역(translation)의 산물들이므로 번역체라고 해야할까요? 전체 단백질은 proteome 이라고 합니다. 우리말로 하면 단백체(?)... 라고 하니 뭔가 담백한 느낌이네요.

----------

아직 단백질(protein) 사슬을 대량으로 분석할 수 있는 기술은 없죠. 그래서 이런 저런 이유로 많은 과학자들은 genome과 transcriptome 연구에 집중하고 있습니다.

하지만 이들 연구에도 한계가 있죠... 일단 이들 연구는 전사되는 mRNA들이 모두 단백질로 번역되는걸 가정하고 있습니다. 하지만 현실은 그렇지 못하죠. 모두가 번역되지 못하지만 그걸 확인할 방법이 별로 없습니다. 그리고 번역된 후의 단백질들은 후번역 변형(post-translational modification)이 또 일어납니다. 일단 단백질이 기능하기 위해서는 단순한 사슬이 아닌 입체적인 구조를 띄어야 하고 당(sugar) 등의 여러가지 첨가물이 붙어야 하거든요. Alternative splicing이라는 과정도 상황을 복잡하게 만들죠. 이외에도 이러한 분자생물학 연구의 결과물들은 워낙 작은 세상의 일들이기 때문에 직접 눈으로 확인하기는 힘들고 간접적인 방법으로 확인하게 됩니다. 이런것도 하나의 한계로 볼 수 있겠고요. 이런 한계를 극복하기 위한 여러 기술들도 개발되고 있죠.

이런 한계들을 보면서 한 가지 유념해야할 부분이... "생물에는 항상 예외가 존재한다"는 것 아닐까 싶네요. 생물 연구 결과에도 항상 예외가 존재하고 아직 많은 한계가 있습니다. 여러분들이 뉴스를 볼 때도 당장 내일이면 모든 불치병이 해결될 것 같지만 현실은 (시궁창... 이라고까진 못하겠고) 아직 저 머나먼 꿈인 경우가 많죠.

그나저나 앞으로 획기적인 massively parallel Protein-Seq 기술이 개발된다면 노벨상은 기본이고 지놈 혁신을 능가하는 생물학계의 혁신이 일어날지도 모르겠습니다.

◆◆◆◆◆◆◆◆◆◆

- https://en.wikipedia.org/wiki/Frederick_Sanger

- https://en.wikipedia.org/wiki/Reverse_transcriptase

- https://en.wikipedia.org/wiki/Proteomics

- https://en.wikipedia.org/wiki/RNA-Seq

- https://en.wikipedia.org/wiki/Sanger_sequencing