전장 유전체 연관성 연구 및 변이 발굴
전장 유전체 연관성 연구(GWAS)는 수십만에서 수백만 개의 유전적 변이를 수많은 개인의 유전체에서 스캔하여, 특정 형질이나 질병을 가진 사람과 그렇지 않은 사람 간에 대립유전자 빈도가 체계적으로 다른 위치를 찾아냅니다. 어떤 유전자가 관련되어 있는지에 대한 사전 가설 없이 전체 유전체를 검사함으로써, GWAS는 흔하고 복잡한 질환의 유전적 기반을 찾는 작업을 후보 유전자 추측 게임에서 체계적이고 가설 없는 발굴 작업으로 전환시켰습니다.
Definition
전장 유전체 연관성 연구는 표현형과 유전적 변이(일반적으로 단일 염기 다형성) 간의 연관성을 검사하는 관찰 유전학 연구입니다. 이 변이들은 전체 유전체에 걸쳐 유전자형 분석되거나 추정되며, 통계적 증거가 전장 유전체 유의성 역치(genome-wide significance threshold)를 통과하는 변이에서 연관성을 선언합니다.
Scope
이 영역은 무관한 인구 집단에서 변이 발굴을 둘러싼 방법론과 개념들을 독자에게 소개합니다. 즉, GWAS가 어떻게 설계되고 분석되는지, 연관 불균형(linkage disequilibrium)이 어떻게 희소한 배열이 유형화되지 않은 변이를 태그할 수 있게 하는지, 왜 많은 형질 유전력이 처음에는 '누락된' 것처럼 보였는지, 조상(ancestry) 차이가 어떻게 허위 연관성을 생성할 수 있는지, 그리고 희귀 변이 접근법이 어떻게 일반적인 단일 염기 다형성(SNP)을 넘어 발굴을 확장하는지를 다룹니다. 이는 유전체학 내의 방법론적 참조 주제로 구성되며, 진단 또는 처방적 임상 내용은 아닙니다.
Sub-topics
Core questions
- 사전 후보 유전자 없이 전체 유전체를 형질과의 연관성에 대해 어떻게 검사할 수 있는가?
- 왜 변이의 일부만 유전자형 분석하는 것이 나머지 변이에 대한 정보를 포착하는가?
- 수백만 개의 검정에서 위양성을 제어하는 유의성 역치는 무엇인가?
- 초기 GWAS 결과가 추정된 유전력의 작은 부분만을 설명한 이유는 무엇인가?
- 환자군과 대조군 간의 조상 차이가 연관성 신호를 어떻게 왜곡하는가?
Key concepts
- 흔한 질병, 흔한 변이 가설
- 단일 염기 다형성 (SNP)
- 연관 불균형 및 태그 SNP
- 전장 유전체 유의성 역치 (~5 x 10^-8)
- 참조 패널로부터의 유전자형 추정
- 다유전자적 구조 및 효과 크기
- 인구 계층화
- 누락된 유전력
Mechanisms
GWAS는 밀집된 변이 패널의 유전자형을 분석하거나(또는 서열 분석된 참조 패널에 대해 추정하여), 각 변이가 표현형과 통계적으로 연관되어 있는지 검사합니다. 이는 일반적으로 조상 및 기타 공변량을 조정한 회귀 분석을 통해 이루어집니다. 인접한 변이들은 연관 불균형 블록에서 함께 유전되기 때문에, 유형화된 마커는 유형화되지 않은 인과 변이의 대리자(태그) 역할을 할 수 있습니다. 따라서 마커에서의 연관성은 신호를 인과 변이 자체보다는 특정 지역으로 국한시킵니다. 엄청난 수의 검정으로 인해 위양성(false positives)을 제어하기 위한 엄격한 전장 유전체 유의성 역치가 필요하며, 발견된 결과는 독립적인 샘플에서의 재현을 통해 확인됩니다. 대부분의 발견된 변이들은 흔하고, 개별적으로는 효과가 작으며, 비코딩 조절 영역에 자주 위치하는데, 이는 흔한 형질에 대한 고도로 다유전자적인(polygenic) 구조와 일치합니다.
Clinical relevance
GWAS는 질병 생물학, 약물 표적 우선순위 지정, 다유전자 점수(polygenic scores) 구성에 대한 이해를 제공하는 수천 개의 강력한 변이-형질 연관성을 매핑했습니다. 참조 영역으로서, 이는 인구 규모의 유전적 증거가 어떻게 생성되고 해석되는지를 설명합니다. 이는 방법론과 발견 사항을 기술하며, 개별 진단, 위험 상담 또는 치료 결정의 근거가 아닙니다.
Epidemiology
2005-2007년경의 첫 번째 연구 물결 이후, GWAS는 수천 명에서 수백만 명에 이르는 코호트에서 수백 가지 질병 및 양적 형질에 적용되었으며, NHGRI-EBI GWAS Catalog와 같은 큐레이션된 저장소에는 현재 수만 건의 연관성이 기록되어 있습니다. 지속적인 한계점은 대다수의 참가자가 유럽계 조상이라는 점인데, 이는 발견 사항과 다유전자 점수의 다른 인구 집단으로의 전이 가능성을 제한합니다.
Evidence & guidelines
GWAS에 대한 방법론적 표준은 임상 진료 지침보다는 대규모 컨소시엄 노력과 검토 종합을 통해 통합되었습니다. Wellcome Trust Case Control Consortium 연구(2007)는 공유 대조군, 다질환 설계의 전형적인 시연이며, McCarthy 등(2008) 및 Visscher 등(2012, 2017)의 검토 논문은 유의성 역치, 품질 관리, 재현 및 해석에 대한 합의된 기대를 명확히 제시합니다.
History
이 접근법은 밀집된 SNP 지도와 HapMap 프로젝트가 전장 유전체 연관 불균형을 특성화하고, 2000년대 중반에 저렴한 유전자형 분석 어레이가 등장하면서 실현 가능해졌습니다. 2007년 Wellcome Trust Case Control Consortium 연구는 공유 대조군에 대해 7가지 흔한 질병을 검사하여 대규모 설계를 시연하고 연관성 매핑의 급속한 확장을 촉진했습니다. 이후의 검토들은 소수의 유전자좌에서 전장 유전체 카탈로그로의 분야의 성숙, 그리고 누락된 유전력, 인구 다양성, 희귀 변이 및 전장 유전체 시퀀싱 연구로의 전환에 대한 인식을 추적했습니다.
Debates
- GWAS가 흔한 형질 유전력의 얼마나 많은 부분을 회복할 수 있는가?
- 초기 GWAS 유전자좌는 추정된 유전력의 작은 부분만을 설명했으며, 이는 그 격차가 탐지되지 않은 많은 작은 효과의 흔한 변이, 희귀 변이, 구조적 변이 또는 과대평가된 유전력을 반영하는지에 대한 논쟁을 촉발했습니다. 이후의 전장 유전체 방법들은 그 격차를 좁혔지만 완전히 해소하지는 못했습니다.
- GWAS의 유럽계 조상 편향이 형평성과 타당성을 제한하는가?
- 대부분의 참가자가 유럽계 조상이었기 때문에, 발견된 연관성과 다유전자 점수는 다른 인구 집단으로 불완전하게 전이됩니다. 이는 일반화 가능성에 대한 과학적 우려와 유전체 의학의 혜택을 누가 받는가에 대한 형평성 우려를 모두 제기합니다.
Key figures
- Peter Visscher
- Mark McCarthy
- Joel Hirschhorn
- Naomi Wray
- Jian Yang
Related topics
Seminal works
- wtccc-2007
- mccarthy-2008
- visscher-2012
- visscher-2017
Frequently asked questions
- GWAS와 연관성 연구(linkage study)의 차이점은 무엇인가?
- 연관성 연구는 가족 내에서 마커와 질병의 공동 분리를 추적하여 넓은 염색체 영역을 찾아내는 반면, GWAS는 무관한 개인들 사이에서 미세한 전장 유전체 해상도로 연관성을 검사하므로, 작은 효과를 가진 흔한 변이에 더 적합합니다.
- GWAS가 왜 그렇게 엄격한 유의성 역치를 사용하는가?
- 수백만 개의 변이가 검사되기 때문에, 0.05의 전통적인 p-값은 엄청난 수의 위양성을 초래할 것입니다. 약 5 x 10^-8에 달하는 전장 유전체 역치는 유전체 전반에 걸친 독립적인 흔한 변이로 인해 발생하는 다중 검정을 설명합니다.