연관 불균형 및 SNP 태깅
연관 불균형(LD)은 유전체 내 서로 다른 위치에 있는 대립유전자들의 비무작위적인 동시 발생을 의미합니다. 즉, 서로 가까이 있는 변이들은 일반적으로 일배체형 블록(haplotype block)으로 함께 유전되는 경향이 있습니다. 이러한 상관관계는 전장 유전체 연관성 연구(GWAS)를 경제적으로 수행할 수 있게 하는 요인입니다. 유전자형 분석 어레이는 신중하게 선택된 '태그' SNP의 부분집합만을 분석하면 되는데, 이는 각 태그가 강한 LD 관계에 있는 분석되지 않은 변이들을 통계적으로 대표하기 때문입니다.
Definition
연관 불균형은 두 개 이상의 유전자좌에 있는 대립유전자들 사이의 통계적 연관성을 의미합니다. 즉, 이들이 독립적일 경우 예상되는 것보다 더 자주 또는 덜 자주 일배체형(haplotype)에서 함께 발생하는 현상입니다. SNP 태깅은 LD를 통해 분석되지 않은 인접 부위의 변이를 포착하는 변이들의 부분집합을 사용하는 것입니다.
Scope
이 주제는 LD가 무엇인지, 어떻게 측정되는지(D' 및 r-제곱), 재조합과 인구 역사에 의해 형성되는 블록의 형태, 일반적인 변이를 효율적으로 포착하기 위해 태그 SNP가 어떻게 선택되는지, 그리고 LD가 연관성 매핑을 가능하게 하면서도 인과 변이의 위치 파악을 복잡하게 만드는 방식에 대해 설명합니다. 이는 방법론적 참고 자료이며, 임상 지침은 아닙니다.
Core questions
- 두 변이가 연관 불균형 상태에 있다는 것은 무엇을 의미합니까?
- D'와 r-제곱은 LD를 정량화하는 데 어떻게 사용되며, 이들은 어떻게 다릅니까?
- 유전체가 일배체형 블록으로 나뉘는 이유는 무엇이며, 그 경계를 결정하는 요인은 무엇입니까?
- 어레이가 대부분의 일반적인 변이를 포착하도록 태그 SNP는 어떻게 선택됩니까?
- LD는 연관된 영역 내에서 실제 인과 변이를 식별하기 어렵게 만드는 이유는 무엇입니까?
Key concepts
- 일배체형 및 일배체형 블록
- D' (정규화된 불균형 계수)
- r-제곱 (마커 간 상관관계)
- 재조합 핫스팟
- 태그 SNP 선택
- 참조 일배체형 패널 (HapMap, 1000 Genomes)
- 정밀 매핑 및 인과 변이 모호성
Mechanisms
인접한 유전자좌의 대립유전자는 재조합이 이들을 분리할 때까지 함께 유전되므로, 여러 세대에 걸쳐 LD는 유전적 거리에 따라 감소하며 재조합 핫스팟에서 분해되어 높은 내부 상관관계를 가진 블록을 생성합니다. 이를 정량화하는 두 가지 일반적인 척도가 있습니다. D'는 두 부위 사이에 재조합이 발생했는지 여부를 포착하는 반면, r-제곱은 한 변이가 다른 변이를 얼마나 잘 예측하는지를 측정하며, 태그 SNP가 분석되지 않은 인과 변이를 대리할 때 손실되는 검정력을 직접적으로 결정합니다. 블록 내의 변이들은 강하게 상관되어 있으므로, 어레이는 선택된 태그 SNP 세트의 유전자형을 분석하여 대부분의 일반적인 변이를 복구할 수 있으며, 누락된 변이들은 HapMap 및 1000 Genomes Project와 같은 시퀀싱된 참조 패널을 통해 통계적으로 추정될 수 있습니다. 태깅을 가능하게 하는 동일한 상관관계는 연관성 신호가 블록 내의 많은 변이들 사이에서 공유된다는 것을 의미하므로, 진정한 인과 변이를 식별하려면 단순히 가장 유의미한 마커를 취하는 것보다 추가적인 정밀 매핑(fine-mapping)이 필요합니다.
Clinical relevance
LD 구조는 전장 유전체 증거가 생성되는 방식과 질병 연구에서 연관성 영역이 해석되는 방식의 기초가 됩니다. 이 주제는 방법론 및 인구 유전학에 대한 설명이며, 개별 유전자 검사 또는 임상적 해석의 근거가 아닙니다.
Evidence & guidelines
인간 LD 구조에 대한 지식은 임상 지침보다는 대규모 참조 자원에 기반합니다. 국제 HapMap 프로젝트(2007)는 전장 유전체 LD 및 태그 SNP를 매핑했으며, 1000 Genomes Project(2015)는 다양한 인구에 걸쳐 참조 일배체형을 확장했습니다. Slatkin (2008) 및 Bush and Moore (2012)와 같은 리뷰는 LD 측정 및 태깅이 연관성 매핑에 어떻게 적용되는지 설명합니다.
History
대립유전자 연관성 개념은 유전체학보다 앞서 존재했지만, 2000년대 초 인간 유전체가 재조합 핫스팟에 의해 형성된 블록형 일배체형 구조를 가지고 있다는 발견과 함께 그 실질적인 중요성이 커졌습니다. 이후 HapMap 프로젝트는 전장 유전체 LD를 목록화하고 태그 SNP 선택을 가능하게 하여, 최초의 경제적인 GWAS 어레이를 직접적으로 가능하게 했습니다. 1000 Genomes Project는 나중에 많은 인구로 참조 패널을 확장하여 추정(imputation)을 개선하고 조상에 따라 LD 패턴이 어떻게 다른지 밝혀냈습니다.
Debates
- LD 패턴이 인구 간에 전이됩니까?
- 일배체형 구조와 LD는 인구 역사에 따라 달라지므로, 한 조상 집단에서 최적화된 태그 SNP 및 추정 패널은 다른 인구에서는 변이를 불완전하게 포착하여, 유럽계 어레이 및 점수의 다른 인구에서의 성능 저하에 기여합니다.
Key figures
- Montgomery Slatkin
- Mark Daly
- David Altshuler
- Goncalo Abecasis
- William Bush
Related topics
Seminal works
- slatkin-2008
- hapmap-2007
- 1000g-2015
Frequently asked questions
- 연관 불균형은 GWAS가 일부 변이만 분석하도록 어떻게 허용합니까?
- 일배체형 블록 내의 변이들은 강하게 상관되어 있으므로, 유전자형이 분석된 태그 SNP는 분석되지 않은 인접 변이에 대한 정보를 전달하며, 따라서 잘 선택된 태그들의 어레이는 유전체 내 대부분의 일반적인 변이를 포착합니다.
- D'와 r-제곱의 차이점은 무엇입니까?
- D'는 재조합이 역사적으로 두 대립유전자를 분리했는지 여부를 측정하는 반면, r-제곱은 한 변이가 다른 변이를 통계적으로 얼마나 잘 예측하는지를 측정합니다. r-제곱은 태그 SNP 기반 연관성 검정의 검정력과 가장 관련이 있는 양입니다.