ScholarGate
어시스턴트

GWAS 설계, 실행 및 통계 방법

유전체 전체 연관성 연구(GWAS)를 설계하고 분석하는 것은 잘 정립된 파이프라인을 따릅니다. 즉, 잘 표현형화된 환자군과 대조군(또는 양적 형질 코호트)을 모집하고, 유전체 전체의 변이체를 유전자형 분석 및 추정하며, 엄격한 품질 관리를 통해 데이터를 정제하고, 각 변이체에 대해 조상(ancestry)을 조정한 후 연관성을 검정하며, 복제를 시도하기 전에 유전체 전체 유의성 임계값에 따라 신호를 판단합니다. 각 단계는 엄청난 수의 통계적 검정으로 인해 잘못된 발견이 발생하는 것을 방지하기 위해 존재합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
슬라이드 다운로드
Learn & explore
동영상곧 제공

Definition

GWAS 설계 및 분석은 변이체-표현형 연관성을 유전체 전체에서 검정하고, 수백만 건의 비교에서 위양성을 제어하며, 유전자형 분석, 관련성 또는 조상(ancestry)의 인공물과 신뢰할 수 있는 신호를 구별하는 연구 설계 선택 및 통계 절차의 집합입니다.

Scope

이 주제는 GWAS의 방법론적 핵심을 다룹니다. 즉, 표본 및 표현형 정의, 유전자형 분석 및 추정, 품질 관리 필터, 단일 마커 연관성 모델, 다중 검정 보정 및 유전체 전체 유의성, 유전체 인플레이션 계수 및 QQ/맨해튼 플롯과 같은 진단, 그리고 복제입니다. 이는 방법론 참조이며 임상 유전 검사를 위한 프로토콜이 아닙니다.

Core questions

  • 작은 효과 변이체를 감지하기 위한 적절한 검정력을 제공하는 표본 크기와 표현형 정의는 무엇입니까?
  • 검정 전에 신뢰할 수 없는 변이체와 표본을 제거하는 품질 관리 필터는 무엇입니까?
  • 단일 마커 연관성 검정에 사용되는 회귀 모델은 무엇이며, 조상(ancestry)은 어떻게 조정됩니까?
  • 유전체 전체 위양성을 제어하는 유의성 임계값은 무엇이며, 왜 약 5 x 10^-8입니까?
  • 유전체 인플레이션에서 진정한 신호는 어떻게 구별되며, 복제가 필요한 이유는 무엇입니까?

Key concepts

  • 환자-대조군 및 양적 형질 설계
  • 유전자형 호출 및 추정
  • 품질 관리 (호출률, MAF, Hardy-Weinberg 평형 필터)
  • 단일 마커 연관성 검정 (로지스틱 또는 선형 회귀)
  • 가법 유전 모델 및 대립유전자당 효과 (오즈비 또는 베타)
  • 유전체 전체 유의성 임계값 (~5 x 10^-8)
  • 유전체 인플레이션 계수 (람다) 및 QQ 플롯
  • 맨해튼 플롯 및 복제

Mechanisms

각 변이체는 일반적으로 회귀 모델로 검정됩니다. 이진 질병 상태의 경우 로지스틱 회귀, 양적 형질의 경우 선형 회귀가 사용되며, 변이체는 가법(대립유전자당) 모델로 코딩되고 조상(ancestry)의 주성분과 기타 공변량은 교란을 제어하기 위해 포함됩니다. 각 변이체에 대한 결과는 효과 추정치(오즈비 또는 베타)와 p-값입니다. 수십만에서 수백만 개의 대체로 독립적인 일반 변이체가 검정되기 때문에, 유의성은 약 5 x 10^-8의 유전체 전체 임계값에 따라 판단되며, 이는 효과적인 독립 검정 수에 대한 Bonferroni 방식의 보정에서 파생됩니다. 검정 전에 품질 관리는 낮은 호출률을 보이는 표본 및 변이체, 대조군에서 Hardy-Weinberg 평형의 극단적인 편차, 매우 낮은 소수 대립유전자 빈도, 또는 관련성 및 집단 이상치 증거를 제거합니다. 유전체 인플레이션 계수와 QQ 플롯은 잔여 교란을 나타내고, 맨해튼 플롯은 유전체 전체의 신호를 표시하며, 독립적인 복제는 설계 특이적 인공물을 방지합니다. PLINK와 같은 소프트웨어는 이러한 단계를 표준화했습니다.

Clinical relevance

GWAS 설계 및 분석을 이해하는 것은 질병 연구에서 인용된 유전적 증거와 다유전자 점수(polygenic scores) 구성에 대한 평가의 일부입니다. 이 주제는 연관성이 어떻게 생성되고 검증되는지 설명하며 기술적입니다. 이는 개별 유전 진단 또는 임상 의사 결정을 위한 절차가 아닙니다.

Evidence & guidelines

분석 관행은 공식적인 임상 지침보다는 컨소시엄 경험과 방법론적 검토를 통해 통합되었습니다. Wellcome Trust Case Control Consortium (2007)은 공유 대조군 설계와 대규모의 엄격한 품질 관리를 시연했으며, PLINK (Purcell et al., 2007)는 표준 분석 도구 키트가 되었습니다. McCarthy et al. (2008) 및 Bush and Moore (2012)의 검토는 검정력, 품질 관리, 유의성 임계값 및 복제에 대한 널리 받아들여지는 기대를 제시합니다.

History

이 파이프라인은 2000년대 중반, 저렴한 어레이와 HapMap 기반 추정으로 전유전체 검사가 실용화되면서 첫 대규모 유전체 전체 스캔과 함께 구체화되었습니다. 2007년 Wellcome Trust Case Control Consortium 연구는 공유 대조군, 품질 관리 및 5 x 10^-8 임계값에 대한 영향력 있는 선례를 세웠으며, PLINK의 출시는 커뮤니티에 공통 분석 도구 세트를 제공했습니다. 이후 방법론적 검토는 모범 사례를 성문화했으며, 분석 도구 키트는 나중에 혼합 모델, 요약 통계 방법 및 매우 큰 바이오뱅크 코호트로 확장되었습니다.

Debates

고정된 5 x 10^-8 임계값이 연구 설계 및 조상(ancestry) 전반에 걸쳐 적절한가?
기존의 유전체 전체 임계값은 유럽계 조상 표본의 일반적인 변이에 대해 보정되었습니다. 더 조밀한 시퀀싱, 더 희귀한 변이체 및 다른 조상(ancestry)은 다른 효과적인 독립 검정 수를 의미하므로, 임계값이 설계 특이적이어야 하는지에 대한 논쟁이 있습니다.

Key figures

  • Shaun Purcell
  • Mark McCarthy
  • Jason Moore
  • William Bush
  • Peter Visscher

Related topics

Seminal works

  • wtccc-2007
  • purcell-2007
  • mccarthy-2008

Frequently asked questions

GWAS 유의성 임계값이 왜 약 5 x 10^-8로 설정됩니까?
이는 인간 유전체에 있는 약 100만 개의 효과적으로 독립적인 일반 변이체에 대한 Bonferroni 보정에 근접하며, 유전체 전체 위양성률을 기존의 0.05 수준으로 유지합니다.
GWAS 결과는 왜 복제되어야 합니까?
단일 연구는 미묘한 품질 관리 문제, 잔여 교란 또는 유의성 경계에서의 우연으로 인해 가짜 연관성을 생성할 수 있습니다. 별도의 표본에서 독립적인 복제는 신호가 실제임을 확인하는 표준 검증 방법입니다.

Methods for this concept

Related concepts