ScholarGate
助手

全基因组关联研究(GWAS)的设计、执行和统计方法

设计和分析全基因组关联研究是一个严谨的流程:收集表型明确的病例和对照(或定量性状队列),进行全基因组基因分型和变异归因,通过严格的质量控制筛选数据,在调整祖先背景后检验每个变异的关联性,并根据全基因组显著性阈值判断信号,然后寻求重复验证。每个步骤都旨在防止大量的统计检验产生错误的发现。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

GWAS设计和分析是一套研究设计选择和统计程序,通过这些程序,可以在全基因组范围内检验变异-表型关联,控制数百万次比较中的假阳性,并区分可信信号与基因分型、亲缘关系或祖先背景造成的假象。

Scope

本主题涵盖了GWAS的方法学核心:样本和表型定义、基因分型和归因、质量控制过滤器、单标记关联模型、多重检验校正和全基因组显著性、基因组膨胀因子和QQ/曼哈顿图等诊断工具,以及重复验证。它是一个方法学参考,而非临床基因检测的方案。

Core questions

  • 何种样本量和表型定义能提供足够的效力来检测小效应变异?
  • 在检验前,哪些质量控制过滤器可以移除不可靠的变异和样本?
  • 单标记关联检验使用何种回归模型,以及如何调整祖先背景?
  • 何种显著性阈值可以控制全基因组假阳性,以及为何它接近5 x 10^-8?
  • 如何区分真实信号与基因组膨胀,以及为何需要重复验证?

Key concepts

  • 病例对照和定量性状设计
  • 基因型判读和归因
  • 质量控制(呼叫率、次要等位基因频率、Hardy-Weinberg平衡过滤器)
  • 单标记关联检验(逻辑或线性回归)
  • 加性遗传模型和每个等位基因效应(优势比或β值)
  • 全基因组显著性阈值(约5 x 10^-8)
  • 基因组膨胀因子(lambda)和QQ图
  • 曼哈顿图和重复验证

Mechanisms

每个变异通常使用回归模型进行检验——针对二元疾病状态使用逻辑回归,针对定量性状使用线性回归。在模型中,变异以加性(每个等位基因)模型编码,并纳入祖先背景的主成分及其他协变量以控制混杂。每个变异的结果是效应估计值(优势比或β值)和p值。由于要检验数十万到数百万个大致独立的常见变异,因此显著性是根据约5 x 10^-8的全基因组阈值来判断的,该阈值来源于对有效独立检验次数进行Bonferroni校正。在检验之前,质量控制会移除呼叫率低、对照组中偏离Hardy-Weinberg平衡极端、次要等位基因频率极低或有亲缘关系和群体离群值证据的样本和变异。基因组膨胀因子和QQ图用于标记残余混杂;曼哈顿图显示全基因组的信号;独立的重复验证则用于防范设计特异性假象。PLINK等软件使这些步骤标准化。

Clinical relevance

理解GWAS的设计和分析是评估疾病研究中引用的遗传证据以及构建多基因评分的一部分。本主题解释了关联是如何产生和验证的,并且是描述性的;它不是用于个体基因诊断或临床决策的程序。

Evidence & guidelines

分析惯例是通过联盟经验和方法学审查而非正式的临床指南来巩固的。Wellcome Trust病例对照联盟(2007)展示了共享对照设计和大规模严格质量控制;PLINK(Purcell et al., 2007)成为标准分析工具包;McCarthy et al.(2008)和Bush and Moore(2012)的综述提出了对效力、质量控制、显著性阈值和重复验证的广泛接受的期望。

History

该流程在2000年代中期首次大规模全基因组扫描中逐渐形成,当时经济实惠的芯片和基于HapMap的归因使全基因组检测变得可行。2007年Wellcome Trust病例对照联盟的研究为共享对照、质量控制和5 x 10^-8的阈值设定了有影响力的先例,而PLINK的发布为社区提供了通用的分析工具集。随后,方法学综述对最佳实践进行了编纂,分析工具包后来扩展到混合模型、汇总统计方法和非常大的生物样本库队列。

Debates

固定的5 x 10^-8阈值是否适用于所有研究设计和祖先背景?
传统的全基因组阈值是针对欧洲祖先样本中的常见变异校准的;更密集的测序、更稀有的变异和其他祖先背景意味着不同的有效独立检验次数,因此阈值是否应根据设计而定存在争议。

Key figures

  • Shaun Purcell
  • Mark McCarthy
  • Jason Moore
  • William Bush
  • Peter Visscher

Related topics

Seminal works

  • wtccc-2007
  • purcell-2007
  • mccarthy-2008

Frequently asked questions

为什么GWAS的显著性阈值设定在5 x 10^-8左右?
它近似于对人类基因组中大约一百万个有效独立常见变异的Bonferroni校正,将全基因组假阳性率保持在传统的0.05水平附近。
为什么GWAS的发现必须进行重复验证?
单一研究可能因细微的质量控制问题、残余混杂或在显著性边缘的偶然性而产生虚假关联;在独立的样本中进行重复验证是检验信号真实性的标准方法。

Methods for this concept

Related concepts