全基因组关联研究和变异发现
全基因组关联研究(GWAS)扫描数十万到数百万个个体基因组中的遗传变异,以发现等位基因频率在具有或不具有某种性状或疾病的人群之间系统性差异的位点。通过在没有预先假设哪个基因参与的情况下检测整个基因组,GWAS 将常见复杂疾病遗传基础的搜索从候选基因的猜测游戏转变为系统性的、无假设的发现事业。
Definition
全基因组关联研究是一种观察性遗传研究,旨在检测表型与遗传变异(通常是单核苷酸多态性)之间的关联,这些变异在整个基因组中进行基因分型或推断,并在统计证据通过全基因组显著性阈值的变异处声明关联。
Scope
该领域旨在向读者介绍与无关人群中变异发现相关的方法和概念家族:GWAS 如何设计和分析,连锁不平衡如何让稀疏阵列标记未分型的变异,为什么许多性状的遗传力最初显得“缺失”,祖先差异如何产生虚假关联,以及罕见变异方法如何将发现扩展到常见SNP之外。它将这些内容作为基因组学中的方法学参考主题,而非诊断性或处方性临床内容。
Sub-topics
Core questions
- 如何在没有预先候选基因的情况下,检测整个基因组与某种性状的关联?
- 为什么对一小部分变异进行基因分型可以捕获其余变异的信息?
- 什么显著性阈值可以控制数百万次检测中的假阳性?
- 为什么早期的GWAS发现只能解释估计遗传力的一小部分?
- 病例和对照之间的祖先差异如何扭曲关联信号?
Key concepts
- 常见疾病,常见变异假说
- 单核苷酸多态性(SNP)
- 连锁不平衡和标签SNP
- 全基因组显著性阈值(约5 x 10^-8)
- 来自参考面板的基因型推断
- 多基因结构和效应大小
- 群体分层
- 缺失遗传力
Mechanisms
GWAS 对密集的变异面板进行基因分型(或根据测序参考面板进行推断),并检测每个变异与表型的统计关联,通常通过调整祖先和其他协变量的回归分析。由于邻近变异在连锁不平衡区段中共同遗传,一个已分型的标记可以作为未分型致病变异的替代(标签),因此标记处的关联将信号定位到某个区域,而不一定是致病变异本身。大量的检测需要严格的全基因组显著性阈值来控制假阳性,并且发现结果需要通过独立样本的重复验证来确认。大多数发现的变异是常见的,个体效应较小,并且经常位于非编码调控区域,这与常见性状的高度多基因结构一致。
Clinical relevance
GWAS 已绘制出数千个稳健的变异-性状关联,这些关联有助于理解疾病生物学、药物靶点优先级排序以及多基因评分的构建。作为一个参考领域,它解释了群体规模的遗传证据是如何产生和解释的;它描述了方法和发现,而不是个体诊断、风险咨询或治疗决策的基础。
Epidemiology
自2005-2007年第一波研究以来,GWAS 已应用于数百种疾病和数量性状,研究队列从数千到数百万参与者不等,NHGRI-EBI GWAS Catalog 等精选存储库现在记录了数万个关联。一个持续存在的局限性是,绝大多数参与者是欧洲血统,这限制了研究结果和多基因评分向其他人群的转移性。
Evidence & guidelines
GWAS 的方法学标准是通过大型联盟合作和综述综合而非临床实践指南来巩固的。Wellcome Trust Case Control Consortium 研究(2007)是共享对照、多疾病设计的典型示范,McCarthy 等人(2008)和 Visscher 等人(2012, 2017)的综述文章阐明了关于显著性阈值、质量控制、重复验证和解释的共识预期。
History
一旦密集的SNP图谱和HapMap项目表征了全基因组连锁不平衡,并且在2000年代中期出现了经济实惠的基因分型阵列,这种方法就变得可行。2007年Wellcome Trust Case Control Consortium 研究,针对七种常见疾病与共享对照进行测试,大规模展示了该设计,并促进了关联图谱的快速扩展。随后的综述追踪了该领域从少数几个基因座到全基因组目录的成熟过程,以及它对缺失遗传力、人群多样性以及向罕见变异和全基因组测序研究转变的认识。
Debates
- GWAS能恢复多少常见性状的遗传力?
- 早期的GWAS位点只解释了估计遗传力的一小部分,引发了关于这一差距是否反映了许多未被发现的小效应常见变异、罕见变异、结构变异或被高估的遗传力的争论;后来的全基因组方法缩小了但并未消除这一差距。
- GWAS的欧洲血统偏倚是否限制了公平性和有效性?
- 由于大多数参与者是欧洲血统,发现的关联和多基因评分在其他人群中的转移性不佳,这既引发了对普遍性的科学担忧,也引发了对谁从基因组医学中受益的公平性担忧。
Key figures
- Peter Visscher
- Mark McCarthy
- Joel Hirschhorn
- Naomi Wray
- Jian Yang
Related topics
Seminal works
- wtccc-2007
- mccarthy-2008
- visscher-2012
- visscher-2017
Frequently asked questions
- GWAS和连锁研究有什么区别?
- 连锁研究追踪标记和疾病在家族内的共分离,并定位广泛的染色体区域,而GWAS则在无关个体之间以精细的全基因组分辨率检测关联,使其更适合于小效应的常见变异。
- 为什么GWAS使用如此严格的显著性阈值?
- 因为要检测数百万个变异,传统的0.05 p值会产生大量的假阳性;接近5 x 10^-8的全基因组阈值考虑了整个基因组中独立常见变异所隐含的多重检验。