全基因组关联研究(GWAS)中的群体分层与祖源
群体分层是指遗传研究中比较的个体之间祖源的系统性差异。当病例组和对照组在祖源背景上存在差异时,任何在这些祖源之间频率恰好不同的变异,即使没有因果作用,也会看起来与性状相关——这种混杂效应可能在整个基因组中产生假阳性结果。因此,检测和调整祖源是确保关联检验有效性的核心保障。
Definition
群体分层是指比较组之间系统性祖源差异对基因型-表型关联造成的混杂,而对其进行控制的方法集——主要是祖源主成分和混合模型——旨在调整关联检验,使信号反映祖源内部效应而非祖源本身。
Scope
本主题涵盖了祖源差异为何会混淆关联检验,如何检测分层(基因组膨胀、主成分分析),如何进行校正(主成分协变量、混合模型、基因组控制),以及全基因组关联研究(GWAS)中欧洲祖源偏倚限制研究结果和多基因评分可转移性的更广泛的公平性问题。本主题是方法学参考,而非临床指导。
Core questions
- 病例组和对照组之间的祖源差异如何产生虚假关联?
- 如何检测分层,膨胀的基因组控制因子(genomic-control factor)预示着什么?
- 主成分分析如何校正祖源?
- 何时优先选择混合模型来处理结构和亲缘关系?
- 为什么GWAS的欧洲祖源偏倚限制了其普遍性?
Key concepts
- 祖源混杂
- 基因组控制和膨胀因子(lambda)
- 基因型主成分分析
- 祖源信息标记
- 用于结构和亲缘关系的线性混合模型
- 混合祖源和连续祖源
- 研究结果和多基因评分在不同祖源间的可转移性
Mechanisms
如果不同祖源的亚群在病例组和对照组中代表性不均,并且疾病风险和等位基因频率在这些亚群之间存在差异,那么等位基因频率将通过祖源而非因果关系与性状相关联,从而导致全基因组范围内的检验统计量膨胀。检测依赖于这种全基因组特征:基因组控制膨胀因子(genomic-control inflation factor)总结了中位检验统计量超出其零假设期望的程度,而全基因组基因型的主成分分析揭示了样本间祖源变异的轴。校正通常包括将主要主成分作为回归中的协变量,以吸收祖源信号,或使用线性混合模型,通过遗传关系矩阵共同解释结构和隐秘亲缘关系。1000基因组计划等参考面板有助于将样本置于全球祖源图谱上并为插补提供信息。由于大多数GWAS样本来自欧洲祖源,即使经过良好校正的分析,其效应估计和多基因评分在其他人群中的可转移性仍然不完善。
Clinical relevance
调整祖源对于疾病研究中使用的遗传证据的有效性至关重要,而研究的祖源构成直接关系到基因组发现和评分中代表了哪些生物学。本主题描述了方法和公平性考量;它不是个体基因检测或临床解释的基础。
Evidence & guidelines
这里的标准来自方法学文献而非临床指南。Price 等人(2006)引入了主成分校正(EIGENSTRAT方法)作为一种可扩展的解决方案;Price 等人(2010)回顾并扩展了包括混合模型在内的策略;1000基因组计划(2015)提供了表征祖源所需的多样化参考;Visscher 等人(2017)强调了祖源不平衡的普遍性和公平性后果。
History
对祖源可能混淆遗传关联的担忧早于GWAS,早期的方法如基因组控制和结构化关联就是为了解决这个问题而开发的。2006年引入的主成分分析提供了一种快速、全基因组范围的连续祖源建模方法,并成为标准实践,后来又辅以处理亲缘关系的混合模型方法。随着GWAS扩展到生物样本库,该领域日益认识到,在主要为欧洲样本的群体中控制分层并不能解决其他祖源代表性不足的更大问题。
Debates
- 祖源校正是否完全消除了混杂,或者它们是否也会消除真实信号?
- 主成分和混合模型在大多数情况下能有效控制分层,但区分混杂与真正的祖源相关生物学——并避免过度校正以致消除真实效应——仍然是一个方法学判断,特别是对于具有微妙地理结构的性状。
- GWAS的欧洲祖源偏倚是否损害了公平性和有效性?
- 主要来自欧洲祖源样本的研究结果和多基因评分在其他人群中的可转移性不完善,引发了关于普遍性的科学担忧和关于基因组医学益处分配的公平性担忧。
Key figures
- Alkes Price
- David Reich
- Nick Patterson
- Noah Zaitlen
- Peter Visscher
Related topics
Seminal works
- price-2006
- price-2010
Frequently asked questions
- 群体分层如何导致GWAS结果出现假阳性?
- 如果病例组和对照组在祖源上存在差异,那么在这些祖源之间频率不同的变异会通过祖源而非因果关系与性状相关联,从而在整个基因组中产生虚假关联。
- 分层通常如何校正?
- 标准方法是将全基因组基因型的主要主成分作为协变量纳入,或使用线性混合模型,从而使关联检验反映祖源内部的效应而非祖源差异本身。