为什么群体分层会导致虚假关联？

当病例和对照在祖先上存在差异时，只要疾病风险也因祖先而异，那些在祖先群体之间频率不同的变异就可能看起来与疾病相关，因此这种关联反映的是祖先混杂而非变异的因果效应。

现代研究如何校正群体结构？

常见方法是从全基因组数据中估计祖先并进行调整，例如通过将祖先的主成分作为协变量纳入，应用基因组控制重新调整检验统计量，或使用考虑亲缘关系和结构的混合模型。

群体分层与混合

群体分层是指遗传学研究中比较组之间遗传祖先存在系统性差异，而混合是指来自先前分离群体的个体内部祖先的混合。两者都会产生群体结构，可能混淆遗传关联研究，仅仅因为等位基因频率和疾病风险都因祖先而异，就可能在变异和疾病之间产生虚假关联。

用 PaperMind 寻找选题即将推出Find papers & topics

Tools & resources

下载幻灯片

Learn & explore

视频即将推出

Definition

群体分层是遗传关联研究中由群体间祖先差异引起的混杂，其中等位基因频率和疾病风险在亚群中均有差异；混合是指个体内部存在来自两个或多个历史上不同群体的遗传祖先，是相关的结构来源。

Scope

本主题涵盖了群体结构如何产生、为何会混淆病例对照遗传关联研究，以及用于检测和调整群体结构的主要方法。它作为遗传流行病学中的方法学主题呈现——关注研究的有效性——而不是关于人类群体生物学或排名的陈述。

Core questions

遗传学研究中比较的群体是否来自相同的潜在群体？
表观的变异-疾病关联是否可以用祖先而非因果关系来解释？
如何从遗传数据中检测群体结构？
如何调整关联检验，使结构不会增加假阳性？

Key concepts

祖先混杂
群体结构和亚结构
混合
等位基因频率差异
基因组控制
祖先的主成分分析
亲缘关系的混合模型

Mechanisms

如果关联研究中的病例和对照在祖先上存在差异，那么任何在这些祖先群体之间频率不同的变异，只要疾病风险在这些群体之间也存在差异，就会表现出与疾病相关联，即使该变异没有因果作用。这是经典的混杂，遗传祖先是混杂因素。解决方法是通过测量和调整祖先：基因组控制使用从许多标记估计的膨胀因子重新调整检验统计量；主成分分析从全基因组基因型中总结祖先，并将这些成分作为协变量纳入；混合模型则同时考虑广泛结构和隐秘亲缘关系。对于个体携带混合祖先的混合情况，可以通过估计局部或全局祖先的相关方法来处理。

Clinical relevance

控制群体结构对于遗传关联证据的有效性至关重要，这些证据为理解慢性病风险提供了信息，因为不受控制的分层可能产生误导后续研究的虚假关联。作为一个参考主题，本条目解释了对研究有效性的威胁以及如何解决它；它不提供个体基因检测或解读的指导。

Epidemiology

随着遗传关联研究规模的扩大，对分层的担忧也随之增加，因为病例和对照之间即使是微小的祖先差异，也可能在全基因组研究中测试的众多变异中提高假阳性率。基因组控制以及随后的主成分和混合模型调整的发展，使得大规模多祖先关联研究成为可能，同时控制了假阳性率。

History

对祖先可能混淆关联研究的认识早于基因组时代，但实际解决方案出现在20世纪90年代末和21世纪初。Pritchard和Rosenberg提出使用非连锁标记来检测分层，Devlin和Roeder引入基因组控制来校正膨胀的检验统计量，Price及其同事在2006年表明主成分分析可以有效地校正全基因组关联研究中的分层，这种方法成为标准实践。

Debates

统计调整能在多大程度上完全消除祖先混杂？: 基因组控制、主成分和混合模型减少了群体结构引起的膨胀，但关于精细尺度或近期结构造成的残余混杂以及这些校正在不同和混合群体中的适用性，仍存在争议。

Key figures

Jonathan Pritchard
Noah Rosenberg
Bernie Devlin
Kathryn Roeder
Alkes Price
David Reich

Seminal works

pritchard-rosenberg-1999
devlin-roeder-1999
price-2006

Frequently asked questions

为什么群体分层会导致虚假关联？: 当病例和对照在祖先上存在差异时，只要疾病风险也因祖先而异，那些在祖先群体之间频率不同的变异就可能看起来与疾病相关，因此这种关联反映的是祖先混杂而非变异的因果效应。
现代研究如何校正群体结构？: 常见方法是从全基因组数据中估计祖先并进行调整，例如通过将祖先的主成分作为协变量纳入，应用基因组控制重新调整检验统计量，或使用考虑亲缘关系和结构的混合模型。