人群分层与人类遗传多样性
人类遗传多样性具有结构性:等位基因频率在地理和血统上呈现出有规律的变化,因此人群是分化的,而非单一的、未分化的群体。人群分层指的就是这种结构,以及当病例组和对照组在血统上存在系统性差异时,这种结构可能给遗传学研究带来的偏差。
Definition
人群分层是指样本中亚群之间等位基因频率存在系统性差异,这种差异源于不同的祖先;这里的遗传多样性指的是这种变异在人类群体内部和群体之间是如何分配的。
Scope
本条目涵盖了人群间遗传分化的衡量方法、全球人类多样性的广泛模式,以及分层作为关联研究中混杂因素的问题,以及用于检测和校正分层的方法。这是一个方法论和描述性的主题,避免对人群类别进行任何临床或社会解释。
Core questions
- 如何量化人群间的遗传分化?
- 人类遗传变异在人群内部和人群之间是如何分配的?
- 人群分层如何偏倚遗传关联研究?
- 如何统计检测和校正分层?
Key concepts
- F统计量和FST
- 人群内部与人群间多样性
- 距离隔离
- 祖先主成分
- 关联研究中的混杂
- 参考人群面板
Key theories
- F统计量与多样性划分
- Wright的层级F统计量,经Nei以及Weir和Cockerham形式化估计,将遗传方差划分为人群内部和人群间成分;FST总结了人群间差异所占总多样性的比例,是衡量分化的标准指标。
Mechanisms
分化是由于遗传漂变、有限的迁移和局部选择导致等位基因频率在人群之间出现差异而逐渐积累的;FST值衡量了人群间差异所占总多样性的比例。在人类中,大多数遗传变异存在于人群内部,而人群之间存在较小但有结构的变异成分,这与地理分布相关。在关联研究中,如果病例组和对照组的祖先不同,并且祖先与等位基因频率相关,就会出现虚假关联;用于总结祖先信息的方法——特别是全基因组基因型的主成分分析——被用来检测和调整这种分层。
Clinical relevance
解释人群结构对于告知医学知识的遗传关联研究的有效性至关重要,因为未经校正的分层可能产生错误的关联。对多样性的认识也影响基因组发现跨人群的可转移性。本条目将人群结构描述为一种方法学考量,而不是个体诊断或治疗决策的基础。
Evidence & guidelines
分化的估计基于Nei的基因多样性分析和Weir-Cockerham的F统计量,而全球人类变异的全基因组调查和大型参考面板描述了人类多样性的经验结构。主成分校正是在关联研究中处理分层的标准方法。
History
Wright引入F统计量来描述结构化人群,Nei以及后来的Weir和Cockerham提供了实用的估计量。关于人类变异如何分配的争论可以追溯到Lewontin在20世纪70年代的工作;全基因组基因分型后来详细绘制了全球人类关系图,并且一旦大型基因型数据集出现,主成分方法就成为控制分层的标准方法。
Key figures
- Sewall Wright
- Masatoshi Nei
- Bruce Weir
- David Reich
- Alkes Price
Related topics
Seminal works
- nei-1973
- weir-cockerham-1984
- price-2006
Frequently asked questions
- FST到底衡量了什么?
- FST是总遗传多样性中,由人群间等位基因频率差异而非人群内部变异所导致的比例;接近零的值表示分化很小,较大的值表示分化程度更高。
- 为什么人群分层在关联研究中是个问题?
- 如果病例组和对照组中不同祖先的比例不同,那么任何其频率也随祖先变化的变异,即使没有因果作用,也可能看起来与性状相关,因此必须检测并校正分层。