连锁不平衡与SNP标记
连锁不平衡(LD)是指基因组中不同位置等位基因的非随机共存:紧密相连的变异往往作为单倍型区块一起遗传。这种相关性使得全基因组关联研究变得经济可行——基因分型芯片只需对精心挑选的“标记”SNP子集进行分型,因为每个标记在统计学上代表了与其强LD的未分型变异。
Definition
连锁不平衡是两个或多个基因座上等位基因之间的统计关联——它们在单倍型上共存的频率高于或低于预期(如果它们是独立的话);SNP标记是利用一部分变异,通过LD捕获未分型邻近位点的变异。
Scope
本主题解释了什么是LD,如何测量LD(D'和r平方),为什么LD会形成受重组和群体历史影响的区块,如何选择标记SNP以有效捕获常见变异,以及LD如何既能促进关联作图又使因果变异的定位复杂化。这是一份方法学参考,而非临床指导。
Core questions
- 两个变异处于连锁不平衡状态意味着什么?
- D'和r平方如何用于量化LD,它们有何不同?
- 基因组为何会形成单倍型区块,其边界由什么决定?
- 如何选择标记SNP,使芯片能够捕获大多数常见变异?
- LD为何会使识别关联区域内的实际因果变异变得困难?
Key concepts
- 单倍型和单倍型区块
- D'(标准化不平衡系数)
- r平方(标记之间的相关性)
- 重组热点
- 标记SNP选择
- 参考单倍型面板(HapMap, 千人基因组)
- 精细定位和因果变异模糊性
Mechanisms
邻近基因座的等位基因会一起遗传,直到重组将它们分开,因此经过几代后,LD会随着遗传距离的增加而衰减,并在重组热点处被打破,从而产生内部高度相关的区块。有两种常用指标来量化LD:D'衡量两个位点之间是否发生过重组,而r平方衡量一个变异预测另一个变异的程度,并直接决定了当标记SNP代表未分型因果变异时所损失的效力。由于区块内的变异高度相关,芯片可以对选定的标记SNP集进行基因分型,并恢复大多数常见变异,缺失的变异可以通过HapMap和千人基因组计划等测序参考面板进行统计推断。这种促成标记的相同相关性也意味着关联信号在区块内的许多变异之间共享,因此识别真正的因果变异需要额外的精细定位,而不仅仅是选择最显著的标记。
Clinical relevance
LD结构是全基因组遗传证据产生以及疾病研究中关联区域解释的基础。本主题描述的是方法学和群体遗传学;它不是个体基因检测或临床解释的依据。
Evidence & guidelines
人类LD结构的知识主要基于大型参考资源,而非临床指南。国际HapMap计划(2007年)绘制了全基因组LD和标记SNP图谱,千人基因组计划(2015年)扩展了跨不同人群的参考单倍型,Slatkin(2008年)和Bush and Moore(2012年)等综述解释了LD测量和标记如何在关联作图中应用。
History
等位基因关联的概念早于基因组学,但其在21世纪初随着人类基因组具有由重组热点形成的块状单倍型结构的发现而变得日益重要。HapMap计划随后对全基因组LD进行了编目,并使标记SNP的选择成为可能,这直接促成了首批经济实惠的GWAS芯片。千人基因组计划后来将参考面板扩展到更多人群,改善了推断,并揭示了LD模式如何因祖先而异。
Debates
- LD模式是否能在不同人群之间转移?
- 单倍型结构和LD随人群历史而变化,因此在一个祖先群体中优化的标记SNP和推断面板在另一个群体中捕获变异的能力不完善,这导致源自欧洲的芯片和评分在其他人群中的表现下降。
Key figures
- Montgomery Slatkin
- Mark Daly
- David Altshuler
- Goncalo Abecasis
- William Bush
Related topics
Seminal works
- slatkin-2008
- hapmap-2007
- 1000g-2015
Frequently asked questions
- 连锁不平衡如何让GWAS只对部分变异进行分型?
- 由于单倍型区块中的变异高度相关,一个已分型的标记SNP携带了其未分型邻近变异的信息,因此一组精心选择的标记能够捕获基因组中的大多数常见变异。
- D'和r平方有什么区别?
- D'衡量的是两个等位基因在历史上是否曾被重组分开,而r平方衡量的是一个变异在统计学上预测另一个变异的程度;r平方是与基于标记SNP的关联检测效力最相关的量。