核苷酸多样性与变异分类
核苷酸多样性衡量的是从一个群体中随机选择的两个序列平均差异程度,而变异分类则将多种DNA差异——单核苷酸替换、小片段插入和缺失以及较大的结构变异——组织成一个统一的词汇。它们共同描述了一个基因组所携带的变异量以及这些变异的类型。
Definition
核苷酸多样性(通常表示为pi)是从一个群体中抽样的两个序列之间每个位点的平均核苷酸差异数;变异分类是对观察到的序列差异(例如,单核苷酸变异、插入缺失、结构变异)进行系统分类。
Scope
本条目涵盖了群体内序列变异的标准汇总测量,特别是核苷酸多样性和分离位点数量,以及按大小和对序列的预测效应进行的变异类型分类。它将这些视为描述性和方法论概念;它不赋予特定变异临床意义。
Core questions
- 样本中序列变异的数量如何汇总?
- 核苷酸多样性和分离位点数量作为估算器有何不同?
- 按大小和类型划分,主要的遗传变异类别有哪些?
- 变异如何在标准文件格式中表示和交换?
Key concepts
- 核苷酸多样性 (pi)
- 分离位点和Watterson’s theta
- 单核苷酸变异 (SNV/SNP)
- 插入-缺失 (indel)
- 结构变异
- 参考等位基因和替代等位基因
- 变异调用格式 (VCF)
Key theories
- 无限位点模型和theta
- 在无限位点假设下,每个新突变都发生在以前未突变的位点,因此群体突变参数theta可以从分离位点数量(Watterson估算器)或平均成对差异(核苷酸多样性)中估算;两者之间的系统性差异可以提供偏离中性模型的线索。
Mechanisms
变异首先通过将测序读段与参考基因组比对并识别差异位点来检测;然后根据大小和形式对差异进行分类。汇总统计数据将其浓缩为群体水平的测量:分离位点数量是Watterson’s theta估算的基础,而平均成对差异定义了核苷酸多样性。由于两者在一种中性、恒定大小的模型下估计相同的参数,它们的差异(由Tajima正式化)标志着群体变化或选择。变异调用格式(Variant Call Format)中的标准化表示允许在不同研究中存储、共享和比较变异。
Clinical relevance
一致的变异词汇和可靠的多样性估计是解释健康环境中基因组数据的先决条件,因为当对测序基因组进行临床相关变异筛选时,会使用相同的描述性类别。本条目解释了如何描述和计数变异,并非个体诊断或治疗决策的依据。
Evidence & guidelines
序列多样性的基础估算由Watterson和Tajima建立,而早期人类SNP图谱和千人基因组计划参考等大型调查提供了人类变异的经验尺度。变异调用格式及其工具是表示分类变异的事实上的社区标准。
History
早期分子群体遗传学通过同工酶和限制性位点调查,然后通过DNA测序来量化变异。Watterson在1975年和Tajima在1989年的工作提供了至今仍在使用的估算方法,2001年的人类SNP图谱和后来的测序联盟将变异编目转变为一项全基因组范围的工作,并伴随着VCF等标准格式来表示由此产生的变异。
Key figures
- G. A. Watterson
- Fumio Tajima
- Richard Durbin
- Gonçalo Abecasis
Related topics
Seminal works
- watterson-1975
- tajima-1989
- snp-map-2001
Frequently asked questions
- 核苷酸多样性与分离位点数量有何区别?
- 分离位点数量计算样本中有多少个位点发生变异,而核苷酸多样性则平均了序列对之间的差异;在简单的中性模型下,两者估计的是相同的潜在参数,它们的差异本身就具有信息量。
- SNP与突变是同一回事吗?
- SNP是群体中观察到的分离的单核苷酸变异;它起源于点突变,但该术语强调的是该变异以可观的频率存在,而不是个体中新出现的改变。