拷贝数变异:检测与分类
拷贝数变异(CNV)是指DNA片段在个体间拷贝数不同——相对于参考基因组,通过重复获得或通过缺失丢失。CNV是结构变异的主要组成部分,其核心方法学问题是如何从芯片或测序数据中可靠地检测它们,以及如何根据大小、拷贝状态和可能的显著性对其进行分类。
Definition
拷贝数变异是指DNA片段,通常为1千碱基或更大,其拷贝数与参考基因组相比有所不同,表现为缺失(拷贝丢失)或重复或更高阶扩增(拷贝获得)。
Scope
本主题涵盖了CNV的定义、用于检测和确定其大小的主要技术(阵列比较基因组杂交、SNP芯片以及测序的读长深度或配对末端信号),以及对其进行分类的依据——获得与丢失、拷贝数、复发性和频率。这是一篇关于检测和分类概念的参考性论述,不提供个体诊断解释。
Core questions
- 拷贝数变异与其他结构变异有何区别?
- 哪些信号——杂交强度、读长深度、配对末端和断裂读长证据——用于识别CNV?
- CNV如何根据拷贝状态、大小、复发性和人群频率进行分类?
- 每个检测平台的解析度限制和假阳性来源是什么?
Key concepts
- 拷贝获得(重复)和拷贝丢失(缺失)
- 阵列比较基因组杂交(aCGH)
- SNP芯片log R比率和B等位基因频率
- 读长深度和配对末端检测
- 断点分辨率
- 复发性与非复发性CNV
- 人群频率以及良性与致病性分类
Mechanisms
CNV检测将DNA剂量的物理变化转化为可测量的信号。阵列比较基因组杂交和SNP芯片读取相对杂交强度,因此缺失会降低信号,而重复会提高受影响区域的信号;SNP芯片增加了等位基因比率信息,有助于区分拷贝状态。基于测序的方法从读长深度推断拷贝数——重复区域积累更多读长,缺失区域积累更少读长——并使用不一致的配对末端和断裂读长比对来定位断点。分类则结合了拷贝状态、大小、变异是否在结构定义的断点处复发以及其在参考人群中的频率。
Clinical relevance
拷贝数分析在健康科学中广泛用于表征基因组的获得和丢失,区分常见的良性CNV与罕见的剂量改变事件是解释基因组数据的核心。本条目描述了CNV作为方法学问题如何被检测和分类;它不作为个体诊断或管理的依据。
Epidemiology
早期的全基因组调查表明CNV在健康个体中很常见:Sebat及其同事首次展示了广泛的拷贝数多态性,Redon及其同事绘制了HapMap人群的全球CNV图谱。随后的基于测序的目录,包括千人基因组结构变异图谱,细化了频率并表明缺失和重复共同占据了可变基因组的很大一部分。
History
2004年,Sebat和Iafrate及其同事的芯片研究揭示了健康人群中拷贝数广泛变异,推翻了此类变异罕见的假设。2006年,基于芯片平台的CNV全基因组图谱相继问世,随后十年高通量测序的兴起带来了读长深度和配对末端方法,这些方法提高了断点分辨率,并将CNV识别纳入了一般的结构变异发现。
Debates
- 如何协调检测平台之间的差异?
- 芯片和基于测序的识别器报告的CNV集存在重叠但不完全相同,在大小分辨率、断点精度和重复区域敏感性方面存在差异,因此协调跨平台的识别结果和频率仍然是一个公认的方法学挑战。
Key figures
- Jonathan Sebat
- Stephen W. Scherer
- Charles Lee
- Evan E. Eichler
- Nigel P. Carter
Related topics
Seminal works
- sebat-2004
- redon-2006
- alkan-2011
Frequently asked questions
- CNV和缺失有什么区别?
- 缺失是一种拷贝数变异(拷贝丢失)。CNV这个术语更广泛,也包括重复和更高阶的拷贝获得,因此相关大小的每个缺失都是CNV,但并非每个CNV都是缺失。
- 为什么两个平台对同一样本报告的CNV可能不同?
- 芯片和测序方法在分辨率、断点精度和重复区域内的敏感性方面存在差异,因此它们捕获的变异集存在重叠但不完全相同,并且可能对同一事件的大小进行不同的评估。
Methods for this concept
- Copy Number Variation Analysis
- Machine learning-assisted copy number variation analysis
- Bayesian Copy Number Variation Analysis
- Differential Copy Number Variation Analysis
- Single-cell Copy Number Variation Analysis
- Variant Calling
- Time-series copy number variation analysis
- Network-based copy number variation analysis