基因组组装算法与方法
基因组组装是一个计算问题,旨在从测序产生的许多重叠的短读长或长读长中重建基因组,因为目前没有技术能从头到尾读取整个染色体。解决该问题的算法决定了基因组从原始序列数据中恢复的完整性和准确性。
Definition
基因组组装是通过检测测序读长之间的重叠并将它们合并成更长的连续序列(重叠群),然后将这些重叠群排序并定向成支架,从而对基因组序列进行算法重建的过程。这一过程可以不使用(从头组装)或使用(参考指导组装)现有参考序列。
Scope
本条目涵盖了两种主要的算法范式:重叠-布局-共有序列(overlap-layout-consensus)和德布鲁因图(de Bruijn graph),以及从头组装(de novo assembly)和参考指导组装(reference-guided assembly)的区别,以及重叠群(contigs)和支架(scaffolds)的概念。这是一个侧重于计算重建步骤的方法学主题,不涉及实验室方案或临床应用。
Core questions
- 为什么测序读长必须组装而不是直接读取整个染色体?
- 重叠-布局-共有序列和德布鲁因图方法有何不同?
- 什么限制了组装的完整性,重复序列和读长如何影响?
Key concepts
- 重叠-布局-共有序列组装
- 德布鲁因图组装
- k-mer
- 重叠群和支架
- 从头组装与参考指导组装
- 重复序列解析
- 组装连续性(例如,N50)
Mechanisms
组装算法通过利用读长之间的重叠来重建基因组。重叠-布局-共有序列方法计算读长之间的成对重叠,将它们排列成布局,并推导出共有序列;这种方法适用于较长的读长,并支撑了早期的全基因组鸟枪法组装。德布鲁因图方法则将读长分解成固定长度的子序列(k-mer),并将基因组表示为重叠k-mer图中的路径,这种方法能高效地扩展到高通量测序产生的大量短读长。长于读长长度的重复区域会造成歧义,导致组装碎片化,因此使用更长的读长和配对信息来解决这些问题,并将重叠群连接成支架。
Clinical relevance
基因组组装是将原始测序数据转化为用于构建参考基因组和研究先前未表征生物体的连续序列的计算基础。本条目是描述组装工作原理的参考和教育材料,并非任何临床或诊断程序的指导。
Evidence & guidelines
方法学文献主要是原始研究和综述,而非指南:Idury和Waterman(1995)引入了预示德布鲁因组装的图论公式,Zerbino和Birney(2008)通过Velvet确立了短读长德布鲁因图组装,而人类基因组的全基因组鸟枪法组装(Venter et al., 2001)则是在大规模应用中重叠-布局-共有序列范式的典范。
History
早期的组装器使用重叠-布局-共有序列方法,非常适合Sanger测序相对较长的读长,例如2001年人类基因组的全基因组鸟枪法组装。向短读长高通量测序的转变使得德布鲁因图方法成为主导范式,该方法在1990年代中期由图论公式预示,并在Velvet(2008)等工具中实现。而后来长读长的回归则重新激发了人们对基于重叠的方法解决重复序列的兴趣。
Key figures
- Michael Waterman
- Daniel Zerbino
- Ewan Birney
- Eugene Myers
Related topics
Seminal works
- idury-1995
- zerbino-2008
- venter-2001-asm
Frequently asked questions
- 从头组装和参考指导组装有什么区别?
- 从头组装仅从读长重建基因组,不使用预先存在的序列;而参考指导组装则将读长与现有参考基因组对齐或构建支架以辅助重建。
- 为什么重复区域难以组装?
- 当重复序列长于跨越它的读长时,算法无法判断读长来自哪个拷贝,从而产生模糊路径,将组装分解成更短的片段;更长的读长有助于解决这些重复序列。