基因组测序与组装
读取基因组意味着确定其数十亿碱基的顺序,测序仪只能读取短片段,然后由软件通过寻找这些片段的重叠部分来重建完整的序列。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
基因组测序是通过实验确定生物体DNA的核苷酸顺序,而组装则是从测序仪产生的众多短读段中计算重建完整序列的过程。
Scope
本主题涵盖Sanger双脱氧测序、下一代和长读长测序的原理、全基因组鸟枪法和基于克隆的策略、将读段计算组装成重叠群和支架、组装质量的衡量标准(如覆盖度和连续性),以及由此产生的参考基因组。它阐述了基因组序列是如何确定的;该序列的解释在相邻主题中有所涉及。
Core questions
- Sanger测序如何利用链终止剂确定碱基顺序?
- 下一代和长读长测序为何更快、更便宜,它们之间有何权衡?
- 数百万个重叠的读段如何组装成染色体?
- 覆盖度和连续性衡量标准如何揭示组装质量?
Key concepts
- Sanger双脱氧测序
- 下一代和长读长测序
- 全基因组鸟枪法策略
- 读段组装:重叠群和支架
- 覆盖度、连续性和参考基因组
Mechanisms
Sanger测序利用链终止双脱氧核苷酸生成一系列长度不同的片段,从而揭示序列;大规模并行平台一次读取数百万个片段,组装软件检测读段之间的重叠,将它们合并成重叠群,并沿着每条染色体对这些重叠群进行排序和定向,形成支架。
Clinical relevance
经济实惠的测序技术已使全基因组和外显子测序成为诊断罕见遗传病、肿瘤分析、病原体鉴定和新生儿筛查的常规手段,将序列测定从一个里程碑式的项目转变为一项标准的实验室检测。
History
Sanger于1977年引入链终止测序;人类基因组计划于2001年应用逐个克隆和鸟枪法策略产生了人类基因组草图;2000年代中期下一代测序的出现,随后是长读长平台的问世,将人类基因组测序成本从数十亿美元降至数百美元。
Key figures
- Frederick Sanger
- Eric Lander
- Craig Venter
Related topics
Seminal works
- sanger1977
- lander2001
Frequently asked questions
- 为什么基因组必须组装而不是直接读取?
- 测序仪器一次只能读取DNA的短片段,因此基因组被分解成无数片段;组装软件通过检测片段重叠的地方来重建原始顺序。
- 测序覆盖度是什么意思?
- 覆盖度是基因组中每个碱基被读取的平均次数;更高的覆盖度能增加每个碱基判定的置信度,并有助于区分真实变异和测序错误。