基因组测序、组装和参考标准
本领域涵盖了如何读取基因组中核苷酸的顺序,如何将产生的片段重建成更长的连续序列,以及如何构建和维护经过整理的参考基因组,以便新的数据可以与共享标准对齐和解释。这些步骤共同构成了几乎所有基因组学研究的技术基础。
Definition
基因组测序是确定生物体DNA核苷酸顺序的过程;组装是将重叠的序列读段计算重建为更长的连续序列;参考标准是经过整理、版本化的基因组组装和注释,新的序列数据将对照其进行比对和比较。
Scope
该领域涵盖了从Sanger双脱氧测序到高通量短读长和长读长平台的测序化学,将读段计算组装成重叠群和支架,构建和注释参考基因组(如GRCh38和端粒到端粒组装),以及控制数据可靠性的质量控制和错误校正步骤。它将这些视为方法学和基础设施主题,而非临床程序。
Sub-topics
Core questions
- 如何确定基因组的核苷酸顺序,测序化学方法是如何演变的?
- 短读长或长读长序列如何重建成完整的基因组?
- 什么使基因组组装成为可用的参考,它是如何进行版本控制和注释的?
- 如何检测、量化和校正测序错误,以确保下游分析的可靠性?
Key concepts
- 读段、重叠群和支架
- 覆盖度和测序深度
- 短读长测序与长读长测序
- 从头组装与参考指导比对
- 参考基因组和基因组构建(例如,GRCh38)
- 基因组注释
- 单碱基质量(Phred)得分
Mechanisms
测序平台将物理DNA转换为机器可读的碱基识别结果,每个结果都附带一个质量估计。由于大多数平台读取的片段远短于染色体,因此必须对这些片段进行组装:从头组装(de novo assembly)通过读段重叠重建基因组(历史上采用重叠-布局-共有序列方法,现在短读长测序常使用de Bruijn图),而参考指导分析(reference-guided analysis)则将读段与现有组装进行比对。参考基因组是经过整理的共有序列,通过连续的版本构建和分层注释,为该领域提供了坐标系统。质量控制和错误校正贯穿整个流程,在变异识别之前估计每个碱基的准确性并去除或校正伪影。
Clinical relevance
可靠的测序、组装和参考标准是临床和研究基因组学的基础,因为变异解释依赖于准确的读段与特征明确的参考基因组的比对。本领域描述了生成基因组证据的基础设施;它是参考和教育材料,不能作为个体诊断或治疗决策的依据。
Evidence & guidelines
这里的方法通过里程碑式的原始研究和联盟报告而非临床指南进行记录:Sanger的链终止法(1977年)、人类基因组计划草图(2001年)、下一代平台综述(Metzker,2010年)以及完整的端粒到端粒人类基因组(Nurk et al., 2022年)描绘了该领域的发展轨迹。
History
DNA测序始于Sanger在1977年提出的链终止化学方法,该方法使得第一个基因组得以读取,并推动了2001年人类基因组计划草图的完成。随后高通量(下一代)平台的兴起使成本降低了几个数量级,而长读长技术后来解决了重复区域的问题,最终在2022年完成了第一个完整、无间隙的人类基因组。
Key figures
- Frederick Sanger
- Eric Lander
- Michael Metzker
- Sergey Koren
- Adam Phillippy
Related topics
Seminal works
- sanger-1977
- ihgsc-2001
- metzker-2009
- nurk-2022
Frequently asked questions
- 测序和组装有什么区别?
- 测序是读取DNA片段中核苷酸的顺序,而组装是计算步骤,将这些片段重建成更长的连续序列,例如重叠群、支架或整个染色体。
- 为什么该领域需要参考基因组?
- 参考基因组提供了一个共享的、版本化的坐标系统,以便来自不同个体和实验室的新序列数据可以一致地进行比对、比较和解释。