参考基因组标准与注释
参考基因组是为某一物种精心整理的、具有代表性的共有序列,作为共享坐标系统,用于比对和解读新的序列数据。通过版本化构建进行维护,并在此基础上分层添加生物学注释,使得基因组研究结果在不同研究、实验室和时间之间具有可比性。
Definition
参考基因组是经过精心整理的共有核苷酸序列,旨在代表一个物种的基因组,通过版本化的组装(构建)进行维护,并用基因和其他功能元件的位置进行注释,为比对和解读基因组数据提供稳定的坐标框架。
Scope
本条目涵盖了什么是参考组装、如何将其版本化为连续的构建(例如人类GRCh38组装和端粒到端粒组装)、注释在标记基因和功能特征中的作用,以及向更完整和更具代表性的参考序列发展的趋势。这是一个参考性和基础设施性主题,而非临床指导。
Core questions
- 什么是参考基因组?为什么该领域要将其标准化?
- 参考组装如何以及为何要版本化为连续的构建?
- 基因组注释为参考序列增添了什么?
Key concepts
- 参考组装(共有序列)
- 基因组构建和版本控制(例如GRCh38)
- 基因组注释
- 用于比对的坐标系统
- 端粒到端粒(无间隙)组装
- 组装空白和完成
Mechanisms
参考基因组由高质量序列数据组装而成,形成代表该物种而非任何单个个体的共有序列,然后作为版本化构建发布,以确保基因组坐标的稳定性和可引用性。注释将基因、转录本、调控元件和重复元件的位置叠加到序列上,将原始坐标转化为生物学上可解释的图谱。连续的构建会纳入修正、填补空白并改进代表性;人类参考基因组从2001年的草图和2004年完成的常染色质序列,发展到GRCh38构建,最终形成了一个完整的端粒到端粒组装,解决了以前无法访问的区域。
Clinical relevance
由于变异检测和解读均以参考坐标表示,因此参考基因组的选择和版本直接影响基因组发现的报告和比较方式。本条目将参考基础设施描述为教育材料,不作为个体临床或诊断决策的基础。
Evidence & guidelines
该参考基因组通过联盟的初步报告和组装评估进行记录,而非临床指南:最初的草图(2001年)和完成的常染色质序列(2004年),GRCh38构建的评估(Schneider 等人,2017年),以及完整的端粒到端粒人类基因组(Nurk 等人,2022年)定义了当前的标准及其发展轨迹。
History
人类参考基因组始于2001年的草图序列和2004年完成的常染色质序列,随后由基因组参考联盟通过连续的构建进行维护和改进,最终形成了GRCh38。重复区域和着丝粒区域中持续存在的空白最终由端粒到端粒联盟填补,该联盟于2022年产生了第一个完整、无间隙的人类基因组,并重塑了参考标准可能达到的水平。
Key figures
- Deanna Church
- Valerie Schneider
- Adam Phillippy
- Karen Miga
Related topics
Seminal works
- ihgsc-2004
- schneider-2017
- nurk-2022-ref
Frequently asked questions
- 为什么参考基因组有不同的版本或构建?
- 随着测序和组装技术的改进,参考基因组会进行修订以纠正错误、填补空白并更好地代表物种;每次发布都会赋予一个构建版本,以确保基因组坐标保持稳定,结果具有可比性。
- 什么是基因组注释?
- 注释是在参考序列上标记基因、转录本、调控元件和其他特征位置的过程,将核苷酸序列转化为生物学上可解释的图谱。