基因组变异的功能注释
基因组测序会产生数百万个变异,但大多数的后果尚不清楚。功能注释是为每个变异赋予生物学意义的过程——它位于何处、影响哪个基因或调控元件、以及改变功能的可能性有多大——以便将少数重要的变异与众多不重要的变异区分开来。
Definition
基因组变异的功能注释是为序列变异分配生物学背景和预测功能后果,包括其基因组位置、受影响的基因或调控元件、分子效应(如错义、无义、剪接改变或调控)以及对功能的预测影响。
Scope
本主题涵盖单核苷酸变异、插入、缺失和结构变化的注释:确定变异相对于基因和调控区域的位置,分类其分子后果,并预测编码和非编码位点的有害性。它将注释视为一种方法学和参考主题,不提供针对个体临床病例的变异解读。
Core questions
- 变异相对于基因、外显子、剪接位点和调控元件位于何处?
- 它的分子后果是什么——它是否改变蛋白质、破坏剪接或影响调控?
- 该变异对功能有害的可能性有多大?
- 如何解释缺乏简单蛋白质改变读数的非编码变异?
Key concepts
- 变异位置和后果分类
- 错义、无义、移码和剪接变异
- 编码变异的有害性预测
- 非编码和调控变异注释
- 参考注释来源(基因模型、保守性、功能元件图谱)
- 表达数量性状基因座(eQTLs)
Mechanisms
注释流程首先将每个变异映射到参考基因组和一组基因模型上,以确定其位置和基本后果——它是否位于编码外显子、剪接位点、非翻译区或基因间区——使用ANNOVAR和SnpEff等工具。对于改变氨基酸的编码变异,SIFT等预测算法利用跨物种的序列保守性来估计替换是可容忍的还是有害的。非编码变异更难解释,因为它们不改变蛋白质;这里的注释依赖于ENCODE等功能元件图谱以及GTEx等项目编目的遗传变异与基因表达(eQTLs)之间的联系。输出是每个变异的分层描述,支持下游的优先级排序。
Clinical relevance
变异注释是基因组研究和用于解释测序数据的分析流程中的基础步骤。它描述了候选变异如何被表征和优先排序;它产生的预测是计算假设,本身并非致病性的确定或个体诊断或治疗决策的基础。
History
随着高通量测序在2000年代后期使全外显子组和全基因组数据成为常规,瓶颈从生成变异转移到解释变异。基于保守性的预测器如SIFT(2009)解决了编码变异,而ANNOVAR(2010)和SnpEff(2012)等通用注释引擎系统化了跨变异类型的后果分配。ENCODE(2012)等大型功能元件目录和GTEx(2015)等表达资源随后将解释扩展到非编码基因组,这构成了绝大多数变异。
Debates
- 如何解释非编码变异?
- 编码变异具有相对可解释的分子读数,但大多数变异是非编码的,缺乏直接的蛋白质后果;解释它依赖于功能元件图谱和eQTL证据,其完整性和组织特异性仍然是限制因素。
Key figures
- Kai Wang
- Pauline Ng
- Steven Henikoff
- Pablo Cingolani
Related topics
Seminal works
- kumar-2009
- wang-2010
- cingolani-2012
- encode-2012
Frequently asked questions
- 注释变异意味着什么?
- 它意味着为变异附加生物学背景:它相对于基因和调控元件的位置,它具有的分子后果,以及它影响功能的可能性——以便将重要变异与中性变异区分开来。
- 为什么非编码变异比编码变异更难注释?
- 编码变异可以根据遗传密码进行解读以预测蛋白质变化,但非编码变异没有这种直接读数;解释它们依赖于调控元件图谱以及变异与基因表达之间的联系,而这些图谱和联系仍不完整。