蛋白质编码基因与非编码基因
并非所有基因都编码蛋白质。蛋白质编码基因被转录成信使RNA,进而翻译成蛋白质,而非编码基因则产生发挥RNA作用的功能性RNA分子——调节、加工或作为其他分子的支架。基因组注释区分了这些类别,结果表明非编码基因的数量大大超过了长期以来认为基因组只包含蛋白质编码基因的观点。
Definition
蛋白质编码基因被转录成信使RNA(mRNA),进而翻译成蛋白质;非编码基因被转录成功能性RNA(如长链非编码RNA、微RNA或其他非翻译RNA),其作用以RNA形式发挥,不被翻译。
Scope
本主题涵盖了蛋白质编码基因和非编码基因之间的区别、功能性非编码RNA的主要类别,以及基因组注释如何将基因归入这些类别。它属于参考和教育材料;非编码基因的疾病关联以一般性术语描述,而非作为临床指导。
Core questions
- 蛋白质编码基因与非编码基因有何区别?
- 功能性非编码RNA的主要类别有哪些?
- 基因组注释如何判断一个转录本是否编码?
- 非编码基因不编码蛋白质,为何在生物学上仍然重要?
Key concepts
- 蛋白质编码基因
- 信使RNA (mRNA)
- 非编码RNA (ncRNA)
- 长链非编码RNA (lncRNA)
- 微RNA和小调节RNA
- 功能性RNA与非翻译序列
- 基因组注释与编码潜力
Mechanisms
蛋白质编码基因被转录,mRNA经过加工和输出,核糖体将其开放阅读框翻译成蛋白质。非编码基因被转录,但其产物折叠并以RNA形式发挥作用:长链非编码RNA可以引导染色质修饰因子、作为蛋白质复合物的支架或调节邻近基因,而微RNA等小RNA则与靶标信使RNA配对,控制其稳定性和翻译。注释流程通过开放阅读框的存在和保守性等特征对转录本进行分类,以区分编码基因和非编码基因。
Clinical relevance
由于非编码基因调节基因表达,因此它们或其靶标中的变异可能导致疾病,即使蛋白质序列没有改变;因此,识别基因是编码还是非编码,会影响对变异的解读。本主题提供概念性背景供参考和教育,并非个体诊断或治疗的基础。
Epidemiology
全基因组注释表明,人类基因组中长链非编码RNA基因的数量与大约两万个蛋白质编码基因相当,并且基因组的很大一部分被转录成非编码RNA,这使得非编码基因成为基因组组成中数量上重要的组成部分,而不仅仅是次要的奇特现象。
Evidence & guidelines
人类非编码基因的目录来源于系统的转录组注释:ENCODE绘制了全基因组普遍存在的转录图谱,基于GENCODE的研究建立了长链非编码RNA的参考目录,描述了它们的基因结构、保守性和表达,这些目录构成了注释标准。
History
几十年来,基因一直被等同于蛋白质编码单位,结构RNA被视为少数例外。21世纪的转录组研究表明,基因组的大部分被转录成非编码RNA,并且存在数千个长链非编码RNA基因,从而拓宽了基因的定义,使其包含功能性RNA产物。
Debates
- 有多少非编码转录本是真正具有功能的?
- 普遍存在的转录产生了大量的非编码RNA,但区分其中具有生物学功能的RNA与转录噪音仍然存在争议,这取决于保守性、表达特异性和实验证据。
Key figures
- Roderic Guigó
- John Rinn
- Irene Bozzoni
Related topics
Seminal works
- encode-2012
- derrien-2012
- cabili-2011
Frequently asked questions
- 如果非编码基因不编码蛋白质,那它有什么作用?
- 它的RNA产物本身就具有功能:长链非编码RNA可以调节染色质和基因表达,而微RNA等小RNA则控制其他信使RNA的稳定性和翻译。
- 科学家如何区分编码基因和非编码基因?
- 注释通过评估转录本的编码潜力——主要是它是否包含可能被翻译的保守开放阅读框——来将其分类为蛋白质编码或非编码。