基因本体论和生物学数据库
大规模解读基因组需要一种共享的、机器可读的语言来描述基因的功能。基因本体论提供了这种语言——一种包含分子功能、生物学过程和细胞位置的结构化词汇——而KEGG和Reactome等精选数据库则提供了通路和反应知识,用于解读基因组结果。
Definition
基因本体论是一个结构化的、分层的受控词汇表,描述了基因产物在三个领域(分子功能、生物学过程和细胞组分)的属性;生物学数据库是精选的存储库(如KEGG、Reactome和蛋白质关联资源),存储用于注释和解释基因组数据的功能、通路和相互作用知识。
Scope
本主题涵盖受控生物学词汇表以及存储精选功能和通路信息的主要知识库:基因本体论的结构和使用、基因如何通过证据代码注释到本体论术语,以及通路和相互作用数据库的作用。它是一个参考和教育性主题,不提供临床指导。
Core questions
- 如何以一致的、可计算的方式描述基因产物的功能?
- 基因本体论的三个领域分别捕获了什么,它们是如何组织的?
- 如何通过证据代码等方式表明注释的强度?
- 哪些数据库包含通路、反应和相互作用知识,它们之间有何不同?
Key concepts
- 受控词汇表和本体论
- 分子功能、生物学过程、细胞组分
- GO的有向无环图(DAG)结构
- 注释和证据代码
- 通路数据库(KEGG, Reactome)
- 蛋白质相互作用和关联数据库(STRING)
Mechanisms
基因本体论将术语组织成一个有向无环图,其中特定术语从三个独立领域中更一般的术语继承:分子功能(基因产物的生化活性)、生物学过程(其所参与的更大程序)和细胞组分(其作用的细胞位置)。基因通过注释与术语关联,每个注释都带有一个证据代码,记录其支持是实验性的、计算性的还是由策展人推断的。互补数据库捕获本体论未涵盖的知识:KEGG和Reactome将通路编码为反应和关系的网络,而STRING等蛋白质关联资源则汇集了蛋白质之间功能联系的证据。这些资源共同提供了下游富集和网络方法所使用的精选基因集和参考注释。
Clinical relevance
本体论和精选数据库是共享的基础设施,使基因组解释在不同研究中具有可重复性,提供了用于注释、富集和网络分析的词汇和基因集。它们描述了生物学知识如何为计算而组织,并作为参考资源,而非个体诊断或治疗决策的基础。
History
基因本体论于2000年由模式生物数据库联盟发起,旨在统一跨物种的基因功能描述方式,并成为功能基因组学的实际标准词汇。同年,KEGG将通路知识形式化为可计算的图谱,随后Reactome增加了手动精选的反应级通路知识库。STRING等蛋白质关联数据库将策展扩展到功能和物理相互作用,完善了一个生态系统,大多数富集和网络分析现在都依赖于这些资源。
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- 基因本体论的三个领域是什么?
- 分子功能(基因产物的生化活性)、生物学过程(其所参与的更广泛的程序)和细胞组分(其在细胞中的作用位置)。这三个领域是独立组织的。
- 为什么基因本体论注释带有证据代码?
- 证据代码记录了注释是如何得到支持的——例如实验证据与计算推断——以便用户可以判断给定基因与术语分配的可靠性。
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis