Gene Ontologyと生物学的データベース
ゲノムを大規模に解釈するには、遺伝子の機能に関する共有された機械可読な言語が必要です。Gene Ontologyは、分子機能、生物学的プロセス、細胞内局在の構造化された語彙というその言語を提供します。一方、KEGGやReactomeのようなキュレーションされたデータベースは、ゲノム解析結果を読み解くためのパスウェイおよび反応に関する知識を提供します。
Definition
Gene Ontologyは、分子機能、生物学的プロセス、細胞構成要素という3つのドメインにわたる遺伝子産物の属性を記述する、構造化された階層的な管理語彙です。生物学的データベースは、ゲノムデータをアノテーションおよび解釈するために使用される機能、パスウェイ、および相互作用の知識を格納するキュレーションされたリポジトリ(KEGG、Reactome、タンパク質関連リソースなど)です。
Scope
このトピックでは、管理された生物学的語彙と、キュレーションされた機能およびパスウェイ情報を格納する主要な知識ベースについて扱います。具体的には、Gene Ontologyの構造と使用法、エビデンスコードを用いたオントロジー用語への遺伝子のアノテーション方法、およびパスウェイ・相互作用データベースの役割についてです。これは参照および教育を目的とした主題であり、臨床的なガイダンスを提供するものではありません。
Core questions
- 遺伝子産物の機能は、一貫性があり計算可能な方法でどのように記述できますか?
- Gene Ontologyの3つのドメインは何を捉え、どのように組織化されていますか?
- アノテーションの信頼性は、例えばエビデンスコードを通じてどのように示されますか?
- パスウェイ、反応、相互作用の知識を保持するデータベースはどれで、それらはどのように異なりますか?
Key concepts
- 管理語彙とオントロジー
- 分子機能、生物学的プロセス、細胞構成要素
- GOの有向非巡回グラフ(DAG)構造
- アノテーションとエビデンスコード
- パスウェイデータベース(KEGG、Reactome)
- タンパク質相互作用および関連データベース(STRING)
Mechanisms
Gene Ontologyは、用語を有向非巡回グラフとして整理しており、特定の用語は、分子機能(遺伝子産物の生化学的活性)、生物学的プロセス(それが寄与するより大きなプログラム)、細胞構成要素(それが作用する場所)という3つの独立したドメインにわたって、より一般的な用語から継承されます。遺伝子はアノテーションによって用語にリンクされ、それぞれにエビデンスコードが付与されており、その裏付けが実験的、計算的、またはキュレーターによる推論のいずれであるかを記録しています。オントロジーが捉えない知識を補完するデータベースもあります。KEGGとReactomeは、パスウェイを反応と関係のネットワークとして符号化し、STRINGのようなタンパク質関連リソースは、タンパク質間の機能的リンクの証拠を集約しています。これらのリソースは、下流の濃縮解析やネットワーク解析が利用するキュレーションされた遺伝子セットと参照アノテーションをまとめて提供します。
Clinical relevance
オントロジーとキュレーションされたデータベースは、ゲノム解釈を研究間で再現可能にする共有インフラストラクチャであり、アノテーション、濃縮解析、ネットワーク解析で使用される語彙と遺伝子セットを提供します。これらは、生物学的知識が計算のためにどのように組織化されているかを記述し、個々の診断や治療の決定の根拠としてではなく、参照リソースとして機能します。
History
Gene Ontologyは、モデル生物データベースのコンソーシアムによって2000年に立ち上げられ、種を超えて遺伝子機能の記述方法を統一することを目的とし、機能ゲノミクスにおける事実上の標準語彙となりました。同年、KEGGはパスウェイ知識を計算可能なマップとして形式化し、その後Reactomeは手動でキュレーションされた反応レベルのパスウェイ知識ベースを追加しました。STRINGのようなタンパク質関連データベースは、キュレーションを機能的および物理的相互作用にまで拡張し、現在ほとんどの濃縮解析およびネットワーク解析が依存するリソースのエコシステムを完成させました。
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- Gene Ontologyの3つのドメインは何ですか?
- 分子機能(遺伝子産物の生化学的活性)、生物学的プロセス(それが寄与するより広範なプログラム)、および細胞構成要素(細胞内のどこで作用するか)です。これら3つのドメインは独立して組織化されています。
- Gene Ontologyのアノテーションにエビデンスコードが付与されるのはなぜですか?
- エビデンスコードは、アノテーションがどのように裏付けられたか(例えば、実験的証拠か計算による推論かなど)を記録するため、ユーザーは特定の遺伝子と用語の割り当ての信頼性を判断できます。
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis