Генная онтология и биологические базы данных
Для масштабной интерпретации геномов требуется общий, машиночитаемый язык для описания функций генов. Генная онтология предоставляет такой язык — структурированный словарь молекулярных функций, биологических процессов и клеточных локализаций, — в то время как курируемые базы данных, такие как KEGG и Reactome, предоставляют знания о путях и реакциях, на основе которых интерпретируются геномные результаты.
Definition
Генная онтология — это структурированный, иерархический контролируемый словарь, описывающий атрибуты генных продуктов в трех областях — молекулярная функция, биологический процесс и клеточный компонент, — а биологические базы данных представляют собой курируемые хранилища (такие как KEGG, Reactome и ресурсы по ассоциации белков), которые хранят функциональные знания, знания о путях и взаимодействиях, используемые для аннотирования и интерпретации геномных данных.
Scope
Эта тема охватывает контролируемые биологические словари и основные базы знаний, которые хранят курируемую функциональную информацию и информацию о путях: структуру и использование Генной онтологии, как гены аннотируются терминами онтологии с кодами доказательств, а также роль баз данных путей и взаимодействий. Это справочный и образовательный материал, который не предоставляет клинических рекомендаций.
Core questions
- Как можно описать функцию генного продукта согласованным, вычислимым способом?
- Что охватывают три домена Генной онтологии и как они организованы?
- Как указывается надежность аннотации, например, с помощью кодов доказательств?
- Какие базы данных содержат знания о путях, реакциях и взаимодействиях, и чем они отличаются?
Key concepts
- Контролируемый словарь и онтология
- Молекулярная функция, биологический процесс, клеточный компонент
- Структура GO в виде ориентированного ациклического графа (DAG)
- Аннотация и коды доказательств
- Базы данных путей (KEGG, Reactome)
- Базы данных белковых взаимодействий и ассоциаций (STRING)
Mechanisms
Генная онтология организует термины в виде ориентированного ациклического графа, в котором специфические термины наследуются от более общих в трех независимых областях: молекулярная функция (биохимическая активность генного продукта), биологический процесс (более широкая программа, в которую он вносит вклад) и клеточный компонент (место его действия). Гены связываются с терминами посредством аннотаций, каждая из которых помечена кодом доказательства, который фиксирует, является ли поддержка экспериментальной, вычислительной или выведенной куратором. Дополнительные базы данных содержат знания, которые онтология не охватывает: KEGG и Reactome кодируют пути как сети реакций и связей, а ресурсы по ассоциации белков, такие как STRING, агрегируют доказательства функциональных связей между белками. Вместе эти ресурсы предоставляют курируемые наборы генов и эталонные аннотации, которые используются последующими методами обогащения и сетевого анализа.
Clinical relevance
Онтологии и курируемые базы данных являются общей инфраструктурой, которая делает интерпретацию геномов воспроизводимой в различных исследованиях, предоставляя словарь и наборы генов, используемые в аннотировании, обогащении и сетевом анализе. Они описывают, как биологические знания организованы для вычислений, и служат справочными ресурсами, а не основой для индивидуальных диагностических или лечебных решений.
History
Генная онтология была запущена в 2000 году консорциумом баз данных модельных организмов для унификации описания функций генов у разных видов и стала фактическим стандартным словарем для функциональной геномики. В том же году KEGG формализовала знания о путях в виде вычислимых карт, а Reactome позднее добавила вручную курируемую базу знаний о путях на уровне реакций. Базы данных ассоциаций белков, такие как STRING, расширили курирование до функциональных и физических взаимодействий, завершив экосистему ресурсов, от которых теперь зависит большинство анализов обогащения и сетевого анализа.
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- Каковы три домена Генной онтологии?
- Молекулярная функция (биохимическая активность генного продукта), биологический процесс (более широкая программа, в которую он вносит вклад) и клеточный компонент (место его действия в клетке). Эти три домена организованы независимо.
- Почему аннотации Генной онтологии содержат коды доказательств?
- Коды доказательств фиксируют, как была подтверждена аннотация — например, экспериментальными данными или вычислительным выводом, — чтобы пользователи могли оценить надежность данного присвоения гена термину.
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis