Ontologia Genética e Bases de Dados Biológicas
A interpretação de genomas em escala requer uma linguagem compartilhada e legível por máquina para descrever a função dos genes. A Ontologia Genética fornece essa linguagem — um vocabulário estruturado de funções moleculares, processos biológicos e localizações celulares — enquanto bases de dados curadas como KEGG e Reactome fornecem o conhecimento de vias e reações contra o qual os resultados genômicos são lidos.
Definition
A Ontologia Genética é um vocabulário controlado estruturado e hierárquico que descreve atributos de produtos gênicos em três domínios — função molecular, processo biológico e componente celular — e as bases de dados biológicas são repositórios curados (como KEGG, Reactome e recursos de associação de proteínas) que armazenam conhecimento funcional, de vias e de interação usado para anotar e interpretar dados genômicos.
Scope
Este tópico abrange vocabulários biológicos controlados e as principais bases de conhecimento que armazenam informações funcionais e de vias curadas: a estrutura e o uso da Ontologia Genética, como os genes são anotados em termos de ontologia com códigos de evidência, e o papel das bases de dados de vias e interações. É um assunto de referência e educacional e não fornece orientação clínica.
Core questions
- Como a função de um produto gênico pode ser descrita de forma consistente e computável?
- O que os três domínios da Ontologia Genética capturam e como são organizados?
- Como a força de uma anotação é indicada, por exemplo, através de códigos de evidência?
- Quais bases de dados contêm conhecimento de vias, reações e interações, e como elas diferem?
Key concepts
- Vocabulário controlado e ontologia
- Função molecular, processo biológico, componente celular
- Estrutura de grafo acíclico dirigido (DAG) da GO
- Anotação e códigos de evidência
- Bases de dados de vias (KEGG, Reactome)
- Bases de dados de interação e associação de proteínas (STRING)
Mechanisms
A Ontologia Genética organiza os termos como um grafo acíclico dirigido no qual termos específicos herdam de termos mais gerais em três domínios independentes: função molecular (a atividade bioquímica de um produto gênico), processo biológico (o programa maior ao qual contribui) e componente celular (onde atua). Os genes são ligados a termos por anotações, cada uma marcada com um código de evidência que registra se o suporte é experimental, computacional ou inferido por curador. Bases de dados complementares capturam conhecimento que a ontologia não abrange: KEGG e Reactome codificam vias como redes de reações e relações, e recursos de associação de proteínas como STRING agregam evidências de ligações funcionais entre proteínas. Juntos, esses recursos fornecem os conjuntos de genes curados e as anotações de referência que os métodos de enriquecimento e rede a jusante consomem.
Clinical relevance
Ontologias e bases de dados curadas são a infraestrutura compartilhada que torna a interpretação genômica reproduzível entre estudos, fornecendo o vocabulário e os conjuntos de genes usados na anotação, enriquecimento e análise de rede. Elas descrevem como o conhecimento biológico é organizado para computação e servem como recursos de referência, e não como base para decisões individuais de diagnóstico ou tratamento.
History
A Ontologia Genética foi lançada em 2000 por um consórcio de bases de dados de organismos modelo para unificar a forma como a função gênica era descrita entre as espécies, e tornou-se o vocabulário padrão de facto para a genômica funcional. No mesmo ano, o KEGG formalizou o conhecimento de vias como mapas computáveis, e o Reactome adicionou posteriormente uma base de conhecimento de vias em nível de reação, curada manualmente. Bases de dados de associação de proteínas como STRING estenderam a curadoria para interações funcionais e físicas, completando um ecossistema de recursos dos quais a maioria das análises de enriquecimento e rede agora depende.
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- Quais são os três domínios da Ontologia Genética?
- Função molecular (a atividade bioquímica de um produto gênico), processo biológico (o programa mais amplo ao qual contribui) e componente celular (onde na célula atua). Esses três domínios são organizados independentemente.
- Por que as anotações da Ontologia Genética carregam códigos de evidência?
- Os códigos de evidência registram como uma anotação foi suportada — por exemplo, evidência experimental versus inferência computacional — para que os usuários possam julgar a confiabilidade de uma determinada atribuição gene-termo.
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis