Ontología Génica y Bases de Datos Biológicas
La interpretación de genomas a gran escala requiere un lenguaje compartido y legible por máquinas para describir la función de los genes. La Ontología Génica proporciona dicho lenguaje —un vocabulario estructurado de funciones moleculares, procesos biológicos y ubicaciones celulares— mientras que bases de datos curadas como KEGG y Reactome suministran el conocimiento sobre rutas y reacciones frente al cual se interpretan los resultados genómicos.
Definition
La Ontología Génica es un vocabulario controlado estructurado y jerárquico que describe los atributos de los productos génicos en tres dominios —función molecular, proceso biológico y componente celular— y las bases de datos biológicas son repositorios curados (como KEGG, Reactome y recursos de asociación de proteínas) que almacenan conocimiento funcional, de rutas y de interacciones utilizado para anotar e interpretar datos genómicos.
Scope
Este tema abarca los vocabularios biológicos controlados y las principales bases de conocimiento que almacenan información funcional y de rutas curada: la estructura y el uso de la Ontología Génica, cómo se anotan los genes a términos de ontología con códigos de evidencia, y el papel de las bases de datos de rutas e interacciones. Es un tema de referencia y educativo y no proporciona orientación clínica.
Core questions
- ¿Cómo se puede describir la función de un producto génico de manera consistente y computable?
- ¿Qué abarcan los tres dominios de la Ontología Génica y cómo se organizan?
- ¿Cómo se indica la solidez de una anotación, por ejemplo, a través de códigos de evidencia?
- ¿Qué bases de datos contienen conocimiento sobre rutas, reacciones e interacciones, y cómo difieren?
Key concepts
- Vocabulario controlado y ontología
- Función molecular, proceso biológico, componente celular
- Estructura de grafo acíclico dirigido (DAG) de GO
- Anotación y códigos de evidencia
- Bases de datos de rutas (KEGG, Reactome)
- Bases de datos de interacción y asociación de proteínas (STRING)
Mechanisms
La Ontología Génica organiza los términos como un grafo acíclico dirigido en el que los términos específicos heredan de otros más generales a través de tres dominios independientes: función molecular (la actividad bioquímica de un producto génico), proceso biológico (el programa más amplio al que contribuye) y componente celular (dónde actúa). Los genes se vinculan a los términos mediante anotaciones, cada una etiquetada con un código de evidencia que registra si el soporte es experimental, computacional o inferido por un curador. Bases de datos complementarias capturan conocimiento que la ontología no abarca: KEGG y Reactome codifican las rutas como redes de reacciones y relaciones, y recursos de asociación de proteínas como STRING agregan evidencia de enlaces funcionales entre proteínas. Juntos, estos recursos proporcionan los conjuntos de genes curados y las anotaciones de referencia que consumen los métodos posteriores de enriquecimiento y de redes.
Clinical relevance
Las ontologías y las bases de datos curadas son la infraestructura compartida que hace que la interpretación genómica sea reproducible entre estudios, suministrando el vocabulario y los conjuntos de genes utilizados en la anotación, el enriquecimiento y el análisis de redes. Describen cómo se organiza el conocimiento biológico para la computación y sirven como recursos de referencia en lugar de como base para decisiones diagnósticas o de tratamiento individuales.
History
La Ontología Génica fue lanzada en 2000 por un consorcio de bases de datos de organismos modelo para unificar la descripción de la función génica entre especies, y se convirtió en el vocabulario estándar de facto para la genómica funcional. En el mismo año, KEGG formalizó el conocimiento de rutas como mapas computables, y Reactome añadió posteriormente una base de conocimiento de rutas a nivel de reacción, curada manualmente. Bases de datos de asociación de proteínas como STRING extendieron la curación a interacciones funcionales y físicas, completando un ecosistema de recursos del que ahora dependen la mayoría de los análisis de enriquecimiento y de redes.
Key figures
- Michael Ashburner
- Judith Blake
- Minoru Kanehisa
- Peter D'Eustachio
Related topics
Seminal works
- ashburner-2000
- kanehisa-2000
- jassal-2020
Frequently asked questions
- ¿Cuáles son los tres dominios de la Ontología Génica?
- Función molecular (la actividad bioquímica de un producto génico), proceso biológico (el programa más amplio al que contribuye) y componente celular (dónde actúa en la célula). Estos tres dominios se organizan de forma independiente.
- ¿Por qué las anotaciones de la Ontología Génica llevan códigos de evidencia?
- Los códigos de evidencia registran cómo se respaldó una anotación —por ejemplo, evidencia experimental frente a inferencia computacional— para que los usuarios puedan juzgar la fiabilidad de una asignación gen-término determinada.
Methods for this concept
- Pathway Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Machine learning-assisted pathway enrichment analysis
- Gene Set Enrichment Analysis
- Network-based gene set enrichment analysis
- Network-based pathway enrichment analysis
- Multi-omics Pathway Enrichment Analysis
- Differential pathway enrichment analysis