ScholarGate
Asistente

Enriquecimiento de Vías y Análisis de Redes

Un experimento genómico a menudo culmina con una lista de docenas o cientos de genes, demasiados para interpretar uno por uno. El análisis de enriquecimiento de vías plantea una pregunta más precisa: dada esta lista de genes, ¿hay alguna vía o proceso biológico conocido representado más de lo que se esperaría por azar? Es la ruta estándar desde una lista de genes hasta una interpretación biológica.

Encontrar tema con PaperMindPróximamenteFind papers & topics
Tools & resources
Descargar diapositivas
Learn & explore
VídeoPróximamente

Definition

El análisis de enriquecimiento de vías es una familia de métodos estadísticos que prueban si los genes anotados a vías biológicas definidas o conjuntos de genes están sobrerrepresentados entre los genes implicados por un experimento, ya sea dentro de una lista seleccionada (análisis de sobrerrepresentación) o a través de una lista continuamente clasificada (análisis de enriquecimiento de conjuntos de genes).

Scope

Este tema abarca las dos familias principales de métodos de enriquecimiento —el análisis de sobrerrepresentación en una lista de genes seleccionada y el enriquecimiento de conjuntos de genes en una lista completamente clasificada— junto con los recursos de vías curadas en los que se basan y las trampas estadísticas que afectan su validez. Es una referencia metodológica y no proporciona interpretación clínica de los resultados.

Core questions

  • Dada una lista de genes, ¿qué vías o procesos están estadísticamente sobrerrepresentados?
  • ¿Cómo difiere el enriquecimiento basado en la clasificación del análisis de sobrerrepresentación basado en umbrales?
  • ¿Contra qué conjunto de genes de fondo (referencia) debe evaluarse una prueba?
  • ¿Cómo se controlan las pruebas múltiples y los sesgos de longitud o selección?

Key concepts

  • Análisis de sobrerrepresentación (ORA)
  • Análisis de enriquecimiento de conjuntos de genes (GSEA)
  • Conjuntos de genes y bases de datos de vías (KEGG, Reactome, términos GO)
  • Conjunto de genes de fondo o de referencia
  • Corrección de pruebas múltiples
  • Sesgo de selección y longitud en el enriquecimiento de RNA-seq

Mechanisms

El análisis de sobrerrepresentación toma una lista de genes ya seleccionados por un umbral —por ejemplo, los genes denominados diferencialmente expresados— y pregunta, típicamente con una prueba hipergeométrica o exacta de Fisher, si alguna vía contiene más de esos genes de lo esperado dada la información de fondo. El análisis de enriquecimiento de conjuntos de genes, en cambio, utiliza la lista completa clasificada de genes y prueba si los miembros de una vía tienden a agruparse hacia la parte superior o inferior de la clasificación, evitando la necesidad de elegir un umbral estricto. Ambos se basan en conjuntos de genes curados extraídos de recursos como Gene Ontology, KEGG y Reactome. La validez depende de la elección de un fondo apropiado y de la corrección para las muchas vías probadas; para los datos de RNA-seq, los métodos también deben tener en cuenta la tendencia de los genes más largos o más altamente expresados a ser detectados como significativos, un sesgo de selección que las pruebas de enriquecimiento no corregidas pueden confundir con una señal biológica.

Clinical relevance

El enriquecimiento de vías es el paso interpretativo que convierte un resultado de expresión diferencial o variante en una declaración sobre procesos biológicos, y se utiliza ampliamente en la genómica traslacional para generar hipótesis mecanicistas. Describe cómo se resumen los resultados a nivel de gen a nivel de vía y está destinado como orientación de referencia, no como base para decisiones individuales de diagnóstico o tratamiento.

History

La interpretación funcional temprana cuantificaba cuántos genes de una lista caían en cada categoría de anotación, formalizada en herramientas de sobrerrepresentación como DAVID. El análisis de enriquecimiento de conjuntos de genes (2005) replanteó el problema en torno a la lista completa de genes clasificados, lo que resultó ser más sensible a cambios coordinados y sutiles a lo largo de una vía. A medida que el RNA-seq reemplazó a los microarrays, métodos como GOseq (2010) corrigieron los sesgos de longitud y recuento específicos de los datos de secuenciación, y los recursos de vías curadas, incluyendo KEGG y Reactome, se convirtieron en las entradas estándar de conjuntos de genes.

Debates

Sobrerepresentación versus enriquecimiento basado en la clasificación
El análisis de sobrerrepresentación requiere un umbral de significación y, por lo tanto, descarta información por debajo del punto de corte, mientras que el enriquecimiento de conjuntos de genes utiliza la clasificación completa; cada uno tiene diferentes sensibilidades y suposiciones, y la elección puede cambiar las vías que se informan.
Sesgo en el enriquecimiento de datos de secuenciación
En RNA-seq, los genes más largos y más altamente expresados tienen más probabilidades de ser considerados significativos, por lo que las pruebas de enriquecimiento ingenuas pueden informar vías enriquecidas para genes largos en lugar de para una biología genuina, a menos que se corrija este sesgo de selección.

Key figures

  • Aravind Subramanian
  • Jill Mesirov
  • Da Wei Huang
  • Minoru Kanehisa

Related topics

Seminal works

  • subramanian-2005
  • huang-2009
  • kanehisa-2000
  • young-2010

Frequently asked questions

¿Cuál es la diferencia entre el análisis de sobrerrepresentación y el análisis de enriquecimiento de conjuntos de genes?
El análisis de sobrerrepresentación prueba una lista preseleccionada de genes (por ejemplo, aquellos por encima de un umbral de significación) para la sobrerrepresentación de vías, mientras que el análisis de enriquecimiento de conjuntos de genes utiliza la lista completa clasificada de genes y pregunta si los miembros de una vía se agrupan hacia los extremos de la clasificación, evitando un punto de corte estricto.
¿Por qué es importante la elección del conjunto de genes de fondo?
El enriquecimiento se juzga en relación con un conjunto de genes de referencia; el uso de un fondo inapropiado (por ejemplo, todos los genes cuando solo un subconjunto podría haber sido detectado) puede hacer que las vías parezcan enriquecidas o agotadas por razones estadísticas en lugar de biológicas.

Methods for this concept

Related concepts