ScholarGate
Assistente

Enriquecimento de Vias e Análise de Redes

Um experimento genômico frequentemente termina com uma lista de dezenas ou centenas de genes — muitos para interpretar um por um. A análise de enriquecimento de vias faz uma pergunta mais precisa: dada esta lista de genes, alguma via ou processo biológico conhecido está representado mais do que seria esperado por acaso? É a rota padrão de uma lista de genes para uma interpretação biológica.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A análise de enriquecimento de vias é uma família de métodos estatísticos que testam se genes anotados para vias biológicas definidas ou conjuntos de genes estão super-representados entre os genes implicados por um experimento, seja dentro de uma lista selecionada (análise de super-representação) ou em uma lista continuamente classificada (análise de enriquecimento de conjunto de genes).

Scope

Este tópico abrange as duas principais famílias de métodos de enriquecimento — análise de super-representação em uma lista de genes selecionada e enriquecimento de conjunto de genes em uma lista totalmente classificada — juntamente com os recursos de vias curados nos quais se baseiam e as armadilhas estatísticas que afetam sua validade. É uma referência metodológica e não fornece interpretação clínica dos resultados.

Core questions

  • Dada uma lista de genes, quais vias ou processos estão estatisticamente super-representados?
  • Como o enriquecimento baseado em classificação difere da super-representação baseada em limiar?
  • Contra qual conjunto de genes de fundo (referência) um teste deve ser avaliado?
  • Como são controladas as correções para múltiplos testes e os vieses de comprimento ou seleção?

Key concepts

  • Análise de super-representação (ORA)
  • Análise de enriquecimento de conjunto de genes (GSEA)
  • Conjuntos de genes e bancos de dados de vias (KEGG, Reactome, termos GO)
  • Conjunto de genes de fundo ou referência
  • Correção para múltiplos testes
  • Viés de seleção e comprimento no enriquecimento de RNA-seq

Mechanisms

A análise de super-representação pega uma lista de genes já selecionados por um limiar — por exemplo, os genes chamados diferencialmente expressos — e pergunta, tipicamente com um teste hipergeométrico ou exato de Fisher, se alguma via contém mais desses genes do que o esperado dado o fundo. A análise de enriquecimento de conjunto de genes, em vez disso, usa a lista completa de genes classificados e testa se os membros de uma via tendem a se agrupar no topo ou na parte inferior da classificação, evitando a necessidade de escolher um limiar rígido. Ambos dependem de conjuntos de genes curados extraídos de recursos como Gene Ontology, KEGG e Reactome. A validade depende da escolha de um fundo apropriado e da correção para as muitas vias testadas; para dados de RNA-seq, os métodos também devem considerar a tendência de genes mais longos ou mais altamente expressos serem detectados como significativos, um viés de seleção que testes de enriquecimento não corrigidos podem confundir com sinal biológico.

Clinical relevance

O enriquecimento de vias é a etapa interpretativa que transforma um resultado de expressão diferencial ou variante em uma declaração sobre processos biológicos, e é amplamente utilizado em genômica translacional para gerar hipóteses mecanicistas. Ele descreve como os resultados em nível de gene são resumidos em nível de via e é destinado a orientação de referência, não como base para decisões individuais de diagnóstico ou tratamento.

History

A interpretação funcional inicial contava quantos genes de uma lista se encaixavam em cada categoria de anotação, formalizada em ferramentas de super-representação como DAVID. A análise de enriquecimento de conjunto de genes (2005) reformulou o problema em torno da lista completa de genes classificados, o que se mostrou mais sensível a mudanças coordenadas e sutis em uma via. À medida que o RNA-seq substituiu os microarrays, métodos como GOseq (2010) corrigiram os vieses de comprimento e contagem específicos dos dados de sequenciamento, e recursos de vias curados, incluindo KEGG e Reactome, tornaram-se as entradas padrão de conjuntos de genes.

Debates

Super-representação versus enriquecimento baseado em classificação
A análise de super-representação requer um limiar de significância e, portanto, descarta informações abaixo do corte, enquanto o enriquecimento de conjunto de genes usa toda a classificação; cada um tem diferentes sensibilidades e suposições, e a escolha pode alterar quais vias são relatadas.
Viés no enriquecimento de dados de sequenciamento
No RNA-seq, genes mais longos e mais altamente expressos têm maior probabilidade de serem considerados significativos, então testes de enriquecimento ingênuos podem relatar vias enriquecidas para genes longos em vez de biologia genuína, a menos que esse viés de seleção seja corrigido.

Key figures

  • Aravind Subramanian
  • Jill Mesirov
  • Da Wei Huang
  • Minoru Kanehisa

Related topics

Seminal works

  • subramanian-2005
  • huang-2009
  • kanehisa-2000
  • young-2010

Frequently asked questions

Qual é a diferença entre análise de super-representação e análise de enriquecimento de conjunto de genes?
A análise de super-representação testa uma lista pré-selecionada de genes (por exemplo, aqueles acima de um limiar de significância) para super-representação de vias, enquanto a análise de enriquecimento de conjunto de genes usa a lista completa de genes classificados e pergunta se os membros de uma via se agrupam em direção aos extremos da classificação, evitando um corte rígido.
Por que a escolha do conjunto de genes de fundo é importante?
O enriquecimento é julgado em relação a um conjunto de genes de referência; usar um fundo inadequado (por exemplo, todos os genes quando apenas um subconjunto poderia ter sido detectado) pode fazer com que as vias pareçam enriquecidas ou esgotadas por razões estatísticas em vez de biológicas.

Methods for this concept

Related concepts