Pathway-Anreicherung und Netzwerkanalyse
Ein Genomexperiment endet oft mit einer Liste von Dutzenden oder Hunderten von Genen – zu viele, um sie einzeln zu interpretieren. Die Pathway-Analyse stellt eine präzisere Frage: Sind angesichts dieser Genliste bekannte biologische Signalwege oder Prozesse stärker repräsentiert, als es zufällig zu erwarten wäre? Sie ist der Standardweg von einer Genliste zu einer biologischen Interpretation.
Definition
Die Pathway-Anreicherungsanalyse ist eine Familie statistischer Methoden, die testen, ob Gene, die definierten biologischen Signalwegen oder Gen-Sets zugeordnet sind, unter den durch ein Experiment implizierten Genen überrepräsentiert sind, entweder innerhalb einer ausgewählten Liste (Überrepräsentationsanalyse) oder über eine kontinuierlich rangierte Liste (Gen-Set-Anreicherungsanalyse).
Scope
Dieses Thema behandelt die beiden Hauptfamilien von Anreicherungsmethoden – die Überrepräsentationsanalyse einer ausgewählten Genliste und die Gen-Set-Anreicherung über eine vollständig rangierte Liste – zusammen mit den kuratierten Pathway-Ressourcen, auf die sie zurückgreifen, und den statistischen Fallstricken, die ihre Validität beeinträchtigen. Es handelt sich um eine methodische Referenz und bietet keine klinische Interpretation der Ergebnisse.
Core questions
- Welche Signalwege oder Prozesse sind angesichts einer Genliste statistisch überrepräsentiert?
- Wie unterscheidet sich die rangbasierte Anreicherung von der schwellenwertbasierten Überrepräsentation?
- Gegen welches Hintergrund-Gen-Set (Referenz) sollte ein Test evaluiert werden?
- Wie werden Mehrfachtest- und Längen- oder Selektionsverzerrungen kontrolliert?
Key concepts
- Überrepräsentationsanalyse (ORA)
- Gen-Set-Anreicherungsanalyse (GSEA)
- Gen-Sets und Pathway-Datenbanken (KEGG, Reactome, GO-Terme)
- Hintergrund- oder Referenz-Gen-Set
- Mehrfachtestkorrektur
- Selektions- und Längenverzerrung bei der RNA-seq-Anreicherung
Mechanisms
Die Überrepräsentationsanalyse nimmt eine Liste von Genen, die bereits durch einen Schwellenwert ausgewählt wurden – zum Beispiel die als differentiell exprimiert bezeichneten Gene – und fragt, typischerweise mit einem hypergeometrischen Test oder Fishers exaktem Test, ob ein Pathway mehr dieser Gene enthält, als angesichts des Hintergrunds erwartet. Die Gen-Set-Anreicherungsanalyse verwendet stattdessen die gesamte rangierte Genliste und testet, ob Mitglieder eines Pathways dazu neigen, sich am oberen oder unteren Ende der Rangliste zu häufen, wodurch die Notwendigkeit entfällt, einen festen Schwellenwert zu wählen. Beide stützen sich auf kuratierte Gen-Sets, die aus Ressourcen wie der Gene Ontology, KEGG und Reactome stammen. Die Validität hängt von der Wahl eines geeigneten Hintergrunds und der Korrektur für die vielen getesteten Pathways ab; für RNA-seq-Daten müssen die Methoden auch die Tendenz längerer oder stärker exprimierter Gene berücksichtigen, als signifikant erkannt zu werden, eine Selektionsverzerrung, die unkorrigierte Anreicherungstests fälschlicherweise als biologisches Signal interpretieren können.
Clinical relevance
Die Pathway-Anreicherung ist der interpretative Schritt, der ein differentielles Expressions- oder Varianten-Ergebnis in eine Aussage über biologische Prozesse umwandelt, und sie wird in der translationalen Genomik häufig zur Generierung mechanistischer Hypothesen verwendet. Sie beschreibt, wie Ergebnisse auf Gen-Ebene auf Pathway-Ebene zusammengefasst werden, und ist als Referenzorientierung gedacht, nicht als Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.
History
Die frühe funktionelle Interpretation zählte, wie viele Gene aus einer Liste in jede Annotationskategorie fielen, formalisiert in Überrepräsentations-Tools wie DAVID. Die Gen-Set-Anreicherungsanalyse (2005) formulierte das Problem um die vollständige rangierte Genliste neu, was sich als empfindlicher für koordinierte, subtile Veränderungen in einem Pathway erwies. Als RNA-seq Microarrays ersetzte, korrigierten Methoden wie GOseq (2010) die Längen- und Zählverzerrungen, die spezifisch für Sequenzierungsdaten sind, und kuratierte Pathway-Ressourcen wie KEGG und Reactome wurden zu den Standard-Gen-Set-Eingaben.
Debates
- Überrepräsentation versus rangbasierte Anreicherung
- Die Überrepräsentationsanalyse erfordert einen Signifikanzschwellenwert und verwirft daher Informationen unterhalb des Schwellenwerts, während die Gen-Set-Anreicherung die gesamte Rangliste verwendet; jede hat unterschiedliche Sensitivität und Annahmen, und die Wahl kann ändern, welche Pathways berichtet werden.
- Verzerrung bei der Anreicherung aus Sequenzierungsdaten
- Bei RNA-seq ist es wahrscheinlicher, dass längere und stärker exprimierte Gene als signifikant eingestuft werden, sodass naive Anreicherungstests Pathways als angereichert für lange Gene melden können, anstatt für echte Biologie, es sei denn, diese Selektionsverzerrung wird korrigiert.
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- Was ist der Unterschied zwischen Überrepräsentationsanalyse und Gen-Set-Anreicherungsanalyse?
- Die Überrepräsentationsanalyse testet eine vorab ausgewählte Genliste (zum Beispiel jene oberhalb eines Signifikanzschwellenwerts) auf Pathway-Überrepräsentation, während die Gen-Set-Anreicherungsanalyse die gesamte rangierte Genliste verwendet und fragt, ob sich die Mitglieder eines Pathways an den Extremen der Rangliste häufen, wodurch ein harter Cut-off vermieden wird.
- Warum ist die Wahl des Hintergrund-Gen-Sets wichtig?
- Die Anreicherung wird relativ zu einem Referenz-Gen-Set beurteilt; die Verwendung eines ungeeigneten Hintergrunds (zum Beispiel aller Gene, wenn nur eine Untergruppe hätte detektiert werden können) kann dazu führen, dass Pathways aus statistischen statt aus biologischen Gründen angereichert oder verarmt erscheinen.
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis