Enrichissement de Voies et Analyse de Réseaux
Une expérience génomique aboutit souvent à une liste de dizaines ou de centaines de gènes — trop nombreux pour être interprétés individuellement. L'analyse d'enrichissement de voies pose une question plus précise : étant donné cette liste de gènes, des voies ou processus biologiques connus sont-ils représentés plus que ce qui serait attendu par hasard ? C'est la voie standard pour passer d'une liste de gènes à une interprétation biologique.
Definition
L'analyse d'enrichissement de voies est une famille de méthodes statistiques qui testent si les gènes annotés à des voies biologiques ou des jeux de gènes définis sont surreprésentés parmi les gènes impliqués par une expérience, soit au sein d'une liste sélectionnée (analyse de surreprésentation), soit sur une liste classée de manière continue (analyse d'enrichissement de jeux de gènes).
Scope
Ce sujet couvre les deux principales familles de méthodes d'enrichissement — l'analyse de surreprésentation sur une liste de gènes sélectionnée et l'enrichissement de jeux de gènes sur une liste entièrement classée — ainsi que les ressources de voies biologiques curatées sur lesquelles elles s'appuient et les écueils statistiques qui affectent leur validité. Il s'agit d'une référence méthodologique et ne fournit pas d'interprétation clinique des résultats.
Core questions
- Étant donné une liste de gènes, quelles voies ou processus sont statistiquement surreprésentés ?
- Comment l'enrichissement basé sur le classement diffère-t-il de la surreprésentation basée sur un seuil ?
- Contre quel jeu de gènes de référence (contexte) un test doit-il être évalué ?
- Comment sont contrôlés les tests multiples et les biais de longueur ou de sélection ?
Key concepts
- Analyse de surreprésentation (ORA)
- Analyse d'enrichissement de jeux de gènes (GSEA)
- Jeux de gènes et bases de données de voies (KEGG, Reactome, termes GO)
- Jeu de gènes de référence ou de contexte
- Correction pour tests multiples
- Biais de sélection et de longueur dans l'enrichissement RNA-seq
Mechanisms
L'analyse de surreprésentation prend une liste de gènes déjà sélectionnés par un seuil — par exemple, les gènes considérés comme exprimés différentiellement — et demande, généralement à l'aide d'un test hypergéométrique ou d'un test exact de Fisher, si une voie contient plus de ces gènes que prévu compte tenu du contexte. L'analyse d'enrichissement de jeux de gènes utilise plutôt la liste complète des gènes classés et teste si les membres d'une voie ont tendance à se regrouper vers le haut ou le bas du classement, évitant ainsi la nécessité de choisir un seuil strict. Les deux méthodes s'appuient sur des jeux de gènes curatés provenant de ressources telles que Gene Ontology, KEGG et Reactome. La validité dépend du choix d'un contexte approprié et de la correction pour les multiples voies testées ; pour les données RNA-seq, les méthodes doivent également tenir compte de la tendance des gènes plus longs ou plus fortement exprimés à être détectés comme significatifs, un biais de sélection que les tests d'enrichissement non corrigés peuvent confondre avec un signal biologique.
Clinical relevance
L'enrichissement de voies est l'étape interprétative qui transforme un résultat de différentiel d'expression ou de variant en une déclaration sur les processus biologiques, et il est largement utilisé en génomique translationnelle pour générer des hypothèses mécanistiques. Il décrit comment les résultats au niveau des gènes sont résumés au niveau des voies et est destiné à servir d'orientation de référence, non de base pour des décisions diagnostiques ou thérapeutiques individuelles.
History
L'interprétation fonctionnelle précoce consistait à compter le nombre de gènes d'une liste qui tombaient dans chaque catégorie d'annotation, formalisée dans des outils de surreprésentation tels que DAVID. L'analyse d'enrichissement de jeux de gènes (2005) a recadré le problème autour de la liste complète des gènes classés, ce qui s'est avéré plus sensible aux changements coordonnés et subtils au sein d'une voie. À mesure que le séquençage d'ARN (RNA-seq) a remplacé les microréseaux, des méthodes telles que GOseq (2010) ont corrigé les biais liés à la longueur et au nombre de lectures spécifiques aux données de séquençage, et les ressources de voies curatées, y compris KEGG et Reactome, sont devenues les entrées standard pour les jeux de gènes.
Debates
- Surreprésentation versus enrichissement basé sur le classement
- L'analyse de surreprésentation nécessite un seuil de signification et écarte donc les informations en dessous de ce seuil, tandis que l'enrichissement de jeux de gènes utilise le classement entier ; chacun a des sensibilités et des hypothèses différentes, et le choix peut modifier les voies rapportées.
- Biais dans l'enrichissement à partir des données de séquençage
- Dans le RNA-seq, les gènes plus longs et plus fortement exprimés sont plus susceptibles d'être considérés comme significatifs, de sorte que les tests d'enrichissement naïfs peuvent rapporter des voies enrichies en gènes longs plutôt qu'en biologie authentique, à moins que ce biais de sélection ne soit corrigé.
Key figures
- Aravind Subramanian
- Jill Mesirov
- Da Wei Huang
- Minoru Kanehisa
Related topics
Seminal works
- subramanian-2005
- huang-2009
- kanehisa-2000
- young-2010
Frequently asked questions
- Quelle est la différence entre l'analyse de surreprésentation et l'analyse d'enrichissement de jeux de gènes ?
- L'analyse de surreprésentation teste une liste de gènes présélectionnée (par exemple, ceux au-dessus d'un seuil de signification) pour la surreprésentation de voies, tandis que l'analyse d'enrichissement de jeux de gènes utilise la liste entière des gènes classés et demande si les membres d'une voie se regroupent vers les extrêmes du classement, évitant ainsi un seuil strict.
- Pourquoi le choix du jeu de gènes de référence est-il important ?
- L'enrichissement est jugé par rapport à un ensemble de gènes de référence ; l'utilisation d'un contexte inapproprié (par exemple, tous les gènes alors que seul un sous-ensemble aurait pu être détecté) peut faire apparaître des voies enrichies ou appauvries pour des raisons statistiques plutôt que biologiques.
Methods for this concept
- Pathway Enrichment Analysis
- Gene Set Enrichment Analysis
- Bayesian Pathway Enrichment Analysis
- Network-based gene set enrichment analysis
- Differential pathway enrichment analysis
- Bayesian Gene Set Enrichment Analysis
- Network-based pathway enrichment analysis
- Machine learning-assisted pathway enrichment analysis