Études d'association pangénomique et découverte de variants
Une étude d'association pangénomique (GWAS) analyse des centaines de milliers, voire des millions, de variants génétiques à travers les génomes de nombreux individus afin d'identifier les positions où la fréquence allélique diffère systématiquement entre les individus présentant un trait ou une maladie et ceux qui n'en présentent pas. En testant l'ensemble du génome sans hypothèse préalable sur le gène impliqué, les GWAS ont transformé la recherche de la base génétique des affections courantes et complexes, d'une spéculation sur des gènes candidats en une démarche de découverte systématique et sans hypothèse préétablie.
Definition
Une étude d'association pangénomique est une étude génétique observationnelle qui teste l'association entre un phénotype et des variants génétiques – généralement des polymorphismes mononucléotidiques (SNP) – génotypés ou imputés sur l'ensemble du génome, déclarant une association pour les variants dont la preuve statistique dépasse un seuil de signification pangénomique.
Scope
Ce domaine oriente le lecteur vers l'ensemble des méthodes et concepts entourant la découverte de variants dans des populations non apparentées : comment une GWAS est conçue et analysée, pourquoi le déséquilibre de liaison permet à un ensemble clairsemé de marqueurs de « taguer » des variants non génotypés, pourquoi une grande partie de l'héritabilité des traits semblait initialement « manquante », comment les différences d'ascendance peuvent créer des associations fallacieuses, et comment les approches basées sur les variants rares étendent la découverte au-delà des SNP communs. Il les présente comme des sujets de référence méthodologiques en génomique, et non comme un contenu clinique diagnostique ou prescriptif.
Sub-topics
Core questions
- Comment l'ensemble du génome peut-il être testé pour une association avec un trait sans gène candidat préalable ?
- Pourquoi le génotypage d'une fraction des variants capture-t-il des informations sur les autres ?
- Quel seuil de signification permet de contrôler les faux positifs sur des millions de tests ?
- Pourquoi les premières découvertes des GWAS n'expliquaient-elles qu'une faible part de l'héritabilité estimée ?
- Comment les différences d'ascendance entre les cas et les contrôles peuvent-elles fausser les signaux d'association ?
Key concepts
- Hypothèse de la maladie commune, variant commun
- Polymorphisme mononucléotidique (SNP)
- Déséquilibre de liaison et SNP marqueurs (tag SNPs)
- Seuil de signification pangénomique (~5 x 10^-8)
- Imputation de génotypes à partir de panels de référence
- Architecture polygénique et tailles d'effet
- Stratification de la population
- Héritabilité manquante
Mechanisms
Une GWAS génotype un panel dense de variants (ou les impute à partir d'un panel de référence séquencé) et teste chaque variant pour son association statistique avec le phénotype, généralement par régression ajustée pour l'ascendance et d'autres covariables. Étant donné que les variants proches sont co-hérités en blocs de déséquilibre de liaison, un marqueur génotypé peut servir de proxy (tag) pour des variants causaux non génotypés, ainsi, une association au niveau d'un marqueur localise un signal à une région plutôt que nécessairement au variant causal lui-même. Le nombre énorme de tests exige un seuil de signification pangénomique rigoureux pour contrôler les faux positifs, et les découvertes sont confirmées par réplication dans des échantillons indépendants. La plupart des variants découverts sont communs, ont un effet individuel faible et se trouvent fréquemment dans des régions régulatrices non codantes, ce qui est cohérent avec une architecture hautement polygénique pour les traits communs.
Clinical relevance
Les GWAS ont cartographié des milliers d'associations robustes variant-trait qui éclairent la compréhension de la biologie des maladies, la priorisation des cibles médicamenteuses et la construction de scores polygéniques. En tant que domaine de référence, il explique comment les preuves génétiques à l'échelle de la population sont générées et interprétées ; il décrit les méthodes et les résultats et ne constitue pas une base pour le diagnostic individuel, le conseil en matière de risque ou les décisions de traitement.
Epidemiology
Depuis la première vague d'études vers 2005-2007, les GWAS ont été appliquées à des centaines de maladies et de traits quantitatifs dans des cohortes allant de milliers à des millions de participants, et des répertoires organisés tels que le NHGRI-EBI GWAS Catalog enregistrent désormais des dizaines de milliers d'associations. Une limitation persistante est que la grande majorité des participants étaient d'ascendance européenne, ce qui limite la transférabilité des découvertes et des scores polygéniques à d'autres populations.
Evidence & guidelines
Les normes méthodologiques pour les GWAS ont été consolidées par de vastes efforts de consortium et des synthèses de revues, plutôt que par des lignes directrices de pratique clinique. L'étude du Wellcome Trust Case Control Consortium (2007) est une démonstration canonique de la conception à contrôles partagés et multi-maladies, et les articles de synthèse de McCarthy et al. (2008) et Visscher et al. (2012, 2017) énoncent les attentes consensuelles concernant les seuils de signification, le contrôle qualité, la réplication et l'interprétation.
History
L'approche est devenue réalisable une fois que des cartes SNP denses et le projet HapMap ont caractérisé le déséquilibre de liaison à l'échelle du génome, et une fois que des puces de génotypage abordables sont apparues au milieu des années 2000. L'étude du Wellcome Trust Case Control Consortium de 2007, testant sept maladies courantes contre des contrôles partagés, a démontré la conception à grande échelle et a catalysé une expansion rapide de la cartographie d'association. Des revues ultérieures ont suivi la maturation du domaine, passant d'une poignée de loci à des catalogues pangénomiques, et sa confrontation avec l'héritabilité manquante, la diversité des populations et l'évolution vers les études de variants rares et de séquençage du génome entier.
Debates
- Quelle proportion de l'héritabilité des traits communs les GWAS peuvent-elles récupérer ?
- Les premiers loci identifiés par GWAS n'expliquaient qu'une petite fraction de l'héritabilité estimée, ce qui a suscité un débat pour savoir si cet écart reflétait de nombreux variants communs à faible effet non détectés, des variants rares, des variations structurelles ou une héritabilité surestimée ; des méthodes ultérieures à l'échelle du génome entier ont réduit cet écart mais ne l'ont pas comblé.
- Le biais d'ascendance européenne des GWAS limite-t-il l'équité et la validité ?
- Étant donné que la plupart des participants étaient d'ascendance européenne, les associations découvertes et les scores polygéniques se transfèrent imparfaitement à d'autres populations, soulevant à la fois des préoccupations scientifiques quant à la généralisabilité et des préoccupations d'équité quant à savoir qui bénéficie de la médecine génomique.
Key figures
- Peter Visscher
- Mark McCarthy
- Joel Hirschhorn
- Naomi Wray
- Jian Yang
Related topics
- Conception, exécution et méthodes statistiques des GWAS
- Déséquilibre de liaison et sélection de SNP marqueurs
- Héritabilité manquante et architecture polygénique
- Stratification de la population et ascendance dans les GWAS
- Découverte de variants rares et tests de fardeau
- Génomique et Génomique fonctionnelle
Seminal works
- wtccc-2007
- mccarthy-2008
- visscher-2012
- visscher-2017
Frequently asked questions
- Quelle est la différence entre une GWAS et une étude de liaison ?
- Les études de liaison suivent la co-ségrégation des marqueurs et de la maladie au sein des familles et localisent de larges régions chromosomiques, tandis qu'une GWAS teste l'association chez des individus non apparentés avec une résolution pangénomique fine, ce qui la rend mieux adaptée aux variants communs à faible effet.
- Pourquoi les GWAS utilisent-elles un seuil de signification si strict ?
- Parce que des millions de variants sont testés, une valeur p conventionnelle de 0,05 produirait un nombre énorme de faux positifs ; un seuil pangénomique proche de 5 x 10^-8 tient compte des tests multiples impliqués par la variation commune indépendante à travers le génome.