Pourquoi le seuil de signification des GWAS est-il fixé à environ 5 x 10^-8 ?

Il s'agit d'une approximation d'une correction de Bonferroni pour le million de variants communs effectivement indépendants dans le génome humain, ce qui maintient le taux de faux positifs à l'échelle du génome près du niveau conventionnel de 0,05.

Pourquoi une découverte de GWAS doit-elle être répliquée ?

Une seule étude peut produire des associations fallacieuses dues à des problèmes subtils de contrôle qualité, à des facteurs de confusion résiduels ou au hasard à la limite de la signification ; une réplication indépendante dans un échantillon distinct est la vérification standard qu'un signal est réel.

Conception, exécution et méthodes statistiques des GWAS

La conception et l'analyse d'une étude d'association pangénomique (GWAS) suivent un processus rigoureux : assembler des cas et des contrôles bien phénotypés (ou une cohorte à trait quantitatif), génotyper et imputer les variants à l'échelle du génome, soumettre les données à un contrôle qualité strict, tester chaque variant pour son association tout en ajustant pour l'ascendance, et évaluer les signaux par rapport à un seuil de signification pangénomique avant de rechercher une réplication. Chaque étape vise à éviter que le nombre considérable de tests statistiques ne produise de fausses découvertes.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

La conception et l'analyse des GWAS représentent l'ensemble des choix de conception d'étude et des procédures statistiques par lesquels les associations variant-phénotype sont testées à l'échelle du génome, les faux positifs sont contrôlés sur des millions de comparaisons, et les signaux crédibles sont distingués des artefacts de génotypage, d'apparentement ou d'ascendance.

Scope

Ce sujet couvre l'ossature méthodologique d'une GWAS : la définition des échantillons et des phénotypes, le génotypage et l'imputation, les filtres de contrôle qualité, le modèle d'association à marqueur unique, la correction pour tests multiples et la signification pangénomique, les diagnostics tels que le facteur d'inflation génomique et les diagrammes QQ/Manhattan, ainsi que la réplication. Il s'agit d'une référence méthodologique et non d'un protocole pour les tests génétiques cliniques.

Core questions

Quelle taille d'échantillon et quelle définition de phénotype confèrent une puissance adéquate pour détecter les variants à faible effet ?
Quels filtres de contrôle qualité éliminent les variants et les échantillons non fiables avant le test ?
Quel modèle de régression est utilisé pour un test d'association à marqueur unique, et comment l'ascendance est-elle ajustée ?
Quel seuil de signification contrôle les faux positifs à l'échelle du génome, et pourquoi est-il proche de 5 x 10^-8 ?
Comment un signal authentique est-il distingué de l'inflation génomique, et pourquoi la réplication est-elle requise ?

Key concepts

Conceptions cas-témoins et à trait quantitatif
Appel de génotypes et imputation
Contrôle qualité (taux d'appel, MAF, filtres d'équilibre de Hardy-Weinberg)
Test d'association à marqueur unique (régression logistique ou linéaire)
Modèle génétique additif et effet par allèle (rapport de cotes ou bêta)
Seuil de signification pangénomique (~5 x 10^-8)
Facteur d'inflation génomique (lambda) et diagrammes QQ
Diagramme de Manhattan et réplication

Mechanisms

Chaque variant est généralement testé à l'aide d'un modèle de régression — logistique pour le statut de maladie binaire, linéaire pour les traits quantitatifs — dans lequel le variant est codé selon un modèle additif (par allèle) et où les composantes principales de l'ascendance ainsi que d'autres covariables sont incluses pour contrôler les facteurs de confusion. Le résultat par variant est une estimation de l'effet (rapport de cotes ou bêta) et une valeur p. Étant donné que des centaines de milliers à des millions de variants communs largement indépendants sont testés, la signification est évaluée par rapport à un seuil pangénomique d'environ 5 x 10^-8, dérivé d'une correction de type Bonferroni pour le nombre effectif de tests indépendants. Avant le test, le contrôle qualité élimine les échantillons et les variants présentant de faibles taux d'appel, une déviation extrême de l'équilibre de Hardy-Weinberg chez les contrôles, une très faible fréquence de l'allèle mineur, ou des preuves d'apparentement et de valeurs aberrantes de la population. Le facteur d'inflation génomique et les diagrammes QQ signalent les facteurs de confusion résiduels ; les diagrammes de Manhattan affichent les signaux à travers le génome ; et la réplication indépendante protège contre les artefacts spécifiques à la conception. Des logiciels tels que PLINK ont standardisé ces étapes.

Clinical relevance

Comprendre la conception et l'analyse des GWAS est essentiel pour évaluer les preuves génétiques citées dans la recherche sur les maladies et dans la construction de scores polygéniques. Ce sujet explique comment les associations sont générées et validées et est de nature descriptive ; il ne constitue pas une procédure pour le diagnostic génétique individuel ou pour la prise de décision clinique.

Evidence & guidelines

Les conventions analytiques ont été consolidées par l'expérience des consortiums et les revues méthodologiques plutôt que par des directives cliniques formelles. Le Wellcome Trust Case Control Consortium (2007) a démontré la conception avec contrôles partagés et un contrôle qualité rigoureux à grande échelle ; PLINK (Purcell et al., 2007) est devenu une boîte à outils d'analyse standard ; et les revues de McCarthy et al. (2008) et Bush et Moore (2012) ont établi les attentes largement acceptées en matière de puissance, de contrôle qualité, de seuils de signification et de réplication.

History

Le processus s'est cristallisé avec les premières grandes études pangénomiques au milieu des années 2000, lorsque les puces abordables et l'imputation basée sur HapMap ont rendu les tests à l'échelle du génome pratiques. L'étude du Wellcome Trust Case Control Consortium de 2007 a établi des précédents influents pour les contrôles partagés, le contrôle qualité et le seuil de 5 x 10^-8, tandis que la publication de PLINK a fourni à la communauté un ensemble d'outils analytiques communs. Les revues méthodologiques ont ensuite codifié les meilleures pratiques, et la boîte à outils analytique s'est par la suite étendue aux modèles mixtes, aux méthodes basées sur les statistiques sommaires et aux très grandes cohortes de biobanques.

Debates

Un seuil fixe de 5 x 10^-8 est-il approprié pour toutes les conceptions d'étude et toutes les ascendances ?: Le seuil pangénomique conventionnel a été calibré pour la variation commune dans les échantillons d'ascendance européenne ; un séquençage plus dense, des variants plus rares et d'autres ascendances impliquent un nombre effectif de tests indépendants différent, de sorte que la question de savoir si le seuil devrait être spécifique à la conception est débattue.

Key figures

Shaun Purcell
Mark McCarthy
Jason Moore
William Bush
Peter Visscher

Seminal works

wtccc-2007
purcell-2007
mccarthy-2008

Frequently asked questions

Pourquoi le seuil de signification des GWAS est-il fixé à environ 5 x 10^-8 ?: Il s'agit d'une approximation d'une correction de Bonferroni pour le million de variants communs effectivement indépendants dans le génome humain, ce qui maintient le taux de faux positifs à l'échelle du génome près du niveau conventionnel de 0,05.
Pourquoi une découverte de GWAS doit-elle être répliquée ?: Une seule étude peut produire des associations fallacieuses dues à des problèmes subtils de contrôle qualité, à des facteurs de confusion résiduels ou au hasard à la limite de la signification ; une réplication indépendante dans un échantillon distinct est la vérification standard qu'un signal est réel.