Warum liegt der GWAS-Signifikanzschwellenwert nahe bei 5 x 10^-8?

Er approximiert eine Bonferroni-Korrektur für die etwa eine Million effektiv unabhängigen häufigen Varianten im menschlichen Genom, wodurch die genomweite Falsch-Positiv-Rate nahe dem konventionellen 0,05-Niveau gehalten wird.

Warum muss ein GWAS-Befund repliziert werden?

Eine einzelne Studie kann zu scheinbaren Assoziationen aufgrund subtiler Probleme bei der Qualitätskontrolle, Reststörfaktoren oder Zufall am Rande der Signifikanz führen; eine unabhängige Replikation in einer separaten Stichprobe ist die Standardprüfung, ob ein Signal real ist.

GWAS-Design, -Durchführung und statistische Methoden

Das Design und die Analyse einer genomweiten Assoziationsstudie (GWAS) ist ein disziplinierter Prozess: gut phänotypisierte Fälle und Kontrollen (oder eine Kohorte mit quantitativen Merkmalen) werden zusammengeführt, Varianten genomweit genotypisiert und imputiert, die Daten einer strengen Qualitätskontrolle unterzogen, jede Variante auf Assoziation getestet, während die Abstammung berücksichtigt wird, und Signale anhand eines genomweiten Signifikanzschwellenwerts beurteilt, bevor eine Replikation angestrebt wird. Jeder Schritt dient dazu, die enorme Anzahl statistischer Tests vor der Produktion von falsch positiven Ergebnissen zu schützen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

GWAS-Design und -Analyse ist die Menge von Studien-Design-Entscheidungen und statistischen Verfahren, mittels derer Varianten-Phänotyp-Assoziationen genomweit getestet, falsch positive Ergebnisse über Millionen von Vergleichen hinweg kontrolliert und glaubwürdige Signale von Artefakten der Genotypisierung, Verwandtschaft oder Abstammung unterschieden werden.

Scope

Dieses Thema behandelt das methodische Rückgrat einer GWAS: Stichproben- und Phänotypdefinition, Genotypisierung und Imputation, Qualitätskontrollfilter, das Einzelmarker-Assoziationsmodell, die Korrektur für multiples Testen und genomweite Signifikanz, Diagnostika wie den genomischen Inflationsfaktor und QQ-/Manhattan-Plots sowie die Replikation. Es handelt sich um eine Methodenreferenz und nicht um ein Protokoll für klinische Gentests.

Core questions

Welche Stichprobengröße und Phänotypdefinition bieten eine ausreichende Power, um Varianten mit geringem Effekt zu detektieren?
Welche Qualitätskontrollfilter entfernen unzuverlässige Varianten und Proben vor dem Testen?
Welches Regressionsmodell wird für einen Einzelmarker-Assoziationstest verwendet und wie wird die Abstammung angepasst?
Welcher Signifikanzschwellenwert kontrolliert genomweite falsch positive Ergebnisse und warum liegt er nahe bei 5 x 10^-8?
Wie wird ein echtes Signal von genomischer Inflation unterschieden und warum ist eine Replikation erforderlich?

Key concepts

Fall-Kontroll- und quantitative Merkmalsdesigns
Genotyp-Calling und Imputation
Qualitätskontrolle (Call-Rate, MAF, Hardy-Weinberg-Gleichgewichtsfilter)
Einzelmarker-Assoziationstest (logistische oder lineare Regression)
Additives genetisches Modell und Per-Allel-Effekt (Odds Ratio oder Beta)
Genomweiter Signifikanzschwellenwert (~5 x 10^-8)
Genomischer Inflationsfaktor (Lambda) und QQ-Plots
Manhattan-Plot und Replikation

Mechanisms

Jede Variante wird typischerweise mit einem Regressionsmodell getestet – logistisch für binären Krankheitsstatus, linear für quantitative Merkmale –, wobei die Variante unter einem additiven (pro Allel) Modell kodiert wird und Hauptkomponenten der Abstammung sowie andere Kovariaten zur Kontrolle von Störfaktoren (confounding) einbezogen werden. Das Ergebnis pro Variante ist eine Effektschätzung (Odds Ratio oder Beta) und ein p-Wert. Da Hunderttausende bis Millionen weitgehend unabhängiger häufiger Varianten getestet werden, wird die Signifikanz anhand eines genomweiten Schwellenwerts von etwa 5 x 10^-8 beurteilt, der aus einer Bonferroni-ähnlichen Korrektur für die effektive Anzahl unabhängiger Tests abgeleitet ist. Vor dem Testen entfernt die Qualitätskontrolle Proben und Varianten mit niedrigen Aufrufraten (call rates), extremer Abweichung vom Hardy-Weinberg-Gleichgewicht in Kontrollen, sehr niedriger Minor-Allel-Frequenz oder Anzeichen von Verwandtschaft und Populationsausreißern. Der genomische Inflationsfaktor und QQ-Plots weisen auf Reststörfaktoren hin; Manhattan-Plots zeigen Signale über das Genom hinweg an; und eine unabhängige Replikation schützt vor designspezifischen Artefakten. Software wie PLINK standardisierte diese Schritte.

Clinical relevance

Das Verständnis von GWAS-Design und -Analyse ist Teil der Bewertung genetischer Evidenz, die in der Krankheitsforschung und bei der Konstruktion polygener Scores zitiert wird. Dieses Thema erklärt, wie Assoziationen generiert und validiert werden, und ist deskriptiv; es ist kein Verfahren für die individuelle genetische Diagnose oder für klinische Entscheidungen.

Evidence & guidelines

Analytische Konventionen wurden durch Konsortiumserfahrungen und methodische Überprüfungen konsolidiert und nicht durch formale klinische Leitlinien. Das Wellcome Trust Case Control Consortium (2007) demonstrierte ein Shared-Control-Design und eine rigorose Qualitätskontrolle in großem Maßstab; PLINK (Purcell et al., 2007) wurde zu einem Standard-Analyse-Toolkit; und Überprüfungen von McCarthy et al. (2008) sowie Bush und Moore (2012) legen weithin akzeptierte Erwartungen an Power, Qualitätskontrolle, Signifikanzschwellen und Replikation dar.

History

Der Prozess kristallisierte sich mit den ersten großen genomweiten Scans Mitte der 2000er Jahre heraus, als erschwingliche Arrays und HapMap-basierte Imputation das genomweite Testen praktikabel machten. Die Studie des Wellcome Trust Case Control Consortium von 2007 setzte maßgebliche Präzedenzfälle für gemeinsame Kontrollen, Qualitätskontrolle und den Schwellenwert von 5 x 10^-8, während die Veröffentlichung von PLINK der Gemeinschaft ein gemeinsames Analyse-Toolset zur Verfügung stellte. Methodische Überprüfungen kodifizierten anschließend Best Practices, und das Analyse-Toolkit wurde später um gemischte Modelle, Summary-Statistik-Methoden und sehr große Biobank-Kohorten erweitert.

Debates

Ist ein fester Schwellenwert von 5 x 10^-8 über verschiedene Studiendesigns und Abstammungen hinweg angemessen?: Der konventionelle genomweite Schwellenwert wurde für häufige Variationen in Proben europäischer Abstammung kalibriert; dichtere Sequenzierung, seltenere Varianten und andere Abstammungen implizieren eine andere effektive Anzahl unabhängiger Tests, daher wird diskutiert, ob der Schwellenwert designspezifisch sein sollte.

Key figures

Shaun Purcell
Mark McCarthy
Jason Moore
William Bush
Peter Visscher

Seminal works

wtccc-2007
purcell-2007
mccarthy-2008

Frequently asked questions

Warum liegt der GWAS-Signifikanzschwellenwert nahe bei 5 x 10^-8?: Er approximiert eine Bonferroni-Korrektur für die etwa eine Million effektiv unabhängigen häufigen Varianten im menschlichen Genom, wodurch die genomweite Falsch-Positiv-Rate nahe dem konventionellen 0,05-Niveau gehalten wird.
Warum muss ein GWAS-Befund repliziert werden?: Eine einzelne Studie kann zu scheinbaren Assoziationen aufgrund subtiler Probleme bei der Qualitätskontrolle, Reststörfaktoren oder Zufall am Rande der Signifikanz führen; eine unabhängige Replikation in einer separaten Stichprobe ist die Standardprüfung, ob ein Signal real ist.