Wie ermöglicht das Kopplungsungleichgewicht, dass eine GWAS nur einige Varianten typisiert?

Da Varianten in einem Haplotypenblock stark korreliert sind, trägt ein genotypisierter Tag-SNP Informationen über seine nicht typisierten Nachbarn, sodass ein Array gut gewählter Tags die meisten häufigen Variationen im Genom erfasst.

Was ist der Unterschied zwischen D' und r-Quadrat?

D' misst, ob die Rekombination zwei Allele historisch getrennt hat, während r-Quadrat misst, wie gut eine Variante eine andere statistisch vorhersagt; r-Quadrat ist die Größe, die für die Aussagekraft von Tag-SNP-basierten Assoziationstests am relevantesten ist.

Kopplungsungleichgewicht und SNP-Tagging

Kopplungsungleichgewicht (Linkage Disequilibrium, LD) ist das nicht-zufällige gemeinsame Auftreten von Allelen an verschiedenen Positionen im Genom: Varianten, die nahe beieinander liegen, werden tendenziell gemeinsam als Haplotypenblöcke vererbt. Diese Korrelation ermöglicht es, genomweite Assoziationsstudien erschwinglich zu machen – ein Genotypisierungsarray muss nur eine Untergruppe sorgfältig ausgewählter „Tag“-SNPs typisieren, da jeder Tag statistisch für die nicht typisierten Varianten steht, mit denen er sich in starkem LD befindet.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Kopplungsungleichgewicht ist die statistische Assoziation zwischen Allelen an zwei oder mehr Loci – ihr gemeinsames Auftreten auf Haplotypen, das häufiger oder seltener ist, als wenn sie unabhängig wären – und SNP-Tagging ist die Verwendung einer Untergruppe von Varianten, die durch LD die Variation nicht typisierter benachbarter Stellen erfassen.

Scope

Dieses Thema erklärt, was LD ist, wie es gemessen wird (D' und r-Quadrat), warum es Blöcke bildet, die durch Rekombination und Populationsgeschichte geformt werden, wie Tag-SNPs ausgewählt werden, um häufige Variationen effizient zu erfassen, und wie LD sowohl die Assoziationskartierung ermöglicht als auch die Lokalisierung kausaler Varianten erschwert. Es handelt sich um eine methodische Referenz, nicht um eine klinische Leitlinie.

Core questions

Was bedeutet es, wenn zwei Varianten im Kopplungsungleichgewicht stehen?
Wie werden D' und r-Quadrat zur Quantifizierung von LD verwendet und wie unterscheiden sie sich?
Warum zerfällt das Genom in Haplotypenblöcke und was bestimmt deren Grenzen?
Wie werden Tag-SNPs ausgewählt, damit ein Array die meisten häufigen Variationen erfasst?
Warum erschwert LD die Identifizierung der tatsächlichen kausalen Variante innerhalb einer assoziierten Region?

Key concepts

Haplotyp und Haplotypenblock
D' (normalisierter Ungleichgewichtskoeffizient)
r-Quadrat (Korrelation zwischen Markern)
Rekombinations-Hotspots
Tag-SNP-Auswahl
Referenz-Haplotypen-Panels (HapMap, 1000 Genomes)
Fein-Kartierung und Kausalvarianten-Ambiguität

Mechanisms

Allele an benachbarten Loci werden gemeinsam vererbt, bis die Rekombination sie trennt. Daher nimmt LD über Generationen mit der genetischen Distanz ab und wird an Rekombinations-Hotspots aufgebrochen, wodurch Blöcke mit hoher interner Korrelation entstehen. Zwei gängige Maße quantifizieren dies: D' erfasst, ob Rekombination zwischen zwei Stellen stattgefunden hat, während r-Quadrat misst, wie gut eine Variante eine andere vorhersagt, und direkt die verlorene Aussagekraft bestimmt, wenn ein Tag-SNP eine nicht typisierte kausale Variante repräsentiert. Da Varianten innerhalb eines Blocks stark korreliert sind, kann ein Array einen ausgewählten Satz von Tag-SNPs genotypisieren und die meisten häufigen Variationen erfassen. Fehlende Varianten können statistisch anhand sequenzierter Referenzpanels wie HapMap und des 1000 Genomes Project imputiert werden. Dieselbe Korrelation, die das Tagging ermöglicht, bedeutet auch, dass ein Assoziationssignal über viele Varianten in einem Block geteilt wird, sodass die Identifizierung der wahren kausalen Variante eine zusätzliche Fein-Kartierung erfordert, anstatt einfach den signifikantesten Marker zu wählen.

Clinical relevance

Die LD-Struktur ist die Grundlage dafür, wie genomweite genetische Evidenz generiert und wie Assoziationsregionen in der Krankheitsforschung interpretiert werden. Dieses Thema beschreibt Methoden und Populationsgenetik; es ist keine Grundlage für individuelle Gentests oder klinische Interpretationen.

Evidence & guidelines

Das Wissen über die menschliche LD-Struktur basiert auf großen Referenzressourcen und nicht auf klinischen Leitlinien. Das International HapMap Project (2007) kartierte genomweites LD und Tag-SNPs, das 1000 Genomes Project (2015) erweiterte Referenzhaplotypen über verschiedene Populationen hinweg, und Übersichtsartikel wie Slatkin (2008) und Bush und Moore (2012) erläutern, wie LD-Maße und Tagging in der Assoziationskartierung angewendet werden.

History

Das Konzept der allelischen Assoziation existierte bereits vor der Genomik, aber seine praktische Bedeutung wuchs mit der Entdeckung in den frühen 2000er Jahren, dass das menschliche Genom eine blockartige Haplotypenstruktur aufweist, die durch Rekombinations-Hotspots geformt wird. Das HapMap Project katalogisierte dann genomweites LD und ermöglichte die Auswahl von Tag-SNPs, was direkt die ersten erschwinglichen GWAS-Arrays ermöglichte. Das 1000 Genomes Project erweiterte später die Referenzpanels auf viele Populationen, verbesserte die Imputation und zeigte, wie sich LD-Muster je nach Abstammung unterscheiden.

Debates

Übertragen sich LD-Muster über Populationen hinweg?: Haplotypenstruktur und LD variieren mit der Populationsgeschichte, sodass Tag-SNPs und Imputationspanels, die in einer Abstammung optimiert wurden, Variationen in einer anderen unvollständig erfassen, was zur verminderten Leistung von europäischen Arrays und Scores in anderen Populationen beiträgt.

Key figures

Montgomery Slatkin
Mark Daly
David Altshuler
Goncalo Abecasis
William Bush

Seminal works

slatkin-2008
hapmap-2007
1000g-2015

Frequently asked questions

Wie ermöglicht das Kopplungsungleichgewicht, dass eine GWAS nur einige Varianten typisiert?: Da Varianten in einem Haplotypenblock stark korreliert sind, trägt ein genotypisierter Tag-SNP Informationen über seine nicht typisierten Nachbarn, sodass ein Array gut gewählter Tags die meisten häufigen Variationen im Genom erfasst.
Was ist der Unterschied zwischen D' und r-Quadrat?: D' misst, ob die Rekombination zwei Allele historisch getrennt hat, während r-Quadrat misst, wie gut eine Variante eine andere statistisch vorhersagt; r-Quadrat ist die Größe, die für die Aussagekraft von Tag-SNP-basierten Assoziationstests am relevantesten ist.