Methoden zur Inferenz von Beimischung und Abstammung
Methoden zur Inferenz von Beimischung und Abstammung schätzen anhand der Genotypen eines Individuums die Anteile seines Genoms, die von verschiedenen ursprünglichen Populationsquellen stammen, und prüfen, ob Populationen in der Vergangenheit Gene ausgetauscht haben. Sie wandeln Muster der Allel-Teilung in quantitative Aussagen über Abstammung und Populationsmischung um.
Definition
Abstammungsinferenz ist die Schätzung der ursprünglichen Quelle(n) des Genoms eines Individuums aus genetischen Daten; Beimischungsinferenz schätzt spezifisch die Anteile, die von verschiedenen ursprünglichen Populationen beigetragen wurden, und testet auf historischen Genfluss zwischen ihnen.
Scope
Der Eintrag behandelt modellbasierte Clustering- und Abstammungsanteils-Schätzungen, Dimensionsreduktionsansätze und formale Beimischungstests, zusammen mit den Annahmen, auf denen diese Methoden beruhen. Es handelt sich um ein methodisches Thema; es beschreibt die statistische Inferenz genetischer Abstammung und trifft keine klinischen oder sozialen Aussagen über Abstammungskategorien.
Core questions
- Wie werden Abstammungsanteile aus Genotypdaten geschätzt?
- Wie unterscheiden sich modellbasierte Clustering- und Hauptkomponentenansätze?
- Wie wird vergangener Genfluss zwischen Populationen formal getestet?
- Welche Annahmen und Einschränkungen beeinflussen Abstammungsschätzungen?
Key concepts
- Abstammungsanteile
- Modellbasiertes Clustering (STRUCTURE/ADMIXTURE)
- Anzahl der Quellpopulationen (K)
- Hauptkomponentenanalyse
- f-Statistiken und Beimischungstests
- Referenzpanels für Abstammung
Key theories
- Modellbasierte Abstammungsmischung
- Das Genom jedes Individuums wird als eine Mischung aus K ursprünglichen Populationen mit unterschiedlichen Allelfrequenzen modelliert; Likelihood- oder Bayes-basierte Methoden schätzen gemeinsam die Allelfrequenzen der Vorfahren und die Abstammungsanteile jedes Individuums, was eine probabilistische Zerlegung der Struktur ermöglicht.
Mechanisms
Modellbasierte Methoden behandeln jedes Genom als eine Mischung aus K ursprünglichen Populationen und schätzen mittels Likelihood- oder Bayesscher Inferenz sowohl die Allelfrequenzen der Vorfahren als auch die Mischungsanteile jedes Individuums; eine effiziente Maximum-Likelihood-Implementierung machte dies im Genommaßstab praktikabel. Komplementäre Ansätze verwenden die Hauptkomponentenanalyse, um Individuen in einem niedrigdimensionalen Abstammungsraum zu platzieren, ohne Populationen im Voraus festzulegen. Formale Beimischungstests, die auf f-Statistiken basieren, vergleichen Muster der Allel-Teilung zwischen Populationen, um historischen Genfluss zu erkennen und zu quantifizieren. All diese Methoden hängen von geeigneten Referenzpopulationen und der Wahl der Anzahl der Quellpopulationen ab.
Clinical relevance
Die Abstammungsinferenz unterstützt den korrekten Umgang mit Populationsstrukturen in genetischen Studien und die angemessene Verwendung abstammungsangepasster Referenzdaten bei der Interpretation genomischer Ergebnisse. Dieser Eintrag beschreibt die statistischen Methoden zur Schätzung genetischer Abstammung und ist keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen, noch für die Gleichsetzung genetischer Abstammung mit sozialer Identität.
Evidence & guidelines
Die modellbasierte Abstammungsschätzung wurde durch das STRUCTURE-Framework etabliert und durch Maximum-Likelihood-Implementierungen skalierbar gemacht, während Hauptkomponentenmethoden und f-Statistik-Beimischungstests komplementäre, weit verbreitete Ansätze bieten; genomweite Untersuchungen der weltweiten menschlichen Variation demonstrieren ihre Anwendung über Populationen hinweg.
History
Modellbasiertes Clustering von Multilocus-Genotypen wurde um das Jahr 2000 eingeführt und wurde schnell zum Standard für die Beschreibung von Populationsstrukturen; schnellere Maximum-Likelihood-Implementierungen folgten, als genomweite Daten zunahmen. Hauptkomponentenmethoden wurden Mitte der 2000er Jahre an die Abstammungsinferenz angepasst, und f-Statistik-Frameworks formalisierten Tests für alte Beimischungen, wodurch Abstammungs- und Beimischungsinferenz zu zentralen Werkzeugen der Populationsgenomik wurden.
Debates
- Wie sollte die Anzahl der Quellpopulationen (K) gewählt und interpretiert werden?
- Modellbasierte Methoden erfordern die Angabe oder Auswahl von K, aber die inferierten Cluster sind statistische Konstrukte, deren Interpretation von der Stichprobenziehung und von K abhängt; sie als natürliche, diskrete Populationen zu behandeln, kann irreführend sein.
Key figures
- Jonathan Pritchard
- John Novembre
- David Reich
- Nick Patterson
Related topics
Seminal works
- pritchard-2000
- alexander-2009
- patterson-2012
Frequently asked questions
- Was bedeutet ein Abstammungsanteil von beispielsweise 30% aus einer Population?
- Es handelt sich um eine modellbasierte Schätzung, dass ungefähr 30% des Genoms des Individuums am besten durch die Allelfrequenzen dieser inferierten ursprünglichen Quelle erklärt werden; es ist eine statistische Zerlegung relativ zu den gewählten Referenzpopulationen, keine feste biologische Bezeichnung.
- Wie wird Beimischung zwischen Populationen erkannt?
- Formale Tests, die auf f-Statistiken basieren, vergleichen Muster der gemeinsamen Variation zwischen mehreren Populationen; Abweichungen von dem, was ohne Genfluss zu erwarten wäre, liefern Hinweise darauf, dass eine Beimischung stattgefunden hat.