Méthodes d'inférence d'ascendance et d'admixture
Les méthodes d'inférence d'ascendance et d'admixture estiment, à partir des génotypes d'un individu, les proportions de son génome dérivées de différentes populations ancestrales sources, et testent si les populations ont échangé des gènes par le passé. Elles transforment les schémas de partage d'allèles en déclarations quantitatives sur l'ascendance et le mélange des populations.
Definition
L'inférence d'ascendance est l'estimation de la ou des sources ancestrales du génome d'un individu à partir de données génétiques ; l'inférence d'admixture estime spécifiquement les proportions contribuées par des populations ancestrales distinctes et teste le flux génique historique entre elles.
Scope
Cette entrée couvre le regroupement basé sur des modèles et l'estimation des proportions d'ascendance, les approches de réduction de dimensionnalité, et les tests formels d'admixture, ainsi que les hypothèses sur lesquelles ces méthodes reposent. Il s'agit d'un sujet méthodologique ; il décrit l'inférence statistique de l'ascendance génétique et ne formule aucune allégation clinique ou sociale concernant les catégories d'ascendance.
Core questions
- Comment les proportions d'ascendance sont-elles estimées à partir des données de génotype ?
- En quoi les approches de regroupement basées sur des modèles et celles en composantes principales diffèrent-elles ?
- Comment le flux génique passé entre les populations est-il formellement testé ?
- Quelles hypothèses et limitations affectent les estimations d'ascendance ?
Key concepts
- Proportions d'ascendance
- Regroupement basé sur des modèles (STRUCTURE/ADMIXTURE)
- Nombre de populations sources (K)
- Analyse en composantes principales
- Statistiques f et tests d'admixture
- Panels de référence pour l'ascendance
Key theories
- Mélange d'ascendance basé sur des modèles
- Le génome de chaque individu est modélisé comme un mélange issu de K populations ancestrales avec des fréquences alléliques distinctes ; les méthodes basées sur la vraisemblance ou bayésiennes estiment conjointement les fréquences alléliques ancestrales et les proportions d'ascendance de chaque individu, fournissant une décomposition probabiliste de la structure.
Mechanisms
Les méthodes basées sur des modèles traitent chaque génome comme un mélange de K populations ancestrales et estiment, par inférence de vraisemblance ou bayésienne, à la fois les fréquences alléliques ancestrales et les proportions de mélange de chaque individu ; une implémentation efficace du maximum de vraisemblance a rendu cela réalisable à l'échelle du génome. Des approches complémentaires utilisent l'analyse en composantes principales pour placer les individus dans un espace d'ascendance de faible dimension sans spécifier les populations à l'avance. Les tests formels d'admixture basés sur les statistiques f comparent les schémas de partage d'allèles entre les populations pour détecter et quantifier le flux génique historique. Toutes ces méthodes dépendent de populations de référence appropriées et du choix du nombre de populations sources.
Clinical relevance
L'inférence d'ascendance soutient la gestion correcte de la structure de population dans les études génétiques et l'utilisation appropriée de données de référence appariées à l'ascendance lors de l'interprétation des résultats génomiques. Cette entrée décrit les méthodes statistiques utilisées pour estimer l'ascendance génétique et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles, ni pour assimiler l'ascendance génétique à l'identité sociale.
Evidence & guidelines
L'estimation d'ascendance basée sur des modèles a été établie par le cadre STRUCTURE et rendue évolutive par des implémentations de maximum de vraisemblance, tandis que les méthodes en composantes principales et les tests d'admixture basés sur les statistiques f offrent des approches complémentaires et largement utilisées ; des études pangénomiques de la variation humaine mondiale démontrent leur application à travers les populations.
History
Le regroupement basé sur des modèles de génotypes multilocus a été introduit vers 2000 et est rapidement devenu la norme pour décrire la structure des populations ; des implémentations plus rapides du maximum de vraisemblance ont suivi à mesure que les données pangénomiques augmentaient. Les méthodes en composantes principales ont été adaptées à l'inférence d'ascendance au milieu des années 2000, et les cadres de statistiques f ont formalisé les tests d'admixture ancienne, faisant ainsi de l'inférence d'ascendance et d'admixture des outils centraux de la génomique des populations.
Debates
- Comment le nombre de populations sources (K) doit-il être choisi et interprété ?
- Les méthodes basées sur des modèles nécessitent de spécifier ou de sélectionner K, mais les regroupements inférés sont des constructions statistiques dont l'interprétation dépend de l'échantillonnage et de K ; les traiter comme des populations naturelles et discrètes peut être trompeur.
Key figures
- Jonathan Pritchard
- John Novembre
- David Reich
- Nick Patterson
Related topics
Seminal works
- pritchard-2000
- alexander-2009
- patterson-2012
Frequently asked questions
- Que signifie une proportion d'ascendance, par exemple, de 30 % provenant d'une population ?
- Il s'agit d'une estimation basée sur un modèle selon laquelle environ 30 % du génome de l'individu est mieux expliqué par les fréquences alléliques de cette source ancestrale inférée ; il s'agit d'une décomposition statistique relative aux populations de référence choisies, et non d'une étiquette biologique fixe.
- Comment l'admixture entre les populations est-elle détectée ?
- Les tests formels basés sur les statistiques f comparent les schémas de variation partagée entre plusieurs populations ; les déviations par rapport à ce qui serait attendu sans flux génique fournissent des preuves qu'une admixture s'est produite.