Méthodes d'inférence phylogénétique
Une famille de méthodes computationnelles, incluant les méthodes de distance, de parcimonie, du maximum de vraisemblance et bayésiennes, permet d'estimer les arbres évolutifs à partir de données moléculaires et morphologiques.
Definition
Les méthodes d'inférence phylogénétique sont des algorithmes et des cadres statistiques qui estiment les relations de ramification entre taxons à partir de données de caractères observées, généralement sous des modèles explicites de changement évolutif.
Scope
Ce sujet couvre les principales classes de méthodes d'estimation d'arbres : les méthodes de distance telles que le neighbor-joining, la parcimonie basée sur les caractères, le maximum de vraisemblance basé sur des modèles, et l'inférence bayésienne utilisant les chaînes de Markov Monte Carlo, ainsi que les modèles de substitution, les critères d'optimalité et les logiciels qui les implémentent.
Core questions
- Quelles sont les principales classes de méthodes d'inférence d'arbres ?
- En quoi les approches de distance, de parcimonie, de vraisemblance et bayésiennes diffèrent-elles ?
- Quel rôle les modèles de substitution jouent-ils dans l'inférence ?
- Comment les méthodes s'adaptent-elles aux grands ensembles de données ?
Key theories
- Inférence par maximum de vraisemblance
- Le maximum de vraisemblance sélectionne l'arbre et les paramètres du modèle qui rendent les séquences observées les plus probables sous un modèle de substitution explicite, offrant un cadre statistiquement cohérent.
- Méthodes de distance
- Les approches de distance, telles que le neighbor-joining, convertissent rapidement les différences de séquences par paires en un arbre, offrant une rapidité au détriment de l'information au niveau des caractères.
- Inférence bayésienne avec MCMC
- Les méthodes bayésiennes échantillonnent les arbres proportionnellement à leur probabilité postérieure en utilisant les chaînes de Markov Monte Carlo, fournissant à la fois une estimation de l'arbre et une mesure de l'incertitude.
Clinical relevance
Ces méthodes sont utilisées pour reconstituer les historiques de transmission d'agents pathogènes, dater les événements de divergence et positionner les organismes nouvellement découverts, soutenant directement l'épidémiologie moléculaire et la génomique comparative.
History
Le cadre de vraisemblance de Felsenstein en 1981 et le neighbor-joining de Saitou et Nei en 1987 ont établi les traditions statistique et de distance ; des logiciels largement adoptés tels que MrBayes et RAxML dans les années 2000 ont rendu routinières les analyses bayésiennes et de vraisemblance à grande échelle.
Debates
- Vitesse versus précision des méthodes
- Les méthodes de distance et de parcimonie sont rapides mais impliquent des simplifications plus importantes, tandis que les méthodes de vraisemblance et bayésiennes sont plus précises mais exigeantes en termes de calcul, un compromis qui influence le choix de la méthode pour les grands ensembles de données.
Key figures
- Joseph Felsenstein
- Masatoshi Nei
- John Huelsenbeck
Related topics
Seminal works
- felsenstein1981
- saitounei1987
- ronquist2003
- stamatakis2006
Frequently asked questions
- Quelle est la différence entre la phylogénétique par maximum de vraisemblance et la phylogénétique bayésienne ?
- Le maximum de vraisemblance identifie l'arbre unique et les paramètres qui correspondent le mieux aux données, tandis que l'inférence bayésienne produit une distribution d'arbres pondérée par leur probabilité postérieure, exprimant naturellement l'incertitude.
- Pourquoi les modèles de substitution sont-ils nécessaires ?
- Parce que les différences de séquences observées sous-estiment le nombre réel de changements lorsque les sites mutent plus d'une fois ; les modèles corrigent les taux inégaux et les mutations multiples pour estimer les arbres avec précision.