Bandit multi-bras (UCB, Échantillonnage de Thompson)
Le bandit multi-bras (MAB) est un cadre expérimental adaptatif qui alloue séquentiellement les essais entre des bras concurrents afin de minimiser le regret cumulé tout en apprenant simultanément quel bras est le plus performant. Formalisé par Robbins en 1952 et doté de garanties en temps fini par Auer et al. (2002), il équilibre l'exploration d'options incertaines et l'exploitation des options actuellement connues comme étant les meilleures — surpassant les tests A/B classiques lorsque l'arrêt précoce ou l'allocation sensible aux coûts est importante.
Lire la méthode complète
Connectez-vous avec un compte gratuit pour lire cette section.
Carte des méthodes
Le voisinage des méthodes apparentées — sélectionnez un nœud pour explorer.
Sources
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Comment citer cette page
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/fr/experimental-design/multiarm-bandit
Quelle méthode ?
Placez cette méthode aux côtés de ses plus proches parentes et lisez-les côte à côte — la bibliothèque pose les ouvrages sur la table ; le choix vous revient.
- Test A/B (Expérience Contrôlée en Ligne)Plans d'expériences↔ comparer
- Conception d'essais cliniques adaptatifsPlans d'expériences↔ comparer
- Essai contrôlé randomisé (ECR)Plans d'expériences↔ comparer
- Conception séquentielle / de groupes séquentielsPlans d'expériences↔ comparer
Référencée par
Une erreur sur cette page ? Signalez-la ou proposez une correction →