ScholarGate
Assistant
Hypothesis test

Bandit multi-bras (UCB, Échantillonnage de Thompson)

Le bandit multi-bras (MAB) est un cadre expérimental adaptatif qui alloue séquentiellement les essais entre des bras concurrents afin de minimiser le regret cumulé tout en apprenant simultanément quel bras est le plus performant. Formalisé par Robbins en 1952 et doté de garanties en temps fini par Auer et al. (2002), il équilibre l'exploration d'options incertaines et l'exploitation des options actuellement connues comme étant les meilleures — surpassant les tests A/B classiques lorsque l'arrêt précoce ou l'allocation sensible aux coûts est importante.

Trouver un sujet avec PaperMindBientôtVidéoBientôtTélécharger les diapositives

Lire la méthode complète

Réservé aux membres

Connectez-vous avec un compte gratuit pour lire cette section.

Se connecter

Carte des méthodes

Le voisinage des méthodes apparentées — sélectionnez un nœud pour explorer.

Sources

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Comment citer cette page

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/fr/experimental-design/multiarm-bandit

Quelle méthode ?

Placez cette méthode aux côtés de ses plus proches parentes et lisez-les côte à côte — la bibliothèque pose les ouvrages sur la table ; le choix vous revient.

Comparer côte à côte

Référencée par

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Consulté le 2026-06-15 sur https://scholargate.app/fr/experimental-design/multiarm-bandit · Jeu de données : https://doi.org/10.5281/zenodo.20539026