Multi-Armed Bandit (UCB, Thompson Sampling)
Il multi-armed bandit (MAB) è un framework sperimentale adattivo che alloca sequenzialmente le prove tra bracci concorrenti per minimizzare il rimpianto cumulativo, imparando al contempo quale braccio performa meglio. Formalizzato da Robbins nel 1952 e dotato di garanzie di tempo finito da Auer et al. (2002), bilancia l'esplorazione di opzioni incerte con lo sfruttamento delle opzioni attualmente note come migliori — superando il classico A/B testing ogni volta che sono importanti l'arresto anticipato o l'allocazione sensibile ai costi.
Leggi il metodo completo
Accedi con un account gratuito per leggere questa sezione.
Method map
The neighbourhood of related methods — select a node to explore.
Fonti
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Come citare questa pagina
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/it/experimental-design/multiarm-bandit
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Test A/B (Esperimento Controllato Online)Disegno sperimentale↔ compare
- Disegno Adattivo di Studi CliniciDisegno sperimentale↔ compare
- Trial Controllato Randomizzato (RCT)Disegno sperimentale↔ compare
- Progettazione di studi sequenziali / di gruppo sequenzialeDisegno sperimentale↔ compare
Citato da
Hai notato un problema in questa pagina? Segnalalo o proponi una correzione →