Bandit de múltiples armes (UCB, Thompson Sampling)
Imagineu una fila de màquines escurabutacs (bandits), cadascuna amb una probabilitat de pagament desconeguda. Una estratègia ingènua juga a cada màquina per igual, malgastant tirades en les dolentes. Una estratègia intel·ligent fa un seguiment de quines màquines han pagat bé fins ara i les juga més sovint, però continua explorant-ne d'altres prou per evitar perdre's un guanyador ocult. L'algoritme del bandit de múltiples armes formalitza aquest compromís: acumula evidència sobre cada braç i dirigeix les proves futures cap als més prometedors, sense esperar que l'experiment acabi.
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Mapa de mètodes
El veïnat de mètodes relacionats — seleccioneu un node per explorar-lo.
Fonts
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Com citar aquesta pàgina
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ca/experimental-design/multiarm-bandit
Quin mètode?
Poseu aquest mètode al costat dels seus parents més pròxims i llegiu-los de costat a costat — la biblioteca disposa els llibres sobre la taula; la tria és vostra.
- Test A/B (Experiment Controlat en Línia)Disseny experimental↔ compara
- Disseny de assaigs clínics adaptatiusDisseny experimental↔ compara
- Assaig Controlat Aleatori (RCT)Disseny experimental↔ compara
- Disseny de proves seqüencials / grupals seqüencialsDisseny experimental↔ compara
Citat per
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →