Multi-Armed Bandit (UCB, Thompson Sampling)
De multi-armed bandit (MAB) is een adaptief experimenteel raamwerk dat proeven sequentieel toewijst aan concurrerende armen om de cumulatieve regret te minimaliseren, terwijl tegelijkertijd wordt geleerd welke arm het beste presteert. Geformaliseerd door Robbins in 1952 en met eindige-tijdgaranties door Auer et al. (2002), balanceert het exploratie van onzekere opties tegen exploitatie van momenteel bekende beste opties — en presteert het beter dan klassieke A/B-testen wanneer vroegtijdig stoppen of kostengevoelige toewijzing belangrijk is.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Methodenkaart
De omgeving van verwante methoden — selecteer een knooppunt om te verkennen.
Bronnen
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Deze pagina citeren
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/nl/experimental-design/multiarm-bandit
Welke methode?
Plaats deze methode naast haar naaste verwanten en lees ze naast elkaar — de bibliotheek legt de boeken op tafel; de keuze is aan u.
- A/B-test (online gecontroleerd experiment)Experimenteel ontwerp↔ vergelijken
- Adaptief Klinisch OnderzoeksontwerpExperimenteel ontwerp↔ vergelijken
- Gerandomiseerde gecontroleerde studie (RCT)Experimenteel ontwerp↔ vergelijken
- Sequentiële / Groep-sequentiële proefopzetExperimenteel ontwerp↔ vergelijken
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →