ScholarGate
Assistent
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling)

De multi-armed bandit (MAB) is een adaptief experimenteel raamwerk dat proeven sequentieel toewijst aan concurrerende armen om de cumulatieve regret te minimaliseren, terwijl tegelijkertijd wordt geleerd welke arm het beste presteert. Geformaliseerd door Robbins in 1952 en met eindige-tijdgaranties door Auer et al. (2002), balanceert het exploratie van onzekere opties tegen exploitatie van momenteel bekende beste opties — en presteert het beter dan klassieke A/B-testen wanneer vroegtijdig stoppen of kostengevoelige toewijzing belangrijk is.

Onderwerp vinden met PaperMindBinnenkortVideoBinnenkortDia's downloaden

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Methodenkaart

De omgeving van verwante methoden — selecteer een knooppunt om te verkennen.

Bronnen

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Deze pagina citeren

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/nl/experimental-design/multiarm-bandit

Welke methode?

Plaats deze methode naast haar naaste verwanten en lees ze naast elkaar — de bibliotheek legt de boeken op tafel; de keuze is aan u.

Naast elkaar vergelijken

Geciteerd door

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/experimental-design/multiarm-bandit · Gegevensset: https://doi.org/10.5281/zenodo.20539026