Multi-Armed Bandit (UCB, Thompson Sampling) — Adaptiv Ressourceallokeringsmetode
Multi-armed bandit (MAB) er et adaptivt eksperimentelt framework, der sekventielt allokerer forsøg på tværs af konkurrerende arme for at minimere kumulativt 'regret' (tabt gevinst), samtidig med at der læres, hvilken arm der præsterer bedst. Formuleret af Robbins i 1952 og med garantier for endelig tid af Auer et al. (2002), balancerer det udforskning af usikre muligheder mod udnyttelse af de aktuelt kendte bedste muligheder — og overgår klassisk A/B-testning, når tidlig afslutning eller omkostningsfølsom allokering er vigtig.
Læs hele metoden
Log ind med en gratis konto for at læse dette afsnit.
Metodekort
Nabolaget af beslægtede metoder — vælg en knude for at udforske.
Kilder
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Sådan citerer du denne side
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/da/experimental-design/multiarm-bandit
Hvilken metode?
Stil denne metode ved siden af dens nærmeste slægtninge, og læs dem side om side — biblioteket lægger bøgerne på bordet; valget er dit.
- A/B Test (Online Kontrolleret Eksperiment)Forsøgsdesign↔ sammenlign
- Adaptivt klinisk forsøgsdesignForsøgsdesign↔ sammenlign
- Randomiseret Kontrolleret Forsøg (RCT)Forsøgsdesign↔ sammenlign
- Sekventielt / Gruppesekventielt forsøgsdesignForsøgsdesign↔ sammenlign
Refereret af
Har du fundet en fejl på denne side? Indberet den eller foreslå en rettelse →