Multi-Armed Bandit (UCB, Thompson Sampling)
Multi-armed bandit (MAB) är ett adaptivt experimentellt ramverk som sekventiellt allokerar försök över konkurrerande "armar" för att minimera kumulativ "regret" (förlust) samtidigt som det lär sig vilken arm som presterar bäst. Formaliserat av Robbins 1952 och med ändliga tidsgarantier av Auer et al. (2002), balanserar det utforskning av osäkra alternativ mot exploatering av för närvarande kända bästa alternativ – vilket överträffar klassisk A/B-testning när tidig stoppning eller kostnadskänslig allokering är viktig.
Läs hela metoden
Logga in med ett kostnadsfritt konto för att läsa avsnittet.
Metodkarta
Närområdet av besläktade metoder — välj en nod för att utforska.
Källor
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Så citerar du den här sidan
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/sv/experimental-design/multiarm-bandit
Vilken metod?
Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.
- A/B-test (online kontrollerat experiment)Försöksplanering↔ jämför
- Adaptiv klinisk prövningsdesignFörsöksplanering↔ jämför
- Randomiserad kontrollerad studie (RCT)Försöksplanering↔ jämför
- Sekventiell / Gruppsekventiell studiedesignFörsöksplanering↔ jämför
Refereras av
Hittade du ett fel på sidan? Rapportera eller föreslå en rättelse →