ScholarGate
Assistent
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling)

Multi-armed bandit (MAB) är ett adaptivt experimentellt ramverk som sekventiellt allokerar försök över konkurrerande "armar" för att minimera kumulativ "regret" (förlust) samtidigt som det lär sig vilken arm som presterar bäst. Formaliserat av Robbins 1952 och med ändliga tidsgarantier av Auer et al. (2002), balanserar det utforskning av osäkra alternativ mot exploatering av för närvarande kända bästa alternativ – vilket överträffar klassisk A/B-testning när tidig stoppning eller kostnadskänslig allokering är viktig.

Hitta ämne med PaperMindSnartVideoSnartLadda ner bildspel

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Metodkarta

Närområdet av besläktade metoder — välj en nod för att utforska.

Källor

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Så citerar du den här sidan

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/sv/experimental-design/multiarm-bandit

Vilken metod?

Placera den här metoden bredvid sina närmaste släktingar och läs dem sida vid sida — biblioteket lägger fram böckerna på bordet; valet är ditt.

Jämför sida vid sida

Refereras av

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Hämtad 2026-06-15 från https://scholargate.app/sv/experimental-design/multiarm-bandit · Datamängd: https://doi.org/10.5281/zenodo.20539026