ScholarGate
Assistent
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling) — Adaptiv Ressourceallokeringsmetode

Multi-armed bandit (MAB) er et adaptivt eksperimentelt framework, der sekventielt allokerer forsøg på tværs af konkurrerende arme for at minimere kumulativt 'regret' (tabt gevinst), samtidig med at der læres, hvilken arm der præsterer bedst. Formuleret af Robbins i 1952 og med garantier for endelig tid af Auer et al. (2002), balancerer det udforskning af usikre muligheder mod udnyttelse af de aktuelt kendte bedste muligheder — og overgår klassisk A/B-testning, når tidlig afslutning eller omkostningsfølsom allokering er vigtig.

Find emne med PaperMindSnartVideoSnartHent slides

Læs hele metoden

Kun for medlemmer

Log ind med en gratis konto for at læse dette afsnit.

Log ind

Metodekort

Nabolaget af beslægtede metoder — vælg en knude for at udforske.

Kilder

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Sådan citerer du denne side

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/da/experimental-design/multiarm-bandit

Hvilken metode?

Stil denne metode ved siden af dens nærmeste slægtninge, og læs dem side om side — biblioteket lægger bøgerne på bordet; valget er dit.

Sammenlign side om side

Refereret af

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Hentet 2026-06-15 fra https://scholargate.app/da/experimental-design/multiarm-bandit · Datasæt: https://doi.org/10.5281/zenodo.20539026