Multi-Armed Bandit (UCB, Thompson Sampling)
Mitmeharulise bandiidi (MAB) mudel on adaptiivne eksperimentaalne raamistik, mis jaotab järjestikku katseid konkureerivate harude vahel, et minimeerida kumulatiivset kahetsust, õppides samal ajal, milline haru toimib kõige paremini. Robbins formaliseeris selle 1952. aastal ja Auer jt (2002) andsid sellele lõpliku aja garantiid. See tasakaalustab ebakindlate valikute uurimist praegu teadaolevalt parimate valikute ärakasutamisega – ületades klassikalist A/B testimist alati, kui oluline on varajane lõpetamine või kulutundlik jaotus.
Loe meetodi täielikku kirjeldust
Selle osa lugemiseks logi sisse tasuta kontoga.
Meetodikaart
Seotud meetodite ümbruskond — vali sõlm, et seda uurida.
Allikad
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Kuidas sellele lehele viidata
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/et/experimental-design/multiarm-bandit
Milline meetod?
Aseta see meetod oma lähimate sugulaste kõrvale ja loe neid kõrvuti — raamatukogu laob raamatud lauale; valik on sinu.
- A/B-test (veebipõhine kontrollitud eksperiment)Katsedisain↔ võrdle
- Adaptiivne kliinilise uuringu disainKatsedisain↔ võrdle
- Randomized Controlled Trial (RCT)Katsedisain↔ võrdle
- Järjestikune / rühmjärjestikune katseplaanKatsedisain↔ võrdle
Sellele viitavad
Märkasid sellel lehel viga? Teata sellest või paku parandust →