ScholarGate
Assistent
Hypothesis test

Multi-Armed Bandit (UCB, Thompson Sampling)

Mitmeharulise bandiidi (MAB) mudel on adaptiivne eksperimentaalne raamistik, mis jaotab järjestikku katseid konkureerivate harude vahel, et minimeerida kumulatiivset kahetsust, õppides samal ajal, milline haru toimib kõige paremini. Robbins formaliseeris selle 1952. aastal ja Auer jt (2002) andsid sellele lõpliku aja garantiid. See tasakaalustab ebakindlate valikute uurimist praegu teadaolevalt parimate valikute ärakasutamisega – ületades klassikalist A/B testimist alati, kui oluline on varajane lõpetamine või kulutundlik jaotus.

Leia teema tööriistaga PaperMindPeagiVideoPeagiLaadi slaidid alla

Loe meetodi täielikku kirjeldust

Ainult liikmetele

Selle osa lugemiseks logi sisse tasuta kontoga.

Logi sisse

Meetodikaart

Seotud meetodite ümbruskond — vali sõlm, et seda uurida.

Allikad

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Kuidas sellele lehele viidata

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/et/experimental-design/multiarm-bandit

Milline meetod?

Aseta see meetod oma lähimate sugulaste kõrvale ja loe neid kõrvuti — raamatukogu laob raamatud lauale; valik on sinu.

Võrdle kõrvuti

Sellele viitavad

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Loetud 2026-06-15 aadressilt https://scholargate.app/et/experimental-design/multiarm-bandit · Andmestik: https://doi.org/10.5281/zenodo.20539026