Daudzroku bandit (UCB, Tompsona izlase)
Daudzroku bandits (MAB) ir adaptīvs eksperimentāls ietvars, kas secīgi piešķir izmēģinājumus konkurējošām rokām, lai samazinātu kumulatīvo nožēlu, vienlaikus apgūstot, kura roka darbojas vislabāk. Robina 1952. gadā formalizētais un Auer et al. (2002) nodrošinātie galīgās laika garantijas, tas līdzsvaro nedrošu iespēju izpēti ar pašlaik zināmo labāko iespēju izmantošanu — pārsniedzot klasisko A/B testēšanu, kad svarīga ir agrīna apturēšana vai izmaksu jutīga piešķiršana.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Metožu karte
Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.
Avoti
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Kā citēt šo lapu
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/lv/experimental-design/multiarm-bandit
Kura metode?
Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.
- A/B tests (tiešsaistes kontrolēti eksperimenti)Eksperimentu plānošana↔ salīdzināt
- Adaptīvā klīnisko pētījumu dizainsEksperimentu plānošana↔ salīdzināt
- Randomizēts kontrolēts pētījums (RCT)Eksperimentu plānošana↔ salīdzināt
- Secvenču / grupu secīgā plānojumsEksperimentu plānošana↔ salīdzināt
Uz to atsaucas
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →