ScholarGate
Asistents
Hypothesis test

Daudzroku bandit (UCB, Tompsona izlase)

Daudzroku bandits (MAB) ir adaptīvs eksperimentāls ietvars, kas secīgi piešķir izmēģinājumus konkurējošām rokām, lai samazinātu kumulatīvo nožēlu, vienlaikus apgūstot, kura roka darbojas vislabāk. Robina 1952. gadā formalizētais un Auer et al. (2002) nodrošinātie galīgās laika garantijas, tas līdzsvaro nedrošu iespēju izpēti ar pašlaik zināmo labāko iespēju izmantošanu — pārsniedzot klasisko A/B testēšanu, kad svarīga ir agrīna apturēšana vai izmaksu jutīga piešķiršana.

Atrast tematu ar PaperMindDrīzumāVideoDrīzumāLejupielādēt slaidus

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Metožu karte

Saistīto metožu apkaime — atlasiet mezglu, lai izpētītu.

Avoti

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Kā citēt šo lapu

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/lv/experimental-design/multiarm-bandit

Kura metode?

Novietojiet šo metodi blakus tās tuvākajām radniecīgajām metodēm un lasiet tās līdzās — bibliotēka noliek grāmatas uz galda; izvēle ir jūsu.

Salīdzināt blakus

Uz to atsaucas

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Izgūts 2026-06-15 no https://scholargate.app/lv/experimental-design/multiarm-bandit · Datu kopa: https://doi.org/10.5281/zenodo.20539026