ScholarGate
Asistent
Hypothesis test

Višeruki bandit (UCB, Thompson Sampling)

Višeruki bandit (MAB) je adaptivni eksperimentalni okvir koji sekvencijalno alocira probe ka konkurentskim rukama (granama) radi minimiziranja kumulativnog kajanja (regreta) uz istovremeno učenje koja ruka najbolje funkcioniše. Formalizovan od strane Robinsa 1952. godine, a sa konačnim vremenskim garancijama od strane Auer et al. (2002), balansira između istraživanja nesigurnih opcija i eksploatacije trenutno poznatih najboljih opcija — nadmašujući klasično A/B testiranje kad god je rano zaustavljanje ili alokacija osetljiva na troškove bitna.

Pronađite temu uz PaperMindUskoroVideoUskoroPreuzmi slajdove

Pročitajte celu metodu

Samo za članove

Prijavite se besplatnim nalogom da biste pročitali ovaj odeljak.

Prijavite se

Mapa metoda

Okruženje srodnih metoda — izaberite čvor da biste istraživali.

Izvori

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Kako citirati ovu stranicu

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/sr/experimental-design/multiarm-bandit

Koja metoda?

Postavite ovu metodu pored njoj najbližih srodnika i čitajte ih uporedo — biblioteka polaže knjige na sto; izbor je na vama.

Uporedi uporedo

Citirana u

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Preuzeto 2026-06-15 sa https://scholargate.app/sr/experimental-design/multiarm-bandit · Skup podataka: https://doi.org/10.5281/zenodo.20539026