Hypothesis test

Višeruki bandit (UCB, Thompson Sampling)

Višeruki bandit (MAB) je adaptivni eksperimentalni okvir koji sekvencijalno alocira probe ka konkurentskim rukama (granama) radi minimiziranja kumulativnog kajanja (regreta) uz istovremeno učenje koja ruka najbolje funkcioniše. Formalizovan od strane Robinsa 1952. godine, a sa konačnim vremenskim garancijama od strane Auer et al. (2002), balansira između istraživanja nesigurnih opcija i eksploatacije trenutno poznatih najboljih opcija — nadmašujući klasično A/B testiranje kad god je rano zaustavljanje ili alokacija osetljiva na troškove bitna.

Pronađite temu uz PaperMindUskoroVideoUskoroPreuzmi slajdove

Pročitajte celu metodu

Samo za članove

Prijavite se besplatnim nalogom da biste pročitali ovaj odeljak.

Prijavite se

Mapa metoda

Okruženje srodnih metoda — izaberite čvor da biste istraživali.

Višeruki bandit (UCB, Thompson Sampling)

A/B test (online kontrol…Адаптивно дизајнирање кл…Рандомизовано контролиса…Секвенцијални / групно-с…

Izvori

Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗

Kako citirati ovu stranicu

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/sr/experimental-design/multiarm-bandit

Koja metoda?

Postavite ovu metodu pored njoj najbližih srodnika i čitajte ih uporedo — biblioteka polaže knjige na sto; izbor je na vama.

A/B test (online kontrolisani eksperiment)Eksperimentalni dizajn↔ uporedi
Адаптивно дизајнирање клиничких испитивањаEksperimentalni dizajn↔ uporedi
Рандомизовано контролисано испитивање (РКИ)Eksperimentalni dizajn↔ uporedi
Секвенцијални / групно-секвенцијални дизајни испитивањаEksperimentalni dizajn↔ uporedi

Uporedi uporedo →

Citirana u

A/B test (online kontrolisani eksperiment)

Uočili ste grešku na ovoj stranici? Prijavite je ili predložite ispravku →