Višeruki bandit (UCB, Thompson Sampling)
Višeruki bandit (MAB) je adaptivni eksperimentalni okvir koji sekvencijalno alocira probe ka konkurentskim rukama (granama) radi minimiziranja kumulativnog kajanja (regreta) uz istovremeno učenje koja ruka najbolje funkcioniše. Formalizovan od strane Robinsa 1952. godine, a sa konačnim vremenskim garancijama od strane Auer et al. (2002), balansira između istraživanja nesigurnih opcija i eksploatacije trenutno poznatih najboljih opcija — nadmašujući klasično A/B testiranje kad god je rano zaustavljanje ili alokacija osetljiva na troškove bitna.
Pročitajte celu metodu
Prijavite se besplatnim nalogom da biste pročitali ovaj odeljak.
Mapa metoda
Okruženje srodnih metoda — izaberite čvor da biste istraživali.
Izvori
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Kako citirati ovu stranicu
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/sr/experimental-design/multiarm-bandit
Koja metoda?
Postavite ovu metodu pored njoj najbližih srodnika i čitajte ih uporedo — biblioteka polaže knjige na sto; izbor je na vama.
- A/B test (online kontrolisani eksperiment)Eksperimentalni dizajn↔ uporedi
- Адаптивно дизајнирање клиничких испитивањаEksperimentalni dizajn↔ uporedi
- Рандомизовано контролисано испитивање (РКИ)Eksperimentalni dizajn↔ uporedi
- Секвенцијални / групно-секвенцијални дизајни испитивањаEksperimentalni dizajn↔ uporedi
Citirana u
Uočili ste grešku na ovoj stranici? Prijavite je ili predložite ispravku →