Višeruki bandit (UCB, Thompsonovo uzorkovanje)
Višeruki bandit (MAB) je adaptivni eksperimentalni okvir koji sekvencijalno dodjeljuje pokuse konkurentskim krakovima kako bi se umanjio kumulativni žal, istodobno učeći koji krak najbolje funkcionira. Formaliziran od strane Robbinsa 1952. godine, a konačne vremenske garancije dali su Auer i suradnici (2002.), on uravnotežuje istraživanje nesigurnih opcija s iskorištavanjem trenutno poznatih najboljih opcija — nadmašujući klasično A/B testiranje kad god je važno rano zaustavljanje ili osjetljiva dodjela troškova.
Pročitajte cijelu metodu
Prijavite se besplatnim računom kako biste pročitali ovaj odjeljak.
Karta metoda
Okruženje srodnih metoda — odaberite čvor za istraživanje.
Izvori
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Kako citirati ovu stranicu
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/hr/experimental-design/multiarm-bandit
Koja metoda?
Postavite ovu metodu uz njoj najsrodnije i pročitajte ih jednu uz drugu — knjižnica vam knjige stavlja na stol; izbor je na vama.
- A/B test (online kontrolirani eksperiment)Eksperimentalni dizajn↔ usporedi
- Prilagodljivi dizajn kliničkog ispitivanjaEksperimentalni dizajn↔ usporedi
- Slučajna kontrolirana studija (RCT)Eksperimentalni dizajn↔ usporedi
- Sekvencijalni / Grupno-sekvencijalni dizajn ispitivanjaEksperimentalni dizajn↔ usporedi
Citirana u
Uočili ste pogrešku na ovoj stranici? Prijavite je ili predložite ispravak →