ScholarGate
Asistent
Hypothesis test

Višeruki bandit (UCB, Thompsonovo uzorkovanje)

Višeruki bandit (MAB) je adaptivni eksperimentalni okvir koji sekvencijalno dodjeljuje pokuse konkurentskim krakovima kako bi se umanjio kumulativni žal, istodobno učeći koji krak najbolje funkcionira. Formaliziran od strane Robbinsa 1952. godine, a konačne vremenske garancije dali su Auer i suradnici (2002.), on uravnotežuje istraživanje nesigurnih opcija s iskorištavanjem trenutno poznatih najboljih opcija — nadmašujući klasično A/B testiranje kad god je važno rano zaustavljanje ili osjetljiva dodjela troškova.

Pronađite temu uz PaperMindUskoroVideoUskoroPreuzmi prezentaciju

Pročitajte cijelu metodu

Samo za članove

Prijavite se besplatnim računom kako biste pročitali ovaj odjeljak.

Prijavite se

Karta metoda

Okruženje srodnih metoda — odaberite čvor za istraživanje.

Izvori

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Kako citirati ovu stranicu

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/hr/experimental-design/multiarm-bandit

Koja metoda?

Postavite ovu metodu uz njoj najsrodnije i pročitajte ih jednu uz drugu — knjižnica vam knjige stavlja na stol; izbor je na vama.

Usporedi jedno uz drugo

Citirana u

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Preuzeto 2026-06-15 s https://scholargate.app/hr/experimental-design/multiarm-bandit · Skup podataka: https://doi.org/10.5281/zenodo.20539026