Multi-Armed Bandit (UCB, Thompson Sampling)
Az egyszárú bandit (MAB) egy adaptív kísérleti keretrendszer, amely egymást követő próbákat allokál versengő karokra a kumulatív bánat minimalizálása érdekében, miközben egyidejűleg tanulja meg, melyik kar teljesít a legjobban. Robbins (1952) által formalizált, és Auer et al. (2002) által véges idejű garanciákkal ellátott, ez egyensúlyt teremt a bizonytalan opciók feltárása és a jelenleg ismert legjobb opciók kiaknázása között – felülmúlva a klasszikus A/B tesztelést, amikor az időbeni leállítás vagy a költségérzékeny allokáció számít.
A teljes módszer elolvasása
Jelentkezzen be ingyenes fiókkal a szakasz elolvasásához.
Módszertérkép
A rokon módszerek környezete — válasszon ki egy csomópontot a felfedezéshez.
Források
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Hogyan hivatkozzon erre az oldalra
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/hu/experimental-design/multiarm-bandit
Melyik módszer?
Állítsa e módszert a hozzá legközelebb álló rokonai mellé, és olvassa őket egymás mellett — a könyvtár az asztalra teszi a könyveket; a választás az Öné.
- A/B teszt (Online kontrollált kísérlet)Kísérlettervezés↔ összehasonlítás
- Adaptív klinikai vizsgálati tervezésKísérlettervezés↔ összehasonlítás
- Randomizált kontrollált vizsgálat (RCT)Kísérlettervezés↔ összehasonlítás
- Szekvenciális / Csoportos szekvenciális vizsgálati tervKísérlettervezés↔ összehasonlítás
Hivatkozik rá
Hibát talált ezen az oldalon? Jelentse, vagy javasoljon javítást →