Багаторукий бандит (UCB, Thompson Sampling)
Багаторукий бандит (MAB) — це адаптивна експериментальна структура, яка послідовно розподіляє випробування між конкуруючими рукавами з метою мінімізації сукупного жалю, одночасно вивчаючи, який рукав працює найкраще. Формалізований Роббінсом у 1952 році та з гарантіями скінченного часу від Auer et al. (2002), він балансує дослідження невизначених варіантів проти експлуатації наразі найкращих відомих варіантів — перевершуючи класичне A/B тестування, коли важлива рання зупинка або розподіл з урахуванням витрат.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Карта методів
Околиця споріднених методів — виберіть вузол, щоб дослідити.
Джерела
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/uk/experimental-design/multiarm-bandit
Який метод?
Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.
- A/B Тестування (Онлайн контрольований експеримент)Планування експерименту↔ порівняти
- Адаптивний дизайн клінічних випробуваньПланування експерименту↔ порівняти
- Випадкове контрольоване дослідження (ВКД)Планування експерименту↔ порівняти
- Послідовний / Груповий послідовний дизайн випробуваньПланування експерименту↔ порівняти
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →