ScholarGate
Асистент
Hypothesis test

Багаторукий бандит (UCB, Thompson Sampling)

Багаторукий бандит (MAB) — це адаптивна експериментальна структура, яка послідовно розподіляє випробування між конкуруючими рукавами з метою мінімізації сукупного жалю, одночасно вивчаючи, який рукав працює найкраще. Формалізований Роббінсом у 1952 році та з гарантіями скінченного часу від Auer et al. (2002), він балансує дослідження невизначених варіантів проти експлуатації наразі найкращих відомих варіантів — перевершуючи класичне A/B тестування, коли важлива рання зупинка або розподіл з урахуванням витрат.

Знайти тему у PaperMindНезабаромВідеоНезабаромЗавантажити слайди

Читати метод повністю

Лише для учасників

Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.

Увійти

Карта методів

Околиця споріднених методів — виберіть вузол, щоб дослідити.

Джерела

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

Як цитувати цю сторінку

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/uk/experimental-design/multiarm-bandit

Який метод?

Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.

Порівняти поруч

Згадується в

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). Отримано 2026-06-15 з https://scholargate.app/uk/experimental-design/multiarm-bandit · Набір даних: https://doi.org/10.5281/zenodo.20539026