Hypothesis test
多腕バンディット(UCB、トンプソンサンプリング)
多腕バンディット(MAB)は、累積後悔を最小化しつつ、どの腕が最も良いかを学習するために、競合する腕に試行を逐次的に割り当てる適応的実験フレームワークである。1952年にRobbinsによって形式化され、2002年にAuerらによって有限時間保証が与えられたこの手法は、不確実な選択肢の探索と、現在知られている最良の選択肢の活用との間でバランスを取り、早期停止やコストに敏感な割り当てが重要な場合には古典的なA/Bテストを凌駕する。
手法の全文を読む
会員限定
ログイン無料アカウントでログインすると、このセクションを読めます。
手法マップ
関連する手法の近傍 — ノードを選択して探索できます。
出典
- Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
- Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗
このページの引用方法
ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ja/experimental-design/multiarm-bandit
どの手法を選ぶ?
この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。
- A/Bテスト(オンライン制御実験)実験計画法↔ 比較
- 適応的臨床試験デザイン実験計画法↔ 比較
- ランダム化比較試験 (RCT)実験計画法↔ 比較
- 逐次 / 群逐次試験デザイン実験計画法↔ 比較