Hypothesis test

多腕バンディット（UCB、トンプソンサンプリング）

多腕バンディット（MAB）は、累積後悔を最小化しつつ、どの腕が最も良いかを学習するために、競合する腕に試行を逐次的に割り当てる適応的実験フレームワークである。1952年にRobbinsによって形式化され、2002年にAuerらによって有限時間保証が与えられたこの手法は、不確実な選択肢の探索と、現在知られている最良の選択肢の活用との間でバランスを取り、早期停止やコストに敏感な割り当てが重要な場合には古典的なA/Bテストを凌駕する。

PaperMindでテーマを探す近日公開動画近日公開スライドをダウンロード

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

手法マップ

関連する手法の近傍 — ノードを選択して探索できます。

多腕バンディット（UCB、トンプソンサンプリング）

A/Bテスト（オンライン制御実験）適応的臨床試験デザインランダム化比較試験 (RCT)逐次 / 群逐次試験デザイン

出典

Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352 ↗
Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070 ↗

このページの引用方法

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ja/experimental-design/multiarm-bandit

どの手法を選ぶ？

この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。

並べて比較する →

この手法を参照する項目

A/Bテスト（オンライン制御実験）

このページに誤りを見つけましたか?報告・修正提案 →