ScholarGate
アシスタント
Hypothesis test

多腕バンディット(UCB、トンプソンサンプリング)

多腕バンディット(MAB)は、累積後悔を最小化しつつ、どの腕が最も良いかを学習するために、競合する腕に試行を逐次的に割り当てる適応的実験フレームワークである。1952年にRobbinsによって形式化され、2002年にAuerらによって有限時間保証が与えられたこの手法は、不確実な選択肢の探索と、現在知られている最良の選択肢の活用との間でバランスを取り、早期停止やコストに敏感な割り当てが重要な場合には古典的なA/Bテストを凌駕する。

PaperMindでテーマを探す近日公開動画近日公開スライドをダウンロード

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

手法マップ

関連する手法の近傍 — ノードを選択して探索できます。

出典

  1. Auer, P., Cesa-Bianchi, N., & Fischer, P. (2002). Finite-Time Analysis of the Multiarmed Bandit Problem. Machine Learning, 47(2–3), 235–256. DOI: 10.1023/A:1013689704352
  2. Russo, D., Van Roy, B., Kazerouni, A., Osband, I., & Wen, Z. (2018). A Tutorial on Thompson Sampling. Foundations and Trends in Machine Learning, 11(1), 1–96. DOI: 10.1561/2200000070

このページの引用方法

ScholarGate. (2026, June 1). Multi-Armed Bandit (UCB, Thompson Sampling). ScholarGate. https://scholargate.app/ja/experimental-design/multiarm-bandit

どの手法を選ぶ?

この手法を最も近い類縁の手法と並べ、両者を見比べてください — ライブラリは本を机の上に並べるだけ。選ぶのはあなたです。

並べて比較する

この手法を参照する項目

ScholarGateMulti-Armed Bandit (Multi-Armed Bandit (UCB, Thompson Sampling)). 2026-06-15に以下より取得 https://scholargate.app/ja/experimental-design/multiarm-bandit · データセット: https://doi.org/10.5281/zenodo.20539026