強化学習は教師あり学習とどう違うのですか？

教師あり学習は、各入力に対する正しい出力が与えられます。強化学習エージェントは、行動の結果を評価する報酬シグナルのみを与えられ、試行錯誤によって良い行動を発見しなければならず、また、行動からかなり遅れて報酬が届くことにも対処しなければなりません。

探索と利用のトレードオフとは何ですか？

エージェントは、良い報酬を与えることが知られている行動を利用することと、さらに良いかもしれない未試行の行動を探索することの間で選択しなければなりません。探索が少なすぎると最適ではない戦略に固定されてしまう可能性があり、多すぎると機会を無駄にするため、この二つのバランスを取ることが強化学習の中心となります。

強化学習

強化学習は、試行錯誤を通じて意思決定のシーケンスを行うようエージェントを訓練し、環境との相互作用を通じて累積報酬を最大化します。

PaperMindでテーマを探す近日公開Find papers & topics

Tools & resources

スライドをダウンロード

Learn & explore

動画近日公開

Definition

強化学習とは、状況から行動へのマッピングであるポリシーを学習し、期待される累積報酬を最大化する問題です。エージェントは、正しい行動のラベル付き例からではなく、自身の行動の結果から学習します。

Scope

この分野は、行動を学習すること、すなわち、状態、行動、報酬、および遷移からなるマルコフ決定過程の枠組み、価値関数とベルマン方程式、時間差学習やQ学習などの価値ベースの手法、ポリシーを直接最適化するポリシー勾配法、そしてこれらのアイデアと深層ニューラルネットワークとの組み合わせを扱います。また、探索と利用のトレードオフ、および遅延報酬の課題にも取り組みます。

Sub-topics

Core questions

エージェントは報酬シグナルのみからどのようにして良い行動を学習できるのでしょうか？
ベルマン方程式を通じて、長期的な価値と即時的な報酬はどのように関連付けられるのでしょうか？
エージェントは、既知の優れた行動を利用することと、さらに良いかもしれない新しい行動を探索することのバランスをどのように取るべきでしょうか？
後の報酬に対して、以前の行動にどのように貢献度を割り当てるのでしょうか？

Key theories

マルコフ決定過程と価値関数: 相互作用はマルコフ決定過程としてモデル化され、価値関数は期待される将来の報酬を要約します。これは、ほぼすべての強化学習アルゴリズムの基礎となるベルマン方程式を満たします。
時間差学習: エージェントはブートストラップによって価値推定値を学習できます。これは、後の予測と観測された報酬に向かって予測を更新することで、不完全なエピソードやオンライン経験からの学習を可能にします。
深層強化学習: 深層ニューラルネットワークを使用して価値関数やポリシーを近似することで、強化学習は高次元入力にスケールアップできます。これは、Atariゲームや囲碁を学習したエージェントによって実証されています。

Clinical relevance

強化学習は不確実な状況下での逐次的意思決定を扱い、ゲームプレイ、ロボット工学、レコメンデーション、制御、およびフィードバックからの学習による大規模言語モデルの調整において進歩を推進してきました。その試行錯誤の性質と報酬の指定の難しさから、安全でサンプル効率の良い学習が現在の課題となっています。

History

強化学習は、最適制御、動的計画法、および動物の学習からのアイデアを統合しました。時間差学習とQ学習は1980年代から1990年代初頭に出現し、サットンとバートの教科書がこの分野を体系化しました。2010年代に深層学習と組み合わせることで、Atariゲームで人間レベルのプレイを達成し、囲碁で人間を超えるプレイをするエージェントが生まれました。

Debates

サンプル効率と報酬設計: 強化学習は膨大な相互作用を必要とすることがあり、報酬の指定方法に敏感であるため、いかにデータ効率を高めるか、また誤って指定された報酬をエージェントが利用するのを避ける方法について議論が巻き起こっています。

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

強化学習は教師あり学習とどう違うのですか？: 教師あり学習は、各入力に対する正しい出力が与えられます。強化学習エージェントは、行動の結果を評価する報酬シグナルのみを与えられ、試行錯誤によって良い行動を発見しなければならず、また、行動からかなり遅れて報酬が届くことにも対処しなければなりません。
探索と利用のトレードオフとは何ですか？: エージェントは、良い報酬を与えることが知られている行動を利用することと、さらに良いかもしれない未試行の行動を探索することの間で選択しなければなりません。探索が少なすぎると最適ではない戦略に固定されてしまう可能性があり、多すぎると機会を無駄にするため、この二つのバランスを取ることが強化学習の中心となります。