시간차 학습은 무엇으로부터 부트스트랩하는가?

시간차 학습은 관찰된 보상과 다음 상태 가치에 대한 자체 추정치를 사용하여 현재 상태의 가치를 업데이트합니다. 최종 결과를 기다리지 않고 부분적으로 다른 추정치에 의존하기 때문에 온라인으로, 그리고 불완전한 에피소드로부터 학습할 수 있습니다.

Q-학습이 오프-정책이라고 불리는 이유는 무엇인가?

Q-학습은 에이전트가 경험을 수집하기 위해 다른 탐색 정책을 따르는 동안에도 최적 정책의 가치를 학습합니다. 데이터를 수집하는 데 사용되는 행동과 평가되는 정책이 다를 수 있으며, 이것이 오프-정책의 의미입니다.

가치 기반 방법

가치 기반 방법은 상태와 행동이 얼마나 좋은지 학습한 다음, 이러한 추정치를 기반으로 탐욕적으로 행동하여 좋은 정책을 얻습니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

가치 기반 방법은 상태 또는 상태-행동 쌍의 기대 보상(expected return)을 추정하고, 가장 높은 추정 가치를 가진 행동을 선택함으로써 정책을 도출합니다. 이러한 추정치는 경험으로부터 점진적으로 학습되며, 종종 나중에 더 많은 정보를 포함하는 예측을 향해 조정을 가하는 시간차 업데이트(temporal-difference updates)를 통해 이루어집니다.

Scope

이 주제는 가치 함수를 중심으로 하는 강화 학습 알고리즘을 다룹니다: 완전한 에피소드로부터의 몬테카를로 추정, 나중 추정치로부터 부트스트랩하는 시간차 학습, 그리고 제어 알고리즘인 Sarsa와 Q-학습. 또한 온-정책(on-policy) 학습 대 오프-정책(off-policy) 학습, 엡실론-탐욕(epsilon-greedy)과 같은 전략을 통한 탐색, 그리고 상태가 너무 많아 열거할 수 없을 때 함수 근사(function approximation)의 사용에 대해 다룹니다.

Core questions

행동 가치는 경험으로부터 어떻게 학습되는가?
시간차 학습은 샘플링과 부트스트랩을 어떻게 결합하는가?
온-정책 학습과 오프-정책 학습의 차이점은 무엇인가?
가치 추정치를 탐욕적으로 행동할 때 탐색은 어떻게 처리되는가?

Key theories

시간차 학습: 시간차 방법은 환경 모델 없이 불완전한 에피소드로부터 온라인으로 학습하며, 관찰된 보상과 다음 상태의 할인된 추정치를 향해 가치 추정치를 업데이트합니다.
Q-학습: Q-학습은 각 상태에서 최적 행동의 가치를 추정하며, 경험을 수집하는 데 사용된 정책과 무관하게 최적 행동-가치 함수로 수렴합니다. 이는 근본적인 오프-정책 방법입니다.
심층 신경망을 이용한 가치 근사: 심층 신경망으로 행동-가치 함수를 표현하면 가치 기반 방법이 원시 픽셀과 같은 고차원 입력을 처리할 수 있습니다. 이는 많은 아타리 게임을 학습한 딥 Q-네트워크의 경우와 같습니다.

Clinical relevance

가치 기반 방법은 가장 널리 사용되는 강화 학습 알고리즘 중 하나이며, Q-학습과 심층 신경망의 결합은 고차원 감각 입력으로부터 직접 인간 수준의 성능에 도달한 최초의 에이전트를 만들어냈습니다. 이는 가치 추정이 복잡한 작업에 어떻게 확장될 수 있는지를 보여줍니다.

History

Sutton은 1988년에 시간차 학습을 소개했고, Watkins의 1989년 Q-학습은 수렴하는 오프-정책 제어 방법을 제시했습니다. 2015년 딥 Q-네트워크(deep Q-network)에서 Q-학습과 심층 신경망을 결합함으로써 가치 기반 강화 학습이 고차원 문제에 적용되었고, 현대 심층 강화 학습 시대를 열었습니다.

Key figures

Richard Sutton
Christopher Watkins
Volodymyr Mnih

Seminal works

sutton2018
mnih2015
watkins1992

Frequently asked questions

시간차 학습은 무엇으로부터 부트스트랩하는가?: 시간차 학습은 관찰된 보상과 다음 상태 가치에 대한 자체 추정치를 사용하여 현재 상태의 가치를 업데이트합니다. 최종 결과를 기다리지 않고 부분적으로 다른 추정치에 의존하기 때문에 온라인으로, 그리고 불완전한 에피소드로부터 학습할 수 있습니다.
Q-학습이 오프-정책이라고 불리는 이유는 무엇인가?: Q-학습은 에이전트가 경험을 수집하기 위해 다른 탐색 정책을 따르는 동안에도 최적 정책의 가치를 학습합니다. 데이터를 수집하는 데 사용되는 행동과 평가되는 정책이 다를 수 있으며, 이것이 오프-정책의 의미입니다.