가치 기반 방법
가치 기반 방법은 상태와 행동이 얼마나 좋은지 학습한 다음, 이러한 추정치를 기반으로 탐욕적으로 행동하여 좋은 정책을 얻습니다.
Definition
가치 기반 방법은 상태 또는 상태-행동 쌍의 기대 보상(expected return)을 추정하고, 가장 높은 추정 가치를 가진 행동을 선택함으로써 정책을 도출합니다. 이러한 추정치는 경험으로부터 점진적으로 학습되며, 종종 나중에 더 많은 정보를 포함하는 예측을 향해 조정을 가하는 시간차 업데이트(temporal-difference updates)를 통해 이루어집니다.
Scope
이 주제는 가치 함수를 중심으로 하는 강화 학습 알고리즘을 다룹니다: 완전한 에피소드로부터의 몬테카를로 추정, 나중 추정치로부터 부트스트랩하는 시간차 학습, 그리고 제어 알고리즘인 Sarsa와 Q-학습. 또한 온-정책(on-policy) 학습 대 오프-정책(off-policy) 학습, 엡실론-탐욕(epsilon-greedy)과 같은 전략을 통한 탐색, 그리고 상태가 너무 많아 열거할 수 없을 때 함수 근사(function approximation)의 사용에 대해 다룹니다.
Core questions
- 행동 가치는 경험으로부터 어떻게 학습되는가?
- 시간차 학습은 샘플링과 부트스트랩을 어떻게 결합하는가?
- 온-정책 학습과 오프-정책 학습의 차이점은 무엇인가?
- 가치 추정치를 탐욕적으로 행동할 때 탐색은 어떻게 처리되는가?
Key theories
- 시간차 학습
- 시간차 방법은 환경 모델 없이 불완전한 에피소드로부터 온라인으로 학습하며, 관찰된 보상과 다음 상태의 할인된 추정치를 향해 가치 추정치를 업데이트합니다.
- Q-학습
- Q-학습은 각 상태에서 최적 행동의 가치를 추정하며, 경험을 수집하는 데 사용된 정책과 무관하게 최적 행동-가치 함수로 수렴합니다. 이는 근본적인 오프-정책 방법입니다.
- 심층 신경망을 이용한 가치 근사
- 심층 신경망으로 행동-가치 함수를 표현하면 가치 기반 방법이 원시 픽셀과 같은 고차원 입력을 처리할 수 있습니다. 이는 많은 아타리 게임을 학습한 딥 Q-네트워크의 경우와 같습니다.
Clinical relevance
가치 기반 방법은 가장 널리 사용되는 강화 학습 알고리즘 중 하나이며, Q-학습과 심층 신경망의 결합은 고차원 감각 입력으로부터 직접 인간 수준의 성능에 도달한 최초의 에이전트를 만들어냈습니다. 이는 가치 추정이 복잡한 작업에 어떻게 확장될 수 있는지를 보여줍니다.
History
Sutton은 1988년에 시간차 학습을 소개했고, Watkins의 1989년 Q-학습은 수렴하는 오프-정책 제어 방법을 제시했습니다. 2015년 딥 Q-네트워크(deep Q-network)에서 Q-학습과 심층 신경망을 결합함으로써 가치 기반 강화 학습이 고차원 문제에 적용되었고, 현대 심층 강화 학습 시대를 열었습니다.
Key figures
- Richard Sutton
- Christopher Watkins
- Volodymyr Mnih
Related topics
Seminal works
- sutton2018
- mnih2015
- watkins1992
Frequently asked questions
- 시간차 학습은 무엇으로부터 부트스트랩하는가?
- 시간차 학습은 관찰된 보상과 다음 상태 가치에 대한 자체 추정치를 사용하여 현재 상태의 가치를 업데이트합니다. 최종 결과를 기다리지 않고 부분적으로 다른 추정치에 의존하기 때문에 온라인으로, 그리고 불완전한 에피소드로부터 학습할 수 있습니다.
- Q-학습이 오프-정책이라고 불리는 이유는 무엇인가?
- Q-학습은 에이전트가 경험을 수집하기 위해 다른 탐색 정책을 따르는 동안에도 최적 정책의 가치를 학습합니다. 데이터를 수집하는 데 사용되는 행동과 평가되는 정책이 다를 수 있으며, 이것이 오프-정책의 의미입니다.