심층 강화 학습
심층 강화 학습은 신경망을 사용하여 가치 함수 또는 정책을 근사화함으로써 강화 학습을 이미지 및 복잡한 게임과 같은 고차원 입력으로 확장합니다.
PaperMind(으)로 주제 찾기곧 제공Find papers & topics
Tools & resources
Learn & explore
동영상곧 제공
Definition
심층 강화 학습은 심층 신경망이 가치 함수, 정책 또는 모델의 함수 근사자로 사용되는 강화 학습으로, 에이전트가 수작업으로 설계된 상태 특징이 아닌 고차원 원시 관찰로부터 직접 학습할 수 있도록 합니다.
Scope
이 주제는 강화 학습과 심층 신경망의 결합을 다룹니다: 안정성을 위한 경험 재생 및 목표 네트워크를 갖춘 심층 Q-네트워크, 심층 액터-크리틱 및 정책 최적화 방법, 그리고 게임 플레이 시스템에서와 같이 학습과 탐색의 통합. 함수 근사를 통한 가치 함수 훈련의 안정성 문제와 그로 인한 획기적인 성과를 다룹니다.
Core questions
- 신경망은 강화 학습이 원시 고차원 입력을 처리하도록 어떻게 허용합니까?
- 가치 학습과 함수 근사를 결합하는 것이 왜 불안정하기 쉽습니까?
- 경험 재생 및 목표 네트워크와 같은 기술은 훈련을 어떻게 안정화합니까?
- 게임 플레이 에이전트에서 학습과 탐색은 어떻게 결합됩니까?
Key theories
- 심층 Q-네트워크
- 심층 네트워크로 행동 가치를 근사화하고, 경험 재생과 느리게 업데이트되는 목표 네트워크로 안정화함으로써 단일 아키텍처가 픽셀로부터 많은 아타리 게임을 인간 수준으로 학습할 수 있었습니다.
- 탐색과 결합된 학습
- 심층 정책 및 가치 네트워크를 몬테카를로 트리 탐색과 결합하고 자가 플레이를 통해 훈련함으로써 가장 강력한 인간 플레이어를 능가하는 바둑 마스터 시스템이 탄생했습니다.
- 함수 근사의 안정성
- 부트스트래핑, 오프-정책 학습, 함수 근사를 결합하면 훈련이 발산할 수 있으므로, 심층 강화 학습은 가치 추정치를 안정적으로 유지하기 위한 신중한 기술에 의존합니다.
Clinical relevance
심층 강화 학습은 초인적인 게임 플레이와 로봇 공학 및 제어 분야의 발전 등 인공지능의 가장 눈에 띄는 시연 중 일부를 만들어냈으며, 그 기술은 대규모 모델의 보상 기반 미세 조정을 알려줍니다. 높은 샘플 비용과 훈련 불안정성은 여전히 중요한 실제적 한계로 남아 있습니다.
History
2015년의 심층 Q-네트워크는 심층 함수 근사를 통한 강화 학습이 픽셀로부터 직접 학습할 수 있음을 보여주었고, 2016년의 바둑 플레이 시스템은 심층 네트워크를 탐색 및 자가 플레이와 결합하여 최고의 인간 플레이어를 물리쳤습니다. Sutton과 Barto가 체계화한 강화 학습의 토대 위에 구축된 이러한 결과는 심층 강화 학습을 주요 연구 방향으로 확립했습니다.
Key figures
- Volodymyr Mnih
- David Silver
- Demis Hassabis
Related topics
Seminal works
- mnih2015
- silver2016
- sutton2018
Frequently asked questions
- 심층 Q-네트워크는 무엇을 시연했습니까?
- 단일 신경망 에이전트가 화면 픽셀과 점수로부터 수십 가지 다른 아타리 게임을 직접 플레이하는 방법을 학습할 수 있음을 보여주었으며, 게임별 튜닝 없이도 그 중 많은 게임에서 인간 수준의 성능에 도달했습니다. 이는 경험 재생과 안정성을 위한 목표 네트워크를 사용했습니다.
- 심층 강화 학습이 종종 불안정한 이유는 무엇입니까?
- 부트스트랩된 가치 추정치, 오프-정책 데이터, 신경망 근사를 결합하면 오류가 증폭되어 훈련이 발산할 수 있습니다. 경험 재생, 목표 네트워크, 신중한 학습률 선택과 같은 기술은 학습을 안정적으로 유지하는 데 사용됩니다.