강화 학습은 지도 학습과 어떻게 다른가?

지도 학습은 각 입력에 대한 올바른 출력을 제공받습니다. 강화 학습 에이전트는 자신의 행동 결과를 평가하는 보상 신호만 주어지며, 시행착오를 통해 좋은 행동을 발견해야 하고, 행동을 취한 후 오랜 시간이 지난 후에 도착하는 보상에 대처해야 합니다.

탐색-활용 트레이드오프란 무엇인가?

에이전트는 좋은 보상을 주는 것으로 알려진 행동을 활용할지, 아니면 더 좋을 수도 있는 시도되지 않은 행동을 탐색할지 선택해야 합니다. 탐색이 너무 적으면 차선의 전략에 고착될 수 있고, 너무 많으면 기회를 낭비하므로, 이 둘 사이의 균형을 맞추는 것이 강화 학습의 핵심입니다.

강화 학습

강화 학습은 시행착오를 통해 일련의 의사결정을 내리도록 에이전트를 훈련하여, 환경과의 상호작용을 통해 누적 보상을 최대화합니다.

PaperMind(으)로 주제 찾기곧 제공Find papers & topics

Tools & resources

슬라이드 다운로드

Learn & explore

동영상곧 제공

Definition

강화 학습은 상황에서 행동으로의 매핑인 정책을 학습하여 예상 누적 보상을 최대화하는 문제입니다. 여기서 에이전트는 올바른 행동의 레이블이 지정된 예시가 아닌 자신의 행동 결과로부터 학습합니다.

Scope

이 분야는 행동 학습을 다룹니다: 상태, 행동, 보상, 전이의 마르코프 결정 과정 프레임워크; 가치 함수와 벨만 방정식; 시간차 학습 및 Q-학습과 같은 가치 기반 방법; 정책을 직접 최적화하는 정책 경사 방법; 그리고 이러한 아이디어와 심층 신경망의 결합. 이는 탐색-활용 트레이드오프와 지연된 보상의 문제를 다룹니다.

Sub-topics

Core questions

에이전트는 보상 신호만으로 어떻게 좋은 행동을 학습할 수 있는가?
벨만 방정식을 통해 장기적인 가치와 즉각적인 보상은 어떻게 연관되는가?
에이전트는 새로운 행동 탐색과 알려진 좋은 행동 활용 사이에서 어떻게 균형을 맞춰야 하는가?
나중의 보상에 대해 이전 행동에 어떻게 공로를 할당하는가?

Key theories

마르코프 결정 과정과 가치 함수: 상호작용은 마르코프 결정 과정으로 모델링되며, 가치 함수는 예상되는 미래 보상을 요약하고, 거의 모든 강화 학습 알고리즘의 기반이 되는 벨만 방정식을 만족합니다.
시간차 학습: 에이전트는 부트스트랩을 통해 가치 추정치를 학습할 수 있으며, 나중 예측과 관찰된 보상을 향해 예측을 업데이트하여 불완전한 에피소드와 온라인 경험으로부터 학습을 가능하게 합니다.
심층 강화 학습: 심층 신경망을 사용하여 가치 함수 또는 정책을 근사화함으로써 강화 학습은 고차원 입력으로 확장될 수 있으며, 아타리 게임과 바둑을 학습한 에이전트들이 이를 입증했습니다.

Clinical relevance

강화 학습은 불확실성 하의 순차적 의사결정을 다루며, 게임 플레이, 로봇 공학, 추천 시스템, 제어 분야의 발전을 이끌었을 뿐만 아니라 피드백 학습을 통한 대규모 언어 모델의 정렬에도 기여했습니다. 그 시행착오적 특성과 보상 지정의 어려움으로 인해 안전하고 샘플 효율적인 학습이 활발한 연구 주제로 남아 있습니다.

History

강화 학습은 최적 제어, 동적 계획법, 동물 학습의 아이디어를 통합했습니다. 시간차 학습과 Q-학습은 1980년대와 1990년대 초에 등장했으며, Sutton과 Barto의 교과서가 이 분야를 체계화했습니다. 2010년대에 딥러닝과의 결합은 아타리 게임에서 인간 수준의 플레이를, 바둑에서 초인적인 플레이를 달성하는 에이전트를 탄생시켰습니다.

Debates

샘플 효율성과 보상 설계: 강화 학습은 막대한 상호작용을 요구할 수 있으며 보상이 지정되는 방식에 민감하여, 데이터 효율성을 높이고 에이전트가 잘못 지정된 보상을 악용하는 것을 피하는 방법에 대한 논쟁을 불러일으킵니다.

Key figures

Richard Sutton
Andrew Barto
Christopher Watkins
David Silver

Seminal works

sutton2018
mnih2015
silver2016

Frequently asked questions

강화 학습은 지도 학습과 어떻게 다른가?: 지도 학습은 각 입력에 대한 올바른 출력을 제공받습니다. 강화 학습 에이전트는 자신의 행동 결과를 평가하는 보상 신호만 주어지며, 시행착오를 통해 좋은 행동을 발견해야 하고, 행동을 취한 후 오랜 시간이 지난 후에 도착하는 보상에 대처해야 합니다.
탐색-활용 트레이드오프란 무엇인가?: 에이전트는 좋은 보상을 주는 것으로 알려진 행동을 활용할지, 아니면 더 좋을 수도 있는 시도되지 않은 행동을 탐색할지 선택해야 합니다. 탐색이 너무 적으면 차선의 전략에 고착될 수 있고, 너무 많으면 기회를 낭비하므로, 이 둘 사이의 균형을 맞추는 것이 강화 학습의 핵심입니다.