Machine learningDeep learning / NLP / CV

강화학습

강화학습(Reinforcement Learning, RL)은 에이전트가 환경과 상호작용하고, 스칼라 보상 신호를 받으며, 누적 미래 보상을 최대화하도록 정책을 업데이트함으로써 순차적 결정을 내리는 방법을 학습하는 프레임워크이다. 지도 학습과 달리 레이블이 지정된 예제가 제공되지 않으며, 에이전트는 경험과 지연된 피드백을 통해 최적의 행동을 완전히 스스로 발견한다.

MethodMind에서 열기곧 제공동영상곧 제공Download slides

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

Method map

The neighbourhood of related methods — select a node to explore.

강화학습

정책 경사도 방법 순환 신경망 에이전트 기반 동적 프로그래밍 베이즈 동적 계획법 설명 가능한 강화학습 미세조정 강화학습 다국어 강화학습 다중 양식 강화학습 (Multimodal R…자기 지도 강화 학습 준지도 강화학습

+2 more

출처

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

이 페이지 인용 방법

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/ko/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

정책 경사도 방법머신러닝↔ compare
순환 신경망딥러닝↔ compare

Compare side by side →

이 방법을 참조하는 항목

에이전트 기반 동적 프로그래밍 베이즈 동적 계획법 설명 가능한 강화학습 미세조정 강화학습 다국어 강화학습 다중 양식 강화학습 (Multimodal Reinforcement Learning)자기 지도 강화 학습 준지도 강화학습 강화학습에서의 전이 학습 약한 지도 강화학습

이 페이지에서 오류를 발견하셨나요? 신고하거나 수정을 제안하세요 →