Machine learning

딥 강화학습

딥 강화학습은 신경망과 강화학습을 결합하여 에이전트가 환경과 상호작용하며 학습하도록 합니다. 이는 Mnih와 동료들이 2015년 네이처에 발표한 인간 수준의 아타리 제어 연구를 통해 대중화되었습니다. 고정된 레이블 데이터셋에서 학습하는 대신, 에이전트는 행동을 취하고, 보상을 관찰하며, 장기적인 총수익을 최대화하는 정책을 점진적으로 형성합니다.

MethodMind에서 열기곧 제공동영상곧 제공Download slides

방법 전문 읽기

회원 전용

무료 계정으로 로그인하면 이 섹션을 읽을 수 있습니다.

로그인

Method map

The neighbourhood of related methods — select a node to explore.

딥 강화학습

신경망 구조 탐색 랜덤 포레스트 순환 신경망 XGBoost 차등 진화 도메인 적응 강화학습 동적 계획법 정책 경사도 방법 Q-러닝 점수 기반 생성 모델

출처

Mnih, V. et al. (2015). Human-Level Control through Deep Reinforcement Learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Schulman, J. et al. (2017). Proximal Policy Optimization Algorithms. arXiv:1707.06347. link ↗

이 페이지 인용 방법

ScholarGate. (2026, June 1). Deep Reinforcement Learning (DQN / PPO / A3C). ScholarGate. https://scholargate.app/ko/deep-learning/deep-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side →

이 방법을 참조하는 항목

차등 진화 도메인 적응 강화학습 동적 계획법 정책 경사도 방법 Q-러닝 점수 기반 생성 모델

이 페이지에서 오류를 발견하셨나요? 신고하거나 수정을 제안하세요 →

방법 전문 읽기

Method map

출처

이 페이지 인용 방법

관련 방법

Which method?

이 방법을 참조하는 항목