Học tăng cường
Học tăng cường (RL) là một khuôn khổ trong đó một tác nhân học cách đưa ra các quyết định tuần tự bằng cách tương tác với môi trường, nhận tín hiệu phần thưởng vô hướng và cập nhật một chính sách để tối đa hóa phần thưởng tích lũy trong tương lai. Khác với học có giám sát, không có ví dụ được gán nhãn nào được cung cấp; tác nhân khám phá hành vi tối ưu hoàn toàn thông qua kinh nghiệm và phản hồi trễ.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
+2 more
Nguồn tài liệu
- Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
- Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/vi/deep-learning/reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
Compare side by side →Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →