Q-Learning
Q-learning, được giới thiệu bởi Christopher Watkins và Peter Dayan vào năm 1992, là một thuật toán học tăng cường không cần mô hình (model-free) học giá trị của việc thực hiện mỗi hành động trong mỗi trạng thái — hàm Q — hoàn toàn từ kinh nghiệm, mà không cần mô hình về môi trường. Nó là thuật toán ngoài chính sách (off-policy): nó học các giá trị hành động tối ưu trong khi tuân theo một chính sách hành vi thăm dò (exploratory behaviour policy), và trong các điều kiện tiêu chuẩn, nó có thể được chứng minh là hội tụ về chính sách tối ưu.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Cách trích dẫn trang này
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/vi/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Học tăng cường sâuHọc sâu↔ compare
- Lập trình độngTối ưu hóa↔ compare
- Phương pháp độ dốc chính sáchHọc máy↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →