Machine learningReinforcement learning

Q-Learning

Q-learning, được giới thiệu bởi Christopher Watkins và Peter Dayan vào năm 1992, là một thuật toán học tăng cường không cần mô hình (model-free) học giá trị của việc thực hiện mỗi hành động trong mỗi trạng thái — hàm Q — hoàn toàn từ kinh nghiệm, mà không cần mô hình về môi trường. Nó là thuật toán ngoài chính sách (off-policy): nó học các giá trị hành động tối ưu trong khi tuân theo một chính sách hành vi thăm dò (exploratory behaviour policy), và trong các điều kiện tiêu chuẩn, nó có thể được chứng minh là hội tụ về chính sách tối ưu.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

Học tăng cường sâu Lập trình động Phương pháp độ dốc chính…

Nguồn tài liệu

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Cách trích dẫn trang này

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/vi/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Học tăng cường sâuHọc sâu↔ compare
Lập trình độngTối ưu hóa↔ compare
Phương pháp độ dốc chính sáchHọc máy↔ compare

Compare side by side →

Được tham chiếu bởi

Phương pháp độ dốc chính sách

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →