Machine learningReinforcement learning

Q-Learning

Q-learning, được giới thiệu bởi Christopher Watkins và Peter Dayan vào năm 1992, là một thuật toán học tăng cường không cần mô hình (model-free) học giá trị của việc thực hiện mỗi hành động trong mỗi trạng thái — hàm Q — hoàn toàn từ kinh nghiệm, mà không cần mô hình về môi trường. Nó là thuật toán ngoài chính sách (off-policy): nó học các giá trị hành động tối ưu trong khi tuân theo một chính sách hành vi thăm dò (exploratory behaviour policy), và trong các điều kiện tiêu chuẩn, nó có thể được chứng minh là hội tụ về chính sách tối ưu.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Cách trích dẫn trang này

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/vi/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/machine-learning/q-learning · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026