Machine learningReinforcement learning

Q-Learning

Το Q-learning, που εισήχθη από τους Christopher Watkins και Peter Dayan το 1992, είναι ένας αλγόριθμος ενισχυτικής μάθησης χωρίς μοντέλο, ο οποίος μαθαίνει την αξία της εκτέλεσης κάθε ενέργειας σε κάθε κατάσταση — τη συνάρτηση Q — αποκλειστικά από την εμπειρία, χωρίς μοντέλο του περιβάλλοντος. Είναι εκτός πολιτικής (off-policy): μαθαίνει τις βέλτιστες τιμές ενεργειών ακολουθώντας μια πολιτική εξερεύνησης, και υπό τυπικές συνθήκες αποδεδειγμένα συγκλίνει στη βέλτιστη πολιτική.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

Πηγές

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/el/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Αναφέρεται από

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Ανακτήθηκε στις 2026-06-15 από https://scholargate.app/el/machine-learning/q-learning · Σύνολο δεδομένων: https://doi.org/10.5281/zenodo.20539026