Machine learningReinforcement learning

Q-Learning

Το Q-learning, που εισήχθη από τους Christopher Watkins και Peter Dayan το 1992, είναι ένας αλγόριθμος ενισχυτικής μάθησης χωρίς μοντέλο, ο οποίος μαθαίνει την αξία της εκτέλεσης κάθε ενέργειας σε κάθε κατάσταση — τη συνάρτηση Q — αποκλειστικά από την εμπειρία, χωρίς μοντέλο του περιβάλλοντος. Είναι εκτός πολιτικής (off-policy): μαθαίνει τις βέλτιστες τιμές ενεργειών ακολουθώντας μια πολιτική εξερεύνησης, και υπό τυπικές συνθήκες αποδεδειγμένα συγκλίνει στη βέλτιστη πολιτική.

Άνοιγμα στο MethodMindΣύντομαΒίντεοΣύντομαDownload slides

Διαβάστε ολόκληρη τη μέθοδο

Μόνο για μέλη

Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.

Σύνδεση

Method map

The neighbourhood of related methods — select a node to explore.

Q-Learning

Βαθιά Ενισχυτική Μάθηση Δυναμικός Προγραμματισμός Μέθοδοι Κλίσης Πολιτικής

Πηγές

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Πώς να παραπέμψετε σε αυτή τη σελίδα

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/el/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Βαθιά Ενισχυτική ΜάθησηΒαθιά Μάθηση↔ compare
Δυναμικός ΠρογραμματισμόςΒελτιστοποίηση↔ compare
Μέθοδοι Κλίσης ΠολιτικήςΜηχανική Μάθηση↔ compare

Compare side by side →

Αναφέρεται από

Μέθοδοι Κλίσης Πολιτικής

Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →