Q-Learning
Το Q-learning, που εισήχθη από τους Christopher Watkins και Peter Dayan το 1992, είναι ένας αλγόριθμος ενισχυτικής μάθησης χωρίς μοντέλο, ο οποίος μαθαίνει την αξία της εκτέλεσης κάθε ενέργειας σε κάθε κατάσταση — τη συνάρτηση Q — αποκλειστικά από την εμπειρία, χωρίς μοντέλο του περιβάλλοντος. Είναι εκτός πολιτικής (off-policy): μαθαίνει τις βέλτιστες τιμές ενεργειών ακολουθώντας μια πολιτική εξερεύνησης, και υπό τυπικές συνθήκες αποδεδειγμένα συγκλίνει στη βέλτιστη πολιτική.
Διαβάστε ολόκληρη τη μέθοδο
Συνδεθείτε με δωρεάν λογαριασμό για να διαβάσετε αυτή την ενότητα.
Method map
The neighbourhood of related methods — select a node to explore.
Πηγές
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Πώς να παραπέμψετε σε αυτή τη σελίδα
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/el/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Βαθιά Ενισχυτική ΜάθησηΒαθιά Μάθηση↔ compare
- Δυναμικός ΠρογραμματισμόςΒελτιστοποίηση↔ compare
- Μέθοδοι Κλίσης ΠολιτικήςΜηχανική Μάθηση↔ compare
Αναφέρεται από
Εντοπίσατε πρόβλημα σε αυτή τη σελίδα; Αναφέρετέ το ή προτείνετε διόρθωση →