Q-apmācība
Q-apmācība (Q-learning), ko 1992. gadā ieviesa Kristofers Votkinss (Christopher Watkins) un Pīters Daiens (Peter Dayan), ir no modeļa neatkarīgs pastiprinājuma mācīšanās algoritms, kas apgūst katras darbības vērtību katrā stāvoklī — Q-funkciju — tīri no pieredzes, bez vides modeļa. Tas ir ārpuspolitikas (off-policy) algoritms: tas apgūst optimālās darbības vērtības, sekojot izpētes uzvedības politikai, un standarta apstākļos tas pierādāmi konverģē uz optimālo politiku.
Lasīt pilno metodes aprakstu
Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.
Method map
The neighbourhood of related methods — select a node to explore.
Avoti
- Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Kā citēt šo lapu
ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/lv/machine-learning/q-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Dziļā pastiprinātā mācīšanāsDziļā mācīšanās↔ compare
- Dinamiskā programmēšanaOptimizācija↔ compare
- Metodes ar politikas gradientuMašīnmācīšanās↔ compare
Uz to atsaucas
Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →