Machine learningReinforcement learning

Q-apmācība

Q-apmācība (Q-learning), ko 1992. gadā ieviesa Kristofers Votkinss (Christopher Watkins) un Pīters Daiens (Peter Dayan), ir no modeļa neatkarīgs pastiprinājuma mācīšanās algoritms, kas apgūst katras darbības vērtību katrā stāvoklī — Q-funkciju — tīri no pieredzes, bez vides modeļa. Tas ir ārpuspolitikas (off-policy) algoritms: tas apgūst optimālās darbības vērtības, sekojot izpētes uzvedības politikai, un standarta apstākļos tas pierādāmi konverģē uz optimālo politiku.

Atvērt MethodMindDrīzumāVideoDrīzumāDownload slides

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Method map

The neighbourhood of related methods — select a node to explore.

Q-apmācība

Dziļā pastiprinātā mācīš…Dinamiskā programmēšana Metodes ar politikas gra…

Avoti

Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698 ↗
Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Kā citēt šo lapu

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/lv/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Dziļā pastiprinātā mācīšanāsDziļā mācīšanās↔ compare
Dinamiskā programmēšanaOptimizācija↔ compare
Metodes ar politikas gradientuMašīnmācīšanās↔ compare

Compare side by side →

Uz to atsaucas

Metodes ar politikas gradientu

Pamanījāt kļūdu šajā lapā? Ziņojiet vai ierosiniet labojumu →