Machine learningReinforcement learning

Q-apmācība

Q-apmācība (Q-learning), ko 1992. gadā ieviesa Kristofers Votkinss (Christopher Watkins) un Pīters Daiens (Peter Dayan), ir no modeļa neatkarīgs pastiprinājuma mācīšanās algoritms, kas apgūst katras darbības vērtību katrā stāvoklī — Q-funkciju — tīri no pieredzes, bez vides modeļa. Tas ir ārpuspolitikas (off-policy) algoritms: tas apgūst optimālās darbības vērtības, sekojot izpētes uzvedības politikai, un standarta apstākļos tas pierādāmi konverģē uz optimālo politiku.

Atvērt MethodMindDrīzumāVideoDrīzumāDownload slides

Lasīt pilno metodes aprakstu

Tikai dalībniekiem

Piesakieties ar bezmaksas kontu, lai lasītu šo sadaļu.

Pieteikties

Method map

The neighbourhood of related methods — select a node to explore.

Avoti

  1. Watkins, C. J. C. H., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3–4), 279–292. DOI: 10.1007/BF00992698
  2. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6

Kā citēt šo lapu

ScholarGate. (2026, June 2). Q-Learning (Off-Policy Temporal-Difference Control). ScholarGate. https://scholargate.app/lv/machine-learning/q-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Uz to atsaucas

ScholarGateQ-Learning (Q-Learning (Off-Policy Temporal-Difference Control)). Izgūts 2026-06-15 no https://scholargate.app/lv/machine-learning/q-learning · Datu kopa: https://doi.org/10.5281/zenodo.20539026