Puolivalvottu vahvistusoppiminen
Puolivalvottu vahvistusoppiminen (SSRL) yhdistää standardin vahvistusoppimisen – jossa agentti oppii harvoista palkkiosignaaleista – puolivalvottuihin tekniikoihin, jotka poimivat rakennetta merkitsemättömistä ympäristöinteraktioista. Tavoitteena on parantaa näytteen tehokkuutta ja yleistymiskykyä, kun palkkiopalaute on kallista, viivästynyttä tai saatavilla vain osalle agentin kokemuksesta.
Lue koko menetelmä
Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.
Method map
The neighbourhood of related methods — select a node to explore.
Lähteet
- Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
- Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Näin viittaat tähän sivuun
ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/fi/deep-learning/semi-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Toimialaan mukautuva vahvistusoppiminenSyväoppiminen↔ compare
- VahvistusoppiminenSyväoppiminen↔ compare
- Itseohjautuva vahvistusoppiminenSyväoppiminen↔ compare
- Puolivalvottu TransformerSyväoppiminen↔ compare
- Siirto-oppiminen vahvistusoppimisellaSyväoppiminen↔ compare
- Heikosti valvottu vahvistusoppiminenSyväoppiminen↔ compare
Tähän viittaavat
Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →