Machine learningDeep learning / NLP / CV

Puolivalvottu vahvistusoppiminen

Puolivalvottu vahvistusoppiminen (SSRL) yhdistää standardin vahvistusoppimisen – jossa agentti oppii harvoista palkkiosignaaleista – puolivalvottuihin tekniikoihin, jotka poimivat rakennetta merkitsemättömistä ympäristöinteraktioista. Tavoitteena on parantaa näytteen tehokkuutta ja yleistymiskykyä, kun palkkiopalaute on kallista, viivästynyttä tai saatavilla vain osalle agentin kokemuksesta.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Lähteet

  1. Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link
  2. Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link

Näin viittaat tähän sivuun

ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/fi/deep-learning/semi-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Tähän viittaavat

ScholarGateSemi-supervised Reinforcement Learning (Semi-supervised Reinforcement Learning (SSRL)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/deep-learning/semi-supervised-reinforcement-learning · Aineisto: https://doi.org/10.5281/zenodo.20539026