Machine learningDeep learning / NLP / CV

Puolivalvottu vahvistusoppiminen

Puolivalvottu vahvistusoppiminen (SSRL) yhdistää standardin vahvistusoppimisen – jossa agentti oppii harvoista palkkiosignaaleista – puolivalvottuihin tekniikoihin, jotka poimivat rakennetta merkitsemättömistä ympäristöinteraktioista. Tavoitteena on parantaa näytteen tehokkuutta ja yleistymiskykyä, kun palkkiopalaute on kallista, viivästynyttä tai saatavilla vain osalle agentin kokemuksesta.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Puolivalvottu vahvistusoppiminen

Toimialaan mukautuva vah…Vahvistusoppiminen Itseohjautuva vahvistuso…Puolivalvottu Transformer Siirto-oppiminen vahvist…Heikosti valvottu vahvis…

Lähteet

Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗

Näin viittaat tähän sivuun

ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/fi/deep-learning/semi-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Toimialaan mukautuva vahvistusoppiminenSyväoppiminen↔ compare
VahvistusoppiminenSyväoppiminen↔ compare
Itseohjautuva vahvistusoppiminenSyväoppiminen↔ compare
Puolivalvottu TransformerSyväoppiminen↔ compare
Siirto-oppiminen vahvistusoppimisellaSyväoppiminen↔ compare
Heikosti valvottu vahvistusoppiminenSyväoppiminen↔ compare

Compare side by side →

Tähän viittaavat

Itseohjautuva vahvistusoppiminen Heikosti valvottu vahvistusoppiminen

Huomasitko virheen tällä sivulla? Ilmoita siitä tai ehdota korjausta →