Aprendizaje por Refuerzo Semi-supervisado
El aprendizaje por refuerzo semi-supervisado (SSRL, por sus siglas en inglés) combina el aprendizaje por refuerzo estándar —donde un agente aprende a partir de señales de recompensa escasas— con técnicas semi-supervisadas que extraen estructura de interacciones no etiquetadas con el entorno. El objetivo es mejorar la eficiencia de muestreo y la generalización cuando la retroalimentación de recompensa es costosa, retardada o solo está disponible para una fracción de la experiencia del agente.
Leer el método completo
Inicia sesión con una cuenta gratuita para leer esta sección.
Method map
The neighbourhood of related methods — select a node to explore.
Fuentes
- Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
- Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Cómo citar esta página
ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/es/deep-learning/semi-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Aprendizaje por Refuerzo Adaptativo al DominioAprendizaje profundo↔ compare
- Aprendizaje por RefuerzoAprendizaje profundo↔ compare
- Aprendizaje por Refuerzo Auto-supervisadoAprendizaje profundo↔ compare
- Transformer semi-supervisadoAprendizaje profundo↔ compare
- Aprendizaje por Transferencia con Aprendizaje por RefuerzoAprendizaje profundo↔ compare
- Aprendizaje por Refuerzo Débilmente SupervisadoAprendizaje profundo↔ compare
Citado por
¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →