Machine learningDeep learning / NLP / CV

Aprendizaje por Refuerzo

El Aprendizaje por Refuerzo (RL) es un marco en el que un agente aprende a tomar decisiones secuenciales interactuando con un entorno, recibiendo señales de recompensa escalares y actualizando una política para maximizar la recompensa futura acumulada. A diferencia del aprendizaje supervisado, no se proporcionan ejemplos etiquetados; el agente descubre el comportamiento óptimo enteramente a través de la experiencia y la retroalimentación retardada.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Aprendizaje por Refuerzo

Métodos de Gradiente de…Red Neuronal Recurrente Programación Dinámica Ba…Programación Dinámica Ba…Explainable Reinforcemen…Aprendizaje por Refuerzo…Aprendizaje por Refuerzo…Aprendizaje por Refuerzo…Aprendizaje por Refuerzo…Aprendizaje por Refuerzo…

+2 more

Fuentes

Sutton, R. S. & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press. ISBN: 978-0-262-03924-6
Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518, 529–533. DOI: 10.1038/nature14236 ↗

Cómo citar esta página

ScholarGate. (2026, June 3). Reinforcement Learning (Agent-Environment Reward Optimization). ScholarGate. https://scholargate.app/es/deep-learning/reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Métodos de Gradiente de PolíticaAprendizaje automático↔ compare
Red Neuronal RecurrenteAprendizaje profundo↔ compare

Compare side by side →

Citado por

Programación Dinámica Basada en Agentes Programación Dinámica Bayesiana Explainable Reinforcement Learning Aprendizaje por Refuerzo Ajustado Aprendizaje por Refuerzo Multilingüe Aprendizaje por Refuerzo Multimodal Aprendizaje por Refuerzo Auto-supervisado Aprendizaje por Refuerzo Semi-supervisado Aprendizaje por Transferencia con Aprendizaje por Refuerzo Aprendizaje por Refuerzo Débilmente Supervisado

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →