Напівкероване навчання з підкріпленням
Напівкероване навчання з підкріпленням (SSRL) поєднує стандартне навчання з підкріпленням — де агент навчається на основі розріджених сигналів винагороди — із напівкерованими методами, які витягують структуру з нерозмічених взаємодій із середовищем. Мета полягає в покращенні ефективності використання вибірки та узагальнення, коли зворотний зв'язок щодо винагороди є дорогим, запізнілим або доступним лише для частини досвіду агента.
Читати метод повністю
Увійдіть із безкоштовним обліковим записом, щоб прочитати цей розділ.
Карта методів
Околиця споріднених методів — виберіть вузол, щоб дослідити.
Джерела
- Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
- Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Як цитувати цю сторінку
ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/uk/deep-learning/semi-supervised-reinforcement-learning
Який метод?
Поставте цей метод поруч із його найближчими спорідненими й читайте їх пліч-о-пліч — бібліотека викладає книги на стіл; вибір за вами.
- Адаптивне навчання з підкріпленням у різних доменахГлибоке навчання↔ порівняти
- Навчання з підкріпленнямГлибоке навчання↔ порівняти
- Навчання з підкріпленням на основі самонавчанняГлибоке навчання↔ порівняти
- Трансформер із напівкерованим навчаннямГлибоке навчання↔ порівняти
- Навчання з перенесенням на основі навчання з підкріпленнямГлибоке навчання↔ порівняти
- Слабо контрольоване навчання з підкріпленнямГлибоке навчання↔ порівняти
Згадується в
Помітили помилку на цій сторінці? Повідомте про неї або запропонуйте виправлення →