Học tăng cường bán giám sát
Học tăng cường bán giám sát (SSRL) kết hợp học tăng cường tiêu chuẩn — nơi tác nhân học từ các tín hiệu phần thưởng thưa thớt — với các kỹ thuật bán giám sát trích xuất cấu trúc từ các tương tác môi trường không nhãn. Mục tiêu là cải thiện hiệu quả mẫu và khả năng khái quát hóa khi phản hồi phần thưởng tốn kém, bị trễ hoặc chỉ có sẵn cho một phần kinh nghiệm của tác nhân.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Zhan, X., Zhu, X., & Shi, H. (2022). Deepthermal: Combustion optimization for thermal power generating units using offline reinforcement learning. Proceedings of the AAAI Conference on Artificial Intelligence, 36(4), 4680–4688. link ↗
- Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Semi-supervised Reinforcement Learning (SSRL). ScholarGate. https://scholargate.app/vi/deep-learning/semi-supervised-reinforcement-learning
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Học tăng cường thích ứng miềnHọc sâu↔ compare
- Học tăng cườngHọc sâu↔ compare
- Học tăng cường tự giám sátHọc sâu↔ compare
- Transformer bán giám sátHọc sâu↔ compare
- Học chuyển giao với Học tăng cườngHọc sâu↔ compare
- Học tăng cường giám sát yếuHọc sâu↔ compare
Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →