Machine learningDeep learning / NLP / CV

Học tăng cường tự giám sát

Học tăng cường tự giám sát (SSL-RL) bổ sung quá trình huấn luyện học tăng cường (RL) tiêu chuẩn bằng các mục tiêu phụ trợ tự giám sát — như các tác vụ dựa trên tương phản, dự đoán hoặc tăng cường dữ liệu — được áp dụng cho kinh nghiệm của chính tác nhân. Các mục tiêu này cải thiện chất lượng của các biểu diễn đã học mà không yêu cầu nhãn thủ công bổ sung, giúp hội tụ nhanh hơn và hiệu quả lấy mẫu tốt hơn, đặc biệt trong các không gian quan sát có chiều cao như pixel thô.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Học tăng cường tự giám sát

Học tăng cường Mạng nơ-ron tích chập tự…Học tăng cường bán giám…Học chuyển giao với Học…Học tăng cường tinh chỉn…Học tăng cường đa phương…Học tăng cường giám sát…

Nguồn tài liệu

Laskin, M., Srinivas, A., & Abbeel, P. (2020). CURL: Contrastive Unsupervised Representations for Reinforcement Learning. Proceedings of the 37th International Conference on Machine Learning (ICML), PMLR 119, 5639–5650. link ↗
Laskin, M., Lee, K., Stooke, A., Pinto, L., Abbeel, P., & Srinivas, A. (2021). Reinforcement Learning with Augmented Data. Advances in Neural Information Processing Systems (NeurIPS), 33, 19884–19895. link ↗

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Self-supervised Reinforcement Learning (SSL-augmented RL). ScholarGate. https://scholargate.app/vi/deep-learning/self-supervised-reinforcement-learning

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Học tăng cườngHọc sâu↔ compare
Mạng nơ-ron tích chập tự giám sátHọc sâu↔ compare
Học tăng cường bán giám sátHọc sâu↔ compare
Học chuyển giao với Học tăng cườngHọc sâu↔ compare

Compare side by side →

Được tham chiếu bởi

Học tăng cường tinh chỉnh (Fine-Tuned Reinforcement Learning)Học tăng cường đa phương thức Học tăng cường bán giám sát Học tăng cường giám sát yếu

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →