CLIP — Contrastive Language-Image Pretraining
CLIP (Contrastive Language-Image Pretraining) là một mô hình thị giác-ngôn ngữ do Radford và cộng sự tại OpenAI giới thiệu năm 2021, học đồng thời các biểu diễn ảnh và văn bản được căn chỉnh bằng cách huấn luyện trên 400 triệu cặp ảnh-văn bản lấy từ internet sử dụng mục tiêu tương phản, cho phép chuyển giao zero-shot sang các tác vụ phân loại ảnh mà không cần tinh chỉnh riêng cho tác vụ đó.
Đọc toàn bộ phương pháp
Đăng nhập bằng tài khoản miễn phí để đọc phần này.
Method map
The neighbourhood of related methods — select a node to explore.
Nguồn tài liệu
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3
Cách trích dẫn trang này
ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/vi/deep-learning/clip
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
Compare side by side →Được tham chiếu bởi
Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →