Machine learning

CLIP — Contrastive Language-Image Pretraining

CLIP (Contrastive Language-Image Pretraining) là một mô hình thị giác-ngôn ngữ do Radford và cộng sự tại OpenAI giới thiệu năm 2021, học đồng thời các biểu diễn ảnh và văn bản được căn chỉnh bằng cách huấn luyện trên 400 triệu cặp ảnh-văn bản lấy từ internet sử dụng mục tiêu tương phản, cho phép chuyển giao zero-shot sang các tác vụ phân loại ảnh mà không cần tinh chỉnh riêng cho tác vụ đó.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

CLIP

ResNet (Mạng Tích chập T…Transformer Thị giác Phân loại dựa trên BERT…Nhúng câu đa phương thức

Nguồn tài liệu

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/vi/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

ResNet (Mạng Tích chập Tái sinh)Học sâu↔ compare
Transformer Thị giácHọc sâu↔ compare

Compare side by side →

Được tham chiếu bởi

Phân loại dựa trên BERT đa phương thức Nhúng câu đa phương thức

Phát hiện lỗi trên trang này? Báo cáo hoặc đề xuất chỉnh sửa →