Machine learning

CLIP — Contrastive Language-Image Pretraining

CLIP (Contrastive Language-Image Pretraining) là một mô hình thị giác-ngôn ngữ do Radford và cộng sự tại OpenAI giới thiệu năm 2021, học đồng thời các biểu diễn ảnh và văn bản được căn chỉnh bằng cách huấn luyện trên 400 triệu cặp ảnh-văn bản lấy từ internet sử dụng mục tiêu tương phản, cho phép chuyển giao zero-shot sang các tác vụ phân loại ảnh mà không cần tinh chỉnh riêng cho tác vụ đó.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Cách trích dẫn trang này

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/vi/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Được tham chiếu bởi

ScholarGateCLIP (Contrastive Language-Image Pretraining). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/deep-learning/clip · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026