Machine learning

CLIP — Contrastive Language-Image Pretraining

CLIP (Contrastive Language-Image Pretraining) to jest model wizualno-językowy wprowadzony przez Radfoda i wsp. w OpenAI w 2021 roku, który wspólnie uczy się dopasowanych reprezentacji obrazów i tekstów poprzez trening na 400 milionach par obraz-tekst pochodzących z internetu, wykorzystując cel kontrastowy, co umożliwia transfer zero-shot do zadań klasyfikacji obrazów bez żadnego dostrajania specyficznego dla zadania.

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

Źródła

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Jak cytować tę stronę

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/pl/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Cytowana przez

ScholarGateCLIP (Contrastive Language-Image Pretraining). Pobrano 2026-06-15 z https://scholargate.app/pl/deep-learning/clip · Zbiór danych: https://doi.org/10.5281/zenodo.20539026