Machine learning

CLIP — Contrastive Language-Image Pretraining

CLIP (Contrastive Language-Image Pretraining) to jest model wizualno-językowy wprowadzony przez Radfoda i wsp. w OpenAI w 2021 roku, który wspólnie uczy się dopasowanych reprezentacji obrazów i tekstów poprzez trening na 400 milionach par obraz-tekst pochodzących z internetu, wykorzystując cel kontrastowy, co umożliwia transfer zero-shot do zadań klasyfikacji obrazów bez żadnego dostrajania specyficznego dla zadania.

Otwórz w MethodMindWkrótceWideoWkrótceDownload slides

Przeczytaj pełny opis metody

Tylko dla członków

Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.

Zaloguj się

Method map

The neighbourhood of related methods — select a node to explore.

CLIP

ResNet (Residual Network)Vision Transformer Klasyfikacja multimodaln…Osadzenia zdań multimoda…

Źródła

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Jak cytować tę stronę

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/pl/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

ResNet (Residual Network)Uczenie głębokie↔ compare
Vision TransformerUczenie głębokie↔ compare

Compare side by side →

Cytowana przez

Klasyfikacja multimodalna oparta na BERT Osadzenia zdań multimodalnych

Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →