CLIP — Contrastive Language-Image Pretraining
CLIP (Contrastive Language-Image Pretraining) to jest model wizualno-językowy wprowadzony przez Radfoda i wsp. w OpenAI w 2021 roku, który wspólnie uczy się dopasowanych reprezentacji obrazów i tekstów poprzez trening na 400 milionach par obraz-tekst pochodzących z internetu, wykorzystując cel kontrastowy, co umożliwia transfer zero-shot do zadań klasyfikacji obrazów bez żadnego dostrajania specyficznego dla zadania.
Przeczytaj pełny opis metody
Zaloguj się na bezpłatne konto, aby przeczytać tę sekcję.
Method map
The neighbourhood of related methods — select a node to explore.
Źródła
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3
Jak cytować tę stronę
ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/pl/deep-learning/clip
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- ResNet (Residual Network)Uczenie głębokie↔ compare
- Vision TransformerUczenie głębokie↔ compare
Cytowana przez
Widzisz błąd na tej stronie? Zgłoś go lub zaproponuj poprawkę →