CLIP — Kontrastives Sprach-Bild-Pretraining
CLIP (Contrastive Language-Image Pretraining) ist ein Vision-Language-Modell, das 2021 von Radford et al. bei OpenAI eingeführt wurde und das gemeinsam ausgerichtete Bild- und Textrepräsentationen lernt, indem es auf 400 Millionen aus dem Internet stammenden Bild-Text-Paaren mit einem kontrastiven Ziel trainiert wird, was eine Zero-Shot-Übertragung auf Bildklassifizierungsaufgaben ohne spezifisches Fine-Tuning ermöglicht.
Die vollständige Methode lesen
Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.
Method map
The neighbourhood of related methods — select a node to explore.
Quellen
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3
So zitieren Sie diese Seite
ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/de/deep-learning/clip
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- ResNet (Residual Network)Deep Learning↔ compare
- Vision TransformerDeep Learning↔ compare
Referenziert von
Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →