ScholarGate
Assistent
Machine learning

CLIP — Kontrastiv förträning av språk och bild

CLIP (Contrastive Language-Image Pretraining) är en visions-språkmodell som introducerades av Radford et al. på OpenAI år 2021, vilken gemensamt lär sig anpassade bild- och textrepresentationer genom träning på 400 miljoner internetbaserade bild-text-par med ett kontrastivt mål. Detta möjliggör zero-shot-överföring till bildklassificeringsuppgifter utan någon uppgiftsspecifik finjustering.

Öppna i MethodMindSnartVideoSnartDownload slides

Läs hela metoden

Endast för medlemmar

Logga in med ett kostnadsfritt konto för att läsa avsnittet.

Logga in

Method map

The neighbourhood of related methods — select a node to explore.

Källor

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Så citerar du den här sidan

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/sv/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Refereras av

ScholarGateCLIP (Contrastive Language-Image Pretraining). Hämtad 2026-06-15 från https://scholargate.app/sv/deep-learning/clip · Datamängd: https://doi.org/10.5281/zenodo.20539026