ScholarGate
Assistent
Machine learning

CLIP — Kontrastiv Prætræning af Sprog og Billeder

CLIP (Contrastive Language-Image Pretraining) er en visions-sprogmodel introduceret af Radford et al. hos OpenAI i 2021, der samlet lærer afstemte billed- og tekstrepræsentationer ved at træne på 400 millioner internet-baserede billed-tekst-par ved hjælp af en kontrastiv objektiv, hvilket muliggør nul-skuds-overførsel til billedklassifikationsopgaver uden nogen opgavespecifik finjustering.

Åbn i MethodMindSnartVideoSnartDownload slides

Læs hele metoden

Kun for medlemmer

Log ind med en gratis konto for at læse dette afsnit.

Log ind

Method map

The neighbourhood of related methods — select a node to explore.

Kilder

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Sådan citerer du denne side

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/da/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Refereret af

ScholarGateCLIP (Contrastive Language-Image Pretraining). Hentet 2026-06-15 fra https://scholargate.app/da/deep-learning/clip · Datasæt: https://doi.org/10.5281/zenodo.20539026