ScholarGate
Assistent
Machine learning

CLIP — Kontrastiv språkk-bilde-forhåndstrening

CLIP (Contrastive Language-Image Pretraining) er en visjon-språkmodell introdusert av Radford et al. ved OpenAI i 2021 som felles lærer justerte bilde- og tekstrepresentasjoner ved å trene på 400 millioner internett-hentede bilde-tekst-par ved bruk av et kontrastivt mål, noe som muliggjør null-skudds-overføring til bildeklassifiseringsoppgaver uten oppgavespesifikk finjustering.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Kilder

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Slik siterer du denne siden

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/no/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referert av

ScholarGateCLIP (Contrastive Language-Image Pretraining). Hentet 2026-06-15 fra https://scholargate.app/no/deep-learning/clip · Datasett: https://doi.org/10.5281/zenodo.20539026