Machine learning

CLIP — Kontrastívne predtrénovanie jazyka a obrazu

CLIP (Contrastive Language-Image Pretraining) je model vízie a jazyka, ktorý v roku 2021 predstavili Radford et al. v OpenAI. Spoločne sa učí zarovnané obrazové a textové reprezentácie trénovaním na 400 miliónoch párov obraz-text získaných z internetu pomocou kontrastného cieľa, čo umožňuje prenos s nulovým výstrelom (zero-shot) do úloh klasifikácie obrazu bez akéhokoľvek doladenia špecifického pre danú úlohu.

Otvoriť v MethodMindČoskoroVideoČoskoroDownload slides

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Method map

The neighbourhood of related methods — select a node to explore.

CLIP

ResNet (reziduálna sieť)Vision Transformer Multimodálna klasifikáci…Multimodálne vety vložen…

Zdroje

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Ako citovať túto stránku

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/sk/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

ResNet (reziduálna sieť)Hlboké učenie↔ compare
Vision TransformerHlboké učenie↔ compare

Compare side by side →

Odkazujú sem

Multimodálna klasifikácia založená na BERT Multimodálne vety vloženia

Našli ste na tejto stránke chybu? Nahláste ju alebo navrhnite opravu →