Machine learning

CLIP — Kontrastívne predtrénovanie jazyka a obrazu

CLIP (Contrastive Language-Image Pretraining) je model vízie a jazyka, ktorý v roku 2021 predstavili Radford et al. v OpenAI. Spoločne sa učí zarovnané obrazové a textové reprezentácie trénovaním na 400 miliónoch párov obraz-text získaných z internetu pomocou kontrastného cieľa, čo umožňuje prenos s nulovým výstrelom (zero-shot) do úloh klasifikácie obrazu bez akéhokoľvek doladenia špecifického pre danú úlohu.

Otvoriť v MethodMindČoskoroVideoČoskoroDownload slides

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Method map

The neighbourhood of related methods — select a node to explore.

Zdroje

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Ako citovať túto stránku

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/sk/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Odkazujú sem

ScholarGateCLIP (Contrastive Language-Image Pretraining). Získané 2026-06-15 z https://scholargate.app/sk/deep-learning/clip · Dátová sada: https://doi.org/10.5281/zenodo.20539026