CLIP — Контрастно езиково-изобразително предварително обучение
CLIP (Contrastive Language-Image Pretraining) е визуално-езиков модел, представен от Радфорд и сътр. от OpenAI през 2021 г., който съвместно изучава подравнени представяния на изображения и текст чрез обучение върху 400 милиона двойки изображение-текст, извлечени от интернет, използвайки контрастна цел, което позволява трансфер без предварително обучение (zero-shot transfer) към задачи за класификация на изображения без специфична за задачата фина настройка.
Прочетете целия метод
Влезте с безплатен профил, за да прочетете този раздел.
Method map
The neighbourhood of related methods — select a node to explore.
Източници
- Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
- Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3
Как да цитирате тази страница
ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/bg/deep-learning/clip
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- ResNet (Residual Network)Дълбоко обучение↔ compare
- Vision TransformerДълбоко обучение↔ compare
Цитиран в
Забелязахте ли проблем на тази страница? Съобщете или предложете поправка →