Machine learning

CLIP — Contrastive Language-Image Pretraining

CLIP(Contrastive Language-Image Pretraining)は、Radfordら(OpenAI)が2021年に発表した、画像と言語の表現を共同で学習するモデルである。インターネットから収集した4億件の画像とテキストのペアを用いて、対照学習(contrastive objective)により学習を行い、タスク固有のファインチューニングなしでゼロショット(zero-shot)で画像分類タスクに転移学習できる。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link
  2. Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link
  3. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

このページの引用方法

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/ja/deep-learning/clip

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

この手法を参照する項目

ScholarGateCLIP (Contrastive Language-Image Pretraining). 2026-06-15に以下より取得 https://scholargate.app/ja/deep-learning/clip · データセット: https://doi.org/10.5281/zenodo.20539026