Machine learning

CLIP — Kontrastif Dil-Görüntü Ön-Eğitimi

Contrastive Language-Image Pretraining · Ayrıca şöyle bilinir: CLIP, Contrastive Language-Image Pre-training, zero-shot image classifier, visual-language model

CLIP (Kontrastif Dil-Görüntü Ön-Eğitimi), Radford ve arkadaşları tarafından OpenAI'de 2021'de tanıtılan, 400 milyon internet kaynaklı görüntü-metin çifti üzerinde kontrastif bir hedefle eğitilerek hizalanmış görüntü ve metin temsillerini ortaklaşa öğrenen bir vizyon-dil modelidir. Bu, herhangi bir göreve özgü ince ayar yapmadan görüntü sınıflandırma görevlerine sıfır-çekim aktarımını sağlar.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

CLIP

Artık Ağ (ResNet)Vision Transformer Çok Modlu BERT Tabanlı S…Çok Modlu Cümle Gömme İş…

Ne zaman kullanılır

CLIP, hedef görev için etiketli eğitim verilerinin kıt veya mevcut olmadığı durumlarda, sınıf kümesinin dağıtım zamanında değişebileceği durumlarda (açık kelime hazinesi tanıma) veya görüntü sınıflandırma, görüntü-metin alma veya görsel soru yanıtlama gibi birden çok aşağı akış görevi için tek bir önceden eğitilmiş omurga gerektiğinde uygundur. Önceden eğitilmiş bir CLIP kontrol noktasına erişim olduğunu (OpenAI birkaç tane sağlar) ve aday sınıf adlarının doğal dil ifadeleri olarak ifade edilebileceğini varsayar. CLIP, etiketli verilerin bol olduğu durumlarda göreve özgü ince ayarın yerini almaz — hedef dağılım üzerinde denetimli ince ayar genellikle sıfır-çekim CLIP'ten daha iyi performans gösterir. Ayrıca, ek adaptasyon olmadan yoğun tahmin görevleri (tespit, segmentasyon) için tasarlanmamıştır.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Bu görevler için herhangi bir etiketli örnek olmadan yeni görüntü sınıflandırma görevlerine sıfır-çekim aktarım.
Açık kelime hazinesi tanıma: sınıf kümeleri çıkarım zamanında doğal dil kullanılarak belirtilebilir veya değiştirilebilir.
Eğitim çeşitli internet görüntülerini ve başlıklarını kapsadığı için, ImageNet denetimli modellere kıyasla dağıtım kaymasına karşı dayanıklıdır.
Önceden eğitilmiş görüntü ve metin kodlayıcıları, alma, sıralama ve çok modlu aşağı akış görevleri için güçlü özellik çıkarıcılar olarak yeniden kullanılabilir.
Ölçeklenebilirlik öngörülebilir: hem sıfır-çekim doğruluğu hem de aşağı akış aktarımı, daha büyük modeller ve daha fazla eğitim verisiyle iyileşir.

Sınırlılıklar

Hedef alanda etiketli veri mevcut olduğunda, göreve özgü denetimli ince ayarın gerisinde kalır.
Büyük hesaplama ve depolama gerektirir: CLIP'i sıfırdan önceden eğitmek yüzlerce GPU ve 400 milyon küratörlü görüntü-metin çifti gerektirir.
Web ölçekli eğitim verilerinde mevcut olan önyargıları miras alır, bu da tahminlerde demografik ve kültürel önyargılara yol açabilir.
Doğal başlıklarda yeterince temsil edilmeyen ince taneli veya soyut görevlerle (örneğin, nesneleri sayma, metin okuma, uzamsal akıl yürütme) mücadele eder.
İstem mühendisliği — sınıf açıklamalarının tam kelime seçimi — doğruluğu anlamlı şekilde etkiler, bu da sonuçları ifade seçimine duyarlı hale getirir.

SSS

CLIP, eğitim sırasında hedef sınıfları hiç görmemişken görüntüleri nasıl sınıflandırır?

CLIP'in kontrastif hedefi, görüntü ve metin temsillerini paylaşılan bir alanda hizalar. Çıkarım zamanında, her aday sınıf etiketi doğal dil istemine dönüştürülür ve metin kodlayıcısı tarafından kodlanır. Görüntü, görüntü kodlayıcısı tarafından kodlanır ve metin gömme, görüntü gömme ile en yüksek kosinüs benzerliğine sahip sınıf seçilir. Kodlayıcılar 400 milyon çeşitli çiftten genel görsel-anlamsal ilişkiler öğrendiği için, bu durum doğal dilde açıklanan görülmemiş sınıflara genelleme yapar.

CLIP bağlamında istem mühendisliği nedir ve neden önemlidir?

İstem mühendisliği, sınıf adlarını kodlamak için kullanılan metin şablonunun seçimiyle (örneğin, '{sınıf}' yerine 'bir {sınıf} fotoğrafı') ilgilidir. Radford ve arkadaşları, bağlamsal şablonların, bazen birkaç yüzde puanı kadar, çıplak sınıf adlarına göre sıfır-çekim doğruluğunu tutarlı bir şekilde artırdığını bulmuşlardır. Birden çok istem şablonunun toplu olarak kullanılması performansı daha da artırır. İstem kelime seçimine duyarlılık, metin kodlayıcısının izole edilmiş isimler yerine doğal olarak oluşan cümleler üzerinde eğitilmiş olmasını yansıtır.

CLIP üretken bir model midir?

Hayır. CLIP, eşleşen görüntü ve metin gömmeleri üreten ayrımcı bir kontrastif modeldir; görüntü veya metin üretmez. Ancak, CLIP gömmeleri, DALL-E 2 gibi üretken modelleri yönlendirmek için kullanılmıştır; bu model, CLIP'in gömme uzayını bir difüzyon tabanlı görüntü kod çözücüsü için anlamsal hedef olarak kullanır.

CLIP'i sıfır-çekim kullanmak yerine ne zaman ince ayar yapmalıyım?

Etiketli verilerin bulunmadığı veya görevin web görüntüleri ve başlıklarının çeşitliliğine yakından benzediği durumlarda sıfır-çekim CLIP rekabetçidir. Etiketli verilerin hedef alan için mevcut olduğu, özellikle ince taneli veya alana özgü görevlerde (tıbbi görüntüleme, uydu görüntüleme veya ürün tanıma gibi), sıfır-çekim doğruluğunun denetimli alternatiflerin önemli ölçüde gerisinde kalabileceği durumlarda ince ayar yapılması (tam modelin veya doğrusal bir probun) önerilir.

Kaynaklar

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/tr/deep-learning/clip

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Artık Ağ (ResNet)Derin öğrenme↔ karşılaştır
Vision TransformerDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Çok Modlu BERT Tabanlı Sınıflandırma Çok Modlu Cümle Gömme İşlemleri

Benzer yöntemler

Çok dilli Görüntü Sınıflandırma Çok Modlu Cümle Gömme İşlemleri Çok Modlu Görüntü Sınıflandırması Çok Modlu Doğal Dil İşleme Çok Modlu Transformer Görüntü Sınıflandırma Çok Dilli Vision Transformer

İlgili referans kavramlar

Nesne Tanıma ve Algılama Öz-Denetimli ve Temsil Öğrenimi Sinirsel Dil Modelleri ve Kelime Gömülüleri Görüntü Segmentasyonu Derin Üretken Modeller Derin Öğrenme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Machine learning

CLIP — Kontrastif Dil-Görüntü Ön-Eğitimi

Contrastive Language-Image Pretraining · Ayrıca şöyle bilinir: CLIP, Contrastive Language-Image Pre-training, zero-shot image classifier, visual-language model

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

CLIP

Artık Ağ (ResNet)Vision Transformer Çok Modlu BERT Tabanlı S…Çok Modlu Cümle Gömme İş…

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Bu görevler için herhangi bir etiketli örnek olmadan yeni görüntü sınıflandırma görevlerine sıfır-çekim aktarım.
Açık kelime hazinesi tanıma: sınıf kümeleri çıkarım zamanında doğal dil kullanılarak belirtilebilir veya değiştirilebilir.
Eğitim çeşitli internet görüntülerini ve başlıklarını kapsadığı için, ImageNet denetimli modellere kıyasla dağıtım kaymasına karşı dayanıklıdır.
Önceden eğitilmiş görüntü ve metin kodlayıcıları, alma, sıralama ve çok modlu aşağı akış görevleri için güçlü özellik çıkarıcılar olarak yeniden kullanılabilir.
Ölçeklenebilirlik öngörülebilir: hem sıfır-çekim doğruluğu hem de aşağı akış aktarımı, daha büyük modeller ve daha fazla eğitim verisiyle iyileşir.

Sınırlılıklar

Hedef alanda etiketli veri mevcut olduğunda, göreve özgü denetimli ince ayarın gerisinde kalır.
Büyük hesaplama ve depolama gerektirir: CLIP'i sıfırdan önceden eğitmek yüzlerce GPU ve 400 milyon küratörlü görüntü-metin çifti gerektirir.
Web ölçekli eğitim verilerinde mevcut olan önyargıları miras alır, bu da tahminlerde demografik ve kültürel önyargılara yol açabilir.
Doğal başlıklarda yeterince temsil edilmeyen ince taneli veya soyut görevlerle (örneğin, nesneleri sayma, metin okuma, uzamsal akıl yürütme) mücadele eder.
İstem mühendisliği — sınıf açıklamalarının tam kelime seçimi — doğruluğu anlamlı şekilde etkiler, bu da sonuçları ifade seçimine duyarlı hale getirir.

SSS

CLIP, eğitim sırasında hedef sınıfları hiç görmemişken görüntüleri nasıl sınıflandırır?

CLIP bağlamında istem mühendisliği nedir ve neden önemlidir?

CLIP üretken bir model midir?

CLIP'i sıfır-çekim kullanmak yerine ne zaman ince ayar yapmalıyım?

Kaynaklar

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning Transferable Visual Models From Natural Language Supervision. Proceedings of the 38th International Conference on Machine Learning, PMLR 139, 8748–8763. link ↗
Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020. link ↗
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. ISBN: 978-0-262-03561-3

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Contrastive Language-Image Pretraining. ScholarGate. https://scholargate.app/tr/deep-learning/clip

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Artık Ağ (ResNet)Derin öğrenme↔ karşılaştır
Vision TransformerDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Bu yönteme atıf yapanlar

Çok Modlu BERT Tabanlı Sınıflandırma Çok Modlu Cümle Gömme İşlemleri

Benzer yöntemler

İlgili referans kavramlar

Nesne Tanıma ve Algılama Öz-Denetimli ve Temsil Öğrenimi Sinirsel Dil Modelleri ve Kelime Gömülüleri Görüntü Segmentasyonu Derin Üretken Modeller Derin Öğrenme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →