Machine learningDeep learning / NLP / CV

Çok dilli Görüntü Sınıflandırma

Multilingual Image Classification (Cross-Lingual Vision Model) · Ayrıca şöyle bilinir: Cross-lingual image classification, Multilingual visual recognition, Cross-cultural image classification, Multilingual vision-language classification

Çok dilli görüntü sınıflandırma, sınıf adları, denetim sinyalleri veya değerlendirme ölçütleri birden çok dile yayıldığında görsel modelleri görüntüleri tanıma ve etiketleme konusunda eğitir. CLIP gibi çok dilli görsel-dil modelleri tarafından etkinleştirilen bu sistem, tek bir modelin desteklenen herhangi bir dildeki komut istemleri veya etiketleri kullanarak görüntüleri sınıflandırmasına olanak tanıyarak bilgisayarlı görü sistemlerinin kültürel ve dilsel olarak çapraz dağıtımını kolaylaştırır.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Çok dilli Görüntü Sınıflandırma

Görüntü Sınıflandırma Çok dilli Cümle Gömme Çok Dilli Vision Transfo…Çok Modlu Görüntü Sınıfl…Transfer Learning ile Gö…

Ne zaman kullanılır

Görüntü veri kümeniz çok dilli e-ticaret, çok dilli tıbbi raporlar, sınır ötesi sosyal medya analizi veya kültürel olarak çeşitli eğitim kaynakları gibi çok dilli dil topluluklarını kapsıyorsa ve her dil için ayrı sınıflandırıcılar eğitmeden dilsel bağlamlarda genelleme yapan bir modele ihtiyacınız varsa çok dilli görüntü sınıflandırmasını kullanın. Özellikle yüksek kaynaklı bir dilde etiketlenmiş görüntüler varsa ve düşük kaynaklı dillere sıfır-çekim veya az çekim transferi istiyorsanız uygundur. Tüm görüntüler ve etiketlerin tek bir dilde olduğu durumlarda bu yaklaşımı kullanmayın: standart görüntü sınıflandırması daha basittir ve daha kontrol edilebilir. Ayrıca, ortak görsel-dil modelleri büyük kara kutular olduğundan, sınıflandırma sınırının yorumlanabilirliği gerektiğinde bundan kaçının.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Tek model, görüntü sınıflandırma sorgularını ve etiketlerini aynı anda birçok dilde işler.
Sıfır-çekim sınıflandırma mümkündür: yeni diller, vizyon modülünü yeniden eğitmeye gerek kalmadan yalnızca o dildeki etiket metnini sağlayarak eklenebilir.
Önceden eğitilmiş çok dilli görsel-dil modelleri (CLIP), kültürel ve dilsel alanlarda iyi aktarılan güçlü özellik temsilleri sağlar.
Etiketleme maliyetini azaltır: yüksek kaynaklı dil etiketleri, düşük kaynaklı ortamlar için çapraz dil transferi yoluyla kullanılabilir.
Tam denetimli ince ayar ve komut istemi tabanlı sıfır-çekim çıkarım ile uyumludur, esnek dağıtım seçenekleri sunar.

Sınırlılıklar

Çok dilli metin kodlayıcısının ön eğitim kümesinde yetersiz temsil edilen düşük kaynaklı diller için performans düşer.
Kültürel etiket uyumsuzluğu: görsel kategoriler kültürler arasında her zaman doğrudan çevrilemez, bu nedenle çevrilmiş etiketler anlamsal olarak tam olmayabilir.
Büyük çok dilli görsel-dil modellerinin çalıştırılması ve ince ayarı hesaplama açısından pahalıdır, önemli GPU kaynakları gerektirir.
Yeterli etiketlenmiş veri mevcut olduğunda, sıfır-çekim doğruluğu genellikle ince ayarlı tek dilli sınıflandırıcılardan daha düşüktür.
Çeviri tabanlı veri artırma, model tahminlerini sistematik olarak yanlı hale getirebilecek gürültü ekleyebilir.

SSS

Çok dilli görüntü sınıflandırması, eğitim görüntüsü olmayan diller için çalışabilir mi?

Evet, sıfır-çekim ayarlarda. Çok dilli metin kodlayıcısı ön eğitim sırasında hedef dili görmüşse, o dilde etiketlenmiş görüntü olmadan, yalnızca o dildeki etiket metnini görüntü kodlayıcısıyla eşleştirerek sınıflandırma yapılabilir.

CLIP çok dilli görüntü sınıflandırmasını nasıl sağlar?

CLIP, eşleşen görüntü-metin çiftlerinin benzer gömmelere sahip olması için bir görsel kodlayıcı ve bir metin kodlayıcısını ortaklaşa karşılaştırmalı kayıp kullanarak eğitir. Metin kodlayıcısı çok dilli kapsama alanına sahip olduğundan, çıkarım zamanında görüntü gömmeleri desteklenen herhangi bir dildeki sınıf adı gömmeleriyle karşılaştırılabilir.

Çok dilli görüntü sınıflandırması, çok modlu sınıflandırma ile aynı mıdır?

Hayır, örtüşmelerine rağmen. Çok modlu sınıflandırma, bir tahmin yapmak için birden çok girdi modalitesi (görüntü + metin) kullanır. Çok dilli görüntü sınıflandırması, görüntü sınıflandırıcılarının çapraz dil genellemesine odaklanır ve çıkarım zamanında yalnızca görüntüleri kullanabilir, yalnızca eğitim veya etiket kodlaması sırasında çok dilli dil anlayışına güvenir.

Çok dilli bir modeli ne zaman ince ayar yapmalı veya sıfır-çekim kullanmalı?

Hedef dilde etiketlenmiş görüntüleriniz varsa ve maksimum doğruluk gerekiyorsa ince ayar yapın. Etiketlenmiş veri mevcut değilse veya yeniden eğitmeye gerek kalmadan yeni dillere hızlı dağıtım gerektiğinde sıfır-çekim kullanın.

Hangi değerlendirme metriğini kullanmalıyım?

Dil başına en iyi-1 doğruluğu ve diller arasındaki ortalama doğruluğu raporlayın. Dengesiz sınıf dağılımları için, dil başına makro-F1 daha bilgilendiricidir. Her zaman dil içi doğruluktan ayrı olarak çapraz dil transfer doğruluğunu dahil edin.

Kaynaklar

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Image classification. Wikipedia. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Multilingual Image Classification (Cross-Lingual Vision Model). ScholarGate. https://scholargate.app/tr/deep-learning/multilingual-image-classification

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Görüntü SınıflandırmaDerin öğrenme↔ karşılaştır
Çok dilli Cümle GömmeDerin öğrenme↔ karşılaştır
Çok Dilli Vision TransformerDerin öğrenme↔ karşılaştır
Çok Modlu Görüntü SınıflandırmasıDerin öğrenme↔ karşılaştır
Transfer Learning ile Görüntü SınıflandırmaDerin öğrenme↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

Çok Dilli Vision Transformer Çok Modlu Görüntü Sınıflandırması CLIP Çok Dilli Anlamsal Bölütleme Çok Modlu Cümle Gömme İşlemleri Çok Modlu Doğal Dil İşleme Görüntü Sınıflandırma

İlgili referans kavramlar

Nesne Tanıma ve Algılama Makine Çevirisi Metin Sınıflandırması Öz-Denetimli ve Temsil Öğrenimi Görüntü Segmentasyonu Makine Çevirisi

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Çok dilli Görüntü Sınıflandırma

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Tek model, görüntü sınıflandırma sorgularını ve etiketlerini aynı anda birçok dilde işler.
Sıfır-çekim sınıflandırma mümkündür: yeni diller, vizyon modülünü yeniden eğitmeye gerek kalmadan yalnızca o dildeki etiket metnini sağlayarak eklenebilir.
Önceden eğitilmiş çok dilli görsel-dil modelleri (CLIP), kültürel ve dilsel alanlarda iyi aktarılan güçlü özellik temsilleri sağlar.
Etiketleme maliyetini azaltır: yüksek kaynaklı dil etiketleri, düşük kaynaklı ortamlar için çapraz dil transferi yoluyla kullanılabilir.
Tam denetimli ince ayar ve komut istemi tabanlı sıfır-çekim çıkarım ile uyumludur, esnek dağıtım seçenekleri sunar.

Sınırlılıklar

Çok dilli metin kodlayıcısının ön eğitim kümesinde yetersiz temsil edilen düşük kaynaklı diller için performans düşer.
Kültürel etiket uyumsuzluğu: görsel kategoriler kültürler arasında her zaman doğrudan çevrilemez, bu nedenle çevrilmiş etiketler anlamsal olarak tam olmayabilir.
Büyük çok dilli görsel-dil modellerinin çalıştırılması ve ince ayarı hesaplama açısından pahalıdır, önemli GPU kaynakları gerektirir.
Yeterli etiketlenmiş veri mevcut olduğunda, sıfır-çekim doğruluğu genellikle ince ayarlı tek dilli sınıflandırıcılardan daha düşüktür.
Çeviri tabanlı veri artırma, model tahminlerini sistematik olarak yanlı hale getirebilecek gürültü ekleyebilir.

SSS

Çok dilli görüntü sınıflandırması, eğitim görüntüsü olmayan diller için çalışabilir mi?

CLIP çok dilli görüntü sınıflandırmasını nasıl sağlar?

Çok dilli görüntü sınıflandırması, çok modlu sınıflandırma ile aynı mıdır?

Çok dilli bir modeli ne zaman ince ayar yapmalı veya sıfır-çekim kullanmalı?

Hangi değerlendirme metriğini kullanmalıyım?

Kaynaklar

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., ... & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (ICML), pp. 8748–8763. PMLR. link ↗
Image classification. Wikipedia. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Multilingual Image Classification (Cross-Lingual Vision Model). ScholarGate. https://scholargate.app/tr/deep-learning/multilingual-image-classification