Machine learningDeep learning / NLP / CV

Çok Modlu Adlandırılmış Varlık Tanıma

Multimodal Named Entity Recognition (Text + Visual/Auxiliary Modality NER) · Ayrıca şöyle bilinir: Multimodal NER, MNER, Visual NER, Cross-modal Named Entity Recognition

Çok Modlu Adlandırılmış Varlık Tanıma (MNER), adlandırılmış varlıkların (kişi, kuruluş, yer gibi) tanımlanmasını ve sınıflandırılmasını iyileştirmek amacıyla metin dizilerini tamamlayıcı modalitelerle – en yaygın olarak görsellerle – birleştirerek klasik NER'yi genişletir; özellikle görsel bağlamın belirsiz veya seyrek metinleri belirsizleştirdiği durumlarda.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

Çok Modlu Adlandırılmış Varlık Tanıma

BERT Tabanlı Sınıflandır…Çok Modlu BERT Tabanlı S…Çok Modlu Soru Cevaplama Çok Modlu Cümle Gömme İş…Çok Modlu Transformer Adlandırılmış Varlık Tan…

Ne zaman kullanılır

Verilerinizin metni görsellerle veya diğer modalitelerle eşleştirdiği ve metindeki varlık bahsetmelerinin kısa, belirsiz olduğu veya metin tabanlı NER'yi yetersiz bırakan gayri resmi dil kullandığı durumlarda MNER'yi kullanın – sosyal medya gönderileri, eşlik eden fotoğraflara sahip haber makaleleri, ürün listeleri ve tarama görüntüleri içeren tıbbi kayıtlar bunun başlıca örnekleridir. MNER, görsel sinyalin gerçekten bilgilendirici olduğu durumlarda metin tabanlı NER'den tutarlı bir şekilde daha iyi performans gösterir. Görsellerin rastgele eklendiği ve varlık bahsetmeleriyle anlamsal bir ilişkisi olmadığı durumlarda, yalnızca uzun, sözdizimsel olarak zengin metin mevcut olduğunda (standart BERT tabanlı NER yeterlidir) veya hizalanmış çok modlu veriler için hesaplama bütçesi ve etiketleme maliyetleri engelleyici olduğunda kullanmayın.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Kısa, gürültülü, görsel eşleşmeli tweetler ve haber parçacıkları gibi belgelerde metin tabanlı NER'ye göre F1 puanını tutarlı bir şekilde iyileştirir.
Görsel olarak temellendirilmiş varlıklar (ünlüler, ürünler, yer işaretleri) için varlık türü karışıklığını azaltır.
Önceden eğitilmiş görsel ve dil kodlayıcıları aracılığıyla iyi aktarım sağlar, etiketlenmiş çok modlu veri hacmini azaltır.
Yerleşik NER değerlendirme çerçeveleriyle (CoNLL, Twitter NER kıyaslamaları) uyumludur.
Modüler tasarım, görsel kodlayıcıların veya füzyon modüllerinin dizi etiketleyicisinden bağımsız olarak değiştirilmesine olanak tanır.

Sınırlılıklar

Yeni alanlar için toplanması ve etiketlenmesi pahalı olan eşleştirilmiş metin-görüntü veri kümeleri gerektirir.
Görsellerin genel veya adlandırılmış varlıklarla ilgisiz olduğu durumlarda performans artışı azalır.
Çift kodlayıcı ve füzyon katmanları nedeniyle çıkarım maliyeti, yalnızca metin tabanlı NER'den önemli ölçüde daha yüksektir.
Halka açık çok modlu NER kıyaslamaları, boyut ve alan çeşitliliği açısından sınırlıdır, bu da değerlendirme genellemesini zorlaştırır.

SSS

MNER değerlendirmesi için yaygın olarak hangi veri kümeleri kullanılır?

Zhang ve ark. ile Moon ve ark. tarafından tanıtılan Twitter-2015 ve Twitter-2017 çok modlu NER veri kümeleri standart kıyaslamalardır. Her ikisi de PER, ORG, LOC ve MISC varlık türleriyle etiketlenmiş, görsellerle eşleştirilmiş kısa İngilizce tweetler sağlar.

MNER her zaman metin tabanlı BERT NER'den daha mı iyi performans gösterir?

Her zaman değil. İyileştirme, güçlü görsel-metinsel hizalamaya bağlıdır. Görseller genel stok fotoğraflar veya varlık bahsetmeleriyle ilgisiz olduğunda, MNER iyi ayarlanmış bir metin tabanlı modelle aynı düzeyde veya hatta daha düşük performans gösterebilir.

Hangi füzyon stratejisi kullanılmalı?

Çapraz modal dikkat (burada her metin belirteci uzamsal görüntü bölgeleri üzerinde dikkat eder) genellikle basit birleştirmeden veya erken füzyondan daha iyi performans gösterir. Her belirteç başına ne kadar görsel sinyal enjekte edileceğini öğrenen kapılı füzyon birimleri de etkilidir ve minimum parametre ekler.

MNER, görseller dışındaki modalitelere uygulanabilir mi?

Evet. Çerçeve, modalite varlıkları belirsizleştiren tamamlayıcı bilgi sağladığı sürece, konuşulan NER'de ses özellikleri, e-ticaret NER'sinde yapılandırılmış meta veriler veya multimedya içerik etiketlemesinde video kareleri gibi herhangi bir yardımcı modaliteye genelleştirilebilir.

Ne kadar etiketlenmiş veriye ihtiyaç var?

Önceden eğitilmiş kodlayıcılarla (BERT + ResNet veya ViT), birkaç bin etiketlenmiş metin-görüntü çiftiyle makul bir performans elde edilebilir. Ön eğitim olmadan, çok modlu NER ciddi şekilde veri açlığı çeker ve nadiren pratiktir.

Kaynaklar

Moon, S., Neves, L., & Carvalho, V. (2018). Multimodal Named Entity Recognition for Short Social Media Posts. Proceedings of NAACL-HLT 2018, pp. 852–860. Association for Computational Linguistics. link ↗
Lu, D., Neves, L., Carvalho, V., Zhang, N., & Ji, H. (2018). Visual Attention Model for Name Tagging in Multimodal Social Media. Proceedings of ACL 2018, pp. 1990–1999. Association for Computational Linguistics. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Multimodal Named Entity Recognition (Text + Visual/Auxiliary Modality NER). ScholarGate. https://scholargate.app/tr/deep-learning/multimodal-named-entity-recognition

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

BERT Tabanlı SınıflandırmaDerin öğrenme↔ karşılaştır
Çok Modlu BERT Tabanlı SınıflandırmaDerin öğrenme↔ karşılaştır
Çok Modlu Soru CevaplamaDerin öğrenme↔ karşılaştır
Çok Modlu Cümle Gömme İşlemleriDerin öğrenme↔ karşılaştır
Çok Modlu TransformerDerin öğrenme↔ karşılaştır
Adlandırılmış Varlık Tanıma (AVT)Metin madenciliği↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

Çok Modlu BERT Tabanlı Sınıflandırma Çok Modlu Transformer Çok Modlu Görüntü Sınıflandırması Çok Modlu Soru Cevaplama Çok Modlu Doğal Dil İşleme Çok Modlu Metin Özetleme Çok Modlu RoBERTa Tabanlı Sınıflandırma

İlgili referans kavramlar

Bilgi Çıkarımı Bilgi Çıkarımı Sözcük Türü Etiketleme ve Dizi Etiketleme Klinik Dokümantasyonda Doğal Dil İşleme Nesne Tanıma ve Algılama Doğal Dil İşleme

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Çok Modlu Adlandırılmış Varlık Tanıma

Multimodal Named Entity Recognition (Text + Visual/Auxiliary Modality NER) · Ayrıca şöyle bilinir: Multimodal NER, MNER, Visual NER, Cross-modal Named Entity Recognition

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Kısa, gürültülü, görsel eşleşmeli tweetler ve haber parçacıkları gibi belgelerde metin tabanlı NER'ye göre F1 puanını tutarlı bir şekilde iyileştirir.
Görsel olarak temellendirilmiş varlıklar (ünlüler, ürünler, yer işaretleri) için varlık türü karışıklığını azaltır.
Önceden eğitilmiş görsel ve dil kodlayıcıları aracılığıyla iyi aktarım sağlar, etiketlenmiş çok modlu veri hacmini azaltır.
Yerleşik NER değerlendirme çerçeveleriyle (CoNLL, Twitter NER kıyaslamaları) uyumludur.
Modüler tasarım, görsel kodlayıcıların veya füzyon modüllerinin dizi etiketleyicisinden bağımsız olarak değiştirilmesine olanak tanır.

Sınırlılıklar

Yeni alanlar için toplanması ve etiketlenmesi pahalı olan eşleştirilmiş metin-görüntü veri kümeleri gerektirir.
Görsellerin genel veya adlandırılmış varlıklarla ilgisiz olduğu durumlarda performans artışı azalır.
Çift kodlayıcı ve füzyon katmanları nedeniyle çıkarım maliyeti, yalnızca metin tabanlı NER'den önemli ölçüde daha yüksektir.
Halka açık çok modlu NER kıyaslamaları, boyut ve alan çeşitliliği açısından sınırlıdır, bu da değerlendirme genellemesini zorlaştırır.

SSS

MNER değerlendirmesi için yaygın olarak hangi veri kümeleri kullanılır?

MNER her zaman metin tabanlı BERT NER'den daha mı iyi performans gösterir?

Hangi füzyon stratejisi kullanılmalı?

MNER, görseller dışındaki modalitelere uygulanabilir mi?

Ne kadar etiketlenmiş veriye ihtiyaç var?

Kaynaklar

Moon, S., Neves, L., & Carvalho, V. (2018). Multimodal Named Entity Recognition for Short Social Media Posts. Proceedings of NAACL-HLT 2018, pp. 852–860. Association for Computational Linguistics. link ↗
Lu, D., Neves, L., Carvalho, V., Zhang, N., & Ji, H. (2018). Visual Attention Model for Name Tagging in Multimodal Social Media. Proceedings of ACL 2018, pp. 1990–1999. Association for Computational Linguistics. link ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 3). Multimodal Named Entity Recognition (Text + Visual/Auxiliary Modality NER). ScholarGate. https://scholargate.app/tr/deep-learning/multimodal-named-entity-recognition