Metin Sınıflandırması
Metin sınıflandırması, etiketlenmiş örneklerden öğrenilen modeller kullanılarak belgeleri otomatik olarak bir veya daha fazla önceden tanımlanmış kategoriye atama işlemidir.
Tanım
Metin sınıflandırması, bir belgeyi önceden tanımlanmış bir kümeden bir veya daha fazla kategoriye atama görevidir; bu görev, kategori etiketleri bilinen belgeler üzerinde eğitilmiş bir model tarafından, belgenin terim tabanlı temsilinin girdi özellikleri olarak kullanılmasıyla gerçekleştirilmektedir.
Kapsam
Bu konu, metinlerin denetimli kategorizasyonunu kapsamaktadır: tek etiketli, çok etiketli veya hiyerarşik sınıflandırma olarak problem formülasyonu; naive Bayes, Rocchio merkez (centroid) yöntemi, k-en yakın komşular ve destek vektör makineleri gibi metinlere uygulanan temsili öğrenme algoritmaları; yüksek boyutlu metinler için özellik seçimi; ve sınıflandırıcıların değerlendirilmesi. Konu, makine öğreniminden yararlanmakla birlikte genel sınıflandırıcı teorisinden ziyade metne özgü hususlara odaklanarak filtreleme ve yönlendirme gibi bilgi erişim bağlamlarında kullanılan sınıflandırmayı ele almaktadır.
Temel sorular
- Metin kategorizasyonu tek etiketli, çok etiketli veya hiyerarşik sınıflandırma olarak nasıl formüle edilmektedir?
- Yüksek boyutlu, seyrek metin özelliklerinde hangi öğrenme algoritmaları iyi çalışmaktadır?
- Büyük bir kelime dağarcığından bilgilendirici özellikler nasıl seçilmektedir?
- Destek vektör makineleri metin için neden özellikle uygun olmaktadır?
- Metin sınıflandırıcıları nasıl değerlendirilmekte ve sınıf dengesizliği nasıl ele alınmaktadır?
Anahtar kavramlar
- denetimli kategorizasyon
- tek etiketli ve çok etiketli sınıflandırma
- naive Bayes
- Rocchio / merkez (centroid) sınıflandırması
- k-en yakın komşular
- destek vektör makineleri
- özellik seçimi
- sınıflandırıcı değerlendirmesi (kesinlik, duyarlılık, F1)
Temel kuramlar
- Naive Bayes metin sınıflandırması
- Her belgenin terimlerini sınıf verildiğinde koşullu olarak bağımsız modellemek, güçlü bağımsızlık varsayımına rağmen birçok metin görevinde rekabetçi performans gösteren basit, hızlı bir olasılıksal sınıflandırıcı sağlamaktadır.
- Metin için destek vektör makineleri
- Metinlerin birçok seyrek, çoğunlukla ilgili özelliğe sahip olması ve sınıfların bu uzayda genellikle doğrusal olarak ayrılabilir olması nedeniyle, büyük marjlı destek vektör makineleri, az özellik mühendisliği ile güçlü metin kategorizasyon doğruluğu elde etmektedir.
Klinik önem
Metin sınıflandırması, e-posta spam filtreleme, içerik denetimi, konu yönlendirme ve etiketleme, duygu analizi ile çok yönlü arama ve filtrelemeyi destekleyen kategorizasyon gibi alanlarda kullanılmaktadır. Bilgi erişimi bağlamında ise, sürekli bilgi ihtiyaçlarına uygun belgeleri sunan belge filtreleme ve yönlendirme sistemlerinin temelini oluşturmaktadır.
Tarihçe
Otomatik metin kategorizasyonu, elle oluşturulan kural sistemleriyle başlamış ve 1990'larda makine öğrenimine yönelmiştir. Joachims'in 1998'deki destek vektör makinelerinin metin üzerinde üstün performans gösterdiğini kanıtlaması ve Sebastiani'nin 2002'deki araştırması, modern denetimli paradigmayı oluşturmuştur. Aynı görev, günümüzde temsil öğrenimi ve nöral metin modelleri için standart bir kıyaslama noktası olarak hizmet etmektedir.
Öne çıkan isimler
- Fabrizio Sebastiani
- Thorsten Joachims
- Yiming Yang
İlgili konular
Temel eserler
- sebastiani2002
- joachims1998
- manning2008
Sıkça sorulan sorular
- Naive Bayes, gerçekçi olmayan bağımsızlık varsayımına rağmen neden iyi çalışmaktadır?
- Terimler gerçekten bağımsız olmasa da, naive Bayes kararı genellikle doğru sınıfa düşmektedir çünkü varsayım, sınıfların göreceli sıralamasını değil, esas olarak olasılık tahminlerini bozmaktadır. Ayrıca, sınırlı veriyle hızlı ve sağlam olması, onu güçlü bir temel model yapmaktadır.
- Tek etiketli ve çok etiketli sınıflandırma arasındaki fark nedir?
- Tek etiketli sınıflandırma, her belgeyi tam olarak bir kategoriye atarken, çok etiketli sınıflandırma, bir makalenin birden fazla konuyla etiketlenmesi gibi, bir belgenin aynı anda birden fazla kategoriye ait olmasına izin vermektedir. Çok etiketli görevler, çakışan etiketleri ele alan yöntemlere ve metriklere ihtiyaç duymaktadır.