ScholarGate
Asistan

Metin Sınıflandırması ve Duygu Analizi

Metinlere konular, diller, spam veya duygu gibi kategorilerin atanması, olasılıksal ve sinirsel sınıflandırıcılar kullanılarak gerçekleştirilen, doğal dil işleme (NLP) tekniklerinin en yaygın kullanılan ailesidir.

PaperMind ile konu bulYakındaMakale ve konu bul
Tools & resources
Slaytları indir
Learn & explore
VideoYakında

Tanım

Metin sınıflandırması, bir metin parçasına bir veya daha fazla önceden tanımlanmış kategori etiketinin denetimli olarak atanmasıdır; duygu analizi ise bu alanın önde gelen bir uygulamasıdır.

Kapsam

Belgelerin ve daha kısa metinlerin denetimli sınıflandırmasını kapsar: kelime torbası (bag-of-words) ve gömme (embeddings) gibi özellik temsilleri, naive Bayes ve lojistik regresyon gibi klasik modeller, sinirsel sınıflandırıcılar ve duygu ile görüş analizinin önde gelen uygulaması ele alınmaktadır. Değerlendirme, sınıf dengesizliği ve özellik tasarımı konularına değinilmektedir. Temsil öğrenimi (representation learning) ise ayrı bir konuda incelenmektedir.

Temel sorular

  • Bir sınıflandırıcı için metin özellikler olarak nasıl temsil edilir?
  • Naive Bayes, lojistik regresyon veya sinirsel modeller ne zaman uygun olur?
  • Duygu analizi olumsuzlama, alay ve bağlam ile nasıl başa çıkar?
  • Sınıf dengesizliği durumunda sınıflandırıcı performansı adil bir şekilde nasıl ölçülür?

Anahtar kavramlar

  • kelime torbası (bag-of-words)
  • naive Bayes
  • lojistik regresyon
  • özellik mühendisliği
  • duygu analizi
  • öznellik tespiti
  • sınıf dengesizliği
  • kesinlik ve geri çağırma (precision and recall)

Temel kuramlar

Kelime Torbası Sınıflandırması (Bag-of-words classification)
Bir belgeyi kelime sayılarının bir temsili olarak ele alıp naive Bayes veya lojistik regresyon gibi modellerle sınıflandırmak, basit ancak güçlü bir temel yöntemdir.
Öznellik Odaklı Duygu Analizi (Subjectivity-aware sentiment analysis)
Duygu sınıflandırmasını, Pang ve Lee'nin minimum kesit yaklaşımında olduğu gibi, öznel içeriği nesnel içerikten ayırarak iyileştirmek.

Tarihçe

Metin sınıflandırması, doğal dil işleme (NLP) görevleri arasında tamamen istatistiksel yaklaşımlara yönelen ilk alanlardan biri olmuştur; 1990'lı ve 2000'li yıllarda naive Bayes ve daha sonra destek vektör makineleri (support-vector machines) bu alana hakim olmuştur. 2000'li yılların başında Pang ve Lee tarafından popülerleştirilen duygu analizi, önemli bir alt alan haline gelmiştir; sinirsel sınıflandırıcılar ve önceden eğitilmiş modeller daha sonra genel doğruluk oranlarını artırmıştır.

Tartışmalar

Basit Özellikler ve Derin Temsiller
Güçlü kelime torbası (bag-of-words) temel yöntemleri, kısa ve konuya özel görevlerde sinirsel modellerle sıklıkla rekabet edebilmekte, bu da derin temsillerin ek karmaşıklığının ne zaman haklı çıkarıldığına dair bir tartışmayı tetiklemektedir.

Öne çıkan isimler

  • Bo Pang
  • Lillian Lee
  • Christopher Manning

İlgili konular

Temel eserler

  • pang2004
  • manning1999

Sıkça sorulan sorular

Duygu analizi neden konu sınıflandırmasından daha zordur?
Duygu, olumsuzlama, karşılaştırma ve alay gibi ince ipuçlarına bağlıdır ve aynı kelimeler farklı bağlamlarda zıt kutupları ifade edebilir; bu nedenle yalnızca yüzeysel kelime sayıları genellikle yetersiz kalmaktadır.

Bu kavram için yöntemler

İlgili kavramlar