Metin Kümeleme
Metin kümeleme, önceden tanımlanmış kategoriler olmaksızın belgeleri benzer içeriğe sahip kümeler halinde gruplandırarak bir koleksiyondaki yapıyı ortaya çıkarmakta ve göz atma ile erişimi desteklemektedir.
Tanım
Metin kümeleme, belge temsilleri üzerinde bir benzerlik ölçütü kullanılarak ve önceden tanımlanmış etiketler olmaksızın, bir belge koleksiyonunun denetimsiz olarak gruplara ayrılması işlemidir; öyle ki bir grup içindeki belgeler birbirine, diğer gruplardaki belgelere göre daha benzer olmaktadır.
Kapsam
Bu konu, belgelerin denetimsiz gruplandırılmasını kapsamaktadır: belge vektörleri üzerinde k-ortalamalar gibi düz bölümleme yöntemleri, hiyerarşik kümeleme (agglomerative clustering), ilgili benzerlik ölçütleri ve kriter fonksiyonları ile küme kalitesinin hem dahili hem de harici etiketlere göre değerlendirilmesi incelenmektedir. Ayrıca, küme hipotezi ve arama sonuçları kümelemesi gibi erişime özgü motivasyonları da ele almaktadır. Kümelemeyi, denetimli sınıflandırma ve gizli konu modellerinden farklı olarak, bilgi erişimine hizmet ettiği şekliyle ele almaktadır.
Temel sorular
- Kümeleme için belgeler arasındaki benzerlik nasıl ölçülmektedir?
- k-ortalamalar gibi düz yöntemler, hiyerarşik kümelemeden (agglomerative clustering) nasıl farklılık göstermektedir?
- Küme sayısı nasıl seçilmektedir?
- Gerçek etiketler olmaksızın küme kalitesi nasıl değerlendirilmektedir?
- Küme hipotezi, bilgi erişimi için ne anlama gelmektedir?
Anahtar kavramlar
- denetimsiz kümeleme
- belge benzerliği (kosinüs)
- k-ortalamalar kümelemesi
- hiyerarşik kümeleme (agglomerative clustering)
- kriter fonksiyonları
- küme hipotezi
- dahili ve harici küme değerlendirmesi
- arama sonuçları kümelemesi
Temel kuramlar
- Küme hipotezi
- Aynı sorguyla ilgili belgeler birbirine benzer olma eğilimindedir; bu nedenle kümeleme, ilgili belgeleri bir araya getirebilmekte, küme tabanlı bilgi erişimi ve sonuç organizasyonunu motive etmektedir.
- Düz ve hiyerarşik kümeleme
- k-ortalamalar gibi düz yöntemler, bir kriter fonksiyonunu optimize ederek belgeleri seçilen sayıda kümeye ayırırken, hiyerarşik kümeleme (agglomerative) yöntemleri iç içe geçmiş bir küme ağacı oluşturmaktadır; kriter seçimi, belge kümeleme kalitesini güçlü bir şekilde etkilemektedir.
Klinik önem
Kümeleme, büyük belge kümelerinin keşfedilmesini ve düzenlenmesini desteklemektedir: arama sonuçlarını alt konulara göre gruplandırma, haberleri tekilleştirme ve düzenleme, dijital kütüphaneleri yapılandırma ve keşifsel arama için genel bakışlar sunma gibi işlevleri bulunmaktadır. Küme hipotezi ayrıca belge benzerliğinden yararlanan erişim yöntemlerine de bilgi sağlamaktadır.
Tarihçe
Kümeleme, bilgi erişimine erken dönemlerde uygulanmıştır; van Rijsbergen, 1970'lerde küme hipotezini küme tabanlı erişim için bir gerekçe olarak ortaya koymuştur. Koleksiyonlar büyüdükçe, k-ortalamalar ve ikiye bölen varyantlar gibi ölçeklenebilir yöntemler ile kümeleme kriterlerinin dikkatli karşılaştırmaları standart hale gelmiş ve web arama çıktısını düzenlemenin bir yolu olarak sonuç kümelemesi ortaya çıkmıştır.
Öne çıkan isimler
- C. J. van Rijsbergen
- George Karypis
- Christopher Manning
İlgili konular
Temel eserler
- vanrijsbergen1979
- manning2008
- zhao2004
Sıkça sorulan sorular
- Küme hipotezi nedir?
- Küme hipotezi, aynı bilgi ihtiyacıyla ilgili belgelerin birbirine benzer olma eğiliminde olduğunu belirtmektedir. Eğer bu doğruysa, benzer belgeleri gruplandırmak ilgili olanları bir araya getirmekte ve bu durum, bilgi erişim sonuçlarını iyileştirmek veya düzenlemek için kullanılabilmektedir.
- Etiketler olmadığında kümeleme nasıl değerlendirilmektedir?
- Dahili ölçütler, küme uyumunu ve ayrımını doğrudan verilerden değerlendirirken, harici ölçütler ise bilinen bir kategorizasyon mevcut olduğunda kümeleri bu kategorizasyonla karşılaştırmaktadır. Kümeleme denetimsiz olduğundan ve 'doğruluk' amaçlanan kullanıma bağlı olduğundan her ikisi de kullanılmaktadır.