Küme hipotezi nedir?

Küme hipotezi, aynı bilgi ihtiyacıyla ilgili belgelerin birbirine benzer olma eğiliminde olduğunu belirtmektedir. Eğer bu doğruysa, benzer belgeleri gruplandırmak ilgili olanları bir araya getirmekte ve bu durum, bilgi erişim sonuçlarını iyileştirmek veya düzenlemek için kullanılabilmektedir.

Etiketler olmadığında kümeleme nasıl değerlendirilmektedir?

Dahili ölçütler, küme uyumunu ve ayrımını doğrudan verilerden değerlendirirken, harici ölçütler ise bilinen bir kategorizasyon mevcut olduğunda kümeleri bu kategorizasyonla karşılaştırmaktadır. Kümeleme denetimsiz olduğundan ve 'doğruluk' amaçlanan kullanıma bağlı olduğundan her ikisi de kullanılmaktadır.

Metin Kümeleme

Metin kümeleme, önceden tanımlanmış kategoriler olmaksızın belgeleri benzer içeriğe sahip kümeler halinde gruplandırarak bir koleksiyondaki yapıyı ortaya çıkarmakta ve göz atma ile erişimi desteklemektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Metin kümeleme, belge temsilleri üzerinde bir benzerlik ölçütü kullanılarak ve önceden tanımlanmış etiketler olmaksızın, bir belge koleksiyonunun denetimsiz olarak gruplara ayrılması işlemidir; öyle ki bir grup içindeki belgeler birbirine, diğer gruplardaki belgelere göre daha benzer olmaktadır.

Kapsam

Bu konu, belgelerin denetimsiz gruplandırılmasını kapsamaktadır: belge vektörleri üzerinde k-ortalamalar gibi düz bölümleme yöntemleri, hiyerarşik kümeleme (agglomerative clustering), ilgili benzerlik ölçütleri ve kriter fonksiyonları ile küme kalitesinin hem dahili hem de harici etiketlere göre değerlendirilmesi incelenmektedir. Ayrıca, küme hipotezi ve arama sonuçları kümelemesi gibi erişime özgü motivasyonları da ele almaktadır. Kümelemeyi, denetimli sınıflandırma ve gizli konu modellerinden farklı olarak, bilgi erişimine hizmet ettiği şekliyle ele almaktadır.

Temel sorular

Kümeleme için belgeler arasındaki benzerlik nasıl ölçülmektedir?
k-ortalamalar gibi düz yöntemler, hiyerarşik kümelemeden (agglomerative clustering) nasıl farklılık göstermektedir?
Küme sayısı nasıl seçilmektedir?
Gerçek etiketler olmaksızın küme kalitesi nasıl değerlendirilmektedir?
Küme hipotezi, bilgi erişimi için ne anlama gelmektedir?

Anahtar kavramlar

denetimsiz kümeleme
belge benzerliği (kosinüs)
k-ortalamalar kümelemesi
hiyerarşik kümeleme (agglomerative clustering)
kriter fonksiyonları
küme hipotezi
dahili ve harici küme değerlendirmesi
arama sonuçları kümelemesi

Temel kuramlar

Küme hipotezi: Aynı sorguyla ilgili belgeler birbirine benzer olma eğilimindedir; bu nedenle kümeleme, ilgili belgeleri bir araya getirebilmekte, küme tabanlı bilgi erişimi ve sonuç organizasyonunu motive etmektedir.
Düz ve hiyerarşik kümeleme: k-ortalamalar gibi düz yöntemler, bir kriter fonksiyonunu optimize ederek belgeleri seçilen sayıda kümeye ayırırken, hiyerarşik kümeleme (agglomerative) yöntemleri iç içe geçmiş bir küme ağacı oluşturmaktadır; kriter seçimi, belge kümeleme kalitesini güçlü bir şekilde etkilemektedir.

Klinik önem

Kümeleme, büyük belge kümelerinin keşfedilmesini ve düzenlenmesini desteklemektedir: arama sonuçlarını alt konulara göre gruplandırma, haberleri tekilleştirme ve düzenleme, dijital kütüphaneleri yapılandırma ve keşifsel arama için genel bakışlar sunma gibi işlevleri bulunmaktadır. Küme hipotezi ayrıca belge benzerliğinden yararlanan erişim yöntemlerine de bilgi sağlamaktadır.

Tarihçe

Kümeleme, bilgi erişimine erken dönemlerde uygulanmıştır; van Rijsbergen, 1970'lerde küme hipotezini küme tabanlı erişim için bir gerekçe olarak ortaya koymuştur. Koleksiyonlar büyüdükçe, k-ortalamalar ve ikiye bölen varyantlar gibi ölçeklenebilir yöntemler ile kümeleme kriterlerinin dikkatli karşılaştırmaları standart hale gelmiş ve web arama çıktısını düzenlemenin bir yolu olarak sonuç kümelemesi ortaya çıkmıştır.

Öne çıkan isimler

C. J. van Rijsbergen
George Karypis
Christopher Manning

İlgili konular

Temel eserler

vanrijsbergen1979
manning2008
zhao2004

Sıkça sorulan sorular

Küme hipotezi nedir?: Küme hipotezi, aynı bilgi ihtiyacıyla ilgili belgelerin birbirine benzer olma eğiliminde olduğunu belirtmektedir. Eğer bu doğruysa, benzer belgeleri gruplandırmak ilgili olanları bir araya getirmekte ve bu durum, bilgi erişim sonuçlarını iyileştirmek veya düzenlemek için kullanılabilmektedir.
Etiketler olmadığında kümeleme nasıl değerlendirilmektedir?: Dahili ölçütler, küme uyumunu ve ayrımını doğrudan verilerden değerlendirirken, harici ölçütler ise bilinen bir kategorizasyon mevcut olduğunda kümeleri bu kategorizasyonla karşılaştırmaktadır. Kümeleme denetimsiz olduğundan ve 'doğruluk' amaçlanan kullanıma bağlı olduğundan her ikisi de kullanılmaktadır.