Kelime torbası (bag-of-words) modeli nedir?

Kelime torbası modeli, bir belgeyi içerdiği terimlerin bir kümesi veya çoklu kümesi olarak temsil etmekte, kelime sırasını ve dilbilgisini göz ardı etmektedir. Sıra bilgisini dışlamasına rağmen, bilgi erişimi, sınıflandırma ve kümeleme için basit, verimli ve şaşırtıcı derecede etkili bir yöntemdir.

Terim sıklığına neden logaritma uygulanır?

On kez geçen bir terim, bir kez geçen bir terimden on kat daha önemli değildir. Terim sıklığının logaritmasını almak bu etkiyi azaltmakta, böylece ek geçişler giderek daha az ağırlık katmakta ve tekrarın alaka düzeyiyle nasıl ilişkili olduğunu daha iyi yansıtmaktadır.

Belge Temsili ve Ağırlıklandırma

Belge temsili, ham metni ağırlıklandırılmış özelliklerden oluşan yapılandırılmış bir kümeye dönüştürmekte, neyin terim sayılacağına ve her terimin ne kadar katkıda bulunması gerektiğine karar vermektedir.

PaperMind ile konu bulYakındaMakale ve konu bul

Tools & resources

Slaytları indir

Learn & explore

VideoYakında

Tanım

Belge temsili ve ağırlıklandırma, ham belge metnini, metni belirteçlere ayırarak ve normalleştirerek, her özelliğe belgedeki ve koleksiyondaki önemini yansıtan bir ağırlık atayarak, tipik olarak terimlerden oluşan bir özellik vektörüne dönüştürme sürecidir.

Kapsam

Bu konu, belgeleri aranabilir temsillerine dönüştüren adımları kapsamaktadır: belirteçlere ayırma (tokenization), normalleştirme, durak kelime (stop-word) işleme, kök bulma (stemming) ve lemmalara ayırma (lemmatization) ile birlikte, ham ve logaritmik terim sıklığı, ters belge sıklığı (inverse document frequency) ve uzunluk normalizasyonlu tf-idf gibi terim ağırlıklandırma şemalarıyla birlikte kelime torbası (bag-of-words) veya n-gram özellik vektörlerinin oluşturulması. Geri çağırma (retrieval), sınıflandırma ve kümelemeyi besleyen temsili şekillendiren seçimleri ele almakta, sıralama modellerini ve gizli temsilleri ise bitişik konulara bırakmaktadır.

Temel sorular

Ham metin terimlere nasıl ayrıştırılır ve normalleştirilir?
Durak kelime (stop-word) kaldırma, kök bulma (stemming) ve lemmalara ayırma (lemmatization) etkileri nelerdir?
Terim sıklığı tek başına neden zayıf bir ağırlık oluşturur ve nasıl dönüştürülür?
Ters belge sıklığı (inverse document frequency) bir koleksiyon genelinde terim önemini nasıl yakalar?
Uzunluk normalizasyonu, uzun ve kısa belgeleri nasıl karşılaştırılabilir tutar?

Anahtar kavramlar

belirteçlere ayırma (tokenization) ve normalleştirme
durak kelimeler (stop words)
kök bulma (stemming) ve lemmalara ayırma (lemmatization)
kelime torbası (bag-of-words) ve n-gramlar
terim sıklığı (ham ve logaritmik)
ters belge sıklığı (inverse document frequency)
tf-idf varyantları
uzunluk normalizasyonu

Temel kuramlar

Kelime Torbası (Bag-of-words) Temsili: Bir belgeyi, kelime sırasını göz ardı ederek, terimlerin sıralanmamış bir çoklu kümesi olarak ele almak, sözdizimini göz ardı etmesine rağmen klasik bilgi erişimi, sınıflandırma ve kümelemenin temelini oluşturan basit ve etkili bir özellik vektörü sağlamaktadır.
tf-idf Ağırlıklandırma Şemaları: Bir (genellikle azaltılmış) terim sıklığı bileşenini ters belge sıklığı (inverse document frequency) ve uzunluk normalizasyonu ile birleştirmek, bir belgede sıkça geçen ancak koleksiyonda nadir bulunan terimleri vurgulayan ağırlıklar üretmektedir ve birçok belgelenmiş varyantı bulunmaktadır.

Klinik önem

Temsil ve ağırlıklandırma seçimleri, arama sıralamasından istenmeyen posta filtrelemeye ve kümelemeye kadar her bir sonraki görevin kalitesini doğrudan etkilemektedir. tf-idf temsilleri güçlü, yorumlanabilir bir temel olarak kalmakta ve belirteçlere ayırma ve normalleştirmenin aynı tasarım soruları, öğrenilmiş gömülü temsilleri (learned embeddings) besleyen modern süreçlerde de devam etmektedir.

Tarihçe

Belge temsili, 1960'lı ve 1970'li yıllarda vektör uzay modeliyle birlikte olgunlaşmıştır; Spärck Jones 1972'de ters belge sıklığını (inverse document frequency) tanıtmış, Salton ve Buckley ise 1988'de terim ağırlıklandırma varyantlarını sistemleştirmiştir. Kelime torbası (bag-of-words) temsili ve tf-idf, onlarca yıl boyunca bilgi erişimi (IR) ve makine öğrenimi genelinde metin işleme için varsayılan temel haline gelmiştir.

Öne çıkan isimler

Gerard Salton
Chris Buckley
Karen Spärck Jones

İlgili konular

Temel eserler

salton1988
sparckjones1972
manning2008

Sıkça sorulan sorular

Kelime torbası (bag-of-words) modeli nedir?: Kelime torbası modeli, bir belgeyi içerdiği terimlerin bir kümesi veya çoklu kümesi olarak temsil etmekte, kelime sırasını ve dilbilgisini göz ardı etmektedir. Sıra bilgisini dışlamasına rağmen, bilgi erişimi, sınıflandırma ve kümeleme için basit, verimli ve şaşırtıcı derecede etkili bir yöntemdir.
Terim sıklığına neden logaritma uygulanır?: On kez geçen bir terim, bir kez geçen bir terimden on kat daha önemli değildir. Terim sıklığının logaritmasını almak bu etkiyi azaltmakta, böylece ek geçişler giderek daha az ağırlık katmakta ve tekrarın alaka düzeyiyle nasıl ilişkili olduğunu daha iyi yansıtmaktadır.