Belge Temsili ve Ağırlıklandırma
Belge temsili, ham metni ağırlıklandırılmış özelliklerden oluşan yapılandırılmış bir kümeye dönüştürmekte, neyin terim sayılacağına ve her terimin ne kadar katkıda bulunması gerektiğine karar vermektedir.
Tanım
Belge temsili ve ağırlıklandırma, ham belge metnini, metni belirteçlere ayırarak ve normalleştirerek, her özelliğe belgedeki ve koleksiyondaki önemini yansıtan bir ağırlık atayarak, tipik olarak terimlerden oluşan bir özellik vektörüne dönüştürme sürecidir.
Kapsam
Bu konu, belgeleri aranabilir temsillerine dönüştüren adımları kapsamaktadır: belirteçlere ayırma (tokenization), normalleştirme, durak kelime (stop-word) işleme, kök bulma (stemming) ve lemmalara ayırma (lemmatization) ile birlikte, ham ve logaritmik terim sıklığı, ters belge sıklığı (inverse document frequency) ve uzunluk normalizasyonlu tf-idf gibi terim ağırlıklandırma şemalarıyla birlikte kelime torbası (bag-of-words) veya n-gram özellik vektörlerinin oluşturulması. Geri çağırma (retrieval), sınıflandırma ve kümelemeyi besleyen temsili şekillendiren seçimleri ele almakta, sıralama modellerini ve gizli temsilleri ise bitişik konulara bırakmaktadır.
Temel sorular
- Ham metin terimlere nasıl ayrıştırılır ve normalleştirilir?
- Durak kelime (stop-word) kaldırma, kök bulma (stemming) ve lemmalara ayırma (lemmatization) etkileri nelerdir?
- Terim sıklığı tek başına neden zayıf bir ağırlık oluşturur ve nasıl dönüştürülür?
- Ters belge sıklığı (inverse document frequency) bir koleksiyon genelinde terim önemini nasıl yakalar?
- Uzunluk normalizasyonu, uzun ve kısa belgeleri nasıl karşılaştırılabilir tutar?
Anahtar kavramlar
- belirteçlere ayırma (tokenization) ve normalleştirme
- durak kelimeler (stop words)
- kök bulma (stemming) ve lemmalara ayırma (lemmatization)
- kelime torbası (bag-of-words) ve n-gramlar
- terim sıklığı (ham ve logaritmik)
- ters belge sıklığı (inverse document frequency)
- tf-idf varyantları
- uzunluk normalizasyonu
Temel kuramlar
- Kelime Torbası (Bag-of-words) Temsili
- Bir belgeyi, kelime sırasını göz ardı ederek, terimlerin sıralanmamış bir çoklu kümesi olarak ele almak, sözdizimini göz ardı etmesine rağmen klasik bilgi erişimi, sınıflandırma ve kümelemenin temelini oluşturan basit ve etkili bir özellik vektörü sağlamaktadır.
- tf-idf Ağırlıklandırma Şemaları
- Bir (genellikle azaltılmış) terim sıklığı bileşenini ters belge sıklığı (inverse document frequency) ve uzunluk normalizasyonu ile birleştirmek, bir belgede sıkça geçen ancak koleksiyonda nadir bulunan terimleri vurgulayan ağırlıklar üretmektedir ve birçok belgelenmiş varyantı bulunmaktadır.
Klinik önem
Temsil ve ağırlıklandırma seçimleri, arama sıralamasından istenmeyen posta filtrelemeye ve kümelemeye kadar her bir sonraki görevin kalitesini doğrudan etkilemektedir. tf-idf temsilleri güçlü, yorumlanabilir bir temel olarak kalmakta ve belirteçlere ayırma ve normalleştirmenin aynı tasarım soruları, öğrenilmiş gömülü temsilleri (learned embeddings) besleyen modern süreçlerde de devam etmektedir.
Tarihçe
Belge temsili, 1960'lı ve 1970'li yıllarda vektör uzay modeliyle birlikte olgunlaşmıştır; Spärck Jones 1972'de ters belge sıklığını (inverse document frequency) tanıtmış, Salton ve Buckley ise 1988'de terim ağırlıklandırma varyantlarını sistemleştirmiştir. Kelime torbası (bag-of-words) temsili ve tf-idf, onlarca yıl boyunca bilgi erişimi (IR) ve makine öğrenimi genelinde metin işleme için varsayılan temel haline gelmiştir.
Öne çıkan isimler
- Gerard Salton
- Chris Buckley
- Karen Spärck Jones
İlgili konular
Temel eserler
- salton1988
- sparckjones1972
- manning2008
Sıkça sorulan sorular
- Kelime torbası (bag-of-words) modeli nedir?
- Kelime torbası modeli, bir belgeyi içerdiği terimlerin bir kümesi veya çoklu kümesi olarak temsil etmekte, kelime sırasını ve dilbilgisini göz ardı etmektedir. Sıra bilgisini dışlamasına rağmen, bilgi erişimi, sınıflandırma ve kümeleme için basit, verimli ve şaşırtıcı derecede etkili bir yöntemdir.
- Terim sıklığına neden logaritma uygulanır?
- On kez geçen bir terim, bir kez geçen bir terimden on kat daha önemli değildir. Terim sıklığının logaritmasını almak bu etkiyi azaltmakta, böylece ek geçişler giderek daha az ağırlık katmakta ve tekrarın alaka düzeyiyle nasıl ilişkili olduğunu daha iyi yansıtmaktadır.