Process / pipeline

TF-IDF — Terim Frekansı–Ters Belge Frekansı

Term Frequency–Inverse Document Frequency Vectorization · Ayrıca şöyle bilinir: term weighting, tf-idf weighting, TF-IDF Vektörizasyonu

TF-IDF, Salton ve Buckley (1988) tarafından tanıtılmış olup, her kelimeyi bir belgede ne sıklıkla göründüğüne ve tüm koleksiyondaki nadirliğine göre puanlayan bir terim ağırlıklandırma şemasıdır. Ham metni, bir belgede sık geçen ancak başka yerlerde nadir olan terimlere yüksek ağırlık vererek ağırlıklı belge vektörlerine dönüştürür.

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

TF-IDF

Duygu Analizi Metin Sınıflandırması Word2Vec Kelime Eş-Görülme Analizi Doc2Vec Belge Kümeleme Sahte Haber Tespiti GloVe Gömme Vektörleri Anahtar Kelime Çıkarma Sözcüksel Çeşitlilik

+13 tane daha

Ne zaman kullanılır

Metin koleksiyonuna sahip olduğunuzda ve belgeleri alma, sınıflandırma veya benzerlik karşılaştırması için sayısal özelliklere dönüştürmeniz gerektiğinde TF-IDF kullanın. Kelime torbası varsayımına dayanır ve önceden metin ön işlemesi gerektirir. Koleksiyon makul ölçüde büyük olmalıdır — yaklaşık 100 belgenin altında, IDF ağırlıkları kararsız hale gelir ve basit bir kelime frekansı analizi daha güvenilirdir. Hiç metin verisi olmadan TF-IDF hesaplanamaz.

Güçlü yönler & sınırlılıklar

Güçlü yönler

Basit, hızlı ve yorumlanabilir — her ağırlık yerel frekansa ve küresel nadirliğe doğrudan izlenebilir.
Ham metni arama, sınıflandırma ve kümeleme yöntemleri tarafından kullanılabilen sayısal belge vektörlerine dönüştürür.
Her yerde bulunan, bilgilendirici olmayan kelimeleri aşağı çekerken bir belgeyi ayıran terimleri vurgular.

Sınırlılıklar

Kelime torbası varsayımına dayanır ve kelime sırasını ve bağlamı göz ardı eder.
Çok küçük koleksiyonlarda IDF ağırlıkları kararsız ve anlamsız hale gelir.
Dikkatli metin ön işlemesi gerektirir; gürültülü belirteçler ağırlıkları düşürür.

SSS

TF ve IDF neyi ölçer?

Terim frekansı (TF), bir terimin tek bir belgede ne sıklıkta göründüğünü ölçerek yerel olarak ne kadar merkezi olduğunu yakalar. Ters belge frekansı (IDF), terimin tüm koleksiyonda ne kadar nadir olduğunu ölçerek birçok belgede görünen kelimeleri aşağı çeker. Bunları çarpmak, bir belgede sık geçen ancak başka yerde nadir olan terimlere yüksek ağırlık verir.

Koleksiyonum ne kadar büyük olmalı?

TF-IDF, makul ölçüde büyük bir koleksiyon gerektirir — kabaca 100 belge veya daha fazla. Bunun altında, IDF ağırlıkları kararsız hale gelir ve anlamını yitirir ve daha basit bir kelime frekansı analizi daha güvenilir bir seçimdir.

TF-IDF anlamı veya bağlamı anlar mı?

Hayır. TF-IDF, kelime torbası varsayımına dayanır: bireysel terimleri frekans ve nadirlik ile ağırlıklandırır ve kelime sırasını, sözdizimini ve semantiği göz ardı eder. Bağlam veya anlamsal benzerlik için Word2Vec gibi gömme yöntemleri daha uygundur.

Ne tür bir ön işleme gerektirir?

Ağırlıklandırmadan önce koleksiyon temizlenmeli ve tutarlı bir şekilde belirteçlere ayrılmalıdır — metni normalleştirip karşılaştırılabilir terim birimlerine ayırarak. Bu adımı atlamak, ağırlıkları düşüren gürültülü belirteçler bırakır.

Kaynaklar

Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/tr/text-mining/tf-idf

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Duygu AnaliziMetin madenciliği↔ karşılaştır
Metin SınıflandırmasıMetin madenciliği↔ karşılaştır
Word2VecMetin madenciliği↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

Anahtar Kelime Çıkarma Belge Kümeleme Metin Sıklığı Analizi NMF Konu Modelleme Metin Regresyonu Doc2Vec Word2Vec

İlgili referans kavramlar

Vektör Uzay Modeli Belge Temsili ve Ağırlıklandırma Geri Getirme Modelleri Metin Temsili ve Sınıflandırması Metin Kümeleme Metin Sınıflandırması

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

Process / pipeline

TF-IDF — Terim Frekansı–Ters Belge Frekansı

Term Frequency–Inverse Document Frequency Vectorization · Ayrıca şöyle bilinir: term weighting, tf-idf weighting, TF-IDF Vektörizasyonu

Araçlar & kaynaklar

Slaytları indir

Öğren & keşfet

Tam yöntemi oku

Yalnızca üyeler

Bu bölümü okumak için ücretsiz hesapla giriş yapın.

Giriş yap

Yöntem haritası

İlişkili yöntemlerin komşuluğu — keşfetmek için bir düğüm seçin.

TF-IDF

Duygu Analizi Metin Sınıflandırması Word2Vec Kelime Eş-Görülme Analizi Doc2Vec Belge Kümeleme Sahte Haber Tespiti GloVe Gömme Vektörleri Anahtar Kelime Çıkarma Sözcüksel Çeşitlilik

+13 tane daha

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

Güçlü yönler

Basit, hızlı ve yorumlanabilir — her ağırlık yerel frekansa ve küresel nadirliğe doğrudan izlenebilir.
Ham metni arama, sınıflandırma ve kümeleme yöntemleri tarafından kullanılabilen sayısal belge vektörlerine dönüştürür.
Her yerde bulunan, bilgilendirici olmayan kelimeleri aşağı çekerken bir belgeyi ayıran terimleri vurgular.

Sınırlılıklar

Kelime torbası varsayımına dayanır ve kelime sırasını ve bağlamı göz ardı eder.
Çok küçük koleksiyonlarda IDF ağırlıkları kararsız ve anlamsız hale gelir.
Dikkatli metin ön işlemesi gerektirir; gürültülü belirteçler ağırlıkları düşürür.

SSS

TF ve IDF neyi ölçer?

Koleksiyonum ne kadar büyük olmalı?

TF-IDF anlamı veya bağlamı anlar mı?

Ne tür bir ön işleme gerektirir?

Kaynaklar

Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗

Bu sayfayı kaynak gösterin

ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/tr/text-mining/tf-idf

Hangi yöntem?

Bu yöntemi en yakın akrabalarının yanına koyup yan yana okuyun — kütüphane kitapları masaya serer; seçim sizindir.

Duygu AnaliziMetin madenciliği↔ karşılaştır
Metin SınıflandırmasıMetin madenciliği↔ karşılaştır
Word2VecMetin madenciliği↔ karşılaştır

Yan yana karşılaştır →

Benzer yöntemler

Anahtar Kelime Çıkarma Belge Kümeleme Metin Sıklığı Analizi NMF Konu Modelleme Metin Regresyonu Doc2Vec Word2Vec

İlgili referans kavramlar

Vektör Uzay Modeli Belge Temsili ve Ağırlıklandırma Geri Getirme Modelleri Metin Temsili ve Sınıflandırması Metin Kümeleme Metin Sınıflandırması

Bu sayfada bir hata mı var? Bildir / düzeltme öner →

TF-IDF — Terim Frekansı–Ters Belge Frekansı

Tam yöntemi oku

Yöntem haritası

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

SSS

Kaynaklar

Bu sayfayı kaynak gösterin

Hangi yöntem?

Bu yönteme atıf yapanlar

Benzer yöntemler

İlgili referans kavramlar

TF-IDF — Terim Frekansı–Ters Belge Frekansı

Tam yöntemi oku

Yöntem haritası

Ne zaman kullanılır

Güçlü yönler & sınırlılıklar

SSS

Kaynaklar

Bu sayfayı kaynak gösterin

Hangi yöntem?

Bu yönteme atıf yapanlar

Benzer yöntemler

İlgili referans kavramlar