TF-IDF — Term Frequency–Inverse Document Frequency
TF-IDF, geïntroduceerd door Salton en Buckley (1988), is een termwegingsschema dat elk woord in een document een score toekent op basis van hoe vaak het daar voorkomt en hoe zeldzaam het is in de gehele collectie. Het transformeert ruwe tekst naar gewogen documentvectoren, waarbij termen die frequent zijn in één document maar elders ongebruikelijk, een hoge weging krijgen.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Method map
The neighbourhood of related methods — select a node to explore.
+13 more
Bronnen
- Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗
Deze pagina citeren
ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/nl/text-mining/tf-idf
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- SentimentanalyseText mining↔ compare
- TekstclassificatieText mining↔ compare
- Word2VecText mining↔ compare
Geciteerd door
Een fout op deze pagina gezien? Meld het of stel een correctie voor →