TF-IDF — kifejezésgyakoriság–inverz dokumentumgyakoriság
A Salton és Buckley (1988) által bevezetett TF-IDF egy kifejezéssúlyozási séma, amely minden szót egy dokumentumban aszerint pontoz, hogy milyen gyakran fordul elő abban, és mennyire ritka az egész gyűjteményben. Nyers szöveget súlyozott dokumentumvektorokká alakít, magas súlyt adva azoknak a kifejezéseknek, amelyek gyakoriak egy dokumentumban, de máshol ritkák.
A teljes módszer elolvasása
Jelentkezzen be ingyenes fiókkal a szakasz elolvasásához.
Method map
The neighbourhood of related methods — select a node to explore.
+13 more
Források
- Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0 ↗
Hogyan hivatkozzon erre az oldalra
ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/hu/text-mining/tf-idf
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- Szöveges hangulatelemzésSzövegbányászat↔ compare
- SzövegosztályozásSzövegbányászat↔ compare
- Word2VecSzövegbányászat↔ compare
Hivatkozik rá
Hibát talált ezen az oldalon? Jelentse, vagy javasoljon javítást →