Process / pipeline

TF-IDF — kifejezésgyakoriság–inverz dokumentumgyakoriság

A Salton és Buckley (1988) által bevezetett TF-IDF egy kifejezéssúlyozási séma, amely minden szót egy dokumentumban aszerint pontoz, hogy milyen gyakran fordul elő abban, és mennyire ritka az egész gyűjteményben. Nyers szöveget súlyozott dokumentumvektorokká alakít, magas súlyt adva azoknak a kifejezéseknek, amelyek gyakoriak egy dokumentumban, de máshol ritkák.

Megnyitás itt: MethodMindHamarosanVideóHamarosanDownload slides

A teljes módszer elolvasása

Csak tagoknak

Jelentkezzen be ingyenes fiókkal a szakasz elolvasásához.

Bejelentkezés

Method map

The neighbourhood of related methods — select a node to explore.

+13 more

Források

  1. Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513-523. DOI: 10.1016/0306-4573(88)90021-0

Hogyan hivatkozzon erre az oldalra

ScholarGate. (2026, June 1). Term Frequency–Inverse Document Frequency Vectorization. ScholarGate. https://scholargate.app/hu/text-mining/tf-idf

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Hivatkozik rá

ScholarGateTF-IDF (Term Frequency–Inverse Document Frequency Vectorization). Letöltve 2026-06-15, forrás: https://scholargate.app/hu/text-mining/tf-idf · Adatkészlet: https://doi.org/10.5281/zenodo.20539026