Process / pipeline

Szövegdeduplikáció — Közel-duplikátumok észlelése

A szövegdeduplikáció egy nagy szöveggyűjtemények minőségét javító folyamat, amely azonosítja és eltávolítja az azonos és közel azonos dokumentumokat nagy szöveggyűjteményekből. Andrei Broder 1997-es hasonlósági elméletére épülve széles körben használják adathalmazok minőségének javítására gépi tanulási modellek képzéséhez, keresőmotorok indexeléséhez és bármely olyan további természetesnyelv-feldolgozási (NLP) feladathoz, amely redundanciamentes corpusra támaszkodik.

Megnyitás itt: MethodMindHamarosanVideóHamarosanDownload slides

A teljes módszer elolvasása

Csak tagoknak

Jelentkezzen be ingyenes fiókkal a szakasz elolvasásához.

Bejelentkezés

Method map

The neighbourhood of related methods — select a node to explore.

Szövegdeduplikáció

BERT-beágyazások Szöveges hangulatelemzés Szövegosztályozás TF-IDF Tematikus modellezés

Források

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Hogyan hivatkozzon erre az oldalra

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/hu/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-beágyazásokSzövegbányászat↔ compare
Szöveges hangulatelemzésSzövegbányászat↔ compare
SzövegosztályozásSzövegbányászat↔ compare
TF-IDFSzövegbányászat↔ compare
Tematikus modellezésMélytanulás↔ compare

Compare side by side →

Hibát talált ezen az oldalon? Jelentse, vagy javasoljon javítást →