Process / pipeline

Tekstdeduplicatie — Detectie van bijna-duplicaten

Tekstdeduplicatie is een pijplijn voor corpuskwaliteit die exacte en bijna-duplicaten documenten uit grote tekstverzamelingen identificeert en verwijdert. Geworteld in de gelijkenis van Andrei Broder uit 1997, wordt het veel gebruikt om de kwaliteit van datasets te verbeteren voor het trainen van machine learning-modellen, het indexeren van zoekmachines en elke downstream NLP-taak die uitgaat van een niet-redundant corpus.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Tekstdeduplicatie

BERT-inbeddingen Sentimentanalyse Tekstclassificatie TF-IDF Onderwerpmodellering

Bronnen

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Deze pagina citeren

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/nl/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-inbeddingenText mining↔ compare
SentimentanalyseText mining↔ compare
TekstclassificatieText mining↔ compare
TF-IDFText mining↔ compare
OnderwerpmodelleringDeep learning↔ compare

Compare side by side →

Een fout op deze pagina gezien? Meld het of stel een correctie voor →