ScholarGate
Assistent
Process / pipeline

Tekstdeduplicatie — Detectie van bijna-duplicaten

Tekstdeduplicatie is een pijplijn voor corpuskwaliteit die exacte en bijna-duplicaten documenten uit grote tekstverzamelingen identificeert en verwijdert. Geworteld in de gelijkenis van Andrei Broder uit 1997, wordt het veel gebruikt om de kwaliteit van datasets te verbeteren voor het trainen van machine learning-modellen, het indexeren van zoekmachines en elke downstream NLP-taak die uitgaat van een niet-redundant corpus.

Openen in MethodMindBinnenkortVideoBinnenkortDownload slides

Lees de volledige methode

Alleen voor leden

Log in met een gratis account om dit onderdeel te lezen.

Inloggen

Method map

The neighbourhood of related methods — select a node to explore.

Bronnen

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Deze pagina citeren

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/nl/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Geraadpleegd op 2026-06-15 via https://scholargate.app/nl/text-mining/text-deduplication · Gegevensset: https://doi.org/10.5281/zenodo.20539026