Tekstdeduplicatie — Detectie van bijna-duplicaten
Tekstdeduplicatie is een pijplijn voor corpuskwaliteit die exacte en bijna-duplicaten documenten uit grote tekstverzamelingen identificeert en verwijdert. Geworteld in de gelijkenis van Andrei Broder uit 1997, wordt het veel gebruikt om de kwaliteit van datasets te verbeteren voor het trainen van machine learning-modellen, het indexeren van zoekmachines en elke downstream NLP-taak die uitgaat van een niet-redundant corpus.
Lees de volledige methode
Log in met een gratis account om dit onderdeel te lezen.
Method map
The neighbourhood of related methods — select a node to explore.
Bronnen
Deze pagina citeren
ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/nl/text-mining/text-deduplication
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT-inbeddingenText mining↔ compare
- SentimentanalyseText mining↔ compare
- TekstclassificatieText mining↔ compare
- TF-IDFText mining↔ compare
- OnderwerpmodelleringDeep learning↔ compare
Een fout op deze pagina gezien? Meld het of stel een correctie voor →