Process / pipeline

Tekst-deduplisering — Nær-duplikatdeteksjon

Tekst-deduplisering er en pipeline for korpus-kvalitet som identifiserer og fjerner eksakte og nær-dupliserte dokumenter fra store tekstsamlinger. Basert på Andrei Broders likhetsteori fra 1997, brukes den mye for å forbedre datasettkvalitet for trening av maskinlæringsmodeller, indeksering i søkemotorer, og enhver nedstrøms NLP-oppgave som forutsetter et ikke-redundant korpus.

Åpne i MethodMindSnartVideoSnartDownload slides

Les hele metoden

Kun for medlemmer

Logg inn med en gratis konto for å lese denne delen.

Logg inn

Method map

The neighbourhood of related methods — select a node to explore.

Tekst-deduplisering

BERT Embeddings Sentimentanalyse Tekstklassifisering TF-IDF Emne-modellering

Kilder

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Slik siterer du denne siden

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/no/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT EmbeddingsTekstutvinning↔ compare
SentimentanalyseTekstutvinning↔ compare
TekstklassifiseringTekstutvinning↔ compare
TF-IDFTekstutvinning↔ compare
Emne-modelleringDyp læring↔ compare

Compare side by side →

Funnet en feil på denne siden? Rapporter eller foreslå en rettelse →