ScholarGate
Assistent
Process / pipeline

Text Deduplication — Erkennung von nahezu doppelten Texten

Text Deduplication ist eine Pipeline zur Qualitätsverbesserung von Korpora, die exakte und nahezu doppelte Dokumente aus großen Textsammlungen identifiziert und entfernt. Basierend auf Andrei Broders Resemblance Theory von 1997 wird sie häufig zur Verbesserung der Datenqualität für das Training von Machine-Learning-Modellen, für die Indizierung von Suchmaschinen und für nachgelagerte NLP-Aufgaben verwendet, die ein nicht-redundantes Korpus voraussetzen.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Quellen

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

So zitieren Sie diese Seite

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/de/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Abgerufen am 2026-06-15 von https://scholargate.app/de/text-mining/text-deduplication · Datensatz: https://doi.org/10.5281/zenodo.20539026