Process / pipeline

Text Deduplication — Erkennung von nahezu doppelten Texten

Text Deduplication ist eine Pipeline zur Qualitätsverbesserung von Korpora, die exakte und nahezu doppelte Dokumente aus großen Textsammlungen identifiziert und entfernt. Basierend auf Andrei Broders Resemblance Theory von 1997 wird sie häufig zur Verbesserung der Datenqualität für das Training von Machine-Learning-Modellen, für die Indizierung von Suchmaschinen und für nachgelagerte NLP-Aufgaben verwendet, die ein nicht-redundantes Korpus voraussetzen.

In MethodMind öffnenDemnächstVideoDemnächstDownload slides

Die vollständige Methode lesen

Nur für Mitglieder

Melden Sie sich mit einem kostenlosen Konto an, um diesen Abschnitt zu lesen.

Anmelden

Method map

The neighbourhood of related methods — select a node to explore.

Text Deduplication

BERT-Einbettungen Sentiment-Analyse Textklassifizierung TF-IDF Themenmodellierung

Quellen

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

So zitieren Sie diese Seite

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/de/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT-EinbettungenText Mining↔ compare
Sentiment-AnalyseText Mining↔ compare
TextklassifizierungText Mining↔ compare
TF-IDFText Mining↔ compare
ThemenmodellierungDeep Learning↔ compare

Compare side by side →

Einen Fehler auf dieser Seite entdeckt? Melden oder Korrektur vorschlagen →