Process / pipeline

Deduplikace textu — detekce téměř duplicitních dokumentů

Deduplikace textu je proces v rámci zpracování korpusu, který identifikuje a odstraňuje přesné a téměř duplicitní dokumenty z velkých textových kolekcí. Vychází z teorie podobnosti Andreie Brodera z roku 1997 a je široce používána ke zlepšení kvality datových sad pro trénování modelů strojového učení, indexování vyhledávačů a jakékoli následné úlohy zpracování přirozeného jazyka (NLP), které předpokládají neredundantní korpus.

Otevřít v MethodMindJiž brzyVideoJiž brzyDownload slides

Přečíst celou metodu

Pouze pro členy

Pro přečtení této sekce se přihlaste s bezplatným účtem.

Přihlásit se

Method map

The neighbourhood of related methods — select a node to explore.

Deduplikace textu

BERT Embeddings Analýza sentimentu Klasifikace textu TF-IDF Modelování témat

Zdroje

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Jak citovat tuto stránku

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/cs/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT EmbeddingsDolování textu↔ compare
Analýza sentimentuDolování textu↔ compare
Klasifikace textuDolování textu↔ compare
TF-IDFDolování textu↔ compare
Modelování tématHluboké učení↔ compare

Compare side by side →

Našli jste na této stránce chybu? Nahlaste ji nebo navrhněte opravu →