Process / pipeline

Deduplikácia textu — Detekcia blízkych duplikátov

Deduplikácia textu je proces v rámci pipeline kvality korpusu, ktorý identifikuje a odstraňuje presné a blízke duplikáty dokumentov z rozsiahlych textových kolekcií. Založený na Broderovej (1997) teórii podobnosti, široko sa používa na zlepšenie kvality dátových sád pre trénovanie modelov strojového učenia, indexovanie vyhľadávacích nástrojov a akékoľvek následné NLP úlohy, ktoré predpokladajú nerredundantný korpus.

Otvoriť v MethodMindČoskoroVideoČoskoroDownload slides

Prečítať celú metódu

Len pre členov

Ak si chcete prečítať túto sekciu, prihláste sa s bezplatným účtom.

Prihlásiť sa

Method map

The neighbourhood of related methods — select a node to explore.

Zdroje

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Ako citovať túto stránku

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/sk/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Získané 2026-06-15 z https://scholargate.app/sk/text-mining/text-deduplication · Dátová sada: https://doi.org/10.5281/zenodo.20539026