ScholarGate
Asistenti
Process / pipeline

Deduplikimi i Tekstit — Zbulimi i Të Afërt-Dublikateve

Deduplikimi i tekstit është një proces cilësor i korpusit që identifikon dhe heq dokumentet ekzaktë dhe të afërt-dublikatë nga koleksionet e mëdha të tekstit. E bazuar në teorinë e ngjashmërisë së Andrei Broder të vitit 1997, ajo përdoret gjerësisht për të përmirësuar cilësinë e të dhënave për trajnimin e modeleve të mësimit makinor, indeksimin e motorëve të kërkimit dhe çdo detyrë pasuese e PNL-së që supozon një korpus jo të tepërt.

Hapeni në MethodMindSë shpejtiVideoSë shpejtiDownload slides

Lexoni metodën e plotë

Vetëm për anëtarët

Hyni me një llogari falas për ta lexuar këtë seksion.

Hyni

Method map

The neighbourhood of related methods — select a node to explore.

Burimet

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Si ta citoni këtë faqe

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/sq/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Marrë më 2026-06-15 nga https://scholargate.app/sq/text-mining/text-deduplication · Seti i të dhënave: https://doi.org/10.5281/zenodo.20539026