ScholarGate
Avustaja
Process / pipeline

Tekstin deduplikointi — Lähes identtisten dokumenttien tunnistus

Tekstin deduplikointi on laadunparannusputki, joka tunnistaa ja poistaa täsmälleen identtiset ja lähes identtiset dokumentit suurista tekstikokoelmista. Andrei Broderin vuoden 1997 samankaltaisuusteoriaan perustuva menetelmä on laajalti käytössä parantamaan aineistojen laatua koneoppimismallien koulutuksessa, hakukoneiden indeksoinnissa ja kaikissa jatkotehtävissä, jotka edellyttävät redundanttisuudettoman aineiston.

Avaa sovelluksessa MethodMindTulossaVideoTulossaDownload slides

Lue koko menetelmä

Vain jäsenille

Kirjaudu sisään maksuttomalla tilillä lukeaksesi tämän osion.

Kirjaudu sisään

Method map

The neighbourhood of related methods — select a node to explore.

Lähteet

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Näin viittaat tähän sivuun

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/fi/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Haettu 2026-06-15 osoitteesta https://scholargate.app/fi/text-mining/text-deduplication · Aineisto: https://doi.org/10.5281/zenodo.20539026