ScholarGate
Asisten
Process / pipeline

Deduplikasi Teks — Deteksi Kedekatan Duplikasi

Deduplikasi teks adalah sebuah alur kualitas korpus yang mengidentifikasi dan menghilangkan dokumen duplikat persis dan duplikat dekat dari koleksi teks berskala besar. Berlandaskan teori kemiripan Andrei Broder tahun 1997, metode ini banyak digunakan untuk meningkatkan kualitas kumpulan data bagi pelatihan model pembelajaran mesin, pengindeksan mesin pencari, dan tugas NLP hilir apa pun yang mengasumsikan korpus nir-redundan.

Buka di MethodMindSegeraVideoSegeraDownload slides

Baca metode selengkapnya

Khusus anggota

Masuk dengan akun gratis untuk membaca bagian ini.

Masuk

Method map

The neighbourhood of related methods — select a node to explore.

Sumber

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Cara menyitasi halaman ini

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/id/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Diakses 2026-06-15 dari https://scholargate.app/id/text-mining/text-deduplication · Set data: https://doi.org/10.5281/zenodo.20539026