Process / pipeline

Khử trùng văn bản — Phát hiện gần trùng lặp

Khử trùng văn bản là một quy trình xử lý chất lượng tập dữ liệu nhằm xác định và loại bỏ các tài liệu trùng lặp chính xác và gần trùng lặp khỏi các bộ sưu tập văn bản lớn. Dựa trên lý thuyết tương đồng năm 1997 của Andrei Broder, phương pháp này được sử dụng rộng rãi để cải thiện chất lượng tập dữ liệu cho việc huấn luyện mô hình học máy, lập chỉ mục công cụ tìm kiếm và bất kỳ tác vụ Xử lý Ngôn ngữ Tự nhiên (NLP) nào sau đó giả định một tập dữ liệu không dư thừa.

Mở trong MethodMindSắp ra mắtVideoSắp ra mắtDownload slides

Đọc toàn bộ phương pháp

Chỉ dành cho thành viên

Đăng nhập bằng tài khoản miễn phí để đọc phần này.

Đăng nhập

Method map

The neighbourhood of related methods — select a node to explore.

Nguồn tài liệu

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Cách trích dẫn trang này

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/vi/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Truy cập ngày 2026-06-15 từ https://scholargate.app/vi/text-mining/text-deduplication · Bộ dữ liệu: https://doi.org/10.5281/zenodo.20539026