ScholarGate
アシスタント
Process / pipeline

テキスト重複排除 — 類似重複検出

テキスト重複排除は、大規模なテキストコレクションから完全に一致する文書や類似の重複文書を特定し、削除するコーパス品質パイプラインです。Andrei Broderの1997年の類似性理論に基づいており、機械学習モデルのトレーニング、検索エンジンのインデックス作成、および非冗長コーパスを前提とするあらゆる下流の自然言語処理(NLP)タスクにおいて、データセットの品質を向上させるために広く使用されています。

MethodMindで開く近日公開動画近日公開Download slides

手法の全文を読む

会員限定

無料アカウントでログインすると、このセクションを読めます。

ログイン

Method map

The neighbourhood of related methods — select a node to explore.

出典

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

このページの引用方法

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/ja/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). 2026-06-15に以下より取得 https://scholargate.app/ja/text-mining/text-deduplication · データセット: https://doi.org/10.5281/zenodo.20539026