Process / pipeline

Дедупликация текстов — Обнаружение близких дубликатов

Дедупликация текстов — это конвейер обеспечения качества корпуса, который идентифицирует и удаляет точные и близкие дубликаты документов из больших текстовых коллекций. Основанный на теории сходства Андрея Бродера (1997), он широко используется для улучшения качества наборов данных при обучении моделей машинного обучения, индексировании поисковых систем и любых последующих задач обработки естественного языка (NLP), которые предполагают отсутствие избыточности в корпусе.

Открыть в MethodMindСкороВидеоСкороDownload slides

Читать метод полностью

Только для участников

Войдите с бесплатным аккаунтом, чтобы прочитать этот раздел.

Войти

Method map

The neighbourhood of related methods — select a node to explore.

Дедупликация текстов

Векторные представления…Анализ тональности Классификация текстов TF-IDF Тематическое моделирован…

Источники

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Как цитировать эту страницу

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/ru/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Векторные представления BERTИнтеллектуальный анализ текста↔ compare
Анализ тональностиИнтеллектуальный анализ текста↔ compare
Классификация текстовИнтеллектуальный анализ текста↔ compare
TF-IDFИнтеллектуальный анализ текста↔ compare
Тематическое моделированиеГлубокое обучение↔ compare

Compare side by side →

Нашли ошибку на этой странице? Сообщите о ней или предложите исправление →