Process / pipeline

Deduplicação de Texto — Detecção de Quase-Duplicatas

A deduplicação de texto é um pipeline de qualidade de corpus que identifica e remove documentos exatos e quase-duplicados de grandes coleções de texto. Fundamentada na teoria de semelhança de Andrei Broder (1997), é amplamente utilizada para melhorar a qualidade de conjuntos de dados para treinamento de modelos de aprendizado de máquina, indexação de motores de busca e quaisquer tarefas de PLN subsequentes que assumam um corpus não redundante.

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Deduplicação de Texto

Embeddings BERT Análise de Sentimento Classificação de Texto TF-IDF Modelagem de Tópicos

Fontes

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Como citar esta página

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/pt/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Embeddings BERTMineração de texto↔ compare
Análise de SentimentoMineração de texto↔ compare
Classificação de TextoMineração de texto↔ compare
TF-IDFMineração de texto↔ compare
Modelagem de TópicosAprendizado profundo↔ compare

Compare side by side →

Encontrou um problema nesta página? Relate ou sugira uma correção →