ScholarGate
Assistente
Process / pipeline

Deduplicação de Texto — Detecção de Quase-Duplicatas

A deduplicação de texto é um pipeline de qualidade de corpus que identifica e remove documentos exatos e quase-duplicados de grandes coleções de texto. Fundamentada na teoria de semelhança de Andrei Broder (1997), é amplamente utilizada para melhorar a qualidade de conjuntos de dados para treinamento de modelos de aprendizado de máquina, indexação de motores de busca e quaisquer tarefas de PLN subsequentes que assumam um corpus não redundante.

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Fontes

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Como citar esta página

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/pt/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Recuperado em 2026-06-15 de https://scholargate.app/pt/text-mining/text-deduplication · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026