Process / pipeline

Deduplicación de texto — Detección de cuasi-duplicados

La deduplicación de texto es un proceso de calidad de corpus que identifica y elimina documentos exactos y cuasi-duplicados de grandes colecciones de texto. Basada en la teoría de la semejanza de Andrei Broder de 1997, se utiliza ampliamente para mejorar la calidad de los conjuntos de datos para el entrenamiento de modelos de aprendizaje automático, la indexación de motores de búsqueda y cualquier tarea de Procesamiento del Lenguaje Natural (PLN) posterior que asuma un corpus no redundante.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Deduplicación de texto

BERT Embeddings Análisis de Sentimiento Clasificación de Texto TF-IDF Modelado de Temas

Fuentes

Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link ↗
Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link ↗

Cómo citar esta página

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/es/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

BERT EmbeddingsMinería de texto↔ compare
Análisis de SentimientoMinería de texto↔ compare
Clasificación de TextoMinería de texto↔ compare
TF-IDFMinería de texto↔ compare
Modelado de TemasAprendizaje profundo↔ compare

Compare side by side →

¿Has visto un problema en esta página? Infórmanos o sugiere una corrección →