ScholarGate
Asistente
Process / pipeline

Deduplicación de texto — Detección de cuasi-duplicados

La deduplicación de texto es un proceso de calidad de corpus que identifica y elimina documentos exactos y cuasi-duplicados de grandes colecciones de texto. Basada en la teoría de la semejanza de Andrei Broder de 1997, se utiliza ampliamente para mejorar la calidad de los conjuntos de datos para el entrenamiento de modelos de aprendizaje automático, la indexación de motores de búsqueda y cualquier tarea de Procesamiento del Lenguaje Natural (PLN) posterior que asuma un corpus no redundante.

Abrir en MethodMindPróximamenteVídeoPróximamenteDownload slides

Leer el método completo

Solo para miembros

Inicia sesión con una cuenta gratuita para leer esta sección.

Iniciar sesión

Method map

The neighbourhood of related methods — select a node to explore.

Fuentes

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Cómo citar esta página

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/es/text-mining/text-deduplication

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Recuperado el 2026-06-15 de https://scholargate.app/es/text-mining/text-deduplication · Conjunto de datos: https://doi.org/10.5281/zenodo.20539026