ScholarGate
Asistent
Process / pipeline

Deduplicarea textelor — Detectarea duplicatelor apropiate

Deduplicarea textelor este un flux de lucru pentru calitatea corpusului care identifică și elimină documentele identice și aproape identice din colecții mari de texte. Bazat pe teoria asemănării a lui Andrei Broder din 1997, este utilizat pe scară largă pentru a îmbunătăți calitatea seturilor de date pentru antrenarea modelelor de învățare automată, indexarea motoarelor de căutare și orice sarcină NLP ulterioară care presupune un corpus nerredundant.

Deschide în MethodMindÎn curândApply, compare, get guidance
Tools & resources
Descarcă prezentarea
Learn & explore
VideoÎn curând

Citește metoda completă

Doar pentru membri

Autentifică-te cu un cont gratuit pentru a citi această secțiune.

Autentificare

Harta metodelor

Vecinătatea metodelor înrudite — selectați un nod pentru a explora.

Surse

  1. Broder, A.Z. (1997). On the Resemblance and Containment of Documents. Compression and Complexity of SEQUENCES. link
  2. Lee, K. et al. (2022). Deduplicating Training Data Makes Language Models Better. ACL 2022. link

Cum se citează această pagină

ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/ro/text-mining/text-deduplication

Ce metodă?

Așezați această metodă lângă cele mai apropiate rude și citiți-le alăturat — biblioteca pune cărțile pe masă; alegerea vă aparține.

Compară alăturat
ScholarGateText Deduplication (Text Deduplication (Near-Duplicate Detection)). Preluat la 2026-06-17 de pe https://scholargate.app/ro/text-mining/text-deduplication · Set de date: https://doi.org/10.5281/zenodo.20539026