Deduplicació de text — Detecció de quasi-duplicates
La deduplicació de text és un pipeline de qualitat de corpus que identifica i elimina documents exactes i quasi-duplicates de grans col·leccions de text. Basat en la teoria de la semblança d'Andrei Broder de 1997, s'utilitza àmpliament per millorar la qualitat del conjunt de dades per a l'entrenament de models d'aprenentatge automàtic, l'indexació de motors de cerca i qualsevol tasca de processament del llenguatge natural (PLN) posterior que assumeixi un corpus no redundant.
Llegeix el mètode complet
Inicia la sessió amb un compte gratuït per llegir aquesta secció.
Method map
The neighbourhood of related methods — select a node to explore.
Fonts
Com citar aquesta pàgina
ScholarGate. (2026, June 1). Text Deduplication (Near-Duplicate Detection). ScholarGate. https://scholargate.app/ca/text-mining/text-deduplication
Which method?
Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.
- BERT EmbeddingsMineria de text↔ compare
- Anàlisi de sentimentsMineria de text↔ compare
- Classificació de textMineria de text↔ compare
- TF-IDFMineria de text↔ compare
- Modelatge de temesAprenentatge profund↔ compare
Has vist cap problema en aquesta pàgina? Informa'n o suggereix una correcció →