Process / pipeline

Normalização de Texto — Padronização de Texto Ruído

A normalização de texto é um pipeline de pré-processamento de Processamento de Linguagem Natural (PLN) que converte texto ruidoso, abreviado ou com erros de ortografia — como mensagens SMS, postagens em mídias sociais e saídas de OCR — em uma forma limpa e padronizada. É uma etapa prévia para praticamente todas as tarefas de PLN subsequentes, garantindo que formas superficiais inconsistentes não degradem a tokenização, a análise sintática ou a classificação. O método ganhou tratamento acadêmico sistemático por meio de Baldwin e Li (2015) e Sproat e Jaitly (2017).

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Normalização de Texto

Reconhecimento de Entida…Etiquetagem de Classe Gr…Análise de Sentimento Expansão de Abreviações Verificação Ortográfica…

Fontes

Baldwin, T. & Li, Y. (2015). An In-depth Analysis of the Effect of Text Normalization in Twitter. NAACL-HLT 2015. link ↗
Sproat, R. & Jaitly, N. (2017). RNN Approaches to Text Normalization: A Challenge. arXiv:1611.00068. link ↗

Como citar esta página

ScholarGate. (2026, June 1). Text Normalization (Noisy-Text Standardisation). ScholarGate. https://scholargate.app/pt/text-mining/text-normalization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Reconhecimento de Entidades Nomeadas (NER)Mineração de texto↔ compare
Etiquetagem de Classe Gramatical (POS Tagging)Mineração de texto↔ compare
Análise de SentimentoMineração de texto↔ compare

Compare side by side →

Referenciado por

Expansão de Abreviações Verificação Ortográfica e Gramatical

Encontrou um problema nesta página? Relate ou sugira uma correção →