ScholarGate
Assistente
Process / pipeline

Normalização de Texto — Padronização de Texto Ruído

A normalização de texto é um pipeline de pré-processamento de Processamento de Linguagem Natural (PLN) que converte texto ruidoso, abreviado ou com erros de ortografia — como mensagens SMS, postagens em mídias sociais e saídas de OCR — em uma forma limpa e padronizada. É uma etapa prévia para praticamente todas as tarefas de PLN subsequentes, garantindo que formas superficiais inconsistentes não degradem a tokenização, a análise sintática ou a classificação. O método ganhou tratamento acadêmico sistemático por meio de Baldwin e Li (2015) e Sproat e Jaitly (2017).

Abrir no MethodMindEm breveVídeoEm breveDownload slides

Leia o método completo

Exclusivo para membros

Entre com uma conta gratuita para ler esta seção.

Entrar

Method map

The neighbourhood of related methods — select a node to explore.

Fontes

  1. Baldwin, T. & Li, Y. (2015). An In-depth Analysis of the Effect of Text Normalization in Twitter. NAACL-HLT 2015. link
  2. Sproat, R. & Jaitly, N. (2017). RNN Approaches to Text Normalization: A Challenge. arXiv:1611.00068. link

Como citar esta página

ScholarGate. (2026, June 1). Text Normalization (Noisy-Text Standardisation). ScholarGate. https://scholargate.app/pt/text-mining/text-normalization

Which method?

Set this method beside its closest kin and read them side by side — the library lays the books on the table; the choice is yours.

Compare side by side

Referenciado por

ScholarGateText Normalization (Text Normalization (Noisy-Text Standardisation)). Recuperado em 2026-06-15 de https://scholargate.app/pt/text-mining/text-normalization · Conjunto de dados: https://doi.org/10.5281/zenodo.20539026