ScholarGate
Assistente

Classificação de Texto

A classificação de texto atribui automaticamente documentos a uma ou mais categorias predefinidas usando modelos aprendidos a partir de exemplos rotulados.

Encontrar tema com PaperMindEm breveFind papers & topics
Tools & resources
Baixar slides
Learn & explore
VídeoEm breve

Definition

A classificação de texto é a tarefa de atribuir um documento a uma ou mais categorias de um conjunto predefinido, realizada por um modelo treinado em documentos cujas etiquetas de categoria são conhecidas, usando a representação baseada em termos do documento como características de entrada.

Scope

Este tópico abrange a categorização supervisionada de texto: a formulação do problema como classificação de rótulo único, rótulo múltiplo ou hierárquica; aprendizes representativos aplicados a texto, como naive Bayes, o método do centroide de Rocchio, k-vizinhos mais próximos e máquinas de vetores de suporte; seleção de características para texto de alta dimensão; e a avaliação de classificadores. Trata a classificação como usada em contextos de recuperação, como filtragem e roteamento, baseando-se em aprendizado de máquina, mas focando em considerações específicas de texto em vez da teoria geral do classificador.

Core questions

  • Como a categorização de texto é formulada como classificação de rótulo único, rótulo múltiplo ou hierárquica?
  • Quais algoritmos de aprendizado funcionam bem em características de texto esparsas e de alta dimensão?
  • Como as características informativas são selecionadas de um grande vocabulário?
  • Por que as máquinas de vetores de suporte são particularmente adequadas para texto?
  • Como os classificadores de texto são avaliados e como o desequilíbrio de classes é tratado?

Key concepts

  • categorização supervisionada
  • classificação de rótulo único vs. rótulo múltiplo
  • naive Bayes
  • classificação de Rocchio / centroide
  • k-vizinhos mais próximos
  • máquinas de vetores de suporte
  • seleção de características
  • avaliação do classificador (precisão, recall, F1)

Key theories

Classificação de texto Naive Bayes
Modelar os termos de cada documento como condicionalmente independentes dada a classe produz um classificador probabilístico simples e rápido que, apesar de sua forte suposição de independência, tem um desempenho competitivo em muitas tarefas de texto.
Máquinas de vetores de suporte para texto
Como o texto possui muitas características esparsas e geralmente relevantes e as classes são frequentemente linearmente separáveis neste espaço, as máquinas de vetores de suporte de grande margem alcançam alta precisão na categorização de texto com pouca engenharia de características.

Clinical relevance

A classificação de texto impulsiona a filtragem de spam de e-mail, moderação de conteúdo, roteamento e etiquetagem de tópicos, análise de sentimento e a categorização que suporta a pesquisa e filtragem facetadas. Dentro da recuperação, ela sustenta sistemas de filtragem e roteamento de documentos que entregam documentos que correspondem a necessidades de informação permanentes.

History

A categorização automática de texto começou com sistemas de regras construídos manualmente e mudou para o aprendizado de máquina na década de 1990. A demonstração de Joachims em 1998 de que as máquinas de vetores de suporte se destacam em texto, e a pesquisa de Sebastiani em 2002, estabeleceram o paradigma supervisionado moderno. A mesma tarefa agora serve como um benchmark padrão para modelos de texto de aprendizado de representação e neurais.

Key figures

  • Fabrizio Sebastiani
  • Thorsten Joachims
  • Yiming Yang

Related topics

Seminal works

  • sebastiani2002
  • joachims1998
  • manning2008

Frequently asked questions

Por que o naive Bayes funciona bem apesar de sua suposição irrealista de independência?
Mesmo que os termos não sejam verdadeiramente independentes, a decisão do naive Bayes geralmente acerta a classe correta porque a suposição distorce principalmente as estimativas de probabilidade, e não a ordenação relativa das classes. Também é rápido e robusto com dados limitados, tornando-o uma base sólida.
Qual é a diferença entre classificação de rótulo único e rótulo múltiplo?
A classificação de rótulo único atribui cada documento a exatamente uma categoria, enquanto a classificação de rótulo múltiplo permite que um documento pertença a várias categorias ao mesmo tempo, como quando um artigo é marcado com vários tópicos. As tarefas de rótulo múltiplo exigem métodos e métricas que lidem com rótulos sobrepostos.

Methods for this concept

Related concepts