Classificação de Texto
A classificação de texto atribui automaticamente documentos a uma ou mais categorias predefinidas usando modelos aprendidos a partir de exemplos rotulados.
Definition
A classificação de texto é a tarefa de atribuir um documento a uma ou mais categorias de um conjunto predefinido, realizada por um modelo treinado em documentos cujas etiquetas de categoria são conhecidas, usando a representação baseada em termos do documento como características de entrada.
Scope
Este tópico abrange a categorização supervisionada de texto: a formulação do problema como classificação de rótulo único, rótulo múltiplo ou hierárquica; aprendizes representativos aplicados a texto, como naive Bayes, o método do centroide de Rocchio, k-vizinhos mais próximos e máquinas de vetores de suporte; seleção de características para texto de alta dimensão; e a avaliação de classificadores. Trata a classificação como usada em contextos de recuperação, como filtragem e roteamento, baseando-se em aprendizado de máquina, mas focando em considerações específicas de texto em vez da teoria geral do classificador.
Core questions
- Como a categorização de texto é formulada como classificação de rótulo único, rótulo múltiplo ou hierárquica?
- Quais algoritmos de aprendizado funcionam bem em características de texto esparsas e de alta dimensão?
- Como as características informativas são selecionadas de um grande vocabulário?
- Por que as máquinas de vetores de suporte são particularmente adequadas para texto?
- Como os classificadores de texto são avaliados e como o desequilíbrio de classes é tratado?
Key concepts
- categorização supervisionada
- classificação de rótulo único vs. rótulo múltiplo
- naive Bayes
- classificação de Rocchio / centroide
- k-vizinhos mais próximos
- máquinas de vetores de suporte
- seleção de características
- avaliação do classificador (precisão, recall, F1)
Key theories
- Classificação de texto Naive Bayes
- Modelar os termos de cada documento como condicionalmente independentes dada a classe produz um classificador probabilístico simples e rápido que, apesar de sua forte suposição de independência, tem um desempenho competitivo em muitas tarefas de texto.
- Máquinas de vetores de suporte para texto
- Como o texto possui muitas características esparsas e geralmente relevantes e as classes são frequentemente linearmente separáveis neste espaço, as máquinas de vetores de suporte de grande margem alcançam alta precisão na categorização de texto com pouca engenharia de características.
Clinical relevance
A classificação de texto impulsiona a filtragem de spam de e-mail, moderação de conteúdo, roteamento e etiquetagem de tópicos, análise de sentimento e a categorização que suporta a pesquisa e filtragem facetadas. Dentro da recuperação, ela sustenta sistemas de filtragem e roteamento de documentos que entregam documentos que correspondem a necessidades de informação permanentes.
History
A categorização automática de texto começou com sistemas de regras construídos manualmente e mudou para o aprendizado de máquina na década de 1990. A demonstração de Joachims em 1998 de que as máquinas de vetores de suporte se destacam em texto, e a pesquisa de Sebastiani em 2002, estabeleceram o paradigma supervisionado moderno. A mesma tarefa agora serve como um benchmark padrão para modelos de texto de aprendizado de representação e neurais.
Key figures
- Fabrizio Sebastiani
- Thorsten Joachims
- Yiming Yang
Related topics
Seminal works
- sebastiani2002
- joachims1998
- manning2008
Frequently asked questions
- Por que o naive Bayes funciona bem apesar de sua suposição irrealista de independência?
- Mesmo que os termos não sejam verdadeiramente independentes, a decisão do naive Bayes geralmente acerta a classe correta porque a suposição distorce principalmente as estimativas de probabilidade, e não a ordenação relativa das classes. Também é rápido e robusto com dados limitados, tornando-o uma base sólida.
- Qual é a diferença entre classificação de rótulo único e rótulo múltiplo?
- A classificação de rótulo único atribui cada documento a exatamente uma categoria, enquanto a classificação de rótulo múltiplo permite que um documento pertença a várias categorias ao mesmo tempo, como quando um artigo é marcado com vários tópicos. As tarefas de rótulo múltiplo exigem métodos e métricas que lidem com rótulos sobrepostos.