Classification de texte et analyse des sentiments
L'attribution de catégories aux textes — sujets, langues, spam ou sentiments — à l'aide de classifieurs probabilistes et neuronaux, constitue la famille de techniques de TALN la plus largement déployée.
Definition
La classification de texte est l'attribution supervisée d'une ou plusieurs étiquettes de catégorie prédéfinies à une étendue de texte, l'analyse des sentiments en étant une application majeure.
Scope
Couvre la classification supervisée de documents et de textes plus courts : les représentations de caractéristiques telles que le sac de mots (bag-of-words) et les plongements (embeddings), les modèles classiques comme le classifieur naïf bayésien (naive Bayes) et la régression logistique, les classifieurs neuronaux, ainsi que l'application prééminente de l'analyse des sentiments et des opinions. Il aborde l'évaluation, le déséquilibre des classes et la conception des caractéristiques. L'apprentissage de représentations (representation learning) est traité dans un sujet connexe.
Core questions
- Comment le texte est-il représenté comme caractéristiques pour un classifieur ?
- Quand les modèles naïfs bayésiens, de régression logistique ou neuronaux sont-ils appropriés ?
- Comment l'analyse des sentiments gère-t-elle la négation, le sarcasme et le contexte ?
- Comment la performance d'un classifieur est-elle mesurée équitablement en cas de déséquilibre des classes ?
Key concepts
- sac de mots (bag-of-words)
- classifieur naïf bayésien (naive Bayes)
- régression logistique
- ingénierie des caractéristiques
- analyse des sentiments
- détection de la subjectivité
- déséquilibre des classes
- précision et rappel
Key theories
- Classification par sac de mots (bag-of-words)
- Représenter un document par le décompte de ses mots et le classer avec des modèles tels que le classifieur naïf bayésien ou la régression logistique, constitue une approche de base simple mais robuste.
- Analyse des sentiments sensible à la subjectivité
- Améliorer la classification des sentiments en séparant d'abord le contenu subjectif du contenu objectif, comme dans l'approche de coupe minimale (minimum-cut) de Pang et Lee.
History
La classification de texte fut parmi les premières tâches de TALN à devenir entièrement statistique, avec le classifieur naïf bayésien (naive Bayes) et plus tard les machines à vecteurs de support (support-vector machines) dominant dans les années 1990 et 2000. L'analyse des sentiments, popularisée par Pang et Lee au début des années 2000, est devenue un sous-domaine majeur ; les classifieurs neuronaux et les modèles pré-entraînés ont ensuite amélioré la précision de manière générale.
Debates
- Caractéristiques simples versus représentations profondes
- Les approches de base robustes basées sur le sac de mots rivalisent souvent avec les modèles neuronaux pour des tâches courtes et thématiques, ce qui soulève un débat sur la justification de la complexité accrue des représentations profondes.
Key figures
- Bo Pang
- Lillian Lee
- Christopher Manning
Related topics
Seminal works
- pang2004
- manning1999
Frequently asked questions
- Pourquoi l'analyse des sentiments est-elle plus difficile que la classification thématique ?
- Le sentiment dépend d'indices subtils tels que la négation, la comparaison et le sarcasme, et les mêmes mots peuvent exprimer des polarités opposées dans différents contextes, de sorte que de simples décomptes de mots de surface sont souvent insuffisants.