Algorithmes de classification
Les algorithmes de classification attribuent des entrées à l'une des catégories d'un ensemble fini en apprenant des frontières de décision ou des estimations de probabilité de classe à partir d'exemples étiquetés.
Definition
Un algorithme de classification apprend, à partir de paires entrée-étiquette, une règle qui associe chaque nouvelle entrée à une classe discrète ; les approches génératives modélisent la distribution des entrées au sein de chaque classe et appliquent la règle de Bayes, tandis que les approches discriminatives modélisent directement la frontière de classe ou la probabilité a posteriori.
Scope
Ce sujet couvre la tâche supervisée de prédiction d'étiquettes catégorielles : les classifieurs génératifs probabilistes tels que le Bayes naïf et l'analyse discriminante gaussienne, les classifieurs discriminatifs tels que la régression logistique, les méthodes basées sur les instances telles que les k plus proches voisins, ainsi que les notions de frontière de décision, de probabilité de classe a posteriori et du classifieur optimal de Bayes qui minimise l'erreur.
Core questions
- Comment une frontière de décision entre les classes est-elle estimée à partir de données étiquetées ?
- Quand un classifieur devrait-il modéliser les distributions conditionnelles de classe plutôt que la probabilité a posteriori directement ?
- Quelle est l'erreur optimale de Bayes et à quel point un classifieur appris peut-il s'en approcher ?
- Comment les problèmes multiclasses sont-ils réduits ou résolus en parallèle de la classification binaire ?
Key theories
- Classification optimale de Bayes
- Attribuer chaque entrée à la classe ayant la probabilité a posteriori la plus élevée minimise l'erreur de classification attendue, définissant ainsi l'optimum théorique que les classifieurs pratiques approximent.
- Modèles génératifs versus discriminatifs
- Le Bayes naïf et l'analyse discriminante modélisent la manière dont les données sont générées par classe, tandis que la régression logistique modélise directement la probabilité a posteriori de la classe, une distinction qui affecte l'efficacité des données et la robustesse à la mauvaise spécification du modèle.
- Classification par les plus proches voisins
- Classer selon les étiquettes des points d'entraînement voisins est une règle non paramétrique simple dont l'erreur est asymptotiquement bornée par au plus deux fois l'erreur de Bayes, illustrant comment l'information locale seule peut être puissante.
Clinical relevance
La classification est le moteur de l'apprentissage automatique appliqué, sous-jacente à la détection de spams, à l'analyse de sentiments, à l'étiquetage d'images, à la détection de fraudes et au diagnostic assisté par ordinateur ; la compréhension de l'optimum de Bayes et de la distinction génératif-discriminatif guide le choix de la méthode et l'interprétation des sorties de probabilité de classe.
History
Les premiers classifieurs incluaient le discriminant linéaire de Fisher et la règle des plus proches voisins analysée par Cover et Hart en 1967. La régression logistique a migré des statistiques vers l'apprentissage automatique, et le Bayes naïf ainsi que l'analyse discriminante sont devenus des références probabilistes standard, tous unifiés par la suite dans le cadre de l'estimation des probabilités de classe a posteriori.
Key figures
- Thomas Cover
- Peter Hart
- Christopher Bishop
Related topics
Seminal works
- cover1967
- bishop2006
- hastie2009
Frequently asked questions
- La régression logistique est-elle une méthode de régression ou de classification ?
- Malgré son nom, la régression logistique est utilisée pour la classification. Elle modélise la probabilité qu'une entrée appartienne à une classe, et une règle de décision convertit ensuite cette probabilité en une étiquette prédite.
- Pourquoi les k plus proches voisins n'ont-ils pas besoin de phase d'entraînement ?
- Les k plus proches voisins stockent les données d'entraînement et classifient un nouveau point en recherchant ses exemples stockés les plus proches au moment de la prédiction. Il n'y a pas de modèle ajusté explicite, ce qui rend l'entraînement trivial mais la prédiction potentiellement lente et gourmande en mémoire.