Classification par vecteurs de support
La classification par vecteurs de support sépare les classes au moyen de l'hyperplan qui maximise la marge par rapport aux points d'entraînement les plus proches, étendue aux frontières non linéaires grâce aux noyaux.
Definition
La classification par vecteurs de support est une méthode basée sur la marge qui sélectionne la frontière de décision maximisant la distance aux exemples d'entraînement les plus proches de chaque classe, éventuellement dans un espace de caractéristiques induit par un noyau, équilibrant la largeur de la marge et les erreurs de classification.
Scope
Ce sujet aborde l'hyperplan à marge maximale, le rôle des vecteurs de support, la formulation à marge souple avec variables d'écart pour les données non séparables, le problème d'optimisation dual, et l'astuce du noyau qui projette implicitement les caractéristiques dans un espace de dimension supérieure pour obtenir des frontières de décision non linéaires.
Core questions
- Parmi les frontières de séparation, laquelle généralise le mieux ?
- Comment les classes non séparables sont-elles gérées ?
- Comment l'astuce du noyau produit-elle des frontières non linéaires sans cartes de caractéristiques explicites ?
- Quels points d'entraînement déterminent la frontière ?
Key theories
- Séparation à marge maximale
- Le choix de l'hyperplan de séparation qui maximise la marge par rapport aux points les plus proches produit une frontière déterminée par un ensemble clairsemé de vecteurs de support et est motivé par les bornes de généralisation issues de la théorie de l'apprentissage statistique.
- Astuce du noyau
- Étant donné que l'optimisation ne dépend des données qu'à travers les produits scalaires, leur remplacement par une fonction noyau correspond à une frontière à marge maximale dans un espace de caractéristiques de dimension supérieure, offrant des classifieurs non linéaires à un coût linéaire.
Clinical relevance
Les machines à vecteurs de support sont largement utilisées pour la classification de données de grande dimension, telles que la catégorisation de texte, la bioinformatique et la reconnaissance d'images, où le principe de la marge et les noyaux gèrent efficacement de nombreuses caractéristiques et des frontières complexes.
History
La classification par vecteurs de support est issue de la théorie de l'apprentissage statistique et a été cristallisée dans la formulation des réseaux à vecteurs de support (support-vector-networks) par Cortes et Vapnik en 1995, après quoi les méthodes à noyau sont devenues un paradigme central en apprentissage automatique.
Debates
- Choix du noyau et de la régularisation
- La performance dépend fortement du noyau et du paramètre de régularisation contrôlant la souplesse de la marge ; ceux-ci doivent être ajustés, et il n'existe pas de choix universellement optimal.
Key figures
- Vladimir Vapnik
- Corinna Cortes
Related topics
Seminal works
- cortes1995
- hastie2009
- vapnik1998
Frequently asked questions
- Que sont les vecteurs de support ?
- Ce sont les points d'entraînement situés sur ou à l'intérieur de la marge qui déterminent la position de la frontière de décision ; la solution ne dépend que de ces points.
- Pourquoi utiliser une marge souple ?
- Les données réelles sont rarement parfaitement séparables, de sorte que la formulation à marge souple permet à certains points de violer la marge en échange d'une frontière plus large et plus robuste, contrôlée par un paramètre de régularisation.