Machines à vecteurs de support et méthodes à noyau
Les machines à vecteurs de support déterminent la frontière de décision qui maximise la marge entre les classes, et l'astuce du noyau permet à de telles méthodes linéaires d'opérer implicitement dans des espaces de caractéristiques non linéaires riches.
Definition
Une machine à vecteurs de support est un classifieur qui choisit l'hyperplan de séparation maximisant la distance aux points d'entraînement les plus proches ; les méthodes à noyau généralisent cela en calculant les produits scalaires via une fonction noyau, permettant aux algorithmes linéaires d'ajuster des frontières non linéaires sans construire explicitement l'espace de caractéristiques de haute dimension.
Scope
Ce sujet aborde la classification à marge maximale, les formulations primale et duale de la machine à vecteurs de support, le rôle des vecteurs de support et des variables d'écart (slack variables) pour les données non séparables, l'astuce du noyau qui remplace les produits scalaires par des fonctions noyau, les noyaux courants tels que les fonctions polynomiales et les fonctions à base radiale, et l'extension de la 'kernelisation' (kernelization) à la régression et à d'autres méthodes linéaires.
Core questions
- Pourquoi la maximisation de la marge tend-elle à améliorer la généralisation ?
- Comment la formulation duale exprime-t-elle la solution en termes de vecteurs de support ?
- Qu'accomplit l'astuce du noyau et pourquoi est-elle efficace ?
- Comment les marges douces et les variables d'écart (slack variables) sont-elles utilisées lorsque les classes se chevauchent ?
Key theories
- Séparation à marge maximale
- Parmi les hyperplans de séparation, celui qui maximise la marge par rapport aux points les plus proches produit une solution unique déterminée par quelques vecteurs de support et est associé à de bonnes bornes de généralisation.
- L'astuce du noyau
- Étant donné que l'optimisation dépend des données uniquement via les produits scalaires, les remplacer par une fonction noyau évalue implicitement une carte de caractéristiques non linéaire, ajustant des frontières non linéaires au coût d'une méthode linéaire.
- Marge douce et variables d'écart
- Permettre des violations de marge contrôlées via des variables d'écart (slack variables) et un paramètre de régularisation rend la machine à vecteurs de support applicable aux classes chevauchantes et bruitées, tout en équilibrant la largeur de la marge et les erreurs d'entraînement.
Clinical relevance
Les machines à vecteurs de support et les méthodes à noyau étaient les principaux classifieurs de haute précision avant l'apprentissage profond et demeurent des choix robustes pour les problèmes de taille modérée, notamment en traitement de texte et en bioinformatique ; l'idée du noyau se généralise également bien au-delà de la classification, apparaissant dans la régression à noyau, les processus gaussiens et l'analyse en composantes principales 'kernelisée' (kernelized principal component analysis).
History
L'idée de marge maximale et l'astuce du noyau ont été combinées par Boser, Guyon et Vapnik vers 1992, et la machine à vecteurs de support à marge douce (soft-margin) a été formalisée par Cortes et Vapnik en 1995. Durant la fin des années 1990 et les années 2000, les méthodes à noyau sont devenues dominantes en reconnaissance de formes avant d'être largement supplantées par l'apprentissage profond pour les tâches perceptuelles à grande échelle.
Key figures
- Vladimir Vapnik
- Corinna Cortes
- Bernhard Scholkopf
Related topics
Seminal works
- cortes1995
- vapnik1995
- bishop2006
Frequently asked questions
- Qu'est-ce qu'un vecteur de support ?
- Un vecteur de support est un point d'entraînement qui se trouve sur ou à l'intérieur de la marge et détermine ainsi la position de la frontière de décision. Le classifieur ajusté ne dépend que de ces points, de sorte que le reste des données d'entraînement peut être écarté.
- Pourquoi l'utilisation des noyaux est-elle appelée une astuce ?
- L'astuce du noyau permet à un algorithme de se comporter comme s'il avait projeté les données dans un espace de caractéristiques de très haute dimension, voire de dimension infinie, tout en ne calculant que les valeurs du noyau entre des paires de points. Elle évite le coût de la construction explicite de cet espace.