En quoi la classification diffère-t-elle du regroupement (clustering) ?

La classification est supervisée : les groupes sont connus à l'avance et un échantillon d'apprentissage étiqueté est disponible. Le regroupement (clustering) est non supervisé et découvre des groupements sans étiquettes prédéfinies.

Pourquoi estimer l'erreur sur des données non utilisées pour l'apprentissage (held-out data) ?

L'erreur mesurée sur les mêmes données utilisées pour ajuster un classifieur est biaisée de manière optimiste ; par conséquent, des estimations hors échantillon issues de la validation croisée ou d'un ensemble de test sont nécessaires pour évaluer la véritable performance prédictive.

Classification et analyse discriminante

La classification et l'analyse discriminante regroupent les méthodes multivariées qui attribuent des observations à des groupes prédéfinis en utilisant des caractéristiques mesurées et un échantillon de cas étiquetés.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'analyse discriminante et la classification consistent en la construction de règles qui attribuent une observation multivariée à l'un de plusieurs groupes connus afin de minimiser un coût attendu ou une erreur de classification erronée.

Scope

Ce domaine couvre la classification supervisée d'observations multivariées. Il comprend le discriminant linéaire de Fisher et son interprétation par modèle gaussien, l'analyse discriminante quadratique pour des covariances de groupe inégales, la discrimination logistique comme modèle direct des probabilités d'appartenance à une classe, et les méthodes basées sur la marge telles que les machines à vecteurs de support. L'accent est mis sur la construction, la géométrie et l'évaluation des frontières de décision.

Sub-topics

Core questions

Comment une observation doit-elle être attribuée à l'un de plusieurs groupes connus à partir de ses caractéristiques mesurées ?
Quelle frontière de décision minimise le coût de classification erronée attendu ?
Quand les frontières linéaires sont-elles adéquates et quand des frontières quadratiques ou non linéaires sont-elles nécessaires ?
Comment la performance d'un classifieur est-elle estimée sans biais optimiste ?

Key theories

Classification optimale de Bayes: L'attribution de chaque observation au groupe ayant la probabilité a posteriori la plus élevée minimise l'erreur de classification erronée attendue ; les méthodes discriminantes paramétriques estiment ces probabilités a posteriori sous des hypothèses distributionnelles.
Discriminant linéaire de Fisher: Fisher a recherché la combinaison linéaire de caractéristiques qui sépare au maximum les moyennes des groupes par rapport à la dispersion intra-groupe, produisant une direction discriminante qui, sous des covariances gaussiennes égales, coïncide avec la règle de Bayes.

Clinical relevance

Les méthodes de classification sont utilisées partout où des cas doivent être triés en catégories connues à partir de mesures multivariées, y compris le diagnostic médical, l'évaluation de la solvabilité (credit scoring), l'identification d'espèces et la cartographie de l'occupation des sols par télédétection.

History

Le domaine a débuté avec le discriminant linéaire de Fisher en 1936, appliqué aux mesures taxonomiques. Des formulations probabilistes et gaussiennes ont suivi, la discrimination logistique a fourni un modèle direct des probabilités de classe, et le développement, à la fin du XXe siècle, de méthodes basées sur la marge et de méthodes à noyau a étendu la classification aux contextes de haute dimensionnalité et non linéaires.

Debates

Classification générative versus discriminative: Les méthodes génératives, telles que l'analyse discriminante, modélisent la distribution des caractéristiques au sein de chaque classe, tandis que les méthodes discriminatives, telles que la régression logistique et les machines à vecteurs de support, modélisent directement la frontière ou la probabilité de classe ; leurs mérites relatifs dépendent de la taille de l'échantillon et de la validité des hypothèses distributionnelles.

Key figures

Ronald A. Fisher
Vladimir Vapnik

Seminal works

fisher1936
hastie2009
johnson2007

Frequently asked questions

En quoi la classification diffère-t-elle du regroupement (clustering) ?: La classification est supervisée : les groupes sont connus à l'avance et un échantillon d'apprentissage étiqueté est disponible. Le regroupement (clustering) est non supervisé et découvre des groupements sans étiquettes prédéfinies.
Pourquoi estimer l'erreur sur des données non utilisées pour l'apprentissage (held-out data) ?: L'erreur mesurée sur les mêmes données utilisées pour ajuster un classifieur est biaisée de manière optimiste ; par conséquent, des estimations hors échantillon issues de la validation croisée ou d'un ensemble de test sont nécessaires pour évaluer la véritable performance prédictive.