Qu'est-ce qui distingue l'apprentissage supervisé de l'apprentissage non supervisé ?

L'apprentissage supervisé utilise des exemples avec des étiquettes ou des valeurs cibles connues et apprend à prédire ces cibles pour de nouvelles entrées. L'apprentissage non supervisé travaille avec des données non étiquetées et découvre plutôt des structures telles que des grappes ou des représentations de faible dimension.

Pourquoi la généralisation est-elle la préoccupation centrale ?

Un modèle peut toujours être ajusté parfaitement aux données d'entraînement, mais cela peut capturer du bruit plutôt que du signal. L'objectif réel est la précision sur des données non observées, c'est pourquoi les méthodes d'estimation et de contrôle de l'écart entre l'erreur d'entraînement et de test, telles que la régularisation et la validation croisée, sont essentielles.

Apprentissage supervisé

L'apprentissage supervisé construit des modèles prédictifs à partir d'exemples associés à des valeurs cibles connues, apprenant une correspondance entre les entrées et les sorties qui se généralise à des cas non observés.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'apprentissage supervisé est la tâche d'inférer une fonction à partir d'un ensemble d'entraînement de paires entrée-sortie, de sorte que la fonction prédise la sortie pour de nouvelles entrées ; l'algorithme d'apprentissage choisit la fonction pour minimiser une mesure d'erreur sur les données d'entraînement tout en contrôlant la complexité pour éviter le surapprentissage.

Scope

Ce domaine couvre l'apprentissage à partir de données étiquetées, incluant la classification et la régression, la formulation de l'apprentissage comme minimisation du risque empirique avec une fonction de perte, le compromis biais-variance, la généralisation à de nouvelles entrées, et les principales familles de modèles : les modèles linéaires et linéaires généralisés, les méthodes des plus proches voisins et à noyau, les machines à vecteurs de support, les arbres de décision, et les méthodes d'ensemble telles que le bagging et le boosting.

Sub-topics

Core questions

Comment un modèle peut-il être ajusté à des exemples étiquetés afin qu'il prédise bien sur des données non observées ?
Quelles fonctions de perte et mesures de risque formalisent l'objectif d'une prédiction précise ?
Comment la complexité du modèle gère-t-elle le compromis entre le biais et la variance ?
Quelles familles de modèles sont appropriées pour les problèmes de classification par opposition aux problèmes de régression ?

Key theories

Minimisation du risque empirique: L'apprentissage est formulé comme le choix d'une fonction qui minimise la perte moyenne sur l'échantillon d'entraînement comme substitut à la minimisation de la perte attendue sur la distribution sous-jacente, avec l'ajout d'une régularisation pour contrôler l'écart entre les deux.
Décomposition biais-variance: L'erreur de prédiction attendue se décompose en biais au carré, variance et bruit irréductible, expliquant pourquoi les modèles trop simples sous-apprennent et les modèles trop flexibles sur-apprennent, et motivant le contrôle de la complexité.
Apprentissage basé sur la marge et apprentissage d'ensemble: La maximisation d'une marge de séparation (machines à vecteurs de support) et la combinaison de nombreux apprenants faibles ou aléatoires (bagging, boosting, forêts aléatoires) produisent des classifieurs qui se généralisent souvent mieux que des modèles uniques non régularisés.

Clinical relevance

L'apprentissage supervisé est à la base de la plupart des systèmes prédictifs déployés, des filtres anti-spam, de l'évaluation du crédit et de l'aide au diagnostic médical à la reconnaissance d'images et de la parole ; son défi principal est la généralisation, s'assurer qu'un modèle qui s'adapte aux exemples historiques fonctionne également sur des données futures, c'est pourquoi les méthodes d'estimation et de contrôle de l'erreur de généralisation sont centrales dans ce domaine.

History

L'apprentissage supervisé a émergé de la régression statistique et de l'analyse discriminante, ainsi que des premiers travaux de reconnaissance de formes tels que le perceptron et les règles des plus proches voisins. Les années 1990 ont vu l'introduction des machines à vecteurs de support et d'une théorie rigoureuse de l'apprentissage statistique ; la même décennie et la suivante ont vu les ensembles d'arbres de décision tels que le bagging, le boosting et les forêts aléatoires devenir des outils dominants pour la prédiction tabulaire.

Debates

Interprétabilité versus précision prédictive: Les modèles très précis, tels que les grands ensembles et les réseaux profonds, sont souvent opaques, ce qui soulève un débat sur le moment où les modèles interprétables devraient être préférés, en particulier dans les décisions à enjeux élevés.

Key figures

Vladimir Vapnik
Leo Breiman
Trevor Hastie
Robert Tibshirani

Seminal works

bishop2006
hastie2009
cortes1995
breiman2001

Frequently asked questions

Qu'est-ce qui distingue l'apprentissage supervisé de l'apprentissage non supervisé ?: L'apprentissage supervisé utilise des exemples avec des étiquettes ou des valeurs cibles connues et apprend à prédire ces cibles pour de nouvelles entrées. L'apprentissage non supervisé travaille avec des données non étiquetées et découvre plutôt des structures telles que des grappes ou des représentations de faible dimension.
Pourquoi la généralisation est-elle la préoccupation centrale ?: Un modèle peut toujours être ajusté parfaitement aux données d'entraînement, mais cela peut capturer du bruit plutôt que du signal. L'objectif réel est la précision sur des données non observées, c'est pourquoi les méthodes d'estimation et de contrôle de l'écart entre l'erreur d'entraînement et de test, telles que la régularisation et la validation croisée, sont essentielles.