Pourquoi ne pas mesurer la performance sur les données d'entraînement ?

Un modèle peut s'ajuster étroitement à ses données d'entraînement, y compris leur bruit, de sorte que l'erreur d'entraînement sous-estime l'erreur sur de nouvelles données. Une évaluation fiable nécessite des données que le modèle n'a jamais vues, obtenues par un ensemble de test mis de côté ou par validation croisée.

Quelle est la différence entre un ensemble de validation et un ensemble de test ?

Un ensemble de validation est utilisé pendant le développement pour ajuster les hyperparamètres et sélectionner les modèles, tandis que l'ensemble de test est réservé à une unique évaluation finale. Les maintenir séparés empêche que les choix faits pendant l'ajustement n'augmentent artificiellement la performance rapportée.

Évaluation et sélection de modèles

L'évaluation et la sélection de modèles sont les méthodes utilisées pour estimer la capacité d'un modèle à généraliser et pour choisir parmi des modèles et des configurations concurrents.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'évaluation de modèle est l'estimation de la performance attendue d'un modèle sur des données non vues, et la sélection de modèle est l'utilisation de ces estimations pour choisir parmi des modèles, des caractéristiques ou des configurations d'hyperparamètres ; les deux reposent sur la séparation des données utilisées pour l'ajustement de celles utilisées pour l'évaluation afin d'obtenir des estimations fiables de la généralisation.

Scope

Ce domaine couvre la méthodologie empirique de l'apprentissage automatique : l'estimation de l'erreur de généralisation par la mise de côté de données et par validation croisée, les métriques de performance pour la classification et la régression, la recherche de bons hyperparamètres, et le contrôle de la complexité des modèles par la régularisation. Il aborde la manière d'éviter un biais optimiste résultant de l'évaluation sur les données d'entraînement et de comparer les modèles de manière équitable.

Sub-topics

Core questions

Comment l'erreur de généralisation peut-elle être estimée sans optimisme excessif ?
Quelles métriques capturent correctement la performance pour une tâche donnée ?
Comment les hyperparamètres sont-ils choisis sans contaminer l'évaluation ?
Comment la complexité du modèle est-elle ajustée aux données disponibles ?

Key theories

Estimation fiable de l'erreur: Estimer la performance sur des données non utilisées pour l'ajustement, au moyen d'ensembles de test mis de côté ou de la validation croisée, est essentiel car l'erreur mesurée sur les données d'entraînement est biaisée de manière optimiste.
Sélection de modèles et contrôle de la complexité: Choisir parmi les modèles nécessite d'équilibrer l'ajustement et la complexité, en utilisant des estimations de validation ou des critères d'information pour sélectionner le modèle censé généraliser le mieux.
Séparation de la sélection et de l'évaluation: Les hyperparamètres doivent être ajustés sur des données de validation maintenues séparées de l'ensemble de test final, car la réutilisation des données de test pour la sélection produit des estimations de performance excessivement optimistes.

Clinical relevance

Une méthodologie d'évaluation rigoureuse est ce qui rend les résultats de l'apprentissage automatique dignes de confiance ; des échecs tels que le test sur les données d'entraînement, l'ajustement sur l'ensemble de test, ou le choix de métriques trompeuses sont des causes fréquentes de modèles qui semblent excellents en développement mais échouent en déploiement, rendant ce domaine essentiel pour une pratique responsable.

History

La validation croisée a été formalisée par Stone et d'autres dans les années 1970 comme un moyen d'estimer l'erreur de prédiction, et des critères d'information tels que ceux d'Akaike et le critère bayésien ont fourni des règles de sélection de modèles fondées sur la vraisemblance. À mesure que l'apprentissage automatique a mûri, des protocoles rigoureux d'entraînement, de validation et de test, ainsi qu'une large gamme de métriques de performance, sont devenus des pratiques courantes.

Debates

Choisir la bonne métrique: Un seul chiffre de précision peut induire en erreur sur des problèmes déséquilibrés ou sensibles aux coûts, ce qui suscite un débat sur les métriques qui reflètent le mieux les objectifs du monde réel et sur la manière de rapporter la performance de manière fiable.

Key figures

Trevor Hastie
Robert Tibshirani
Mervyn Stone

Seminal works

hastie2009
bishop2006
murphy2012

Frequently asked questions

Pourquoi ne pas mesurer la performance sur les données d'entraînement ?: Un modèle peut s'ajuster étroitement à ses données d'entraînement, y compris leur bruit, de sorte que l'erreur d'entraînement sous-estime l'erreur sur de nouvelles données. Une évaluation fiable nécessite des données que le modèle n'a jamais vues, obtenues par un ensemble de test mis de côté ou par validation croisée.
Quelle est la différence entre un ensemble de validation et un ensemble de test ?: Un ensemble de validation est utilisé pendant le développement pour ajuster les hyperparamètres et sélectionner les modèles, tandis que l'ensemble de test est réservé à une unique évaluation finale. Les maintenir séparés empêche que les choix faits pendant l'ajustement n'augmentent artificiellement la performance rapportée.