ScholarGate
Assistant

Métriques de performance

Les métriques de performance quantifient la capacité d'un modèle à prédire, différentes mesures capturant divers aspects de la précision et différents coûts d'erreur.

Trouver un sujet avec PaperMindBientôtFind papers & topics
Tools & resources
Télécharger les diapositives
Learn & explore
VidéoBientôt

Definition

Une métrique de performance est un résumé numérique de la correspondance entre les prédictions d'un modèle et les cibles réelles sur les données d'évaluation ; la métrique appropriée dépend du type de tâche, de l'équilibre des classes et des coûts relatifs des différents types d'erreur.

Scope

Ce sujet couvre les mesures utilisées pour évaluer la performance des modèles : pour la classification, l'exactitude (accuracy), la précision (precision), le rappel (recall), la mesure F (F-measure) et la courbe caractéristique de fonctionnement du récepteur (receiver operating characteristic curve) avec son aire ; pour la régression, l'erreur quadratique moyenne et l'erreur absolue, ainsi que le coefficient de détermination ; et les règles de score probabilistes telles que la perte logarithmique (log loss). Il aborde le choix de la métrique en cas de déséquilibre des classes et de coûts d'erreur asymétriques.

Core questions

  • Quelle métrique reflète le véritable objectif d'une tâche donnée ?
  • Comment la précision et le rappel s'équilibrent-ils, et quand chacun est-il pertinent ?
  • Pourquoi l'exactitude peut-elle être trompeuse sur des données déséquilibrées ?
  • Comment les prédictions probabilistes sont-elles évaluées ?

Key theories

Métriques basées sur la matrice de confusion
À partir des comptes de vrais et faux positifs et négatifs découlent l'exactitude, la précision, le rappel et la mesure F, qui révèlent des compromis qu'un seul chiffre d'exactitude peut masquer.
Évaluation indépendante du seuil
La courbe caractéristique de fonctionnement du récepteur et son aire résument la performance d'un classifieur à travers tous les seuils de décision, utile lorsque le point de fonctionnement n'est pas fixé à l'avance.
Règles de score appropriées
Les règles de score telles que la perte logarithmique récompensent les estimations de probabilité bien calibrées et sont minimisées en rapportant les probabilités vraies, encourageant une prédiction probabiliste honnête.

Clinical relevance

Le choix de la métrique de performance appropriée est essentiel car un modèle optimisé ou évalué par une mesure inadéquate peut présenter des performances médiocres sur ce qui importe réellement ; dans des contextes déséquilibrés ou sensibles aux coûts, tels que la détection de la fraude ou des maladies, l'exactitude naïve est particulièrement trompeuse, et les métriques doivent refléter les conséquences réelles des erreurs.

History

De nombreuses métriques proviennent de domaines extérieurs à l'apprentissage automatique, la précision et le rappel étant issus de la recherche d'information, et la caractéristique de fonctionnement du récepteur de la théorie de la détection de signaux. À mesure que l'apprentissage automatique a été appliqué à des problèmes déséquilibrés et à enjeux élevés, le choix judicieux des métriques et la présentation de multiples métriques complémentaires sont devenus une méthodologie standard.

Key figures

  • Trevor Hastie
  • Tom Fawcett
  • Christopher Bishop

Related topics

Seminal works

  • hastie2009
  • bishop2006
  • murphy2012

Frequently asked questions

Pourquoi l'exactitude peut-elle être trompeuse ?
Si une classe est beaucoup plus fréquente qu'une autre, un modèle qui prédit toujours la classe majoritaire peut avoir une exactitude élevée tout en étant inutile pour la classe rare. Des métriques comme la précision, le rappel et l'aire sous la courbe caractéristique de fonctionnement du récepteur révèlent ce type de défaillance.
Quelle est la différence entre la précision et le rappel ?
La précision est la fraction des positifs prédits qui sont réellement positifs, mesurant la fiabilité des prédictions positives. Le rappel est la fraction des positifs réels que le modèle identifie, mesurant le nombre de cas réels qu'il détecte. L'amélioration de l'un se fait souvent au détriment de l'autre.

Methods for this concept

Related concepts