ScholarGate
Assistent

Leistungskennzahlen

Leistungskennzahlen quantifizieren, wie gut ein Modell Vorhersagen trifft, wobei verschiedene Maße unterschiedliche Aspekte der Genauigkeit und unterschiedliche Fehlerkosten erfassen.

Thema finden mit PaperMindDemnächstFind papers & topics
Tools & resources
Folien herunterladen
Learn & explore
VideoDemnächst

Definition

Eine Leistungskennzahl ist eine numerische Zusammenfassung, wie genau die Vorhersagen eines Modells mit den wahren Zielen auf den Evaluierungsdaten übereinstimmen; die geeignete Metrik hängt vom Aufgabentyp, dem Gleichgewicht der Klassen und den relativen Kosten verschiedener Fehlerarten ab.

Scope

Dieses Thema behandelt die Maße, die zur Beurteilung der Modellleistung verwendet werden: für die Klassifikation, Genauigkeit (Accuracy), Präzision (Precision), Sensitivität (Recall), das F-Maß und die Receiver Operating Characteristic (ROC)-Kurve mit ihrer Fläche; für die Regression, den mittleren quadratischen und absoluten Fehler sowie den Bestimmtheitskoeffizienten; und probabilistische Bewertungsregeln wie den Log-Loss. Es befasst sich mit der Wahl der Metrik bei Klassenungleichgewicht und asymmetrischen Fehlerkosten.

Core questions

  • Welche Metrik spiegelt das wahre Ziel einer gegebenen Aufgabe wider?
  • Wie verhalten sich Präzision und Sensitivität zueinander, und wann ist jede davon wichtig?
  • Warum kann die Genauigkeit (Accuracy) bei unausgewogenen Daten irreführend sein?
  • Wie werden probabilistische Vorhersagen bewertet?

Key theories

Konfusionsmatrix-Metriken
Aus den Zählungen von echten und falschen Positiven und Negativen ergeben sich Genauigkeit (Accuracy), Präzision (Precision), Sensitivität (Recall) und das F-Maß, die Kompromisse aufzeigen, die eine einzelne Genauigkeitszahl verbergen kann.
Schwellenwertunabhängige Bewertung
Die Receiver Operating Characteristic (ROC)-Kurve und ihre Fläche fassen die Leistung eines Klassifikators über alle Entscheidungsschwellenwerte hinweg zusammen, was nützlich ist, wenn der Betriebspunkt nicht im Voraus festgelegt ist.
Geeignete Bewertungsregeln (Proper Scoring Rules)
Bewertungsregeln wie der Log-Loss belohnen gut kalibrierte Wahrscheinlichkeitsschätzungen und werden durch die Angabe wahrer Wahrscheinlichkeiten minimiert, was eine ehrliche probabilistische Vorhersage fördert.

Clinical relevance

Die Wahl der richtigen Leistungskennzahl ist entscheidend, da ein Modell, das nach dem falschen Maß optimiert oder beurteilt wird, bei dem, was tatsächlich wichtig ist, schlecht abschneiden kann; in unausgewogenen oder kostensensitiven Umgebungen wie der Betrugs- oder Krankheitserkennung ist die naive Genauigkeit (Accuracy) besonders irreführend, und Metriken müssen die realen Konsequenzen von Fehlern widerspiegeln.

History

Viele Metriken stammen außerhalb des maschinellen Lernens, wobei Präzision und Sensitivität aus der Informationswiederherstellung und die Receiver Operating Characteristic aus der Signalentdeckungstheorie stammen. Als maschinelles Lernen auf unausgewogene und risikoreiche Probleme angewendet wurde, wurden eine sorgfältige Metrikwahl und die Berichterstattung über mehrere komplementäre Metriken zur Standardmethodik.

Key figures

  • Trevor Hastie
  • Tom Fawcett
  • Christopher Bishop

Related topics

Seminal works

  • hastie2009
  • bishop2006
  • murphy2012

Frequently asked questions

Warum kann die Genauigkeit (Accuracy) irreführend sein?
Wenn eine Klasse weitaus häufiger ist als eine andere, kann ein Modell, das immer die Mehrheitsklasse vorhersagt, eine hohe Genauigkeit (Accuracy) aufweisen, während es für die seltene Klasse nutzlos ist. Metriken wie Präzision (Precision), Sensitivität (Recall) und die Fläche unter der Receiver Operating Characteristic (ROC)-Kurve decken diese Art von Versagen auf.
Was ist der Unterschied zwischen Präzision (Precision) und Sensitivität (Recall)?
Präzision (Precision) ist der Anteil der vorhergesagten Positiven, die wirklich positiv sind, und misst, wie vertrauenswürdig positive Vorhersagen sind. Sensitivität (Recall) ist der Anteil der tatsächlichen Positiven, die das Modell findet, und misst, wie viele reale Fälle es erfasst. Die Verbesserung des einen geht oft auf Kosten des anderen.

Methods for this concept

Related concepts