Modellevaluierung und -auswahl
Modellevaluierung und -auswahl sind Methoden zur Abschätzung, wie gut ein Modell generalisieren wird, und zur Auswahl unter konkurrierenden Modellen und Einstellungen.
Definition
Modellevaluierung ist die Schätzung der erwarteten Leistung eines Modells auf ungesehenen Daten, und Modellauswahl ist die Verwendung solcher Schätzungen zur Auswahl unter Modellen, Merkmalen oder Hyperparameter-Einstellungen; beide basieren auf der Trennung von Daten, die zur Anpassung verwendet werden, von Daten, die zur Bewertung verwendet werden, um ehrliche Schätzungen der Generalisierung zu erhalten.
Scope
Dieser Bereich umfasst die empirische Methodik des maschinellen Lernens: die Schätzung des Generalisierungsfehlers durch Zurückhalten von Daten und durch Kreuzvalidierung, Leistungsmetriken für Klassifikation und Regression, die Suche nach guten Hyperparametern und die Kontrolle der Modellkomplexität durch Regularisierung. Er behandelt, wie ein optimistischer Bias durch die Evaluierung auf Trainingsdaten vermieden und wie Modelle fair verglichen werden können.
Sub-topics
Core questions
- Wie kann der Generalisierungsfehler ohne übermäßigen Optimismus geschätzt werden?
- Welche Metriken erfassen die Leistung für eine gegebene Aufgabe korrekt?
- Wie werden Hyperparameter ausgewählt, ohne die Evaluierung zu kontaminieren?
- Wie wird die Modellkomplexität an die verfügbaren Daten angepasst?
Key theories
- Ehrliche Fehlerschätzung
- Die Schätzung der Leistung auf Daten, die nicht zur Anpassung verwendet wurden, mittels zurückgehaltener Testsätze oder Kreuzvalidierung, ist unerlässlich, da der auf Trainingsdaten gemessene Fehler optimistisch verzerrt ist.
- Modellauswahl und Komplexitätskontrolle
- Die Auswahl unter Modellen erfordert ein Abwägen von Anpassung und Komplexität, wobei Validierungsschätzungen oder Informationskriterien verwendet werden, um das Modell auszuwählen, das voraussichtlich am besten generalisiert.
- Trennung von Auswahl und Bewertung
- Hyperparameter müssen auf Validierungsdaten abgestimmt werden, die vom endgültigen Testsatz getrennt gehalten werden, da die Wiederverwendung von Testdaten für die Auswahl zu übermäßig optimistischen Leistungsschätzungen führt.
Clinical relevance
Eine fundierte Evaluierungsmethodik macht Ergebnisse des maschinellen Lernens vertrauenswürdig; Fehler wie das Testen auf Trainingsdaten, das Abstimmen auf dem Testsatz oder die Wahl irreführender Metriken sind häufige Ursachen für Modelle, die in der Entwicklung exzellent aussehen, aber im Einsatz versagen, was diesen Bereich für eine verantwortungsvolle Praxis unerlässlich macht.
History
Die Kreuzvalidierung wurde in den 1970er Jahren von Stone und anderen als Methode zur Schätzung des Vorhersagefehlers formalisiert, und Informationskriterien wie Akaikes und das Bayes'sche Kriterium lieferten Modellauswahlregeln, die auf der Likelihood basierten. Mit der Reifung des maschinellen Lernens wurden strenge Trainings-, Validierungs- und Testprotokolle sowie eine breite Palette von Leistungsmetriken zur Standardpraxis.
Debates
- Wahl der richtigen Metrik
- Eine einzelne Genauigkeitszahl kann bei unausgewogenen oder kostensensitiven Problemen irreführend sein, was zu Debatten darüber führt, welche Metriken die realen Ziele am besten widerspiegeln und wie die Leistung ehrlich berichtet werden kann.
Key figures
- Trevor Hastie
- Robert Tibshirani
- Mervyn Stone
Related topics
Seminal works
- hastie2009
- bishop2006
- murphy2012
Frequently asked questions
- Warum sollte die Leistung nicht auf den Trainingsdaten gemessen werden?
- Ein Modell kann seine Trainingsdaten, einschließlich ihres Rauschens, eng anpassen, sodass der Trainingsfehler den Fehler auf neuen Daten unterschätzt. Eine ehrliche Evaluierung erfordert Daten, die das Modell noch nie gesehen hat, die durch einen zurückgehaltenen Testsatz oder Kreuzvalidierung gewonnen werden.
- Was ist der Unterschied zwischen einem Validierungssatz und einem Testsatz?
- Ein Validierungssatz wird während der Entwicklung verwendet, um Hyperparameter abzustimmen und Modelle auszuwählen, während der Testsatz für eine einzige abschließende Bewertung reserviert ist. Ihre Trennung verhindert, dass die während der Abstimmung getroffenen Entscheidungen die berichtete Leistung überhöhen.