Was ist der Unterschied zwischen Diskriminierung und Kalibrierung?

Diskriminierung beschreibt, wie gut ein Modell Personen trennt, die das Ergebnis haben und nicht haben, während Kalibrierung beschreibt, wie genau die vorhergesagten Wahrscheinlichkeiten des Modells mit den beobachteten Häufigkeiten übereinstimmen. Ein Modell kann gut diskriminieren, aber schlecht kalibriert sein, daher sollten beide Aspekte bewertet werden.

Warum wird die schrittweise Variablenauswahl nicht empfohlen?

Die automatisierte schrittweise Auswahl nutzt zufällige Assoziationen aus, erzeugt instabile Prädiktorsätze, die zwischen Stichproben variieren, und führt zu optimistisch verzerrten Koeffizienten und Leistungen, weshalb vordefinierte Modelle mit ordnungsgemäßer Validierung im Allgemeinen bevorzugt werden.

Modellauswahl und Diagnostik

Modellauswahl und Diagnostik sind die Schritte, die entscheiden, welche Prädiktoren ein Regressionsmodell enthalten sollte und ob das angepasste Modell vertrauenswürdig ist. Die Auswahl wählt und strukturiert die Prädiktoren; die Diagnostik untersucht Residuen, einflussreiche Beobachtungen und Annahmen; und die Validierung prüft, ob das Modell mit Daten funktioniert, aus denen es nicht erstellt wurde. Zusammen schützen sie vor Überanpassung und irreführenden Schlussfolgerungen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Modellauswahl ist der Prozess der Entscheidung, welche Prädiktoren und Funktionsformen in ein Regressionsmodell aufgenommen werden sollen; Modelldiagnostik sind die Verfahren – Residuenanalyse, Einflussmaße, Beurteilung der Anpassungsgüte und Kalibrierung sowie Validierung –, die verwendet werden, um zu beurteilen, ob das angepasste Modell seine Annahmen erfüllt und adäquat funktioniert.

Scope

Dieser Eintrag behandelt Strategien zum Aufbau eines Regressionsmodells (einschließlich schrittweiser und vollständiger Modellansätze und der Gefahren datengesteuerter Auswahl), Residuen- und Einflussdiagnostik zur Überprüfung von Annahmen, Maße für die Anpassungsgüte und prädiktive Leistung wie Diskriminierung und Kalibrierung sowie interne und externe Validierung. Er gilt für lineare und logistische Modelle und ist ein methodisches Thema, keine klinische Leitlinie.

Core questions

Wie werden Prädiktoren ausgewählt, und warum wird die automatisierte schrittweise Auswahl kritisiert?
Wie werden Residuen und einflussreiche Beobachtungen zur Überprüfung eines Modells verwendet?
Was ist der Unterschied zwischen Diskriminierung und Kalibrierung?
Warum muss ein Vorhersagemodell validiert werden, anstatt nur anhand der Daten beurteilt zu werden, mit denen es erstellt wurde?
Wie verzerren Überanpassung und Optimismus die scheinbare Leistung?

Key concepts

Variablen-(Prädiktor-)Auswahl
Schrittweise Auswahl und ihre Fallstricke
Residuenanalyse
Einflussreiche Beobachtungen und Hebelwirkung
Anpassungsgüte
Diskriminierung und Kalibrierung
Überanpassung und Optimismus
Interne und externe Validierung

Mechanisms

Der Aufbau eines Regressionsmodells beinhaltet die Auswahl, welche Prädiktoren in welcher Form eingehen und ob Interaktionen erforderlich sind; automatisierte schrittweise Verfahren, die Prädiktoren nach Signifikanz hinzufügen oder entfernen, werden weithin kritisiert, da sie Zufälle ausnutzen, instabile Modelle erzeugen und optimistische Schätzungen liefern. Die Diagnostik untersucht dann das angepasste Modell: Residuenplots zeigen Abweichungen von der Linearität und nicht-konstante Varianz, und Einflussmaße identifizieren Beobachtungen, die die Anpassung überproportional beeinflussen. Die Leistung wird anhand der Anpassungsgüte und, für die Vorhersage, anhand der Diskriminierung (wie gut das Modell Ergebnisse trennt) und der Kalibrierung (wie genau vorhergesagte und beobachtete Risiken übereinstimmen) beurteilt. Da ein Modell, das mit denselben Daten angepasst und bewertet wird, besser erscheint, als es tatsächlich ist (Optimismus durch Überanpassung), sind eine interne Validierung (z. B. Resampling) und idealerweise eine externe Validierung mit neuen Daten erforderlich, um eine ehrliche Leistung abzuschätzen.

Clinical relevance

Diagnostische und prognostische Modelle bilden die Grundlage eines Großteils der klinischen Risikokommunikation, und ob ein solches Modell ordnungsgemäß ausgewählt, überprüft und validiert wurde, bestimmt, wie viel Gewicht seinen Vorhersagen beigemessen werden sollte. Die Bewertung dieser Schritte ist Teil der Lektüre von Studien zu Vorhersagemodellen. Dieser Eintrag beschreibt die Methoden und ist keine Grundlage für individuelle diagnostische oder Behandlungsentscheidungen.

Evidence & guidelines

Die TRIPOD-Erklärung liefert Berichtsstandards für Studien, die multivariate Vorhersagemodelle entwickeln oder validieren, und die BMJ-Prognoseforschungsreihe legt empfohlene Praktiken für den Aufbau, die Validierung und die Berichterstattung solcher Modelle fest. Harrells Text beschreibt eine vollständige Modellierungs- und Validierungsstrategie, die die Vermeidung datengesteuerter Auswahl und die Quantifizierung von Optimismus betont.

History

Als die Regression in der medizinischen Forschung eine zentrale Rolle einnahm, wuchs die Besorgnis, dass datengesteuerte Prädiktorauswahl und unkontrollierte Anpassung Modelle hervorbrachten, die in der Entwicklung beeindruckend aussahen, aber bei neuen Patienten versagten. Ab den 1990er Jahren betonten Methodologen Diagnostik, interne und externe Validierung sowie die Unterscheidung zwischen Diskriminierung und Kalibrierung; dies mündete in konsensbasierte Berichtsleitlinien, insbesondere die TRIPOD-Erklärung, für Studien zu Vorhersagemodellen.

Debates

Sollten Prädiktoren durch automatisierte schrittweise Auswahl gewählt werden?: Die schrittweise Auswahl, die durch Signifikanztests gesteuert wird, wird weithin abgeraten, da sie zu Überanpassung führt, instabile Prädiktorsätze erzeugt und optimistisch verzerrte Schätzungen liefert; vordefinierte Modelle, die auf Fachwissen basieren, mit Shrinkage und ordnungsgemäßer Validierung, werden im Allgemeinen bevorzugt.
Warum wird die externe Validierung für Vorhersagemodelle als wesentlich erachtet?: Ein Modell, das nur mit seinen Entwicklungsdaten evaluiert wird, erscheint aufgrund von Überanpassung besser, als es ist; die Leistung auf unabhängigen Daten ist erforderlich, um zu beurteilen, ob Vorhersagen generalisierbar sind, weshalb Berichtsstandards die Validierung betonen.

Key figures

Frank Harrell
Douglas Altman
Karel Moons
Patrick Royston
Gary Collins

Seminal works

harrell-2015
collins-2015-tripod

Frequently asked questions

Was ist der Unterschied zwischen Diskriminierung und Kalibrierung?: Diskriminierung beschreibt, wie gut ein Modell Personen trennt, die das Ergebnis haben und nicht haben, während Kalibrierung beschreibt, wie genau die vorhergesagten Wahrscheinlichkeiten des Modells mit den beobachteten Häufigkeiten übereinstimmen. Ein Modell kann gut diskriminieren, aber schlecht kalibriert sein, daher sollten beide Aspekte bewertet werden.
Warum wird die schrittweise Variablenauswahl nicht empfohlen?: Die automatisierte schrittweise Auswahl nutzt zufällige Assoziationen aus, erzeugt instabile Prädiktorsätze, die zwischen Stichproben variieren, und führt zu optimistisch verzerrten Koeffizienten und Leistungen, weshalb vordefinierte Modelle mit ordnungsgemäßer Validierung im Allgemeinen bevorzugt werden.