Analyse kategorialer Daten
Die Analyse kategorialer Daten ist der Zweig der Biostatistik, der sich mit Daten befasst, die in diskrete Kategorien fallen, anstatt kontinuierliche numerische Werte anzunehmen – z. B. das Vorhandensein oder Nichtvorhandensein einer Krankheit, die Gutartigkeit oder Bösartigkeit eines Tumors, die Zuweisung eines Patienten zu einem von mehreren Behandlungsarmen. Ihr zentrales Objekt ist die Kontingenztafel von Häufigkeiten, und ihre Methoden testen und quantifizieren Assoziationen zwischen kategorialen Variablen unter Kontrolle anderer Variablen.
Definition
Die Analyse kategorialer Daten ist die Menge statistischer Methoden zur Beschreibung, Prüfung und Modellierung von Assoziationen zwischen Variablen, deren Werte Häufigkeiten innerhalb ungeordneter oder geordneter diskreter Kategorien sind, typischerweise organisiert als Kontingenztafeln von Häufigkeiten.
Scope
Dieser Bereich führt den Leser in die Kernideen ein, die sich in den folgenden Themenbereichen wiederholen: wie kategoriale Beobachtungen in Kontingenztafeln angeordnet werden, wie Assoziationen in einer Tabelle getestet werden (Chi-Quadrat- und exakte Tests), wie eine Assoziation durch ein Effektmaß (Risikoverhältnisse und Odds Ratios) zusammengefasst wird und wie eine störende kategoriale Variable durch Stratifizierung (Mantel-Haenszel-Methoden) behandelt wird. Dies wird als methodisches Werkzeug zum Lesen und Erstellen von Gesundheitsforschung dargestellt, nicht als klinische Leitlinie.
Sub-topics
Core questions
- Besteht eine Assoziation zwischen zwei kategorialen Variablen, oder sind sie unabhängig?
- Wie groß ist die Assoziation, ausgedrückt als Verhältnis oder Differenz von Risiken oder Odds?
- Bleibt eine scheinbare Assoziation nach Stratifizierung nach einer dritten kategorialen Variable bestehen, oder wird sie dadurch gestört oder modifiziert?
- Welches exakte Verfahren ersetzt die Großstichprobenapproximation, wenn die Zellhäufigkeiten klein sind?
Key concepts
- Kontingenztafel von Häufigkeiten
- Unabhängigkeit kategorialer Variablen
- Chi-Quadrat-Test der Assoziation
- Exakte Tests für dünn besetzte Tabellen
- Effektmaße: Risikoverhältnis und Odds Ratio
- Stratifizierung und der Mantel-Haenszel-Schätzer
- Störfaktoren und Effektmodifikation über Schichten hinweg
- Loglineare und logistische Modelle für Tabellen
Mechanisms
Kategoriale Beobachtungen werden in einer Tabelle kreuzklassifiziert, deren Zellen Häufigkeiten enthalten. Ein Assoziationstest vergleicht die beobachteten Zellhäufigkeiten mit jenen, die erwartet würden, wenn die Zeilen- und Spaltenvariablen unabhängig wären: Pearsons Chi-Quadrat-Statistik, asymptotisch gerechtfertigt durch Fishers Klärung ihrer Freiheitsgrade, summiert die quadrierten standardisierten Differenzen, während exakte Tests die bedingte Verteilung von Tabellen aufzählen, wenn die Häufigkeiten für die Approximation zu klein sind. Die Stärke der Assoziation wird dann durch ein aus der Tabelle abgeleitetes Effektmaß zusammengefasst – ein Risikoverhältnis oder ein Odds Ratio. Wenn eine dritte Variable die Assoziation zu stören droht, werden die Daten in durch diese Variable definierte Schichten aufgeteilt und eine gepoolte Schätzung über die Schichten hinweg gebildet; das Mantel-Haenszel-Verfahren bietet einen solchen stratifizierten Test und eine zusammenfassende Schätzung. Diese Elemente verallgemeinern sich zu loglinearen und logistischen Regressionsmodellen, die mehrere kategoriale Prädiktoren gleichzeitig behandeln.
Clinical relevance
Die meisten diagnostischen, prognostischen und Risikofaktor-Evidenzen in den Gesundheitswissenschaften werden als Assoziationen zwischen kategorialen Variablen berichtet – exponiert versus nicht exponiert, Ereignis versus kein Ereignis – daher liegen die Methoden in diesem Bereich der Generierung und Bewertung dieser Evidenz zugrunde. Sie beschreiben, wie Assoziationen gemessen und getestet werden; sie sind Werkzeuge zur Interpretation von Forschung und keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.
Epidemiology
Kontingenztafelmethoden sind das alltägliche Werkzeug der Epidemiologie: Kohorten-, Fall-Kontroll- und Querschnittsstudien reduzieren sich in ihrer einfachsten Form auf eine Zwei-mal-Zwei-Tabelle von Exposition gegenüber Ergebnis, und die stratifizierte (Mantel-Haenszel-)Analyse ist der klassische nicht-modellbasierte Ansatz zur Störfaktorkontrolle vor der Regression. Dieselben Methoden finden sich in klinischen Studien, die binäre Endpunkte berichten, und in der Diagnosetestbewertung wieder.
History
Das Feld begann mit Karl Pearsons Chi-Quadrat-Statistik um die Jahrhundertwende und Fishers Korrektur ihrer Freiheitsgrade für Kontingenztafeln im Jahr 1922, gefolgt von Fishers exaktem Test für kleine Stichproben. Die Epidemiologie der Mitte des Jahrhunderts lieferte den Effektmaß-Rahmen – Cornfields Odds-Ratio-Argument und der Mantel-Haenszel-Stratifizierungsestimator von 1959 – und das spätere 20. Jahrhundert vereinte diese Methoden innerhalb des Rahmens der verallgemeinerten linearen Modelle, zusammengefasst in Agrestis Lehrbuchbehandlung.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Jerome Cornfield
- Nathan Mantel
- William Haenszel
- Alan Agresti
- Joseph Fleiss
Related topics
Seminal works
- fisher-1922
- mantel-haenszel-1959
- agresti-2013
Frequently asked questions
- Was macht Daten „kategorial“?
- Daten sind kategorial, wenn jede Beobachtung in eine von mehreren diskreten Klassen fällt – wie z. B. krank/gesund oder Behandlungsarm A/B/C – anstatt einen gemessenen numerischen Wert anzunehmen; die Analyse arbeitet mit den Häufigkeiten in jeder Klasse.
- Wie unterscheidet sich dieser Bereich von der Regression für kontinuierliche Ergebnisse?
- Das Ergebnis hier ist eine Kategorie oder eine Häufigkeit, keine kontinuierliche Messung, daher konzentrieren sich die Methoden auf Kontingenztafeln, Verhältnisse von Risiken und Odds sowie Modelle wie die logistische und loglineare Regression, anstatt auf Mittelwerte und die gewöhnliche lineare Regression.