Was macht Daten „kategorial“?

Daten sind kategorial, wenn jede Beobachtung in eine von mehreren diskreten Klassen fällt – wie z. B. krank/gesund oder Behandlungsarm A/B/C – anstatt einen gemessenen numerischen Wert anzunehmen; die Analyse arbeitet mit den Häufigkeiten in jeder Klasse.

Wie unterscheidet sich dieser Bereich von der Regression für kontinuierliche Ergebnisse?

Das Ergebnis hier ist eine Kategorie oder eine Häufigkeit, keine kontinuierliche Messung, daher konzentrieren sich die Methoden auf Kontingenztafeln, Verhältnisse von Risiken und Odds sowie Modelle wie die logistische und loglineare Regression, anstatt auf Mittelwerte und die gewöhnliche lineare Regression.

Analyse kategorialer Daten

Die Analyse kategorialer Daten ist der Zweig der Biostatistik, der sich mit Daten befasst, die in diskrete Kategorien fallen, anstatt kontinuierliche numerische Werte anzunehmen – z. B. das Vorhandensein oder Nichtvorhandensein einer Krankheit, die Gutartigkeit oder Bösartigkeit eines Tumors, die Zuweisung eines Patienten zu einem von mehreren Behandlungsarmen. Ihr zentrales Objekt ist die Kontingenztafel von Häufigkeiten, und ihre Methoden testen und quantifizieren Assoziationen zwischen kategorialen Variablen unter Kontrolle anderer Variablen.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die Analyse kategorialer Daten ist die Menge statistischer Methoden zur Beschreibung, Prüfung und Modellierung von Assoziationen zwischen Variablen, deren Werte Häufigkeiten innerhalb ungeordneter oder geordneter diskreter Kategorien sind, typischerweise organisiert als Kontingenztafeln von Häufigkeiten.

Scope

Dieser Bereich führt den Leser in die Kernideen ein, die sich in den folgenden Themenbereichen wiederholen: wie kategoriale Beobachtungen in Kontingenztafeln angeordnet werden, wie Assoziationen in einer Tabelle getestet werden (Chi-Quadrat- und exakte Tests), wie eine Assoziation durch ein Effektmaß (Risikoverhältnisse und Odds Ratios) zusammengefasst wird und wie eine störende kategoriale Variable durch Stratifizierung (Mantel-Haenszel-Methoden) behandelt wird. Dies wird als methodisches Werkzeug zum Lesen und Erstellen von Gesundheitsforschung dargestellt, nicht als klinische Leitlinie.

Sub-topics

Core questions

Besteht eine Assoziation zwischen zwei kategorialen Variablen, oder sind sie unabhängig?
Wie groß ist die Assoziation, ausgedrückt als Verhältnis oder Differenz von Risiken oder Odds?
Bleibt eine scheinbare Assoziation nach Stratifizierung nach einer dritten kategorialen Variable bestehen, oder wird sie dadurch gestört oder modifiziert?
Welches exakte Verfahren ersetzt die Großstichprobenapproximation, wenn die Zellhäufigkeiten klein sind?

Key concepts

Kontingenztafel von Häufigkeiten
Unabhängigkeit kategorialer Variablen
Chi-Quadrat-Test der Assoziation
Exakte Tests für dünn besetzte Tabellen
Effektmaße: Risikoverhältnis und Odds Ratio
Stratifizierung und der Mantel-Haenszel-Schätzer
Störfaktoren und Effektmodifikation über Schichten hinweg
Loglineare und logistische Modelle für Tabellen

Mechanisms

Kategoriale Beobachtungen werden in einer Tabelle kreuzklassifiziert, deren Zellen Häufigkeiten enthalten. Ein Assoziationstest vergleicht die beobachteten Zellhäufigkeiten mit jenen, die erwartet würden, wenn die Zeilen- und Spaltenvariablen unabhängig wären: Pearsons Chi-Quadrat-Statistik, asymptotisch gerechtfertigt durch Fishers Klärung ihrer Freiheitsgrade, summiert die quadrierten standardisierten Differenzen, während exakte Tests die bedingte Verteilung von Tabellen aufzählen, wenn die Häufigkeiten für die Approximation zu klein sind. Die Stärke der Assoziation wird dann durch ein aus der Tabelle abgeleitetes Effektmaß zusammengefasst – ein Risikoverhältnis oder ein Odds Ratio. Wenn eine dritte Variable die Assoziation zu stören droht, werden die Daten in durch diese Variable definierte Schichten aufgeteilt und eine gepoolte Schätzung über die Schichten hinweg gebildet; das Mantel-Haenszel-Verfahren bietet einen solchen stratifizierten Test und eine zusammenfassende Schätzung. Diese Elemente verallgemeinern sich zu loglinearen und logistischen Regressionsmodellen, die mehrere kategoriale Prädiktoren gleichzeitig behandeln.

Clinical relevance

Die meisten diagnostischen, prognostischen und Risikofaktor-Evidenzen in den Gesundheitswissenschaften werden als Assoziationen zwischen kategorialen Variablen berichtet – exponiert versus nicht exponiert, Ereignis versus kein Ereignis – daher liegen die Methoden in diesem Bereich der Generierung und Bewertung dieser Evidenz zugrunde. Sie beschreiben, wie Assoziationen gemessen und getestet werden; sie sind Werkzeuge zur Interpretation von Forschung und keine Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.

Epidemiology

Kontingenztafelmethoden sind das alltägliche Werkzeug der Epidemiologie: Kohorten-, Fall-Kontroll- und Querschnittsstudien reduzieren sich in ihrer einfachsten Form auf eine Zwei-mal-Zwei-Tabelle von Exposition gegenüber Ergebnis, und die stratifizierte (Mantel-Haenszel-)Analyse ist der klassische nicht-modellbasierte Ansatz zur Störfaktorkontrolle vor der Regression. Dieselben Methoden finden sich in klinischen Studien, die binäre Endpunkte berichten, und in der Diagnosetestbewertung wieder.

History

Das Feld begann mit Karl Pearsons Chi-Quadrat-Statistik um die Jahrhundertwende und Fishers Korrektur ihrer Freiheitsgrade für Kontingenztafeln im Jahr 1922, gefolgt von Fishers exaktem Test für kleine Stichproben. Die Epidemiologie der Mitte des Jahrhunderts lieferte den Effektmaß-Rahmen – Cornfields Odds-Ratio-Argument und der Mantel-Haenszel-Stratifizierungsestimator von 1959 – und das spätere 20. Jahrhundert vereinte diese Methoden innerhalb des Rahmens der verallgemeinerten linearen Modelle, zusammengefasst in Agrestis Lehrbuchbehandlung.

Key figures

Karl Pearson
Ronald A. Fisher
Jerome Cornfield
Nathan Mantel
William Haenszel
Alan Agresti
Joseph Fleiss

Seminal works

fisher-1922
mantel-haenszel-1959
agresti-2013

Frequently asked questions

Was macht Daten „kategorial“?: Daten sind kategorial, wenn jede Beobachtung in eine von mehreren diskreten Klassen fällt – wie z. B. krank/gesund oder Behandlungsarm A/B/C – anstatt einen gemessenen numerischen Wert anzunehmen; die Analyse arbeitet mit den Häufigkeiten in jeder Klasse.
Wie unterscheidet sich dieser Bereich von der Regression für kontinuierliche Ergebnisse?: Das Ergebnis hier ist eine Kategorie oder eine Häufigkeit, keine kontinuierliche Messung, daher konzentrieren sich die Methoden auf Kontingenztafeln, Verhältnisse von Risiken und Odds sowie Modelle wie die logistische und loglineare Regression, anstatt auf Mittelwerte und die gewöhnliche lineare Regression.