Kontingenztabellen und 2×2-Tabellen
Eine Kontingenztabelle ist eine rechteckige Anordnung von Zählwerten, die eine Stichprobe nach zwei (oder mehr) kategorialen Variablen klassifiziert und zeigt, wie viele Beobachtungen in jede Kombination von Kategorien fallen. Ihre einfachste und wichtigste Form in der Gesundheitsforschung ist die 2×2-Tabelle, die eine binäre Exposition mit einem binären Ergebnis kreuztabelliert und den Ausgangspunkt für nahezu jedes Maß und jeden Test der Assoziation bildet.
Definition
Eine Kontingenztabelle ist eine Kreuzklassifikation einer Stichprobe in ein Raster von Zellen, deren Einträge die Häufigkeiten von Beobachtungen sind, die eine gegebene Kombination von Kategorien von zwei oder mehr kategorialen Variablen teilen; eine 2×2-Tabelle ist der Spezialfall mit zwei binären Variablen und vier Zellen.
Scope
Dieser Eintrag behandelt, wie Zählwerte in einer Kontingenztabelle angeordnet werden, die Anatomie und Notation der 2×2- (Vierfelder-)Tabelle, die marginalen und gemeinsamen Verteilungen, die sie darstellt, die Idee der Unabhängigkeit zwischen Zeilen- und Spaltenvariablen und die Rolle der Tabelle als gemeinsames Substrat, aus dem Chi-Quadrat-Tests, exakte Tests und Effektmaße berechnet werden. Sie behandelt die Tabelle als methodologisches Objekt, nicht als klinische Leitlinie.
Core questions
- Wie werden zwei kategoriale Variablen in Zellen von Zählwerten kreuzklassifiziert?
- Was sind die Randsummen und die gemeinsamen Zellhäufigkeiten, und wie verhalten sie sich unter Unabhängigkeit zueinander?
- Warum ist die 2×2-Tabelle das kanonische Layout für eine binäre Exposition und ein binäres Ergebnis?
- Welche erwarteten Häufigkeiten würden die Zellen enthalten, wenn die Zeilen- und Spaltenvariablen unabhängig wären?
Key concepts
- Zeilen, Spalten und Zellen
- Randsummen und Gesamtsumme
- Gemeinsame und bedingte Verteilungen
- Unabhängigkeit und erwartete Häufigkeiten unter Unabhängigkeit
- Das 2×2- (Vierfelder-)Tabellenlayout a, b, c, d
- Kreuztabellierung von Exposition und Ergebnis
Mechanisms
Jede Beobachtung wird genau einer Zelle entsprechend ihrer Kategorienkombination zugeordnet, sodass die Tabelle die gemeinsame Häufigkeitsverteilung aufzeichnet; das Summieren über eine Zeile oder Spalte ergibt die Randsummen, und das Dividieren von Zellen durch Ränder ergibt bedingte Verteilungen. Unter der Hypothese, dass die beiden Variablen unabhängig sind, ist die erwartete Häufigkeit in einer Zelle das Produkt ihrer Zeilen- und Spaltenrandsummen, geteilt durch die Gesamtsumme, und Abweichungen zwischen beobachteten und erwarteten Häufigkeiten sind das, was Assoziationstests bewerten. Im 2×2-Fall werden die vier Zellen konventionell mit a, b, c, d bezeichnet (exponiert-Fall, exponiert-Nicht-Fall, nicht-exponiert-Fall, nicht-exponiert-Nicht-Fall), und diese vier Zahlen ergeben direkt das Risikoverhältnis, das Odds Ratio und die Chi-Quadrat-Statistik. Größere r×c-Tabellen und mehrdimensionale Tabellen erweitern dieselbe Logik, und die Stratifizierung einer 2×2-Tabelle nach einer dritten Variablen erzeugt die geschichteten Tabellen, die in der Mantel-Haenszel-Analyse verwendet werden.
Clinical relevance
Die 2×2-Tabelle ist die Form, in der Daten zur diagnostischen Genauigkeit, zum Behandlungseffekt und zu Risikofaktoren am häufigsten präsentiert werden. Daher ist die Fähigkeit, eine solche Tabelle zu lesen – die Zellen, die Ränder und das, was verglichen wird, zu identifizieren – grundlegend für die Bewertung von Gesundheitsnachweisen. Sie ist eine Methode zur Organisation und zum Lesen von Daten und stellt selbst keine Grundlage für individuelle diagnostische oder therapeutische Entscheidungen dar.
Epidemiology
Kohorten-, Fall-Kontroll- und Querschnittsstudien sowie randomisierte Studien mit binären Endpunkten verdichten sich im Kern zu einer 2×2-Tabelle einer Exposition oder Intervention gegenüber einem Ergebnis; diagnostische Teststudien verwenden eine 2×2-Tabelle des Testergebnisses gegenüber dem wahren Status. Die Tabelle ist daher der gemeinsame rechnerische Ausgangspunkt für alle Studiendesigns in der Epidemiologie.
History
Der Begriff „Kontingenztabelle“ geht auf Karl Pearson um 1900 zurück, und Fishers Arbeit von 1922 klärte, wie solche Tabellen analysiert werden und welche Freiheitsgrade dabei eine Rolle spielen. Die Vierfelder- (2×2-)Tabelle wurde zum Arbeitspferd der medizinischen Statistik des 20. Jahrhunderts, und Referenzwerke von Fleiss und Agresti kodifizierten ihre Notation sowie die darauf aufbauende Familie von Maßen und Tests.
Key figures
- Karl Pearson
- Ronald A. Fisher
- Joseph Fleiss
- Alan Agresti
Related topics
Seminal works
- fisher-1922
- fleiss-2003
- agresti-2013
Frequently asked questions
- Was ist eine 2×2-Tabelle?
- Es ist die einfachste Kontingenztabelle: zwei Zeilen und zwei Spalten, die eine binäre Exposition (oder Intervention) mit einem binären Ergebnis kreuzklassifizieren, was vier Zellen ergibt, deren Zählwerte zur Berechnung von Risikoverhältnissen, Odds Ratios und Chi-Quadrat-Tests verwendet werden.
- Was bedeutet „Unabhängigkeit“ in einer Kontingenztabelle?
- Zwei Variablen sind unabhängig, wenn die Verteilung der einen nicht von der anderen abhängt; unter Unabhängigkeit entspricht die erwartete Häufigkeit in jeder Zelle dem Produkt ihrer Zeilensumme und ihrer Spaltensumme, geteilt durch die Gesamtsumme, und Assoziationstests messen Abweichungen davon.