Datenbeschreibung und deskriptive Statistik
Die Datenbeschreibung und deskriptive Statistik ist der Teil der Biostatistik, der sich mit der Organisation, Verdichtung und Darstellung einer Reihe von Beobachtungen befasst, sodass deren wesentliche Merkmale auf einen Blick erfasst werden können. Bevor Schlussfolgerungen gezogen werden, beschreiben Forschende mithilfe numerischer Zusammenfassungen und grafischer Darstellungen, wie die Daten verteilt sind, wo sie zentriert sind, wie weit sie streuen und welche Form sie annehmen.
Definition
Die Datenbeschreibung und deskriptive Statistik umfasst die numerischen und grafischen Methoden, die verwendet werden, um die zentrale Lage, die Streuung, die Verteilungsform und die Struktur eines Datensatzes zu charakterisieren, und zwar vor und unabhängig von inferenziellen Verallgemeinerungen auf eine Population.
Scope
Dieser Bereich führt den Lesenden in den deskriptiven Teil der Biostatistik ein: deskriptive Statistik im Allgemeinen, die Verteilung und Normalität von Daten, Maße der zentralen Tendenz, Maße der Variabilität und Datenvisualisierung. Es handelt sich um eine Referenzübersicht darüber, wie Gesundheitsdaten zusammengefasst werden, nicht um eine Vorschrift für Analysen oder klinische Maßnahmen.
Sub-topics
Core questions
- Wo liegt das Zentrum der Daten, und welches Lagemaß repräsentiert es am besten?
- Wie stark variieren die Beobachtungen, und wie wird diese Streuung quantifiziert?
- Welche Form hat die Verteilung, und ist sie annähernd normal?
- Wie können die Daten dargestellt werden, damit ihr Muster, ihre Schiefe und ihre Ausreißer sichtbar werden?
Key concepts
- Deskriptive versus inferenzielle Statistik
- Maße der zentralen Tendenz (Mittelwert, Median, Modus)
- Maße der Variabilität (Spannweite, Varianz, Standardabweichung, Interquartilbereich)
- Verteilungsform, Schiefe und Kurtosis
- Normalität und ihre Bewertung
- Grafische Zusammenfassungen (Histogramme, Boxplots, Streudiagramme)
- Explorative Datenanalyse
Mechanisms
Die Beschreibung erfolgt, indem viele Beobachtungen auf wenige informative Größen und Bilder reduziert werden. Ein Lageparameter (Mittelwert, Median oder Modus) fasst zusammen, wo die Daten liegen; ein Streuungsparameter (Standardabweichung, Interquartilbereich, Spannweite) fasst zusammen, wie weit sie um diese Lage streuen; und die Paarung von Lage und Streuung wird so gewählt, dass sie zur Form der Verteilung passt, wobei der Median und der Interquartilbereich für schiefe Daten und der Mittelwert und die Standardabweichung für annähernd symmetrische Daten bevorzugt werden. Grafische Darstellungen wie Histogramme und Boxplots zeigen Form, Schiefe und Ausreißer, die einzelne Zahlen verbergen können, und zusammen bilden diese Werkzeuge die explorative Phase, die der formalen Inferenz vorausgeht.
Clinical relevance
Nahezu jede klinische Studie, jedes Audit und jeder Überwachungsbericht beginnt mit deskriptiven Zusammenfassungen der Teilnehmenden und Messungen, daher ist das Verständnis dieser Zusammenfassungen grundlegend für das Lesen der gesundheitswissenschaftlichen Literatur. Dieser Bereich beschreibt, wie Daten charakterisiert werden, und ist als Hintergrund für die Bewertung von Evidenz gedacht, nicht als Grundlage für individuelle Diagnose- oder Behandlungsentscheidungen.
Epidemiology
Die deskriptive Zusammenfassung ist der erste analytische Schritt in der epidemiologischen und klinischen Forschung, der verwendet wird, um Studienpopulationen, Basistabellen und die Verteilung von Expositionen und Ergebnissen zu charakterisieren, bevor Assoziationen geschätzt werden. Die Wahl der Zusammenfassungsmaße und Darstellungen beeinflusst direkt, wie transparent die Daten einer Studie kommuniziert werden.
History
Die numerische Datenzusammenfassung hat tiefe Wurzeln in der Astronomie und den Vitalstatistiken des 18. und 19. Jahrhunderts, aber das moderne deskriptive Instrumentarium wurde im 20. Jahrhundert konsolidiert. John Tukeys „Exploratory Data Analysis“ (1977) definierte die Beschreibung als eigenständige investigative Tätigkeit neu und popularisierte Darstellungen wie den Boxplot, während statistische Lehrende in den Gesundheitswissenschaften anschließend die Standardzusammenfassungen kodifizierten, die heute in medizinischen Fachzeitschriften berichtet werden.
Debates
- Wann sollten Mittelwert und Standardabweichung dem Median und dem Interquartilbereich weichen?
- Da Mittelwert und Standardabweichung durch Schiefe und Ausreißer beeinflusst werden, gibt es eine langjährige Empfehlung, nicht-normale Daten mit dem Median und dem Interquartilbereich zusammenzufassen; der praktische Schwellenwert für den Wechsel hängt von der Verteilungsform und der Stichprobengröße ab.
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- Was ist der Unterschied zwischen deskriptiver und inferenzieller Statistik?
- Deskriptive Statistik fasst die tatsächlich erhobenen Daten zusammen und stellt sie dar, während inferenzielle Statistik diese Daten verwendet, um Verallgemeinerungen über eine breitere Population zu ziehen. Die Beschreibung erfolgt zuerst und macht keine probabilistischen Aussagen über die vorliegende Stichprobe hinaus.
- Warum sollten Daten vor der Durchführung von Tests beschrieben werden?
- Zusammenfassungen und Diagramme zeigen die Form, Streuung und etwaige Ausreißer oder Fehler der Verteilung auf, was bestimmt, ob spätere Analysen angemessen sind und wie deren Ergebnisse interpretiert werden sollten.