Description des données et statistiques récapitulatives
La description des données et les statistiques récapitulatives constituent la partie de la biostatistique qui s'intéresse à l'organisation, à la condensation et à la présentation d'un ensemble d'observations afin que ses caractéristiques essentielles puissent être saisies d'un coup d'œil. Avant toute tentative d'inférence, les chercheurs décrivent la distribution des données, leur centre, leur dispersion et leur forme, à l'aide de résumés numériques et de représentations graphiques.
Definition
La description des données et les statistiques récapitulatives comprennent les méthodes numériques et graphiques utilisées pour caractériser la position centrale, la dispersion, la forme distributionnelle et la structure d'un ensemble de données, avant et indépendamment de la généralisation inférentielle à une population.
Scope
Ce domaine oriente le lecteur vers l'aspect descriptif de la biostatistique : les statistiques descriptives dans leur ensemble, la distribution et la normalité des données, les mesures de tendance centrale, les mesures de variabilité et la visualisation des données. Il s'agit d'un aperçu de référence sur la manière dont les données de santé sont résumées, et non d'une prescription pour l'analyse ou l'action clinique.
Sub-topics
Core questions
- Où se situe le centre des données, et quelle mesure de position le représente le mieux ?
- Dans quelle mesure les observations varient-elles, et comment cette dispersion est-elle quantifiée ?
- Quelle est la forme de la distribution, et est-elle approximativement normale ?
- Comment les données peuvent-elles être affichées de manière à rendre visibles leur motif, leur asymétrie et leurs valeurs aberrantes ?
Key concepts
- Statistiques descriptives versus inférentielles
- Mesures de tendance centrale (moyenne, médiane, mode)
- Mesures de variabilité (étendue, variance, écart-type, étendue interquartile)
- Forme distributionnelle, asymétrie et kurtosis
- Normalité et son évaluation
- Résumés graphiques (histogrammes, diagrammes en boîte, nuages de points)
- Analyse exploratoire des données
Mechanisms
La description procède en réduisant de nombreuses observations à quelques quantités et images informatives. Une mesure de position (moyenne, médiane ou mode) résume l'emplacement des données ; une mesure de dispersion (écart-type, étendue interquartile, étendue) résume leur étendue autour de cette position ; et l'appariement de la position avec la dispersion est choisi pour correspondre à la forme de la distribution, la médiane et l'étendue interquartile étant préférées pour les données asymétriques et la moyenne et l'écart-type pour les données approximativement symétriques. Les représentations graphiques telles que les histogrammes et les diagrammes en boîte (box plots) révèlent la forme, l'asymétrie et les valeurs aberrantes que les chiffres isolés peuvent masquer, et ensemble, ces outils constituent l'étape exploratoire qui précède l'inférence formelle.
Clinical relevance
Presque toutes les études cliniques, audits et rapports de surveillance commencent par des résumés descriptifs de leurs participants et de leurs mesures ; la compréhension de ces résumés est donc fondamentale pour la lecture de la littérature en sciences de la santé. Ce domaine décrit comment les données sont caractérisées et est destiné à servir de base à l'évaluation des preuves, et non à fonder des décisions diagnostiques ou thérapeutiques individuelles.
Epidemiology
Le résumé descriptif est la première étape analytique de la recherche épidémiologique et clinique, utilisée pour caractériser les populations d'étude, les tableaux de base et la distribution des expositions et des résultats avant l'estimation des associations. Le choix des mesures et des représentations récapitulatives affecte directement la transparence de la communication des données d'une étude.
History
La synthèse numérique des données a des racines profondes dans l'astronomie et les statistiques de l'état civil des XVIIIe et XIXe siècles, mais la boîte à outils descriptive moderne a été consolidée au XXe siècle. L'ouvrage de John Tukey, Exploratory Data Analysis (1977), a recadré la description comme une activité d'investigation à part entière et a popularisé des représentations telles que le diagramme en boîte (box plot), tandis que les éducateurs en statistique dans le domaine de la santé ont ensuite codifié les résumés standard désormais rapportés dans les revues médicales.
Debates
- Quand la moyenne et l'écart-type devraient-ils céder la place à la médiane et à l'étendue interquartile ?
- Étant donné que la moyenne et l'écart-type sont influencés par l'asymétrie et les valeurs aberrantes, il est recommandé de longue date de résumer les données non normales avec la médiane et l'étendue interquartile ; le seuil pratique de basculement dépend de la forme de la distribution et de la taille de l'échantillon.
Key figures
- John W. Tukey
- William S. Cleveland
- Douglas G. Altman
- J. Martin Bland
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- Quelle est la différence entre les statistiques descriptives et inférentielles ?
- Les statistiques descriptives résument et affichent les données réellement collectées, tandis que les statistiques inférentielles utilisent ces données pour tirer des généralisations sur une population plus large. La description vient en premier et ne fait aucune affirmation probabiliste au-delà de l'échantillon étudié.
- Pourquoi décrire les données avant d'effectuer des tests ?
- Les résumés et les graphiques révèlent la forme, la dispersion et les éventuelles valeurs aberrantes ou erreurs de la distribution, ce qui détermine si les analyses ultérieures sont appropriées et comment leurs résultats doivent être interprétés.