Statistiques descriptives
Les statistiques descriptives sont les méthodes utilisées pour résumer et présenter les caractéristiques d'un ensemble de données sans généraliser au-delà de celui-ci. Elles condensent une collection d'observations en quelques chiffres et représentations graphiques interprétables, décrivant où les données sont centrées, leur degré de variabilité et la forme de leur distribution.
Definition
Les statistiques descriptives sont des résumés numériques et graphiques qui caractérisent la tendance centrale, la variabilité et la distribution des données disponibles, décrivant l'échantillon lui-même plutôt que d'inférer les propriétés d'une population plus large.
Scope
Cette entrée aborde ce que sont les statistiques descriptives, comment elles diffèrent des statistiques inférentielles, et les principales familles de mesures descriptives : les effectifs et les proportions pour les données catégorielles, ainsi que les mesures de tendance centrale et de dispersion pour les données numériques. Il s'agit d'une référence méthodologique qui ne fournit pas de conseils cliniques.
Core questions
- Quel type de variable est résumé et quelle mesure descriptive lui convient ?
- Où les données sont-elles centrées et quelle est leur étendue ?
- Comment une variable catégorielle doit-elle être résumée par rapport à une variable continue ?
Key concepts
- Statistiques descriptives versus statistiques inférentielles
- Fréquences, effectifs et proportions pour les données catégorielles
- Mesures de tendance centrale
- Mesures de dispersion
- Résumé tabulaire et graphique
- Niveaux de mesure (nominal, ordinal, d'intervalle, de rapport)
Mechanisms
L'analyse descriptive commence par la classification de chaque variable selon son niveau de mesure. Les variables catégorielles sont résumées par des effectifs, des proportions et des tableaux de fréquences ; les variables numériques sont résumées par une mesure de tendance centrale associée à une mesure de dispersion, choisies en fonction de la forme de la distribution — la moyenne avec l'écart type pour des données approximativement symétriques, et la médiane avec l'intervalle interquartile pour des données asymétriques. Ces résumés numériques sont généralement accompagnés de représentations graphiques afin de rendre visibles les caractéristiques de distribution que les chiffres seuls ne peuvent pas transmettre.
Clinical relevance
Les statistiques descriptives figurent dans les tableaux de caractéristiques de base et les sections de résultats de la quasi-totalité des études cliniques ; leur interprétation est donc essentielle pour la lecture de la littérature médicale. Cette entrée décrit comment les données sont résumées à des fins d'évaluation et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.
Epidemiology
En recherche épidémiologique et clinique, les statistiques descriptives constituent le premier résultat analytique, utilisées pour caractériser les échantillons d'étude, les expositions et les résultats avant toute estimation d'association ou d'effet. La communication transparente des mesures descriptives est une exigence fondamentale des normes de rapport d'étude.
History
La synthèse descriptive est antérieure à l'inférence statistique formelle, ayant émergé de la tenue de registres démographiques et actuariels. Le XXe siècle a séparé conceptuellement les rôles descriptifs et inférentiels des statistiques, et le programme d'analyse exploratoire des données de John Tukey a ensuite remis l'accent sur la description et le résumé visuel comme une phase d'analyse distincte et importante.
Key figures
- John W. Tukey
- Douglas G. Altman
Related topics
Seminal works
- tukey-1977
- gupta-2019
Frequently asked questions
- En quoi les statistiques descriptives diffèrent-elles des statistiques inférentielles ?
- Les statistiques descriptives résument les données qui ont été collectées ; les statistiques inférentielles utilisent ces données pour faire des déclarations probabilistes sur une population plus large. Les mesures descriptives ne font aucune affirmation au-delà de l'échantillon observé.
- Quelles mesures descriptives devraient être rapportées pour une variable continue ?
- Une mesure de tendance centrale associée à une mesure de dispersion, choisies pour correspondre à la distribution : la moyenne et l'écart type lorsque les données sont approximativement symétriques, la médiane et l'intervalle interquartile lorsqu'elles sont asymétriques.