Pourquoi la normalité est-elle importante ?

De nombreux résumés courants (moyenne, écart-type) et tests (test t, ANOVA) supposent des données approximativement normales ; lorsque cette hypothèse n'est pas respectée, ces mesures peuvent induire en erreur et des alternatives non paramétriques ou transformées peuvent être plus appropriées.

Un test de Shapiro-Wilk significatif est-il une raison suffisante pour abandonner une méthode paramétrique ?

Pas à lui seul. Le test devient très sensible dans les grands échantillons et manque de puissance dans les petits, de sorte que l'ampleur de l'écart, la forme observée sur un diagramme Q-Q et la robustesse de l'analyse prévue doivent tous être pris en compte.

Distribution des données et normalité

La distribution d'une variable décrit la manière dont ses valeurs sont réparties sur l'étendue des possibilités, et de nombreuses méthodes descriptives et inférentielles dépendent de l'allure de cette distribution. La normalité — c'est-à-dire si les données suivent la distribution normale symétrique en forme de cloche — est l'hypothèse de distribution la plus souvent examinée dans la recherche en santé, car elle régit le choix entre les résumés et les tests paramétriques et non paramétriques.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Une distribution statistique décrit la fréquence relative ou la probabilité des valeurs possibles d'une variable ; la normalité fait référence à la conformité avec la distribution gaussienne (normale), une forme symétrique en cloche évaluée graphiquement et à l'aide de tests formels pour décider si les méthodes paramétriques sont appropriées.

Scope

Cette entrée aborde la forme de la distribution (symétrie, asymétrie, aplatissement), la distribution normale et son importance, ainsi que la manière dont la normalité est évaluée par inspection graphique et par des tests formels. Il s'agit d'une référence méthodologique qui ne fournit pas de conseils cliniques.

Core questions

Quelle est la forme de la distribution de la variable, et est-elle symétrique ou asymétrique ?
L'hypothèse de normalité est-elle raisonnable pour cette variable ?
Quels outils graphiques et formels évaluent le mieux la normalité, et comment se comportent-ils avec de petits ou de grands échantillons ?

Key concepts

Distribution normale (gaussienne)
Asymétrie et aplatissement (kurtosis)
Évaluation graphique (histogramme, diagramme Q-Q)
Test de Shapiro-Wilk
Test de Kolmogorov-Smirnov
Choix paramétrique versus non paramétrique
Sensibilité des tests de normalité à la taille de l'échantillon

Key theories

Théorème central limite: Le théorème central limite stipule que, pour un échantillon suffisamment grand, la distribution d'échantillonnage de la moyenne approche une distribution normale quelle que soit la forme de la variable sous-jacente. C'est la raison pour laquelle les méthodes basées sur la théorie normale restent souvent utilisables pour les moyennes, même lorsque les données brutes ne sont pas normales.

Mechanisms

La normalité est évaluée de deux manières complémentaires. Les méthodes graphiques — l'histogramme et le diagramme quantile-quantile (Q-Q) — montrent directement les écarts tels que l'asymétrie, les queues lourdes ou la bimodalité. Les tests formels, dont le test de Shapiro-Wilk est parmi les plus utilisés, renvoient une probabilité d'observer les données sous un modèle normal. Étant donné que ces tests gagnent en puissance avec la taille de l'échantillon, ils ont tendance à signaler des écarts triviaux dans les grands échantillons et à en manquer d'importants dans les petits échantillons ; par conséquent, l'inspection graphique et les conséquences pratiques de la non-normalité sont prises en compte en plus de tout résultat de test. Lorsque la quantité d'intérêt est une moyenne, le théorème central limite justifie souvent les méthodes basées sur la théorie normale, même pour des données brutes non normales.

Clinical relevance

Le fait qu'un biomarqueur, une durée de séjour ou un score soit traité comme normal détermine la manière dont il est résumé et analysé dans la littérature clinique ; ainsi, juger de la normalité fait partie de l'évaluation des méthodes d'une étude. Cette entrée décrit l'évaluation des hypothèses de distribution et ne constitue pas une base pour des décisions diagnostiques ou thérapeutiques individuelles.

Epidemiology

De nombreuses mesures biologiques et cliniques sont asymétriques à droite (par exemple, les niveaux hormonaux, les coûts et les temps d'attente) ; la normalité ne peut donc pas être supposée et est systématiquement vérifiée. Cette décision détermine si les résultats sont rapportés avec des moyennes et des écarts-types ou avec des médianes et des étendues, et si des tests paramétriques ou non paramétriques sont utilisés.

History

La distribution normale a été développée aux XVIIIe et XIXe siècles dans les travaux de de Moivre, Laplace et Gauss, et est devenue centrale en statistique grâce à la théorie des erreurs et au théorème central limite. Des outils formels pour vérifier cette hypothèse ont suivi au XXe siècle, le test d'analyse de variance de Shapiro et Wilk de 1965 pour la normalité devenant une procédure standard dans les travaux appliqués.

Debates

La normalité doit-elle être jugée par des tests formels ou par inspection graphique ?: Les tests formels de normalité sont sensibles à la taille de l'échantillon — rejetant des écarts triviaux dans les grands échantillons et ne parvenant pas à détecter des écarts importants dans les petits échantillons — de sorte que de nombreux méthodologistes recommandent que l'évaluation graphique et la robustesse pratique de l'analyse prévue guident la décision plutôt que la seule valeur p d'un test.

Key figures

Samuel S. Shapiro
Martin B. Wilk
Carl Friedrich Gauss

Seminal works

shapiro-wilk-1965
kwak-2017
ghasemi-2012

Frequently asked questions

Pourquoi la normalité est-elle importante ?: De nombreux résumés courants (moyenne, écart-type) et tests (test t, ANOVA) supposent des données approximativement normales ; lorsque cette hypothèse n'est pas respectée, ces mesures peuvent induire en erreur et des alternatives non paramétriques ou transformées peuvent être plus appropriées.
Un test de Shapiro-Wilk significatif est-il une raison suffisante pour abandonner une méthode paramétrique ?: Pas à lui seul. Le test devient très sensible dans les grands échantillons et manque de puissance dans les petits, de sorte que l'ampleur de l'écart, la forme observée sur un diagramme Q-Q et la robustesse de l'analyse prévue doivent tous être pris en compte.