Distributions d'échantillonnage et théorème central limite
Une distribution d'échantillonnage est la distribution de probabilité d'une statistique, telle qu'une moyenne d'échantillon, pour tous les échantillons possibles d'une taille donnée. Le théorème central limite stipule que, pour des échantillons suffisamment grands, la distribution d'échantillonnage de la moyenne est approximativement normale quelle que soit la forme des données sous-jacentes. Ensemble, ils expliquent la large applicabilité des intervalles de confiance et des tests basés sur la loi normale.
Definition
Une distribution d'échantillonnage est la distribution des valeurs qu'une statistique prendrait sur tous les échantillons possibles d'une taille fixe tirés d'une population ; le théorème central limite stipule que la distribution d'échantillonnage de la moyenne d'échantillon approche une distribution normale à mesure que la taille de l'échantillon augmente, quelle que soit la forme de la population.
Scope
Cette entrée couvre le concept de distribution d'échantillonnage, l'erreur standard comme mesure de sa dispersion, le théorème central limite et le rôle de la taille de l'échantillon, ainsi que la distinction entre l'écart type des individus et l'erreur standard d'une statistique. Elle relie ces idées aux intervalles de confiance et aux tests d'hypothèse. Il s'agit d'une référence méthodologique et non d'une directive clinique.
Core questions
- Qu'est-ce que la distribution d'échantillonnage d'une statistique et pourquoi est-elle importante ?
- En quoi l'erreur standard diffère-t-elle de l'écart type ?
- Que garantit le théorème central limite, et sous quelles conditions ?
- Comment la taille de l'échantillon affecte-t-elle la précision d'une estimation ?
Key concepts
- Statistique versus paramètre
- Distribution d'échantillonnage
- Erreur standard
- Erreur standard versus écart type
- Taille de l'échantillon et précision
- Normalité approximative de la moyenne
- Base des intervalles de confiance et des tests
Key theories
- Théorème central limite
- Pour des observations indépendantes issues d'une population à variance finie, la distribution de la moyenne d'échantillon tend vers une distribution normale à mesure que la taille de l'échantillon augmente, quelle que soit la forme de la population ; cela justifie l'inférence basée sur la loi normale pour les moyennes même lorsque les mesures individuelles ne sont pas normales.
Mechanisms
Si des échantillons répétés de même taille étaient tirés d'une population, une statistique telle que la moyenne varierait d'un échantillon à l'autre ; la distribution de ces valeurs est la distribution d'échantillonnage, et son écart type est l'erreur standard. Pour une moyenne d'échantillon, l'erreur standard est égale à l'écart type de la population divisé par la racine carrée de la taille de l'échantillon, de sorte que la précision s'améliore à mesure que les échantillons augmentent, mais seulement avec la racine carrée de n. Le théorème central limite ajoute que, pour des échantillons suffisamment grands, cette distribution d'échantillonnage est approximativement normale même lorsque les données elles-mêmes sont asymétriques, à condition que les observations soient indépendantes et que la variance soit finie. C'est le moteur de l'inférence classique : un intervalle de confiance pour une moyenne est construit en s'éloignant d'un certain nombre d'erreurs standard de l'estimation sous normalité approximative, et de nombreux tests d'hypothèse comparent une estimation à sa distribution d'échantillonnage. L'erreur standard, qui diminue avec la taille de l'échantillon, doit être distinguée de l'écart type des observations individuelles, qui estime la dispersion de la population et ne diminue pas.
Clinical relevance
Les intervalles de confiance et les valeurs p rapportés dans les études cliniques et de santé publique reposent sur la distribution d'échantillonnage de l'estimation et le théorème central limite ; leur compréhension aide donc à juger de la précision des effets rapportés. Cette entrée constitue un arrière-plan méthodologique et non une base pour des décisions cliniques individuelles.
History
Les premières formes du théorème central limite sont apparues dans l'approximation normale de la loi binomiale par de Moivre et dans les travaux de Laplace vers 1810, et des conditions générales rigoureuses ont été établies par Lyapunov et d'autres vers 1900. Le point de vue de la distribution d'échantillonnage est devenu central pour l'inférence au début du XXe siècle et reste la justification standard des intervalles de confiance et des tests basés sur la loi normale en biostatistique.
Debates
- Quelle doit être la taille d'un échantillon pour que le théorème central limite s'applique ?
- L'approximation s'améliore avec la taille de l'échantillon, mais la taille nécessaire dépend de l'asymétrie des données ; pour des distributions nettement asymétriques, des échantillons beaucoup plus grands sont nécessaires avant que la distribution de la moyenne ne soit acceptablement normale, de sorte qu'aucune règle empirique unique ne s'applique à tous les cas.
Key figures
- Pierre-Simon Laplace
- Abraham de Moivre
- Aleksandr Lyapunov
Related topics
Seminal works
- altman-bland-2005-se
- rosner-2015
Frequently asked questions
- Quelle est la différence entre un écart type et une erreur standard ?
- Un écart type mesure la dispersion des observations individuelles, tandis qu'une erreur standard mesure la dispersion d'une statistique, telle qu'une moyenne d'échantillon, à travers les échantillons ; l'erreur standard diminue à mesure que la taille de l'échantillon augmente, tandis que l'écart type estime une quantité fixe de la population.
- Pourquoi pouvons-nous utiliser la distribution normale pour une moyenne même lorsque les données sont asymétriques ?
- Le théorème central limite stipule que la distribution d'échantillonnage de la moyenne devient approximativement normale à mesure que la taille de l'échantillon augmente, quelle que soit la forme des données, de sorte que les méthodes basées sur la loi normale pour la moyenne sont souvent valides avec des échantillons suffisamment grands, même lorsque les valeurs individuelles ne sont pas normalement distribuées.