Méthodes de rééchantillonnage
Les méthodes de rééchantillonnage évaluent l'incertitude d'une statistique en tirant de nouveaux échantillons de manière répétée à partir des données observées, remplaçant ainsi les formules analytiques pour les erreurs standard et les distributions par le calcul.
Definition
Les méthodes de rééchantillonnage sont des techniques inférentielles intensives en calcul qui estiment la distribution d'échantillonnage, le biais, la variance ou l'erreur de prédiction d'une statistique en la recalculant de manière répétée sur des échantillons tirés des données observées, ou sur des partitions de celles-ci.
Scope
Ce domaine couvre le bootstrap et ses intervalles de confiance, le jackknife pour l'estimation du biais et de la variance, les tests de permutation et de randomisation pour les tests d'hypothèse, et la validation croisée pour l'estimation de l'erreur de prédiction. L'idée unificatrice est que la distribution empirique des données, réutilisée par rééchantillonnage, se substitue à une distribution de population inconnue.
Sub-topics
Core questions
- Comment le rééchantillonnage répété des données observées peut-il approximer la distribution d'échantillonnage d'une statistique ?
- Qu'est-ce qui distingue le bootstrap, le jackknife, les tests de permutation et la validation croisée en termes d'objectif et de mécanisme ?
- Quand les approximations par rééchantillonnage réussissent-elles, et où échouent-elles ?
- Comment les méthodes de rééchantillonnage sont-elles utilisées pour construire des intervalles de confiance et des tests sans hypothèses paramétriques ?
Key theories
- Le principe du plug-in
- Le rééchantillonnage remplace la distribution de population inconnue par la distribution empirique de l'échantillon, de sorte que des quantités telles que les erreurs standard et les biais sont calculées par échantillonnage répété à partir des données elles-mêmes.
- Le rééchantillonnage pour l'inférence
- Le rééchantillonnage bootstrap estime la variabilité et les intervalles de confiance, le rééchantillonnage par permutation génère des distributions nulles exactes ou approximatives, et la validation croisée réutilise des partitions des données pour estimer l'erreur hors échantillon.
Clinical relevance
Les méthodes de rééchantillonnage fournissent des erreurs standard, des intervalles de confiance et des tests pour des statistiques complexes pour lesquelles aucune formule traitable n'existe, et offrent des estimations fiables de la précision prédictive pour les modèles statistiques et d'apprentissage automatique ; leurs hypothèses minimales les rendent omniprésentes dans les sciences empiriques.
History
Quenouille et Tukey ont développé le jackknife dans les années 1940 et 1950 ; Efron a introduit le bootstrap en 1979 et l'a unifié avec le jackknife, et l'essor de l'informatique à faible coût dans les années 1980 et 1990 a fait du rééchantillonnage une alternative courante à la théorie asymptotique.
Key figures
- Bradley Efron
- Robert Tibshirani
- Anthony Davison
- Maurice Quenouille
Related topics
Seminal works
- efron1993
- efron1979
Frequently asked questions
- Pourquoi les méthodes de rééchantillonnage sont-elles dites intensives en calcul ?
- Elles remplacent les dérivations sous forme close par des milliers de recalculs répétés d'une statistique sur des données rééchantillonnées. Ceci n'est pratique qu'avec un ordinateur, mais en contrepartie, les méthodes nécessitent beaucoup moins d'hypothèses de modélisation.
- Les méthodes de rééchantillonnage fonctionnent-elles toujours ?
- Non. Elles peuvent échouer pour les statistiques qui dépendent des statistiques d'ordre extrêmes, pour de très petits échantillons, ou en cas de forte dépendance. Connaître ces modes de défaillance fait partie de l'utilisation responsable de ces méthodes.