Pourquoi les méthodes de rééchantillonnage sont-elles dites intensives en calcul ?

Elles remplacent les dérivations sous forme close par des milliers de recalculs répétés d'une statistique sur des données rééchantillonnées. Ceci n'est pratique qu'avec un ordinateur, mais en contrepartie, les méthodes nécessitent beaucoup moins d'hypothèses de modélisation.

Les méthodes de rééchantillonnage fonctionnent-elles toujours ?

Non. Elles peuvent échouer pour les statistiques qui dépendent des statistiques d'ordre extrêmes, pour de très petits échantillons, ou en cas de forte dépendance. Connaître ces modes de défaillance fait partie de l'utilisation responsable de ces méthodes.

Méthodes de rééchantillonnage

Les méthodes de rééchantillonnage évaluent l'incertitude d'une statistique en tirant de nouveaux échantillons de manière répétée à partir des données observées, remplaçant ainsi les formules analytiques pour les erreurs standard et les distributions par le calcul.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Les méthodes de rééchantillonnage sont des techniques inférentielles intensives en calcul qui estiment la distribution d'échantillonnage, le biais, la variance ou l'erreur de prédiction d'une statistique en la recalculant de manière répétée sur des échantillons tirés des données observées, ou sur des partitions de celles-ci.

Scope

Ce domaine couvre le bootstrap et ses intervalles de confiance, le jackknife pour l'estimation du biais et de la variance, les tests de permutation et de randomisation pour les tests d'hypothèse, et la validation croisée pour l'estimation de l'erreur de prédiction. L'idée unificatrice est que la distribution empirique des données, réutilisée par rééchantillonnage, se substitue à une distribution de population inconnue.

Sub-topics

Core questions

Comment le rééchantillonnage répété des données observées peut-il approximer la distribution d'échantillonnage d'une statistique ?
Qu'est-ce qui distingue le bootstrap, le jackknife, les tests de permutation et la validation croisée en termes d'objectif et de mécanisme ?
Quand les approximations par rééchantillonnage réussissent-elles, et où échouent-elles ?
Comment les méthodes de rééchantillonnage sont-elles utilisées pour construire des intervalles de confiance et des tests sans hypothèses paramétriques ?

Key theories

Le principe du plug-in: Le rééchantillonnage remplace la distribution de population inconnue par la distribution empirique de l'échantillon, de sorte que des quantités telles que les erreurs standard et les biais sont calculées par échantillonnage répété à partir des données elles-mêmes.
Le rééchantillonnage pour l'inférence: Le rééchantillonnage bootstrap estime la variabilité et les intervalles de confiance, le rééchantillonnage par permutation génère des distributions nulles exactes ou approximatives, et la validation croisée réutilise des partitions des données pour estimer l'erreur hors échantillon.

Clinical relevance

Les méthodes de rééchantillonnage fournissent des erreurs standard, des intervalles de confiance et des tests pour des statistiques complexes pour lesquelles aucune formule traitable n'existe, et offrent des estimations fiables de la précision prédictive pour les modèles statistiques et d'apprentissage automatique ; leurs hypothèses minimales les rendent omniprésentes dans les sciences empiriques.

History

Quenouille et Tukey ont développé le jackknife dans les années 1940 et 1950 ; Efron a introduit le bootstrap en 1979 et l'a unifié avec le jackknife, et l'essor de l'informatique à faible coût dans les années 1980 et 1990 a fait du rééchantillonnage une alternative courante à la théorie asymptotique.

Key figures

Bradley Efron
Robert Tibshirani
Anthony Davison
Maurice Quenouille

Seminal works

efron1993
efron1979

Frequently asked questions

Pourquoi les méthodes de rééchantillonnage sont-elles dites intensives en calcul ?: Elles remplacent les dérivations sous forme close par des milliers de recalculs répétés d'une statistique sur des données rééchantillonnées. Ceci n'est pratique qu'avec un ordinateur, mais en contrepartie, les méthodes nécessitent beaucoup moins d'hypothèses de modélisation.
Les méthodes de rééchantillonnage fonctionnent-elles toujours ?: Non. Elles peuvent échouer pour les statistiques qui dépendent des statistiques d'ordre extrêmes, pour de très petits échantillons, ou en cas de forte dépendance. Connaître ces modes de défaillance fait partie de l'utilisation responsable de ces méthodes.