Pourquoi échantillonner avec remplacement ?

L'échantillonnage avec remplacement permet à chaque rééchantillon de différer de l'original tout en conservant la même taille, mimant la variabilité du tirage de nouveaux échantillons de la population. Sans remplacement, chaque rééchantillon ne serait que les données originales réordonnées.

Combien de rééchantillons bootstrap sont nécessaires ?

Quelques centaines suffisent pour les erreurs standard, mais les intervalles de confiance basés sur les quantiles de queue nécessitent généralement quelques milliers ou plus afin que les quantiles extrêmes soient estimés de manière stable.

Méthodes de Bootstrap

Le bootstrap estime la distribution d'échantillonnage d'une statistique en tirant de manière répétée des échantillons avec remplacement à partir des données observées et en recalculant la statistique sur chaque rééchantillon.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Le bootstrap est une méthode de rééchantillonnage qui approxime la distribution d'échantillonnage d'un estimateur par la distribution de l'estimateur recalculée sur de nombreux échantillons tirés avec remplacement à partir de la distribution empirique des données.

Scope

Ce sujet couvre le bootstrap non paramétrique et le principe du plug-in, les variantes paramétriques et lissées, la construction d'intervalles de confiance (percentile, de base, corrigés pour le biais et accélérés, et bootstrap-t), les erreurs standard et les estimations de biais du bootstrap, ainsi que les adaptations pour la régression et les données dépendantes comme le bootstrap par blocs. Les limitations et les conditions de cohérence sont soulignées.

Core questions

Comment l'échantillonnage avec remplacement à partir des données approxime-t-il la véritable distribution d'échantillonnage ?
Comment les erreurs standard et les estimations de biais du bootstrap sont-elles calculées ?
Qu'est-ce qui distingue les intervalles de confiance de type percentile, bootstrap-t, et corrigés pour le biais et accélérés ?
Quand le bootstrap est-il cohérent, et comment est-il adapté à la régression et aux données dépendantes ?

Key concepts

Échantillonnage avec remplacement
Distribution empirique
Erreur standard du bootstrap
Intervalle de percentile
Intervalle corrigé pour le biais et accéléré
Bootstrap par blocs

Key theories

Rééchantillonnage plug-in: Le remplacement de la distribution de la population par la distribution empirique et le rééchantillonnage à partir de celle-ci produisent une approximation de Monte Carlo de la distribution d'échantillonnage d'une statistique, d'où découlent les erreurs standard et les biais.
Intervalles de confiance du bootstrap: Les quantiles de la distribution bootstrap donnent des intervalles de percentile ; des raffinements tels que les intervalles corrigés pour le biais et accélérés et bootstrap-t améliorent la couverture en corrigeant le biais et l'asymétrie dans la distribution de l'estimateur.

Clinical relevance

Le bootstrap fournit des erreurs standard et des intervalles de confiance pour des estimateurs sans variance de forme fermée, tels que les médianes, les coefficients de corrélation et les sorties de modèles complexes, et est couramment utilisé pour quantifier l'incertitude en biostatistique, en économétrie et en apprentissage automatique.

History

Efron a introduit le bootstrap en 1979 comme une généralisation du jackknife ; des travaux ultérieurs ont développé des intervalles de confiance affinés, établi une théorie de la cohérence et produit des variantes pour la régression, les séries chronologiques et d'autres contextes de données dépendantes.

Debates

Quand le bootstrap échoue: Le bootstrap non paramétrique ordinaire peut être incohérent pour les statistiques régies par des valeurs extrêmes, pour les paramètres à la limite de l'espace, et en cas de forte dépendance, ce qui nécessite des corrections telles que le bootstrap m-sur-n et le sous-échantillonnage.

Key figures

Bradley Efron
Robert Tibshirani
Anthony Davison
David Hinkley

Seminal works

efron1979
efron1993

Frequently asked questions

Pourquoi échantillonner avec remplacement ?: L'échantillonnage avec remplacement permet à chaque rééchantillon de différer de l'original tout en conservant la même taille, mimant la variabilité du tirage de nouveaux échantillons de la population. Sans remplacement, chaque rééchantillon ne serait que les données originales réordonnées.
Combien de rééchantillons bootstrap sont nécessaires ?: Quelques centaines suffisent pour les erreurs standard, mais les intervalles de confiance basés sur les quantiles de queue nécessitent généralement quelques milliers ou plus afin que les quantiles extrêmes soient estimés de manière stable.