Le bootstrap crée-t-il de nouvelles informations à partir de rien ?

Non. Il réutilise les informations déjà présentes dans l'échantillon pour approximer la variabilité d'échantillonnage ; il ne peut pas améliorer un échantillon de mauvaise qualité ou biaisé, et sa précision dépend de la bonne représentativité de la population par l'échantillon original.

Quand le bootstrap échoue-t-il ?

Il peut échouer pour les statistiques qui dépendent de manière non lisse de la distribution, telles que le maximum de l'échantillon ou les paramètres sur une frontière ; dans de tels cas, des schémas modifiés comme le sous-échantillonnage (subsampling) ou le bootstrap m-sur-n sont utilisés à la place.

Bootstrap et rééchantillonnage

Le bootstrap estime la distribution d'échantillonnage d'une statistique en rééchantillonnant les données observées, remplaçant les formules intraitables par le calcul.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Le bootstrap est une méthode de rééchantillonnage qui approxime la distribution d'échantillonnage d'une statistique en traitant l'échantillon observé comme la population et en tirant de manière répétée des échantillons de celui-ci, généralement avec remise, afin d'estimer les erreurs standard, les intervalles de confiance et le biais.

Scope

Ce sujet aborde le bootstrap non paramétrique par rééchantillonnage avec remise, le bootstrap paramétrique, le jackknife et ses estimations du biais et de la variance, les tests de permutation, les erreurs standard du bootstrap et les intervalles de confiance par centiles, corrigés du biais et bootstrap-t, la consistance du bootstrap et sa précision d'ordre supérieur via les développements d'Edgeworth, ainsi que des cas bien connus tels que le maximum de l'échantillon où le bootstrap ordinaire échoue.

Core questions

Comment le rééchantillonnage des données approxime-t-il la distribution d'échantillonnage d'une statistique ?
Comment les intervalles de confiance bootstrap sont-ils construits, et en quoi les intervalles par centiles et bootstrap-t diffèrent-ils ?
Quand le bootstrap est-il consistant, et quand échoue-t-il ?
Comment un test de permutation utilise-t-il le rééchantillonnage pour obtenir un test exact sans distribution ?

Key theories

Le principe du bootstrap: L'approximation de la population inconnue par la distribution empirique et le rééchantillonnage à partir de celle-ci permettent d'estimer par simulation la variabilité d'échantillonnage de presque toute statistique, même lorsqu'aucune distribution de forme fermée n'existe.
Consistance et précision du bootstrap: Pour les statistiques lisses, le bootstrap est consistant et, grâce aux développements d'Edgeworth, certains intervalles bootstrap sont plus précis que l'approximation normale ; pour les fonctionnelles non lisses telles que le maximum, il peut échouer.

Clinical relevance

Le bootstrap fournit des erreurs standard et des intervalles de confiance pour des estimateurs complexes, tels que les médianes, les corrélations et les prédictions d'apprentissage automatique, là où les formules analytiques ne sont pas disponibles. Les tests de permutation, quant à eux, offrent des évaluations exactes de la signification, largement utilisées en génomique et dans les expériences randomisées.

History

Quenouille et Tukey ont développé le jackknife dans les années 1950. Efron a introduit le bootstrap en 1979, unifiant et étendant ces idées de rééchantillonnage, et les travaux de Hall dans les années 1980 et 1990 ont établi sa précision d'ordre supérieur grâce aux développements d'Edgeworth.

Key figures

Bradley Efron
Robert Tibshirani
Peter Hall
Maurice Quenouille

Seminal works

efron1979

Frequently asked questions

Le bootstrap crée-t-il de nouvelles informations à partir de rien ?: Non. Il réutilise les informations déjà présentes dans l'échantillon pour approximer la variabilité d'échantillonnage ; il ne peut pas améliorer un échantillon de mauvaise qualité ou biaisé, et sa précision dépend de la bonne représentativité de la population par l'échantillon original.
Quand le bootstrap échoue-t-il ?: Il peut échouer pour les statistiques qui dépendent de manière non lisse de la distribution, telles que le maximum de l'échantillon ou les paramètres sur une frontière ; dans de tels cas, des schémas modifiés comme le sous-échantillonnage (subsampling) ou le bootstrap m-sur-n sont utilisés à la place.