Bootstrap et rééchantillonnage
Le bootstrap estime la distribution d'échantillonnage d'une statistique en rééchantillonnant les données observées, remplaçant les formules intraitables par le calcul.
Definition
Le bootstrap est une méthode de rééchantillonnage qui approxime la distribution d'échantillonnage d'une statistique en traitant l'échantillon observé comme la population et en tirant de manière répétée des échantillons de celui-ci, généralement avec remise, afin d'estimer les erreurs standard, les intervalles de confiance et le biais.
Scope
Ce sujet aborde le bootstrap non paramétrique par rééchantillonnage avec remise, le bootstrap paramétrique, le jackknife et ses estimations du biais et de la variance, les tests de permutation, les erreurs standard du bootstrap et les intervalles de confiance par centiles, corrigés du biais et bootstrap-t, la consistance du bootstrap et sa précision d'ordre supérieur via les développements d'Edgeworth, ainsi que des cas bien connus tels que le maximum de l'échantillon où le bootstrap ordinaire échoue.
Core questions
- Comment le rééchantillonnage des données approxime-t-il la distribution d'échantillonnage d'une statistique ?
- Comment les intervalles de confiance bootstrap sont-ils construits, et en quoi les intervalles par centiles et bootstrap-t diffèrent-ils ?
- Quand le bootstrap est-il consistant, et quand échoue-t-il ?
- Comment un test de permutation utilise-t-il le rééchantillonnage pour obtenir un test exact sans distribution ?
Key theories
- Le principe du bootstrap
- L'approximation de la population inconnue par la distribution empirique et le rééchantillonnage à partir de celle-ci permettent d'estimer par simulation la variabilité d'échantillonnage de presque toute statistique, même lorsqu'aucune distribution de forme fermée n'existe.
- Consistance et précision du bootstrap
- Pour les statistiques lisses, le bootstrap est consistant et, grâce aux développements d'Edgeworth, certains intervalles bootstrap sont plus précis que l'approximation normale ; pour les fonctionnelles non lisses telles que le maximum, il peut échouer.
Clinical relevance
Le bootstrap fournit des erreurs standard et des intervalles de confiance pour des estimateurs complexes, tels que les médianes, les corrélations et les prédictions d'apprentissage automatique, là où les formules analytiques ne sont pas disponibles. Les tests de permutation, quant à eux, offrent des évaluations exactes de la signification, largement utilisées en génomique et dans les expériences randomisées.
History
Quenouille et Tukey ont développé le jackknife dans les années 1950. Efron a introduit le bootstrap en 1979, unifiant et étendant ces idées de rééchantillonnage, et les travaux de Hall dans les années 1980 et 1990 ont établi sa précision d'ordre supérieur grâce aux développements d'Edgeworth.
Key figures
- Bradley Efron
- Robert Tibshirani
- Peter Hall
- Maurice Quenouille
Related topics
Seminal works
- efron1979
Frequently asked questions
- Le bootstrap crée-t-il de nouvelles informations à partir de rien ?
- Non. Il réutilise les informations déjà présentes dans l'échantillon pour approximer la variabilité d'échantillonnage ; il ne peut pas améliorer un échantillon de mauvaise qualité ou biaisé, et sa précision dépend de la bonne représentativité de la population par l'échantillon original.
- Quand le bootstrap échoue-t-il ?
- Il peut échouer pour les statistiques qui dépendent de manière non lisse de la distribution, telles que le maximum de l'échantillon ou les paramètres sur une frontière ; dans de tels cas, des schémas modifiés comme le sous-échantillonnage (subsampling) ou le bootstrap m-sur-n sont utilisés à la place.