Rééchantillonnage Jackknife
Le jackknife estime le biais et la variance d'une statistique en la recalculant systématiquement sur les ensembles de données obtenus en omettant une observation à la fois.
Definition
Le jackknife est une méthode de rééchantillonnage qui calcule une statistique sur chaque sous-échantillon formé en supprimant une observation, puis combine ces valeurs obtenues par suppression d'une observation pour estimer le biais et la variance de la statistique.
Scope
Ce sujet couvre le jackknife par suppression d'une observation (leave-one-out), les pseudo-valeurs qu'il génère, les estimations jackknife du biais et de l'erreur standard, la généralisation delete-d, et la relation entre le jackknife et le bootstrap en tant qu'estimateurs par approximation linéaire et par rééchantillonnage complet. Les contextes où le jackknife est peu fiable, tels que les statistiques non lisses, sont également mentionnés.
Core questions
- Comment les recalculs par suppression d'une observation sont-ils transformés en estimations du biais et de l'erreur standard ?
- Que sont les pseudo-valeurs et comment résument-elles l'influence de chaque observation ?
- Comment le jackknife delete-d gère-t-il les statistiques pour lesquelles le jackknife simple échoue ?
- Comment le jackknife est-il lié au bootstrap en tant qu'approximation linéaire ?
Key concepts
- Sous-échantillons par suppression d'une observation
- Pseudo-valeurs
- Estimation jackknife du biais
- Estimation jackknife de la variance
- Jackknife delete-d
Key theories
- Estimation par suppression d'une observation
- Le recalcul d'une statistique en retirant chaque observation produit un ensemble de valeurs perturbées dont la dispersion estime la variance et dont le décalage moyen, mis à l'échelle par la taille de l'échantillon, estime le biais.
- Relation avec le bootstrap
- Le jackknife peut être considéré comme une approximation linéaire du bootstrap, précise pour les statistiques lisses mais échouant pour les statistiques non lisses telles que la médiane, ce qui a motivé la généralisation delete-d.
Clinical relevance
Le jackknife fournit des estimations rapides du biais et de la variance qui ne nécessitent qu'autant de recalculs qu'il y a d'observations, et ses pseudo-valeurs servent également de diagnostics d'influence pour détecter les observations qui affectent de manière disproportionnée une estimation.
History
Quenouille a proposé le recalcul par suppression d'une observation pour la réduction du biais vers 1949, et Tukey l'a étendu dans les années 1950 en un outil général d'estimation de la variance, inventant le nom jackknife ; Efron l'a ensuite intégré dans le cadre plus large du rééchantillonnage aux côtés du bootstrap.
Key figures
- Maurice Quenouille
- John Tukey
- Rupert Miller
- Bradley Efron
Related topics
Seminal works
- efron1979
- miller1974
Frequently asked questions
- En quoi le jackknife diffère-t-il du bootstrap ?
- Le jackknife utilise l'ensemble fixe de sous-échantillons obtenus par suppression d'une observation, tandis que le bootstrap tire de nombreux échantillons aléatoires avec remplacement. Le jackknife est plus rapide et déterministe mais n'est qu'une approximation linéaire, et il peut échouer pour les statistiques non lisses là où le bootstrap fonctionne toujours.
- Pourquoi le jackknife simple peut-il échouer pour la médiane ?
- La médiane change par sauts plutôt que de manière lisse lorsque des points uniques sont supprimés, de sorte que les valeurs obtenues par suppression d'une observation ne capturent pas bien sa variabilité. La suppression de groupes plus importants d'observations, le jackknife delete-d, permet de restaurer une estimation utilisable.