Statistiques non paramétriques
Les statistiques non paramétriques permettent de tirer des inférences sans supposer une forme paramétrique particulière pour la distribution sous-jacente, échangeant ainsi une certaine efficacité contre la robustesse et la flexibilité.
Definition
Les statistiques non paramétriques constituent l'ensemble des méthodes d'estimation et de test qui supposent uniquement des caractéristiques qualitatives générales de la distribution génératrice des données, telles que la continuité ou la régularité, plutôt qu'un modèle paramétrique de dimension finie.
Scope
Ce domaine couvre les tests de rang non paramétriques (ou tests de distribution libre) tels que les tests du signe, de Wilcoxon et de Kruskal-Wallis, la fonction de distribution empirique et sa convergence uniforme, l'estimation non paramétrique de la densité et de la régression par des méthodes à noyau (kernels), des splines et des méthodes locales, le compromis biais-variance et la sélection de la largeur de bande (bandwidth), les taux minimax pour les classes de fonctions lisses, ainsi que les méthodes de rééchantillonnage (resampling) incluant le bootstrap et les tests de permutation qui approximent les distributions d'échantillonnage à partir des données elles-mêmes.
Sub-topics
Core questions
- Comment les tests basés sur les rangs parviennent-ils à être valides sans supposer une distribution spécifique ?
- Comment les densités et les fonctions de régression sont-elles estimées, et comment le lissage est-il contrôlé ?
- Quel est le compromis biais-variance dans le lissage, et comment la largeur de bande (bandwidth) est-elle choisie ?
- Comment les méthodes de bootstrap et de permutation approximent-elles les distributions d'échantillonnage à partir des données ?
Key theories
- Méthodes de rang non paramétriques (distribution-free)
- Le remplacement des valeurs des données par leurs rangs produit des statistiques de test dont la distribution nulle ne dépend pas de la distribution continue sous-jacente, permettant ainsi des tests valides sous des hypothèses minimales.
- Lissage et compromis biais-variance
- Les estimateurs à noyau (kernel) et par splines des densités et des fonctions de régression équilibrent le biais et la variance via une largeur de bande (bandwidth), et la théorie minimax fournit le taux optimal pour une classe de régularité donnée.
- Rééchantillonnage
- Les méthodes de bootstrap et de permutation approximent la distribution d'échantillonnage d'une statistique en rééchantillonnant (resampling) de manière répétée les données observées, fournissant ainsi des erreurs standard, des intervalles de confiance et des tests avec peu d'hypothèses.
Clinical relevance
Les méthodes non paramétriques sont souvent considérées comme indispensables lorsque les données sont ordinales, asymétriques ou contaminées par des valeurs aberrantes (outliers) : les tests de rang sont couramment utilisés dans les études cliniques et écologiques, les lisseurs à noyau (kernel smoothers) et les splines décrivent les courbes dose-réponse et de croissance, et le bootstrap fournit des intervalles de confiance lorsqu'aucune formule analytique n'est disponible.
History
Les tests de rang non paramétriques (distribution-free rank tests) sont apparus avec Wilcoxon en 1945, suivis peu après par les tests de Mann-Whitney et de Kruskal-Wallis. L'estimation de la densité s'est développée grâce aux travaux de Rosenblatt et Parzen dans les années 1950 et 1960, et le bootstrap d'Efron en 1979 a placé le rééchantillonnage (resampling) intensif en calcul au cœur de la discipline.
Key figures
- Frank Wilcoxon
- Bradley Efron
- Emanuel Parzen
- Larry Wasserman
Related topics
Seminal works
- wasserman2006
Frequently asked questions
- Les méthodes non paramétriques sont-elles toujours meilleures parce qu'elles supposent moins d'hypothèses ?
- Non. Supposer moins d'hypothèses apporte de la robustesse mais coûte en efficacité : lorsqu'un modèle paramétrique est correct, les méthodes paramétriques sont généralement plus puissantes. Les méthodes non paramétriques sont donc principalement préférées lorsque le modèle paramétrique est incertain ou mis en doute.
- Non paramétrique signifie-t-il qu'il n'y a aucun paramètre du tout ?
- Non. Cela signifie que le modèle n'est pas décrit par un ensemble fini et fixe de paramètres ; la cible peut être une fonction entière, telle qu'une courbe de densité ou de régression, qui est effectivement de dimension infinie.