Les méthodes non paramétriques sont-elles toujours meilleures parce qu'elles supposent moins d'hypothèses ?

Non. Supposer moins d'hypothèses apporte de la robustesse mais coûte en efficacité : lorsqu'un modèle paramétrique est correct, les méthodes paramétriques sont généralement plus puissantes. Les méthodes non paramétriques sont donc principalement préférées lorsque le modèle paramétrique est incertain ou mis en doute.

Non paramétrique signifie-t-il qu'il n'y a aucun paramètre du tout ?

Non. Cela signifie que le modèle n'est pas décrit par un ensemble fini et fixe de paramètres ; la cible peut être une fonction entière, telle qu'une courbe de densité ou de régression, qui est effectivement de dimension infinie.

Statistiques non paramétriques

Les statistiques non paramétriques permettent de tirer des inférences sans supposer une forme paramétrique particulière pour la distribution sous-jacente, échangeant ainsi une certaine efficacité contre la robustesse et la flexibilité.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

Les statistiques non paramétriques constituent l'ensemble des méthodes d'estimation et de test qui supposent uniquement des caractéristiques qualitatives générales de la distribution génératrice des données, telles que la continuité ou la régularité, plutôt qu'un modèle paramétrique de dimension finie.

Scope

Ce domaine couvre les tests de rang non paramétriques (ou tests de distribution libre) tels que les tests du signe, de Wilcoxon et de Kruskal-Wallis, la fonction de distribution empirique et sa convergence uniforme, l'estimation non paramétrique de la densité et de la régression par des méthodes à noyau (kernels), des splines et des méthodes locales, le compromis biais-variance et la sélection de la largeur de bande (bandwidth), les taux minimax pour les classes de fonctions lisses, ainsi que les méthodes de rééchantillonnage (resampling) incluant le bootstrap et les tests de permutation qui approximent les distributions d'échantillonnage à partir des données elles-mêmes.

Sub-topics

Core questions

Comment les tests basés sur les rangs parviennent-ils à être valides sans supposer une distribution spécifique ?
Comment les densités et les fonctions de régression sont-elles estimées, et comment le lissage est-il contrôlé ?
Quel est le compromis biais-variance dans le lissage, et comment la largeur de bande (bandwidth) est-elle choisie ?
Comment les méthodes de bootstrap et de permutation approximent-elles les distributions d'échantillonnage à partir des données ?

Key theories

Méthodes de rang non paramétriques (distribution-free): Le remplacement des valeurs des données par leurs rangs produit des statistiques de test dont la distribution nulle ne dépend pas de la distribution continue sous-jacente, permettant ainsi des tests valides sous des hypothèses minimales.
Lissage et compromis biais-variance: Les estimateurs à noyau (kernel) et par splines des densités et des fonctions de régression équilibrent le biais et la variance via une largeur de bande (bandwidth), et la théorie minimax fournit le taux optimal pour une classe de régularité donnée.
Rééchantillonnage: Les méthodes de bootstrap et de permutation approximent la distribution d'échantillonnage d'une statistique en rééchantillonnant (resampling) de manière répétée les données observées, fournissant ainsi des erreurs standard, des intervalles de confiance et des tests avec peu d'hypothèses.

Clinical relevance

Les méthodes non paramétriques sont souvent considérées comme indispensables lorsque les données sont ordinales, asymétriques ou contaminées par des valeurs aberrantes (outliers) : les tests de rang sont couramment utilisés dans les études cliniques et écologiques, les lisseurs à noyau (kernel smoothers) et les splines décrivent les courbes dose-réponse et de croissance, et le bootstrap fournit des intervalles de confiance lorsqu'aucune formule analytique n'est disponible.

History

Les tests de rang non paramétriques (distribution-free rank tests) sont apparus avec Wilcoxon en 1945, suivis peu après par les tests de Mann-Whitney et de Kruskal-Wallis. L'estimation de la densité s'est développée grâce aux travaux de Rosenblatt et Parzen dans les années 1950 et 1960, et le bootstrap d'Efron en 1979 a placé le rééchantillonnage (resampling) intensif en calcul au cœur de la discipline.

Key figures

Frank Wilcoxon
Bradley Efron
Emanuel Parzen
Larry Wasserman

Seminal works

wasserman2006

Frequently asked questions

Les méthodes non paramétriques sont-elles toujours meilleures parce qu'elles supposent moins d'hypothèses ?: Non. Supposer moins d'hypothèses apporte de la robustesse mais coûte en efficacité : lorsqu'un modèle paramétrique est correct, les méthodes paramétriques sont généralement plus puissantes. Les méthodes non paramétriques sont donc principalement préférées lorsque le modèle paramétrique est incertain ou mis en doute.
Non paramétrique signifie-t-il qu'il n'y a aucun paramètre du tout ?: Non. Cela signifie que le modèle n'est pas décrit par un ensemble fini et fixe de paramètres ; la cible peut être une fonction entière, telle qu'une courbe de densité ou de régression, qui est effectivement de dimension infinie.