Pourquoi la largeur de bande est-elle plus importante que le noyau ?

Le choix de la forme du noyau a peu d'effet sur la précision, mais la largeur de bande contrôle directement le compromis biais-variance : trop petite, l'estimation est irrégulière et bruitée ; trop grande, les caractéristiques réelles sont lissées et disparaissent.

Qu'est-ce que le fléau de la dimensionnalité en estimation de densité ?

À mesure que le nombre de variables augmente, les données deviennent éparses et la quantité nécessaire pour une précision donnée croît de manière explosive ; par conséquent, l'estimation de densité non paramétrique n'est fiable qu'en faible dimensionnalité sans structure supplémentaire.

Estimation de la densité

L'estimation de la densité reconstitue la forme d'une distribution à partir d'un échantillon sans supposer de forme paramétrique, un paramètre de lissage régissant le compromis entre le détail et le bruit.

Trouver un sujet avec PaperMindBientôtFind papers & topics

Tools & resources

Télécharger les diapositives

Learn & explore

VidéoBientôt

Definition

L'estimation de la densité est le problème non paramétrique consistant à estimer la fonction de densité de probabilité d'une variable aléatoire à partir d'un échantillon, généralement en lissant les données empiriques à l'aide d'un noyau et d'une largeur de bande.

Scope

Ce sujet aborde l'histogramme et le choix de sa largeur de classe, les estimateurs de densité à noyau de type Parzen-Rosenblatt, le choix du noyau et de la largeur de bande, la décomposition biais-variance de l'erreur quadratique moyenne intégrée, la sélection de la largeur de bande par méthodes plug-in et de validation croisée, les effets de bord et les largeurs de bande adaptatives, le fléau de la dimensionnalité, et les taux de convergence minimax sur les classes de régularité.

Core questions

Comment un estimateur de densité à noyau lisse-t-il les données, et quel rôle joue la largeur de bande ?
Comment le compromis biais-variance détermine-t-il la quantité optimale de lissage ?
Comment la largeur de bande est-elle choisie en pratique par validation croisée ou par des règles plug-in ?
Pourquoi l'estimation de la densité devient-elle difficile en grande dimensionnalité ?

Key theories

Estimation de densité à noyau: Placer un noyau lisse à chaque point de données et en faire la moyenne fournit une estimation lisse de la densité ; la largeur de bande contrôle la largeur des noyaux et donc la régularité de l'estimation.
Compromis biais-variance et taux minimax: Une petite largeur de bande entraîne un faible biais mais une variance élevée, et une grande largeur de bande l'inverse ; la largeur de bande optimale les équilibre, et le risque résultant diminue au taux minimax défini par la régularité de la densité.

Clinical relevance

Les estimations de densité à noyau sont à la base des tracés de distribution lissés utilisés pour explorer les données, de la construction de classifieurs non paramétriques et de modèles bayésiens naïfs, de l'estimation du taux de risque (hazard) et de l'intensité en analyse de survie, et de la visualisation des motifs de points spatiaux en épidémiologie et en écologie.

History

Rosenblatt a introduit l'estimateur de densité à noyau en 1956 et Parzen en a développé la théorie en 1962. La monographie de Silverman de 1986 a rendu ces méthodes, y compris la sélection pratique de la largeur de bande, largement accessibles, et l'analyse minimax a ensuite affiné la théorie de l'optimalité.

Key figures

Murray Rosenblatt
Emanuel Parzen
Bernard Silverman
Larry Wasserman

Seminal works

wasserman2006

Frequently asked questions

Pourquoi la largeur de bande est-elle plus importante que le noyau ?: Le choix de la forme du noyau a peu d'effet sur la précision, mais la largeur de bande contrôle directement le compromis biais-variance : trop petite, l'estimation est irrégulière et bruitée ; trop grande, les caractéristiques réelles sont lissées et disparaissent.
Qu'est-ce que le fléau de la dimensionnalité en estimation de densité ?: À mesure que le nombre de variables augmente, les données deviennent éparses et la quantité nécessaire pour une précision donnée croît de manière explosive ; par conséquent, l'estimation de densité non paramétrique n'est fiable qu'en faible dimensionnalité sans structure supplémentaire.