Estimación de la Densidad
La estimación de la densidad reconstruye la forma de una distribución a partir de una muestra sin asumir una forma paramétrica, con un parámetro de suavizado que rige el equilibrio entre el detalle y el ruido.
Definition
La estimación de la densidad es el problema no paramétrico de estimar la función de densidad de probabilidad de una variable aleatoria a partir de una muestra, típicamente suavizando los datos empíricos con un núcleo y un ancho de banda.
Scope
Este tema abarca el histograma y su elección del ancho de bin, los estimadores de densidad de núcleo de tipo Parzen-Rosenblatt, la elección del núcleo y el ancho de banda, la descomposición de la varianza del sesgo del error cuadrático medio integrado, la selección del ancho de banda por plug-in y validación cruzada, los efectos de contorno y los anchos de banda adaptativos, la maldición de la dimensionalidad y las tasas de convergencia minimax sobre las clases de suavidad.
Core questions
- ¿Cómo suaviza los datos un estimador de densidad de núcleo y qué papel juega el ancho de banda?
- ¿Cómo determina el equilibrio entre sesgo y varianza la cantidad óptima de suavizado?
- ¿Cómo se elige el ancho de banda en la práctica mediante validación cruzada o reglas de plug-in?
- ¿Por qué la estimación de la densidad se vuelve difícil en altas dimensiones?
Key theories
- Estimación de la densidad de núcleo
- Colocar un núcleo suave en cada punto de datos y promediar produce una estimación suave de la densidad; el ancho de banda controla el ancho de los núcleos y, por lo tanto, la suavidad de la estimación.
- Equilibrio sesgo-varianza y tasas minimax
- Un ancho de banda pequeño produce un sesgo bajo pero una varianza alta, y un ancho de banda grande lo contrario; el ancho de banda óptimo los equilibra, y el riesgo resultante disminuye a la tasa minimax establecida por la suavidad de la densidad.
Clinical relevance
Las estimaciones de densidad de núcleo subyacen a los gráficos de distribución suaves utilizados para explorar datos, la construcción de clasificadores no paramétricos y modelos bayesianos ingenuos, la estimación de riesgo e intensidad en el análisis de supervivencia, y la visualización de patrones de puntos espaciales en epidemiología y ecología.
History
Rosenblatt introdujo el estimador de densidad de núcleo en 1956 y Parzen desarrolló su teoría en 1962. La monografía de Silverman de 1986 hizo que los métodos, incluida la selección práctica del ancho de banda, fueran ampliamente accesibles, y el análisis minimax agudizó la teoría de la optimización a partir de entonces.
Key figures
- Murray Rosenblatt
- Emanuel Parzen
- Bernard Silverman
- Larry Wasserman
Related topics
Seminal works
- wasserman2006
Frequently asked questions
- ¿Por qué el ancho de banda importa más que el núcleo?
- La elección de la forma del núcleo tiene poco efecto en la precisión, pero el ancho de banda controla directamente el equilibrio entre sesgo y varianza: si es demasiado pequeño, la estimación es irregular y ruidosa; si es demasiado grande, las características reales se suavizan.
- ¿Qué es la maldición de la dimensionalidad en la estimación de la densidad?
- A medida que aumenta el número de variables, los datos se vuelven dispersos y la cantidad necesaria para una precisión dada crece explosivamente, por lo que la estimación de densidad no paramétrica es confiable solo en dimensiones bajas sin una estructura adicional.