Estadística no paramétrica
La estadística no paramétrica infiere sin asumir una forma paramétrica particular para la distribución subyacente, sacrificando cierta eficiencia por robustez y flexibilidad.
Definition
La estadística no paramétrica es el conjunto de métodos de estimación y prueba que asumen solo características cualitativas amplias de la distribución generadora de datos, como la continuidad o la suavidad, en lugar de un modelo paramétrico de dimensión finita.
Scope
Esta área abarca pruebas de rango de distribución libre como las pruebas de signo, Wilcoxon y Kruskal-Wallis, la función de distribución empírica y su convergencia uniforme, la estimación no paramétrica de densidad y regresión mediante núcleos, splines y métodos locales, la compensación entre sesgo y varianza y la selección del ancho de banda, las tasas minimax para clases de funciones suaves y los métodos de remuestreo, incluidos el bootstrap y las pruebas de permutación que aproximan las distribuciones de muestreo a partir de los propios datos.
Sub-topics
Core questions
- ¿Cómo logran las pruebas basadas en rangos validez sin asumir una distribución específica?
- ¿Cómo se estiman las densidades y las funciones de regresión, y cómo se controla el suavizado?
- ¿Cuál es la compensación entre sesgo y varianza en el suavizado, y cómo se elige el ancho de banda?
- ¿Cómo aproximan el bootstrap y los métodos de permutación las distribuciones de muestreo a partir de los datos?
Key theories
- Métodos de rango de distribución libre
- Reemplazar los valores de los datos por sus rangos produce estadísticas de prueba cuya distribución nula no depende de la distribución continua subyacente, lo que proporciona pruebas válidas bajo suposiciones mínimas.
- Suavizado y la compensación entre sesgo y varianza
- Los estimadores de núcleo y spline de densidades y funciones de regresión equilibran el sesgo con la varianza a través de un ancho de banda, y la teoría minimax proporciona la tasa óptima para una clase de suavidad dada.
- Remuestreo
- Los métodos de bootstrap y permutación aproximan la distribución de muestreo de una estadística remuestreando repetidamente los datos observados, proporcionando errores estándar, intervalos de confianza y pruebas con pocas suposiciones.
Clinical relevance
Los métodos no paramétricos son indispensables cuando los datos son ordinales, asimétricos o están contaminados por valores atípicos: las pruebas de rango son estándar en estudios clínicos y ecológicos, los suavizadores de núcleo y spline describen curvas de dosis-respuesta y crecimiento, y el bootstrap proporciona intervalos de confianza cuando no existe una fórmula.
History
Las pruebas de rango de distribución libre surgieron con Wilcoxon en 1945 y las pruebas de Mann-Whitney y Kruskal-Wallis poco después. La estimación de densidad se desarrolló a través de Rosenblatt y Parzen en las décadas de 1950 y 1960, y el bootstrap de Efron de 1979 llevó el remuestreo intensivo en computadora al centro del tema.
Key figures
- Frank Wilcoxon
- Bradley Efron
- Emanuel Parzen
- Larry Wasserman
Related topics
Seminal works
- wasserman2006
Frequently asked questions
- ¿Son los métodos no paramétricos siempre mejores porque asumen menos?
- No. Asumir menos aporta robustez pero cuesta eficiencia: cuando un modelo paramétrico es correcto, los métodos paramétricos son más potentes, por lo que los métodos no paramétricos se prefieren principalmente cuando el modelo está en duda.
- ¿Significa no paramétrico que no hay parámetros en absoluto?
- No. Significa que el modelo no se describe mediante un conjunto fijo y finito de parámetros; el objetivo puede ser una función completa, como una curva de densidad o de regresión, que es efectivamente de dimensión infinita.