¿Por qué muestrear con reemplazo?

El muestreo con reemplazo permite que cada remuestra difiera de la original manteniendo el mismo tamaño, imitando la variabilidad de extraer nuevas muestras de la población. Sin reemplazo, cada remuestra sería simplemente los datos originales reordenados.

¿Cuántas remuestras bootstrap se necesitan?

Unos pocos cientos son suficientes para los errores estándar, pero los intervalos de confianza basados en cuantiles de cola suelen necesitar un par de miles o más para que los cuantiles extremos se estimen de forma estable.

Métodos Bootstrap

El método bootstrap estima la distribución muestral de un estadístico extrayendo repetidamente muestras con reemplazo de los datos observados y recalculando el estadístico en cada remuestra.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

El bootstrap es un método de remuestreo que aproxima la distribución muestral de un estimador mediante la distribución del estimador recalculado sobre muchas muestras extraídas con reemplazo de la distribución empírica de los datos.

Scope

Este tema abarca el bootstrap no paramétrico y el principio plug-in, las variantes paramétricas y suavizadas, la construcción de intervalos de confianza (percentil, básico, corregido por sesgo y acelerado, y bootstrap-t), los errores estándar y las estimaciones de sesgo bootstrap, y las adaptaciones para regresión y datos dependientes, como el bootstrap de bloques. Se enfatizan las limitaciones y las condiciones de consistencia.

Core questions

¿Cómo la extracción de muestras con reemplazo de los datos aproxima la verdadera distribución muestral?
¿Cómo se calculan los errores estándar y las estimaciones de sesgo bootstrap?
¿Qué distingue los intervalos de confianza de percentil, bootstrap-t y corregidos por sesgo y acelerados?
¿Cuándo es consistente el bootstrap y cómo se adapta a la regresión y a los datos dependientes?

Key concepts

Muestreo con reemplazo
Distribución empírica
Error estándar bootstrap
Intervalo de percentil
Intervalo corregido por sesgo y acelerado
Bootstrap de bloques

Key theories

Remuestreo plug-in: Reemplazar la distribución de la población por la distribución empírica y remuestrear a partir de ella produce una aproximación de Monte Carlo a la distribución muestral de un estadístico, de la cual se derivan los errores estándar y los sesgos.
Intervalos de confianza bootstrap: Los cuantiles de la distribución bootstrap proporcionan intervalos de percentil; refinamientos como los intervalos corregidos por sesgo y acelerados y bootstrap-t mejoran la cobertura al corregir el sesgo y la asimetría en la distribución del estimador.

Clinical relevance

El bootstrap proporciona errores estándar e intervalos de confianza para estimadores sin varianza de forma cerrada, como medianas, coeficientes de correlación y resultados de modelos complejos, y se utiliza habitualmente para cuantificar la incertidumbre en bioestadística, econometría y aprendizaje automático.

History

Efron introdujo el bootstrap en 1979 como una generalización del jackknife; trabajos posteriores desarrollaron intervalos de confianza refinados, establecieron la teoría de la consistencia y produjeron variantes para regresión, series temporales y otros entornos de datos dependientes.

Debates

Cuando el bootstrap falla: El bootstrap no paramétrico ordinario puede ser inconsistente para estadísticos gobernados por valores extremos, para parámetros en el límite del espacio y bajo una fuerte dependencia, lo que impulsa correcciones como el bootstrap m-de-n y el submuestreo.

Key figures

Bradley Efron
Robert Tibshirani
Anthony Davison
David Hinkley

Seminal works

efron1979
efron1993

Frequently asked questions

¿Por qué muestrear con reemplazo?: El muestreo con reemplazo permite que cada remuestra difiera de la original manteniendo el mismo tamaño, imitando la variabilidad de extraer nuevas muestras de la población. Sin reemplazo, cada remuestra sería simplemente los datos originales reordenados.
¿Cuántas remuestras bootstrap se necesitan?: Unos pocos cientos son suficientes para los errores estándar, pero los intervalos de confianza basados en cuantiles de cola suelen necesitar un par de miles o más para que los cuantiles extremos se estimen de forma estable.