¿Qué hace que algunas tareas estadísticas sean fáciles de paralelizar?

Tareas como las muestras bootstrap, los pliegues de validación cruzada o las ejecuciones de simulación independientes no dependen unas de otras, por lo que pueden calcularse simultáneamente y combinarse al final. Este trabajo inherentemente paralelo escala casi linealmente con los procesadores.

¿Por qué añadir procesadores no siempre acelera las cosas proporcionalmente?

La computación paralela incurre en una sobrecarga por la comunicación y sincronización entre procesadores y por el movimiento de datos. Cuando estos costos aumentan en relación con la computación, los procesadores adicionales producen rendimientos decrecientes.

Computación Estadística de Alto Rendimiento

La computación estadística de alto rendimiento aplica el paralelismo, el procesamiento distribuido y la aceleración de hardware para ejecutar métodos estadísticos en datos y modelos demasiado grandes para una única computación ordinaria.

Encontrar tema con PaperMindPróximamenteFind papers & topics

Tools & resources

Descargar diapositivas

Learn & explore

VídeoPróximamente

Definition

La computación estadística de alto rendimiento es el uso de técnicas de computación paralela, distribuida y acelerada para ejecutar algoritmos estadísticos de manera eficiente en grandes conjuntos de datos y modelos computacionalmente exigentes.

Scope

Este tema abarca las estrategias paralelas y distribuidas para cargas de trabajo estadísticas, la estructura inherentemente paralela de muchas tareas de simulación y remuestreo, los modelos de procesamiento de datos distribuidos, el uso de GPU y álgebra lineal vectorizada, y las compensaciones entre comunicación, memoria y computación. El enfoque se centra en escalar la computación estadística más que en el diseño de algoritmos.

Core questions

¿Qué cálculos estadísticos son naturalmente paralelos y cómo se distribuyen?
¿Cómo escalan los modelos de procesamiento de datos distribuidos el análisis a través de muchas máquinas?
¿Cómo aceleran las GPU y el álgebra lineal optimizada las cargas de trabajo estadísticas?
¿Cómo limitan los costos de comunicación y memoria las aceleraciones paralelas?

Key concepts

Tareas inherentemente paralelas
Procesamiento de datos distribuido
Aceleración por GPU
Costo de comunicación
Escalabilidad
Álgebra lineal vectorizada

Key theories

Cargas de trabajo estadísticas paralelas y distribuidas: Muchas tareas estadísticas, como el remuestreo bootstrap, la validación cruzada y las ejecuciones independientes de Monte Carlo, son inherentemente paralelas, mientras que los modelos de procesamiento distribuido dividen grandes datos entre máquinas y combinan resultados parciales.
Aceleración de hardware: El álgebra lineal vectorizada y acelerada por GPU acelera el núcleo intensivo en matrices de la computación estadística, pero las ganancias obtenidas dependen de la gestión del movimiento de datos y del equilibrio entre comunicación y computación.

Clinical relevance

La computación escalable hace factible ajustar modelos a conjuntos masivos de datos genómicos, de sensores y transaccionales, ejecutar grandes estudios de simulación y ofrecer inferencia bayesiana y de aprendizaje automático en un tiempo práctico, extendiendo el alcance de los métodos estadísticos a problemas que de otro modo serían intratables.

History

A medida que los conjuntos de datos superaron la capacidad de las máquinas individuales, los estadísticos adoptaron la computación paralela y distribuida: la simulación inherentemente paralela surgió primero, los marcos distribuidos como MapReduce y sus sucesores permitieron el procesamiento de datos a gran escala, y la aceleración por GPU aportó mejoras de velocidad a los métodos estadísticos intensivos en matrices.

Key figures

James Gentle
Kenneth Lange
Jeffrey Dean
Sanjay Ghemawat

Seminal works

gentle2009
dean2008

Frequently asked questions

¿Qué hace que algunas tareas estadísticas sean fáciles de paralelizar?: Tareas como las muestras bootstrap, los pliegues de validación cruzada o las ejecuciones de simulación independientes no dependen unas de otras, por lo que pueden calcularse simultáneamente y combinarse al final. Este trabajo inherentemente paralelo escala casi linealmente con los procesadores.
¿Por qué añadir procesadores no siempre acelera las cosas proporcionalmente?: La computación paralela incurre en una sobrecarga por la comunicación y sincronización entre procesadores y por el movimiento de datos. Cuando estos costos aumentan en relación con la computación, los procesadores adicionales producen rendimientos decrecientes.