Computación Estadística de Alto Rendimiento
La computación estadística de alto rendimiento aplica el paralelismo, el procesamiento distribuido y la aceleración de hardware para ejecutar métodos estadísticos en datos y modelos demasiado grandes para una única computación ordinaria.
Definition
La computación estadística de alto rendimiento es el uso de técnicas de computación paralela, distribuida y acelerada para ejecutar algoritmos estadísticos de manera eficiente en grandes conjuntos de datos y modelos computacionalmente exigentes.
Scope
Este tema abarca las estrategias paralelas y distribuidas para cargas de trabajo estadísticas, la estructura inherentemente paralela de muchas tareas de simulación y remuestreo, los modelos de procesamiento de datos distribuidos, el uso de GPU y álgebra lineal vectorizada, y las compensaciones entre comunicación, memoria y computación. El enfoque se centra en escalar la computación estadística más que en el diseño de algoritmos.
Core questions
- ¿Qué cálculos estadísticos son naturalmente paralelos y cómo se distribuyen?
- ¿Cómo escalan los modelos de procesamiento de datos distribuidos el análisis a través de muchas máquinas?
- ¿Cómo aceleran las GPU y el álgebra lineal optimizada las cargas de trabajo estadísticas?
- ¿Cómo limitan los costos de comunicación y memoria las aceleraciones paralelas?
Key concepts
- Tareas inherentemente paralelas
- Procesamiento de datos distribuido
- Aceleración por GPU
- Costo de comunicación
- Escalabilidad
- Álgebra lineal vectorizada
Key theories
- Cargas de trabajo estadísticas paralelas y distribuidas
- Muchas tareas estadísticas, como el remuestreo bootstrap, la validación cruzada y las ejecuciones independientes de Monte Carlo, son inherentemente paralelas, mientras que los modelos de procesamiento distribuido dividen grandes datos entre máquinas y combinan resultados parciales.
- Aceleración de hardware
- El álgebra lineal vectorizada y acelerada por GPU acelera el núcleo intensivo en matrices de la computación estadística, pero las ganancias obtenidas dependen de la gestión del movimiento de datos y del equilibrio entre comunicación y computación.
Clinical relevance
La computación escalable hace factible ajustar modelos a conjuntos masivos de datos genómicos, de sensores y transaccionales, ejecutar grandes estudios de simulación y ofrecer inferencia bayesiana y de aprendizaje automático en un tiempo práctico, extendiendo el alcance de los métodos estadísticos a problemas que de otro modo serían intratables.
History
A medida que los conjuntos de datos superaron la capacidad de las máquinas individuales, los estadísticos adoptaron la computación paralela y distribuida: la simulación inherentemente paralela surgió primero, los marcos distribuidos como MapReduce y sus sucesores permitieron el procesamiento de datos a gran escala, y la aceleración por GPU aportó mejoras de velocidad a los métodos estadísticos intensivos en matrices.
Key figures
- James Gentle
- Kenneth Lange
- Jeffrey Dean
- Sanjay Ghemawat
Related topics
Seminal works
- gentle2009
- dean2008
Frequently asked questions
- ¿Qué hace que algunas tareas estadísticas sean fáciles de paralelizar?
- Tareas como las muestras bootstrap, los pliegues de validación cruzada o las ejecuciones de simulación independientes no dependen unas de otras, por lo que pueden calcularse simultáneamente y combinarse al final. Este trabajo inherentemente paralelo escala casi linealmente con los procesadores.
- ¿Por qué añadir procesadores no siempre acelera las cosas proporcionalmente?
- La computación paralela incurre en una sobrecarga por la comunicación y sincronización entre procesadores y por el movimiento de datos. Cuando estos costos aumentan en relación con la computación, los procesadores adicionales producen rendimientos decrecientes.