高性能统计计算
高性能统计计算应用并行处理、分布式处理和硬件加速,以在数据和模型过大而无法通过单个普通计算运行时执行统计方法。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
高性能统计计算是利用并行、分布式和加速计算技术,高效地在大数据集和计算密集型模型上执行统计算法。
Scope
本主题涵盖统计工作负载的并行和分布式策略、许多模拟和重采样任务的“易并行”结构、分布式数据处理模型、GPU和向量化线性代数的使用,以及通信、内存和计算之间的权衡。重点在于扩展统计计算而非算法设计。
Core questions
- 哪些统计计算是天然并行的,它们是如何分布的?
- 分布式数据处理模型如何跨多台机器扩展分析?
- GPU和优化的线性代数如何加速统计工作负载?
- 通信和内存成本如何限制并行加速?
Key concepts
- 易并行任务
- 分布式数据处理
- GPU加速
- 通信成本
- 可扩展性
- 向量化线性代数
Key theories
- 并行和分布式统计工作负载
- 许多统计任务,如自助法重采样、交叉验证和独立的蒙特卡洛运行,都是易并行的,而分布式处理模型则将大数据分割到多台机器上并组合部分结果。
- 硬件加速
- 向量化和GPU加速的线性代数加快了统计计算中矩阵密集型核心的速度,但实际增益取决于数据移动的管理以及通信和计算之间的平衡。
Clinical relevance
可扩展计算使得对海量基因组、传感器和事务数据进行模型拟合、运行大型模拟研究以及在实际时间内提供贝叶斯和机器学习推断成为可能,从而将统计方法的应用范围扩展到原本难以处理的问题。
History
随着数据集超出单机处理能力,统计学家开始采用并行和分布式计算:易并行模拟首先出现,MapReduce及其后续版本等分布式框架实现了大规模数据处理,而GPU加速则为矩阵密集型统计方法带来了速度提升。
Key figures
- James Gentle
- Kenneth Lange
- Jeffrey Dean
- Sanjay Ghemawat
Related topics
Seminal works
- gentle2009
- dean2008
Frequently asked questions
- 为什么有些统计任务易于并行化?
- 诸如自助法重采样、交叉验证折叠或独立模拟运行等任务彼此不依赖,因此可以同时计算并在最后合并。这种易并行工作几乎与处理器数量呈线性关系地扩展。
- 为什么增加处理器并不总是能按比例加速?
- 并行计算会产生处理器之间通信和同步以及数据移动的开销。当这些成本相对于计算量增加时,额外的处理器会带来收益递减。