集群和网格计算
集群计算将联网机器聚合为单个高性能系统,而网格计算则将跨组织的资源联合起来,形成共享的虚拟基础设施。
用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
Learn & explore
视频即将推出
Definition
集群是相互连接的计算机集合,作为一个单一资源进行管理,用于并行或高吞吐量计算;网格则将其扩展为通过通用协议在虚拟组织之间共享的自主管理、分布式资源的联邦。
Scope
本主题涵盖计算集群的架构和管理——包括互连、批处理调度器和资源管理器——以及网格计算范式,该范式将跨管理域的异构、地理分布式资源联合成虚拟组织。它涵盖了作业调度、资源发现和分配,以及用于参数扫描和高度并行工作负载的高吞吐量计算。
Core questions
- 如何在共享集群中调度作业和分配资源?
- 如何安全地联合和共享不同组织拥有的资源?
- 哪些工作负载最适合高吞吐量计算,而不是紧密耦合的并行计算?
Key theories
- 虚拟组织和网格架构
- 网格概念定义了跨组织边界共享计算、存储和数据资源的协议,以形成虚拟组织,并提供分层服务,用于安全、资源管理和发现。
- 批处理调度和资源管理
- 集群资源管理器根据平衡利用率、公平性和优先级的策略,将作业排队并放置到节点上,这是集群和网格的核心功能。
- 高吞吐量计算
- 对于由许多独立任务组成的工作负载,系统会利用空闲和分布式容量,以在长时间内最大化完成的作业数量,而不是最小化任何单个计算的延迟。
Clinical relevance
集群和网格是科学计算的基础——从物理学和生物信息学到共享数据和计算的大型协作——其调度和资源管理理念直接应用于当今的云和容器编排平台。
History
商品工作站集群在20世纪90年代出现,作为超级计算机的经济高效替代方案;Foster和Kesselman的网格愿景(20世纪90年代末,2001年正式提出)将共享扩展到机构之间,Condor等系统展示了大规模高吞吐量计算,预示了云计算的到来。
Key figures
- Ian Foster
- Carl Kesselman
- Miron Livny
Related topics
Seminal works
- foster2001
- foster2004
- thain2005
Frequently asked questions
- 网格与单个集群有何不同?
- 集群通常是同构的,并由单一管理机构控制,而网格则联合了不同组织拥有的异构资源。因此,网格必须解决单个集群所避免的更困难的跨域安全、信任和资源发现问题。