ScholarGate
助手

集群和网格计算

集群计算将联网机器聚合为单个高性能系统,而网格计算则将跨组织的资源联合起来,形成共享的虚拟基础设施。

用 PaperMind 寻找选题即将推出Find papers & topics
Tools & resources
下载幻灯片
Learn & explore
视频即将推出

Definition

集群是相互连接的计算机集合,作为一个单一资源进行管理,用于并行或高吞吐量计算;网格则将其扩展为通过通用协议在虚拟组织之间共享的自主管理、分布式资源的联邦。

Scope

本主题涵盖计算集群的架构和管理——包括互连、批处理调度器和资源管理器——以及网格计算范式,该范式将跨管理域的异构、地理分布式资源联合成虚拟组织。它涵盖了作业调度、资源发现和分配,以及用于参数扫描和高度并行工作负载的高吞吐量计算。

Core questions

  • 如何在共享集群中调度作业和分配资源?
  • 如何安全地联合和共享不同组织拥有的资源?
  • 哪些工作负载最适合高吞吐量计算,而不是紧密耦合的并行计算?

Key theories

虚拟组织和网格架构
网格概念定义了跨组织边界共享计算、存储和数据资源的协议,以形成虚拟组织,并提供分层服务,用于安全、资源管理和发现。
批处理调度和资源管理
集群资源管理器根据平衡利用率、公平性和优先级的策略,将作业排队并放置到节点上,这是集群和网格的核心功能。
高吞吐量计算
对于由许多独立任务组成的工作负载,系统会利用空闲和分布式容量,以在长时间内最大化完成的作业数量,而不是最小化任何单个计算的延迟。

Clinical relevance

集群和网格是科学计算的基础——从物理学和生物信息学到共享数据和计算的大型协作——其调度和资源管理理念直接应用于当今的云和容器编排平台。

History

商品工作站集群在20世纪90年代出现,作为超级计算机的经济高效替代方案;Foster和Kesselman的网格愿景(20世纪90年代末,2001年正式提出)将共享扩展到机构之间,Condor等系统展示了大规模高吞吐量计算,预示了云计算的到来。

Key figures

  • Ian Foster
  • Carl Kesselman
  • Miron Livny

Related topics

Seminal works

  • foster2001
  • foster2004
  • thain2005

Frequently asked questions

网格与单个集群有何不同?
集群通常是同构的,并由单一管理机构控制,而网格则联合了不同组织拥有的异构资源。因此,网格必须解决单个集群所避免的更困难的跨域安全、信任和资源发现问题。

Methods for this concept

Related concepts