第十一章、高性能计算集群构建(HPC)

1.1.  什么是高性能计算?

单台服务器被视为一个计算节点。

那么什么是计算集群?集群本质上是相互连接在一起的计算机系统的集合,以提供先进而强大的计算解决方案,允许并行处理计算作业,例如深度学习,仿真等。

可以将计算集群分为四个组成部分:

  • 管理节点。
  • 计算节点。
  • 存储节点。
  • 网络交换。

1.2.  管理节点

管理节点(通常称为登录节点或头节点)是集群的主要协调器。这是一个高度可用的系统,提供单个系统即可登录,使用者可以为其项目登录,运行与安排工作。

管理节点如何工作的,很大一部分是基于安装的集群管理软件,如Bright Cluster Management Software或通常简称为“ Bright”。Bright有助于跟踪节点,允许调试/添加新节点,最重要的是,将所有系统捆绑在一起。

管理节点方案示例:

假设从属节点(计算节点)在群集中已打开电源。该从属节点将通过管理网络内的PXE引导引导到管理节点,并且管理节点将通过MAC地址识别计算节点的各自角色。管理节点会将各自保存的启动映像部署或映像回从属节点;然后,下级节点将根据特定的引导映像进行引导,设置软件和网络,并准备好接受传入的作业以在其上运行计算。

1.3.  计算节点

计算节点是“工作者”系统,从本质上说,它们是进行繁重计算的系统。

这些可以分为两种主要类型:

1)CPU计算节点;

2)GPU计算节点。

CPU计算节点通常使用大量的CPU内核,例如英特尔处理器,AMD处理器,高频(快速)计算内核或两者的组合。

GPU计算节点可以配备GPU,FPGA或其他并行加速器,并依赖于这些企业级设备的大规模并行计算能力和内存。

许多科研小组将拥有一个由CPU和GPU计算节点组成的机架,整个集群可以灵活地适应特定的用例。这样,集群可以变得灵活,可以为需要多种硬件的多个用户和多个应用程序提供服务。例如:CPU加速的应用程序可以具有高性能的CPU节点来运行,而GPU加速的应用程序可以具有GPU节点。

1.4.  存储节点

存储是通用的共享存储池,可以容纳结果数据,图像,代码或科研特有的任何其他内容。存储可以是简单的NAS(网络附加存储)安装,也可以是更复杂的高速,高可用性并行存储组件、存储集群。

1.5.  网络节点

集群内的网络通常采用两种形式:

1)管理网络

2)内部网络

管理网络和基础结构通常是群集管理软件中使用的低成本和廉价的千兆网络,以允许系统引导,配置和管理所有管理节点和计算节点的内部管理。

内部联网通常是将管理节点与计算节点互连的联网,并且是在运行作业期间在计算节点和管理节点之间传输数据的主要网络。通常,这可以是10GBase-T(对于群集至少为1GbE)到高速互连和诸如100GbE或OPA之类的结构。对于这种高速网络,通常具有来自外部网络的入口点(或上行链路),因此科研人员和学生可以远程登录集群以运行或安排他们的工作。

第十一章、高性能计算集群构建(HPC)

发表回复

滚动到顶部