西安志诚电子HPC高性能计算解决方案

发表时间:2020-11-12 17:32

1      概述

在当今信息化高速发展的时代,高性能计算(High-Performance Computing, 以下简称HPC)已经成为继理论科学和实验科学之后人类进行各种科学研究的第三大支柱。它致力于开发超级计算机,研究并行算法和开发相关软件。高性能集群主要用于处理复杂的计算问题,应用在需要大规模科学计算的环境中,如天气预报、石油勘探与油藏模拟、分子模拟、基因测序等。

计算机技术的发展为高性能计算应用提供了强有力的基础保障,使人们有可能利用计算科学来取代、优化、深化和扩展理论科学和试验科学的研究,许多HPC应用领域越来越多地希望利用计算机技术发展的新成果通过更大规模、更精确的数值模拟和数字计算来进行新产品设计和科学研究,提高科学研究水平、竞争力以至国家的综合国力。

2          需求分析

计算量和数据量的急剧增加对计算机系统的计算能力、系统带宽、内存容量、存储设备和I/O吞吐能力以及应用软件的开发技术都提出了越来越高的全面要求。这主要表现在如下三个方面:

计算能力:为了在最短的时间内完成最大的计算量,不仅需要处理能力更强的处理器(特别是64位以上高精度浮点计算能力),而且需要利用集群或大规模并行处理(MPP)体系结构等系统技术、支持更多数量处理器的并行计算机系统

储存容量:为了提高性能,往往需要利用超大规模内存(VLM)技术把整个数组放在内存中,这就需要高达几百GB甚至上T的内存容量。内存容量增加显然也要求系统提供更大的磁盘存储容量

系统带宽:数据量的增加促使处理器和内存、内存与磁盘间的信息交换量的急剧增加。为了能够以最快的速度传输信息,要求提供足够的系统带宽,保证内存能够及时向多个处理器提供足够的数据。

3      解决方案

3.1      高性能计算整体架构

根据我们对用户高性能计算平台的需求调研分析,结合实际应用需求、针对每个用户的高性能计算应用的特点,从满足应用需求的角度出发,建立一个高可扩展、易管理的Cluster高性能计算平台环境。主要是基于计算网络、存储网络、管理网络、监控网络的一体化网络建设的高性能计算集群系统:

计算网络:采用Cluster、高速InfiniBand计算网与千兆以太管理网协同工作的架构。计算节点采用刀片服务器。

存储网络:部分数据都存放在FC架构存储系统中,选用低端扩展容量大的磁盘阵列,利用SAN交换机互联,通过存储I/O节点为高性能计算平台提供存储服务,便于维护、管理和备份。

管理网络:通过资源调度管理软件管理整个高性能计算平台。用户通过网络远程访问高性能计算平台,获取高性能计算平台的计算资源进行求解运算。

监控网络:通过基于硬件设备的专业集群管理软件对硬件系统进行集中管理、配置,减轻管理维护人员的工作负担,为运维人员提供高效便捷的管理方式。

硬件部分应包括: 计算节点(集群节点和小型机节点)、管理节点 I/O节点、高速互连系统

软件部分应包括: 操作系统、集群管理软件、作业调度系统、并行文件系统、并行程序开发环境、数学库、并行库、标准应用软件、客户应用软件

3.2      高性能集群硬件平台

3.2.1          集群系统架构图

20201111


采用多个节点的Cluster高性能计算集群(每个计算节点配置最新的多核处理器,64G以上内存),主要运行分布式计算应用,利用MPI现实并行计算,提高应用效率。

采用一台管理节点作为高性能计算平台的管理服务器,可根据应用需求将管理节点增加到两台实现冗余和负载。

采用两台存储节点作为高性能计算平台的存储I/O节点,可以根据应用需求扩展存储I/O节点。

高性能计算集群节点、I/O服务器集群、管理节点均通过带宽Infiniband高速网络互连。计算集群节点通过Infiniband网络连接I/O节点,通过I/O节点的专门并行文件系统访问存储。

I/O节点通过高速FC光纤通道卡连接至磁盘阵列环境中,配置一台磁盘阵列配置合理的可用容量,以满足高性能计算环境对存储性能和空间的巨大需求,I/O节点存储链路完全多路径融合,与磁盘阵列之间无单点故障。

高性能计算平台全部通过管理节点上的高性能计算资源管理平台软件对用户发布使用。管理节点通过1GBase-T千兆以太网连接到办公网络中,用户通过网络采用Web界面使用高性能计算平台资源,基于用户原有使用习惯的图形化交互界面,并最终通过网络可视化的查看计算过程,获得计算结果

3.2.2          集群系统节点的部署

根据功能,我们可以把集群中的节点划分为4种类型:

l   登录节点(Login Node)

l   管理节点(Management Node)

l   存储节点(Storage Node)IO节点)

l   计算节点(Compute Node

虽然由多种类型的节点,但并不是说一台计算机只能是一种类型的节点。一台计算机所扮演的节点类型要由集群的实际需求和计算机的配置决定。在小型集群系统中,用户节点、控制节点、管理节点、存储节点和安装节点往往就是同一台计算机。下面我们分别解释这些类型节点的作用。

3.2.2.1   登录节点(Login Node)

用户节点是外部世界访问集群系统的网关。用户通常登录到这个节点上编译并运行作业。

用户节点是外部访问集群系统强大计算或存储能力的唯一入口,是整个系统的关键点。为了保证用户节点的高可用性,应该采用硬件冗余的容错方法,如采用双机热备份。至少应该采用RAID(Redundant Array of Independent Disks)技术保证用户节点的数据安全性。

3.2.2.2   管理节点(Management Node)

管理节点是集群系统各种管理措施的控制节点。管理网络的控制点,监控集群中各个节点和网络的运行状况。通常的集群的管理软件也运行在这个节点上。

管理节点还包含控制节点,控制节点主要承担两种任务: 为计算节点提供基本的网络服务,如DHCPDNSNFS; 调度计算节点上的作业,通常集群的作业调度程序(PBS)应该运行在这个节点上。

通常控制节点是计算网络中的关键点,如果它失效,所有的计算节点都会失效。所以控制节点也应该有硬件冗余保护。

3.2.2.3   存储节点(Storage Node)

如果集群系统的应用运行需要大量的数据,还需要一个存储节点。顾名思义,存储节点就是集群系统的数据存储器和数据服务器。如果需要存储TB级的数据,一个存储节点是不够的。这时候你需要一个存储网络。通常存储节点需要如下配置:Server RAID保护数据的安全性; 高速网保证足够的数据传输速度。

3.2.2.4   计算节点(Computing Node)

计算节点是整个集群系统的计算核心。它的功能就是执行计算。一般推荐为双路CPU的设备。从性价比角度说,两个CPUSMP优于34CPUSMP机器。

一个计算节点的失效通常不会影响其他节点,所以我们认为计算节点不需要冗余的硬件保护。

对于一些特殊业务不能在集群模式下计算时,可考虑通过多路处理器(SMP)、大内存的服务器设备来执行计算。对于对图形处理性能要求较大时也可以通过增加GPU卡来提供更多的浮点运算性能。

4          方案特点优势

l   先进性

针对用户的应用特点和领域,推荐使用多核的32位或64位处理器,这些处理器采用了直连架构,能够有效消除内存和cpu前端总线的瓶颈,显著提高应用性能。

l   高性能

方案浮点运算峰值达到数万亿次(TFLOPS),存储规模达到TB级别。计算节点间使用 Infiniband高速模块,带宽可达到100GB,延时只有130μs

l   高可用可靠性

每台刀片使用冗余电源,服务器存储和磁盘阵列的存储系统使用数据保护的高raid级别,保证系统的稳定性和数据的稳定性。

l   高应用性

针对用户应用的多样性和复杂性,推荐使用刀片和SMP胖节点混合的集群结构,在保证普通计算密集型的MPI并行程序较高执行效率的同时,对于共享存储的并行程序和高IO的应用,都保证了很好的适用性。

l   完善的服务

可做到长达五年服务的集成商,从系统前期的安装,培训,软件的编译、调优,以及设备到位后的培训,帮客户真正解决后顾之忧。


分享到:

     5x8小时服务

    电话:029-85521188

     传真:029-85521613

     地址:西安市碑林区雁塔路中段88号东新科贸A座二楼

website qrcode

扫描查看手机版网站