时间:2023-05-30 10:16:11
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇高性能计算,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
现代高性能计算机的研制需要投入巨大的人力、物力和时间,对于千万亿次级别的系统,处理器个数将超过10万个,研发费用将达到数亿元人民币,正确的系统设计决策显得尤为重要。由于高性能计算系统研制的主要动力来自用户需求,因此高性能计算机的研制决策必须以是否满足用户需求为最重要的标准,在系统设计时就需要深入分析目标应用特点,以用户需求驱动高性能计算机系统的研制。
用户需求驱动计算机的研制
以目前在TOP500上排名第一的IBM BlueGene/L系统为例。该系统在设计之初就定位于解决大规模分子动力学问题,系统在设计时采用了高并行度、低主频策略。目前的BlueGene/L系统的处理器个数达到13万多个,处理器主频仅为700Mhz。由于分子动力学应用具有良好的并行性,使得系统可以通过多个处理器的聚合计算能力达到较高的整体性能,而低主频策略对系统能耗的降低起到了很好的作用。但是,BlueGene/L显然并不适应所有的并行应用,对于通信频繁或负载不平衡的应用来说,并行度在提高到一定程度之后系统的整体性能反而可能下降,因此可能无法在BlueGene/L这样的系统上高效率地执行。
日本的地球模拟器在2002年~2004年TOP 500上排名第一。该系统在运行实际应用中达到了很好的性能。地球模拟器获得成功的一个主要原因是系统设计者与用户进行了长期合作,深入分析了用户应用。处理器是特制的向量处理器,针对应用提供了极高的单处理器性能,高性能的网络使得系统能够有效处理用户应用的通信需求,使得整个地球模拟器系统对用户应用来说是一个均衡的系统,因此能够得到满意的性能。
高性能计算机的性能评测技术提供了分析用户需求的系统化方法,可以帮助高性能计算机研制单位根据用户应用的需求特点,进行系统的设计和选择,其主要内容包括:
1. 用户需求收集技术,用于分析需求的应用领域,选取有代表性的应用程序。
2. 应用程序特征分析,如该应用的访问特性、通信特性以及并行度特性等。
3. 测试程序构造技术,即根据需求,采用有代表性的程序,并根据需求中各个程序的重要性构建Benchmark程序集。
4. 系统建模和应用程序性能预测技术,可用来比较不同的系统设计方案,分析系统性能瓶颈以及为优化应用程序和系统提供依据。
本文将简要介绍上述技术在国内外的发展现状。
用户需求的收集
用户需求的收集是高性能计算机性能评测技术的基础。用户需求的收集就是通过征集并选取当前有代表性的应用程序来评测高性能计算机系统,典型应用的征集主要集中在对高性能计算需求较大的一些领域。
核武器研制: 国际上的超级计算机很多是用来做核武器研究的,比如美国能源部的ASC(Advanced Simulation and Computing)计划支持的大部分系统、法国的CEA(Atomic Energy Commission)工程。在核武器研究方面有很多大规模并行模拟程序需要运行在超级计算机上。因此,一些公开的核武器模拟并行程序可以作为高性能计算机评测的代码。比如,公开的程序SAGE、Sweep3D等。
国防安全: 这类应用主要是国防上用于密码破译、间谍侦探等方面。这类应用程序主要是信息处理和信息分析,对浮点计算需求比较小,一般对单次计算的响应时间要求比较高。
气象预报: 天气预报是高性能应用的一个传统领域,复杂的气候三维模型对超级计算机有着巨大需求。日本的地球模拟器就是用来做气象预报的超级计算机,我国新一代的数值天气预报系统Grapes就是这类典型应用。这类应用程序对系统的通信性能要求较高。
生物信息学: 通过超级计算机强大的计算能力来解决生物领域的难题是近些年研究的热点。生物领域有很多海量数据处理应用程序,比如基因拼接、多序列比对、蛋白质三维结构预测等,它们都需要使用具有强大的计算能力的服务器来解决。
此外,石油勘探、地震预测、计算流体力学等领域都有着对超级计算机的巨大需求。通过对这些领域的典型应用程序进行征集和初步的分析,我们就可以为下一步的应用程序特征分析做好基础。通过采取广泛征集,在各个领域选择几个候选的应用程序,作为下一步程序特征分析的基础。
应用程序的分析
对选取的典型应用程序进行特征分析是进行高性能计算机性能评测技术的一个关键步骤。只有清晰地了解每个典型应用的程序特征,才可以为下一步的测试程序集构建提供科学的依据。
不同应用领域的科学程序使用的算法不同,对系统的要求也有所不同。比如,通信密集型的算法对机器的网络性能要求较高,计算密集型的算法对处理器性能要求较高。对应用程序进行分析能够让我们了解该应用领域的程序特点,了解程序对系统各部件的不同需求,为用户评测和购买高性能计算机系统提供依据,也能给系统设计者设计相关领域的计算机系统提供参考。对应用程序的分析,主要分析程序的访存特性、通信特性、I/O特性等。
表1是典型的科学应用程序中使用的主要算法描述,其中列举了纳米计算、气象应用、化学应用、聚变、燃烧应用等八个典型科学应用所使用的算法。
对具有多物理、多尺度的科学应用最好在一个通用的、各方面性能都较好的系统上运行; 对于稠密线性代数计算需要高性能的处理器,尤其是具有较高浮点计算能力的机器; 对于稀疏线性代数计算,需要内存的性能较高; 对于多维FFT算法,由于通信较多,需要较高的网络性能; 对于AMR(Adaptive mesh refinement)的应用,需要系统对不规则数据和控制流的性能较高; 对于数据或者I/O密集型的应用,应该需要较好的存储和数据管理能力的机器。
对应用程序的分析,主要包括对程序中访存模式、通信模式、I/O特征以及程序的可扩展性分析。程序的访存模式和通信模式是影响高性能应用程序的两个主要特征,本文下面将重点介绍。
访存特性分析 由于处理器速度和内存速度差异越来越大,应用程序的访存特征严重地制约着并行程序性能提高。通过对应用程序中访存特征的分析,可以帮助优化程序性能。应用程序访存模式主要包括顺序访问和随机访问,可以通过数据局部性来描述程序的访存特征。程序的数据局部性包括时间局部性和空间局部性。
时间局部性: 反映程序中对相同内存地址数据重新引用的趋势;
空间局部性: 反映程序中被引用数据周围地址单元数据被使用的趋势。
例如,程序顺序读取内存地址单元,那么该程序的空间局部性就比较好; 如果程序中频繁地引用相同的数据,那么它的时间局部性就比较好。程序访存的局部性特征是程序的固有的特征,它并不随运行的系统结构改变而改变。因此,可以使用时间局部性和空间局部性作为衡量程序访存特征的两个关键指标。实际上,计算机系统中的Cache也是应用了程序的访存具有时间局部性和空间局部性来设计的。
通过对程序的时间局部性和空间局部性进行量化,我们就可以把不同的应用程序画在一个以时间局部性和空间局部性为坐标的二维坐标图中。图1是一些常见基准测试程序中程序访存局部性示意图,其中横轴表示程序的空间局部性,纵轴表示程序的时间局部性。
其中,HPL、FFT、Random Access和Streams是HPCC(High Performance Computing Challenge Benchmark)基准测试程序集中的测试程序; CG是NPB(NAS Parallel Benchmark)测试程序中的程序; AVUS是一个计算流体力学代码。通过对这张图观察,可以发现HPL和FFT程序具有几乎相同的空间局部性,AVUS和NPB中CG程序具有相同的时间局部性; Streams测试程序顺序的读取内存地址单位,因此程序的空间局部性非常好,但基本没有时间局部性。
通信特性分析 并行程序通过进程间通信、同步完成大规模并行计算,因此程序的通信模式是影响并行程序性能和可扩展性的主要因素。程序的通信模式包括点对点通信和组通信两类。正确理解并行应用程序中的通信行为,对于设计真实的测试程序,优化并行应用程序的性能以及设计更好的网络拓扑结构都具有较好的参考价值。
点对点的通信操作是基于消息传递的并行应用中比较常见的操作,它是在进程间进行点对点的通信。在MPI的应用中,有阻塞式和非阻塞式的两种通信方式。传统的对于并行应用程序的通信可以通过以下几个特征来进行分类: 时间、空间和容量。通信模式的时间特性用来说明消息产生的速率; 空间特性用来说明消息目的地址的分布情况; 消息的容量用来衡量消息大小的分布特征。组通信是由通信库提供的可以实现一对多或者多对多等方式的通信模式,一般在具体实现过程中也是通过点对点通信完成。
对应用的通信模式分析,一般的方法是通过对程序的通信函数部分进行插装(Instrumentation),得到程序的通信事件记录(Communication Event Trace),通过对通信事件分析得到程序的通信模式特征。图2是对国家气象局的新一代数值气象预报系统Grapes程序的点对点通信分析的部分结果,分别描述了消息大小分布和消息目的进程分布的情况。
我们可以发现,Grapes程序中点对点通信的消息大小集中在100KB到1MB之间,0号进程与所有的进程进行通信。Grapes的通信操作较频繁,程序对系统的通信性能要求较高。
通过对程序的通信模式研究,可以把应用程序按照访存特征分别归为不同的类别。此外,程序的特征分析还包括程序的计算特征,如程序以浮点计算为主或以整数计算为主,以及程序的I/O特征、程序中I/O访问的顺序性和I/O访问文件的大小等。
程序集的构建
测试程序构造技术,即根据需求采取有代表性的程序,并根据需求中各个程序的重要性构建benchmark程序集。它需要使用应用程序分析的结果,通过把程序特征相似的程序聚类,并根据应用程序的权重选取代表性的程序,构建最后的基准测试程序。在构建程序集的时候主要从以下几个方面考虑:
1. 程序的重要性。选择典型的应用程序是构建程序集的根本,由于购买的高性能计算机主要用于这些典型的应用领域,所以选择有代表性的应用程序可以和实际的需求更加一致。因此,这类应用在选取的时候具有较高优先级。
2.程序性能特征。通过对程序性能特征的分析,对程序的访存模式、通信模式、I/O特征都有一定的了解。可以通过聚类的方式,使选择的程序集能够覆盖整个性能空间,同时,具有相同或者相似性能的程序,我们可以选取其中的一个作为代表。
3.程序的移植性。由于构建的程序集要在不同的体系结构上运行,所以程序的移植性非常重要。一般针对某个特定领域开发的应用只可在某个体系结构下运行,所以为使基准测试具有通用性,需要把程序移植到各种平台。
此外,基准测试程序还需要考虑数据集以及运行规模等各方面的问题。它是用户理解系统性能最直接的方式,因此在性能评测中是一个极其重要的研究内容。
性能建模和性能预测
通过需求的征集、并行程序的性能分析和最后程序集的构建,我们就构造好了一套用于测试高性能计算机的基准测试程序集。这些测试程序集在用户购买超级计算机以及厂商进行系统比较等方面都具有重要的作用。但这种测试技术不能预测当系统某个设备有轻微改变时系统整体性能的变化,因此无法在系统尚未搭建好的时候,为系统设计人员提供参考建议,也不能对未来的科学应用程序进行预测分析,为面向未来应用需求的系统设计提供帮助。
为了解决这些问题,需要采用系统建模和性能预测技术。性能建模就是对应用程序和高性能计算机系统建立合适的模型; 性能预测就是使用程序和系统的模型,预测应用程序在系统中性能。性能建模和性能预测在高性能计算机系统的性能评测过程中扮演着重要的角色。性能建模和预测的好处在于: 不需要实际运行应用代码就可以分析系统性能,这可以减少运行应用的时间开销,而且在高性能系统还处于设计阶段就可以预测系统性能,及时发现系统设计的瓶颈,分析未来应用模式对系统的需求。
对并行程序的性能预测主要有基于模拟的方法和基于分析的方法。基于模拟的方法主要通过模拟器来模拟系统的Cache、内存、网络、I/O等行为,从而实现系统性能的预测。基于分析的方法主要是对系统和程序建立数学的模型,通过测试等手段获得模型的参数,从而实现性能的预测。
基于模拟的方法又包括执行驱动的模拟器和事件记录驱动的模拟器。执行驱动的模拟器就是仅模拟需要分析的部分,其余的部分通过实际运行。比如,我们需要分析系统的网络性能,只需要模拟通信部分,其他的计算和访存部分可以通过实际运行代码来实现。典型的执行驱动的模拟器现在有UIUC大学的Bigsim模拟器和UCLA大学开发的MPI-SIM模拟器。这种模拟器一般精度很高,缺点是对于访存密集型的应用程序,很难实现在小规模的机器上模拟。
事件记录驱动的模拟器通过事件驱动模拟器执行。比如事件记录驱动的网络模拟器,它的工作原理是对应用程序的通信模块进行插装,得到程序的通信事件记录,然后把这些通信事件记录输入模拟器。模拟器根据输入的事件以及待模拟机器的通信参数指标就可以预测出程序的通信时间,这类模拟器典型的有欧洲UPC大学的DIMEMAS模拟器。
美国的圣地亚哥超级计算中心(San Diego Super-computer Center,SDSC)提出一套基于模拟的性能预测框架。它们认为,影响并行程序性能的主要因素包括单处理器性能和互连网络性能,因此,需要对单处理器性能和互连网络分别建立模型。单处理器上的性能主要由程序的访存和浮点计算需求决定。互连网络的性能主要由程序的通信模式决定。程序的特征和机器的性能分别进行描述,通过两者之间的映射分别实现程序在单处理器和互连网络上的性能预测,最后实现整个并行程序在超级计算机上的性能预测。
基于分析的方法通过对需要预测的并行程序进行分析,对并行程序的访存、通信建立一个数学模型,通过数学模型进行求解,得到程序的性能预测。美国的劳斯阿拉莫斯国家实验室(Los Alamos National Laboratory LANL)使用分析的方法分析了一些并行应用程序。
比较两种方法可以看出,模拟的方法由于可以精确地模拟系统的行为,因此预测的精度比较高,但缺点是模拟的运行时间一般都比较长。分析的方法优点是可以非常灵活地分析各个参数之间的相互影响,预测时间比较短,成本比较低,缺点是预测精度比较低,同时,对于复杂的应用,分析方法很难构建数学的模型。因此,需要把模拟的方法和分析方法结合起来,才可以实现快速、精确的性能预测。总之,系统建模和应用程序性能预测技术,可用来比较不同的系统设计方案,分析系统性能瓶颈以及为优化应用程序和系统提供依据。
作者简介
郑纬民
清华大学计算机系教授、博士生导师,863高性能计算机评测中心主任。同时还担任中国计算机学会副理事长、中国计算机学会学术工会主任、北京市科技进步奖第八届评审委员会委员等。
10月28日,我国IT产业一个历史性时刻到来了:在2010年全国高性能计算学术年会上的“2010中国高性能计算机性能百强排行榜”中,国防科学技术大学研制的“天河一号”高性能计算机以每秒2507万亿次浮点运算的实测性能和每秒4700万亿次浮点运算的峰值性能位居榜首。
这是一次自我超越。国防科大对安装在国家超级计算天津中心的“天河一号”一期工程进行优化升级,以实测性能提高了4.45倍和峰值性能提高3.89倍的成绩,蝉联了我国高性能计算机百强第一名。
这也是群体性跨越。国产高性能计算机在全国高性能计算机百强前10名的数量从5年前的两个,增加到去年的4个,再到今年的7个;最好成绩从5年前的第2名,提高到去年包揽前3名,再到今年包揽了前7名。从性能统计上看,国产系统在百强中所占的份额从去年的59.31%大幅提高到了81.08%。
这还是一次历史性跨越。Cray公司为美国橡树岭国家实验室研制的“美洲虎”系统,以每秒1759万亿次的实测性能和每秒2331万亿次的峰值性能,位居今年6月公布的最新的“全球高性能计算500强”排名榜榜首。而“天河一号”的实测与峰值性能分别是“美洲虎”系统的1.43倍和2.02倍。参加全国高性能计算年会的国际权威人士表示,“天河一号”的性能在今年年底的“全球高性能计算500强”中位居榜首已经没有问题。
在对“天河一号”一期系统的升级优化中,国防科大将计算节点之间担负高速通信任务的互联芯片全部替换为国防科大自主研发的芯片,其性能是目前国际市场上商用芯片的两倍,从而为“天河一号”数倍性能的提升奠定了基础。在优化中,国防科大还在芯片、节点机、网络、编译系统、操作系统等多项关键技术上进行了升级,并且正瞄准国际前沿研制下一代处理器。这是做乘法的思路。
没有鲜花和美酒,甚至连国防科大相关领导或科研人员也没有在主席台上露面。笔者上周在本报撰写的《“两弹一星”精神更具现实意义》评论中谈到,国防科研领域强调结果导向和实力导向,有着埋头苦干、淡泊名利的光荣传统。“天河一号”最终荣登中国乃至全球高性能计算榜首,凭借的唯有实力。
如今,我们不缺高性能计算机,也不缺应用需求,事实上高性能计算的应用早已经从传统的科学计算、工程仿真、石油勘探、气象预报等领域扩展到了生物医药、工程设计、高端装备研发、新能源、新材料、动漫设计,以及金融风险分析甚至公共安全与城市管理等诸多领域。如何为这些需求开发应用,或者将已有的应用移植到国产系统上,对软件厂商来说,机会和挑战都很大。这项工作做不好,就会成为我国高性能计算应用的瓶颈。
高性能计算排行榜为我们展示的是一幅超越自己、超越同行的动态画面,正是在这场你追我赶的竞赛中,中国的高性能计算技术迅速发展。我们期待着未来国产高性能计算机从性能到应用不断迈出坚实的步伐。
新成立的科学计算中心是一个交流、合作的平台,将会大大提升我国高性能计算的应用水平。
“超级计算机并不像想像的那样神秘,人造心脏的研发、北京奥运场馆鸟巢的设计,还有国家大剧院的建设,这些都有高性能计算的参与。推进高性能计算的应用才能增强它的生命力。中国和美国相比,高性能计算在应用领域里还有一定距离,应加强国际合作和人才培养,缩短这一差距。” 这是在“中美联合科学计算中心”成立仪式上,纽约州立大学邓越凡教授讲的一番话。
5月31日下午,在国家科技部、中国科学院的支持下,由中科院计算机网络信息中心超级计算中心、美国纽约科学计算中心和北京泰瑞世纪科技有限公司共同发起的“中美联合科学计算中心”成立签约仪式在中科院网络中心举行,这是中美科研机构联手打造超级计算机应用研究基地的开端。科技部高技术司李向涛、中国科学院国际合作局副局长曹京华、中科院网络中心党委副书记肖作敏出席了签约仪式。
会上,中国科学院国际合作局副局长曹京华认为,中美间要加强交流与合作,促进高性能计算事业的发展。中美联合科学计算中心的使命就是面向科学院系统开展的科研应用领域和重点行业,联合开展高性能计算应用方面的技术研发、咨询和服务,培养国际型应用人才,促进科学研究,为我国科技事业的发展起到示范作用。
新成立的科学计算中心提供一个中美科研人员合作和交流的平台,选拔优秀人才到国外深造,提升科学院内外高性能计算应用水平。除此之外,中心还将开展高性能计算应用方面的深入研究,联合申请/承担国家、部委、省市在高性能计算应用方面的科研项目,并且引进国外在高性能计算应用方面的优秀技术或技术成果。
高性能计算在国民经济、国防建设、科学研究等领域的作用日益显著,已经成为继理论科学、实验科学后的第三种科学方法。高性能计算是一个国家综合国力和竞争力的重要标志,此次中美联合科学计算中心的成立,是开展国际交流与合作、提高国内高性能计算应用水平的一次新尝试。(许泳)
近日, VMware公司与曙光公司达成一项OEM协议,曙光公司将销售、分销及支持基于曙光服务器系统的VMware Infrastructure 3。这是VMware公司继联想、浪潮之后,与中国服务器企业再次合作推广虚拟化技术与方案。在会上,曙光公司副总裁聂华和VMware 公司大中华区总裁宋家瑜豪不掩饰双方合作的真正意图,那就是在高性能计算机虚拟化方面能有所作为。“这也是VMware 公司选择与曙光合作的一个重要原因,也是与联想合作最大的不同。”宋家瑜对记者说。
高性能计算机应用的目标已经越来越清晰,那就是用户应用简单、方便,性能得到充分利用,居高不下的能耗能得到降低等等。而虚拟化技术目前所能解决的问题是,通过整合服务器,企业的计算能力可迅速汇集并按需提供服务,整个数据中心的灵活性会随之得到增强,简化了管理,降低了功耗,改进了灾难恢复,降低了成本。两者的目标极其相似,因而具有巨大的应用前景。聂华认为,目前高性能计算机用户除了特别单一的应用以外,对性能利用和降低能耗等优化的需求很强烈,曙光在这方的探索很早就已经开始。而借助VMware 公司的力量,会加快高性能计算机应用虚拟化技术的进度。
不过双方目前合作的重点仍然是工业标准服务器和数据中心方面虚拟化技术的应用。双方合作的第一步是在曙光的服务器上部署VMware的虚拟化产品,包括目前应用最为广泛的平台,也会包括即将的最新产品。聂华认为,部署VMware Infrastructure,曙光产品的可用性、安全性和扩展性得以提高。客户现在就能购买捆绑了嵌入式VMware Infrastructure的曙光产品。第二步是提高用户应用虚拟化技术的水平,为用户提供增值服务。第三步就是在高性能计算机虚拟化上有所突破。在发展高性能计算机方面,一个非常重要的问题是降低用户的应用成本,提高应用的效率。“在通用高性能计算机上,引入虚拟化技术迫在眉睫!” 聂华认为,“这也是我们选择与虚拟化技术领头羊VMware合作的主要原因。”如果你认为曙光与VMware仅仅签署了一项OEM合作协议,那么你只看到冰山的一角。双方签署的是战略合作协议,其中的内容耐人寻味。
用数值计算的方法来制作预报是今后气象预报业务发展的主流方向,也是现代化气象预报业务的基础。数值预报的发展与计算机性能的提高有着密切联系,为了提高预报的准确性,要求数值预报模式具有较高的分辨率、较细的物理过程以及预报时效等,而这些都依赖于计算机技术的发展。
计算机是现代气象预报业务的主要工具,高性能计算机则是数值预报业务最重要的基础支撑平台。
数值预报发展迅猛
1982年2月16日,我国第一个数值预报业务系统―短期数值天气预报业务系统(简称B模式)在中型计算机上建立并正式投入业务应用,结束了我国只使用国外数值预报产品的历史。1991年6月15日,我国第一个中期数值预报业务系统(简称T42)在CYBER大型计算机上建立并正式投入业务运行。这一系统的建成使我国步入了世界少数几个开展中期数值天气预报的先进国家行列。
近些年数值预报又有了大幅进展,2005年12月14日,首次建立起我国自主研发的、具有国际先进技术水平的GRAPES全球同化与中期数值预报系统,它将成为我国新一代的中期数值预报业务系统升级的基础,为改进我国国家级的指导预报水平和增强对国家安全需要的全球预报服务能力提供技术支持。
在气候模式系统方面,我国也建立起了由大气环流模式、海洋环流模式及其耦合的海气耦合模式、区域气候模式组成的气候动力模式系统,已经成为制作季节和年度气候预测的重要工具。中国气象局数值预报业务离不开高性能计算机系统的支持。
1991年6月,在CYBER大型计算机上建立了我国第一个中期数值预报业务系统(简称T42);
1996年5月,在Cray-C92系统上建立了区域台风路径预报系统;
1998年,在Cray-C92系统上建立了核污染扩散传输模式系统;
1998年6月,在IBM SP2系统上建立了北京地区中尺度模式系统;
2007年8月和2004年9月,在神威I系统上分别建立了华北地区中尺度模式系统(HB-MM5)和NMC中尺度模式系统;
1999年,在Cray-C92系统上建立了森林火险气象条件预报(模型);2004年9月,在IBM SP系统上建立了森林火险气象等级预报系统;
2000年3月,在神威I系统上建立中期集合预报系统T106L19/32成员;
2001年6月,在神威I系统上分别建立了城市空气质量预报系统;
2002年9月1日,在IBM SP系统上建立了全球T213L31全球中期分析预报系统(简称T213);
2004年6月,在IBM SP系统上建立了紫外线等级预报系统及全球台风路径预报系统;
2005年,在IBM高性能计算机系统上建立了海浪数值预报系统;
2005年12月,在IBM高性能计算机系统上建立了短期气候预测业务系统;
2006年4月,在IBM高性能计算机系统上建立了Grapes_Meso模式系统。
气象服务走向深入
目前,中国气象局高性能计算机有以神威Ⅰ系统、神威新世纪集群系统、IBM SP系统、IBM高性能计算机等为代表的一批国内一流的高性能计算资源,总峰值能力达23TFLOPS以上。神威I系统在建设后,主要承担MM5、集合预报、空气污染、台风路径等气象业务模式,目前只承担北京高性能计算机应用中心的任务,拥有中科院软件所、中科院计算所、中科院金属所、总装29基地、上海药物所、医科院药物所、北方计算中心、中国石化集团等60多个用户。
IBM大SP系统是上一代数值预报系统的业务用机,主要承担T213、HLAFS等数值天气预报业务模式,目前承担的是天气、气候的科研任务。IBM小SP系统则运行气候资料数据库和科研等业务工作,随着业务模式移植到新的计算机系统上,整个系统的利用率逐渐下降。
神威新世纪32P、32I系统分别承担的是青海、武汉MM5的业务模式,以及IPCC任务、CAM、REGCM等科研模式。其系统利用率整体情况比较平稳,由于承担了IPCC气候变化预估任务的作业,对磁盘的需求很大,磁盘空间比较紧张,使用率超过80%。
IBM高性能计算机系统是目前主要的天气气候业务科研模式的重要基础平台。系统共有446个用户,系统磁盘和CPU使用率都比较高,CPU利用率今年平均为48.68%,磁盘利用率超过70%,承担的应用有:
业务模式系统,包括数值天气预报业务系统和短期气候预测业务系统。数值天气预报业务系统主要包括:常规观测资料处理、全球数值预报T213模式、中尺度天气数值预报系统MM5、台风路径预报系统、区域数值预报GRAPES模式、亚洲沙尘暴业务系统、环境拓展模式预报。短期气候预测业务系统包括:海洋资料同化、月动力延伸集合预报、海气耦合模式季节预测。
准业务及重点科研项目,包括T639和T213全球集合预报、WRF区域集合预报、T213台风集合预报、人影指导预报、海浪预报系统、精细指导数值模式和专业服务模式,IPCC未来气候变化评估,沙尘暴、紫外线等大气成分数值准业务模式。
科研模式,包括风能资源评估方法试验、CCM3、Regcm3、GRAPES等科研模式。
在现有使用的高性能计算机系统中,IBM高性能计算机系统的用户数和资源使用率最高,而神威I系统由于所有的业务已经移植到新系统,CPU利用率下降最快,维持在3%以下。
从中国气象局数值预报的发展进程来看,高性能计算机系统是数值预报系统基础平台,每一次数值预报水平和能力的提升都有与之匹配的高性能计算机系统的支撑。
运行速度将大幅提升
气象应用一直是高性能计算机使用的一个重要领域。在2007年6月的全球TOP500高性能计算机排行榜中有19台是主要应用于大气科学和气象预报。而国内的银河、曙光、神威等高性能计算机系统对于气象应用也有很好的支持。
云计算降低HPC应用门槛
在2011全国高性能计算学术年会上,微软亚太研发集团服务器与开发工具事业部高性能计算部门经理徐明强博士告诉记者,云计算不仅让鱼与熊掌兼得,而且正在改变着HPC生态环境。
徐明强表示,回顾历史,机群体系和x86 CPU无疑是HPC发展历程的转折点,它们不仅降低了HPC系统的建设成本,更重要的是打破了技术封锁,让更多的国家有能力拥有HPC。而机群架构也为云计算进入HPC领域奠定了硬件基础,进而显著地降低了HPC的应用门槛。
而HPC与云计算的结合,不仅让更多的用户有能力用上HPC,而且像上汽集团这样实力雄厚的企业也能获益其中。上汽技术中心安全工程与虚拟技术部张鲲鹏介绍,该部门拥有一套具有320个内核40个刀片服务器和2TB存储的基于Windows的汽车虚拟设计HPC平台,为乘用车技术中心和商用车技术中心200多位CAE(计算机辅助工程)工程师提供服务,每天运行约有100个计算作业。但该平台仍然无法满足一些高强度作业对计算峰值性能的需求。
通过与微软和上海超算中心的合作,上汽技术中心实现了私有云和公有云的无缝对接,在峰值计算时把作业放到上海超算中心的HPC上,而CAE工程师们并不需要知道作业是在哪里执行的,他们的使用习惯也没有任何改变,唯一的变化是运行时间大幅下降。
五刀砍向HPC价值链
“云计算将会在HPC现有的价值链上砍上五刀,让HPC市场瘦身;而且会有力地推动市场参与者的转型。”徐明强表示。
首当其冲的是硬件,云计算运营商规模化采购将会节省大量的硬件开支;二是运营商采用通用硬件后,将显著降低硬件维护费用;第三刀砍在了操作系统和管理工具上,因为这些软件的价值部分地转移到运营商一侧,用户不再需要独立购买;第四刀砍在了服务上,即便采用了机群,HPC的实施非常复杂,而且对运营维护部门要求很高,因此,很多企业需要系统集成商来帮助实施和提供服务,而在云计算中,这些服务将会由云运营商完成;最后一刀瞄向了应用的市场拓展费用,以前软件需要规模化的软硬件环境才能安装试用,费时费力,如今一切已在云端就绪。
云计算在现有HPC价值链上切下的价值,最终受益的是云运营商和最终用户,与此同时,也将颠覆HPC市场的格局。徐明强认为,这种颠覆体现在,系统集成商将转型成为云运营商;应用商将变为高附加值SaaS供应商,应用软件的直销将变为由更熟悉行业的应用商代销;管理工具等中间件市场品牌将会集中化;而在硬件层面,ODM厂商将加入OEM厂商的行列,成为云运营商的硬件供应商。
随着云计算应用的广泛普及,HPC与云计算、大数据之间的交叉融合趋势越发明显,从而成为推动全球信息产业发展的三大动力之一。经过近20年在高性能计算领域的精耕细作,宝德已经发展成国内HPC产品技术成熟度最高的厂商之一。
HPC IN CLOUD 应运而生
随着云概念的深入,高性能计算也开始面临一些新的选择:是与云计算背道而驰还是相互融合?宝德对于二者的融合有着独到的见解,即高性能计算可采取一种不同的、使用密集多核服务器的方式进入云计算,用户可以在桌面上将作业加到作业调度系统中去。这种资源调度方式可以借助运行虚拟机的本地资源或者云中资源,可让HPC实现宝贵的桌面化,至此,HPC in Cloud方案应运而生!
该方案是基于对HPC及云计算深刻理解的基础上深入分析而设计,提供了灵活高效的弹性计算平台、一体化的存储系统、全面的系统安全性设计,适应多样化的应用场景。同时,该方案具有高性能、稳定性和可用性,提供统一的数据存储及用户数据安全保障,全面兼容市面上的主流应用,并提供不少于三年的技术支持和服务。
持续发力高教事业
教育行业是宝德HPC应用范围较广的一个领域,近年来,宝德相继为国内众多高校打造了相应的解决方案,为推动我国高校科研的发展发挥了强大的支撑作用。例如,宝德与厦门大学在物理、化学等科研领域开展过多次合作。宝德为厦门大学物理系提供的集高性能、先进性、完整性、兼容性与稳定性等特点于一身的HPC解决方案,坚持了整体规划、科学设计的指导思想,以硬件是基础、资源是核心、应用是目的为宗旨,通过采用最先进的软件技术和高质量的网络硬件平台,保证了应用系 统在网络平台上安全可靠、高效率的运行。
随着云计算、大数据应用的广泛普及,高校对于信息化和云化的需求进一步增强,高性能计算已经与理论研究、实验科学相并列,成为现代科学的三大支柱之一,广泛应用于科研创新领域,高校作为科研创新前沿阵地,对高性能计算有着非常强烈的需求。随着云计算时代的到来,HPC与云计算融合之路已经启航,HPC in Cloud概念的引入将为我国教育行业注入最新的HPC价值理念。
该方案目前已经率先在海南大学等得到实际应用。宝德与Intel、品高云助其建立的高性能云计算中心构建了由学校统一规划和管理、并面向全校服务的高性能计算及云计算平台,完美解决了学校计算资源不足与科研任务需求之间的尖锐矛盾,开创了HPC的项目,也将HP in Cloud这一技术方案从理论应用到实践。
作为权威教育部门直属、国家“211工程”和“985工程”部省重点共建的高水平大学,中南大学所拥有的材料、矿业、机械、交通运输与土木工程等国家重点学科及学校的大部分理学、工学、医学学科对高性能计算都具有迫切的需求。为满足上述需求,中南大学将“高性能网格计算平台”正式列入学校“985工程”建设项目。
通过湖南省招标有限责任公司严格的招投标程序,评标专家就投标方解决方案的性能、价格和服务等方面进行综合评估,最终,以AMD四核皓龙处理器为计算核心的曙光5000高性能网格计算平台系统解决方案胜出。该方案的服务器硬件平台为曙光5000,体系结构为混合式的集群(Cluster)架构。平台由78个4路4核刀片计算节点、3个8路4核SMP(Symmetrical Multi-Processing)胖节点、2个管理节点、2个I/O节点、1个Web 节点、存储容量为20TB的存储阵列组成,计算网络采用Infiniband高速交换机,管理网络采用千兆以太网交换机。
目前,中南大学高性能网格计算平台已经建设完成,并投入试运行。在2009年10月29日HPC China2009会议上公布的“2009年中国高性能计算机性能TOP100”中,中南大学这套高性能网格计算平台凭借10214.40 Gflops的双精度浮点运算理论峰值,8273.68 Gflops的Linpack测试值和0.81的效率,国内高校排名名列前茅。
中南大学10万亿次高性能网格计算平台自面向全校提供试运行服务以来,已有注册用户170余人,涉及国家重点基础研究发展计划(973)、国家高技术研究发展计划(863)和国家自然科学基金等项目数十个,计算平台日常平均CPU使用率达到60%~90%,内存利用率40%以上,刀片服务器节点使用率高,运行状况良好,完全达到了预期的建设目标。
一方面,中南大学新建的高性能网格计算平台系统与以往各个学院自建的计算平台相比,计算能力成倍提高,使学校科研计算能力实现了大幅度的提升;另一方面,中南大学通过高性能网格计算平台的建设,使学校顺利加入到中国教育科研网格(ChinaGrid)之中,实现了计算能力“无限”扩展的计算模式的突破。
谈到AMD皓龙处理器,中南大学相关技术负责人介绍说:“在运算能力与功耗、超传输总线、集成内存控制器设计等几个方面,AMD处理器都具有明显的优势。首先,AMD提供业内公认的性能很强的计算平台,尤其是此次选用的AMD皓龙处理器支持64位计算,很好地满足了我们对计算能力的要求;其次,由AMD创新研发的超传输(HyperTransport)总线技术,很好地消除了数据传输的瓶颈;第三,AMD将内存控制器集成到CPU内,将内存的效率提高了50%。总之,我们认为AMD皓龙处理器是值得信赖的计算平台。”
[关键词]协同研究 远程访问 PLATFORM 一体化应用平台 自助式智能集群部署
中图分陈类号:TP393.4 文献标识码:A 文章编号:1009-914X(2015)34-0217-01
1 问题的提出
大港油田信息中心当前对于计算资源的使用与管理,采用传统的集群式管理方案,这种资源固定分配的方式虽然能够为相应部门分配适用的资源,但是对于部门间需求的改变以及资源的按需调整无法提供一个灵活的、便捷的方法。无形中增加了资源管理部门的工作量以及工作难度,同时也无法将现有计算资源的利用充分的发挥出来。其次,信息中心所管理的数模、建模等应用软件,希望能够以桌面云的方式为用户提供远程访问接口,并且按需来自动分配登陆,改变传统的手动建立VNC登陆服务。
针对于此类问题,为大港油田信息中心建立一套完整的云管理平台,在此基础之上再根据信息中心针对于业务系统的使用动态建立高性能计算集群、数模、建模机群,将能在很大程度上解决上述问题,建立起适用于大港油田的、技术领先的高性能综合管理平台。
2 研究云平台建设内容
大港油田经过十多年的信息化建设,在勘探开发信息系统建设方面取得了一定的成绩,紧紧围绕“为油田主营业务发展提供强有力信息技术支撑”这一核心主题,大力推进信息化基础建设。现已拥有了大中型计算机服务器,如针对勘探开发业务研究,配置了64台高性能刀片服务器,其中48台支持常规解释和数值模拟应用,16台图形刀片服务器支Geoprobe、Petrel等三维解释类软件应用,存储容量达到了130TB,整个高性能计算环境达到了128个CPU,1024核心数,内存总量达到8TB,同时支持200个以上的用户开展勘探开发研究工作。在此基础上,部署了如OpenWorks、Geoframe地震解释系统、Petrel/SKUA/RMS/Direct地质建模系统、Eclips数字模拟系统、ComPass以及Assetview钻井工程设计系统等应用软件,并通过高性能PCM-AE云管理平台和独立仿真等技术,实现了基础设施及专业应用的集中部署、应用和管理,初步形成了当前大港油田的勘探开发研究环境格局。
3 研究云平台构架方案
针对于大港油田的云管理平台建设,以全面整合信息中心现有基础设施,并为日后新硬件环境的方便扩容为前提,IBM Platform Computing 所推出的云平台管理软件 PCMAE 将为大港油田信息中心提供整体的云平台基础框架。PCMAE 是一个面向高性能计算的云管理平台,可以整合数据中心的计算资源、存储资源和网络资源,为IT资源的统一整合、管理与分配提供有力的技术支持;同时,提供了最终用户直接请求资源的自助服务平台,通过丰富的策略为用户匹配和供给资源,带给最终客户灵活便捷的云资源申请和使用模式。另外,在虚拟化软件之上提供它们所不具备的虚拟机灵活定制与整体管理功能,对虚拟机集群及上层 HPC 集群进行统一的自动部署、监控和资源调度,实现资源的最大化利用与服务的最快交付。
4 平台展示
4.1 协同研究云环境全面建成,并投入应用
云计算的核心是多用户、自动化管控、弹性计算,信息中心通过部署Platform云计算管理平台,极大简化研究云环境管理,实现集群快速部署与调整、资源统一管理和自动调度,是中石油第一个全面云化的研究环境。在云平台基础上,建立两套高性能计算集群、远程可视化、自助式服务。与现有数模建模等应用软件进行集成。
通过云管理平台的应用,信息中心可以做到将整个计算资源放置到云端,快捷的部署物理机操作系统,以及快速创建虚拟机并且加入到高性能计算平台,使得原来需要数周的工作量简化到一个小时以内。
4.2 主流勘探开发研究软件的集中管理使用
取代了以往分散式的管理方法,将主流研究软件全部集中在了云管理平台之中,用户通过登录统一门户页面,选择需要使用的专业应用软件。高性能调度平台会在云端资源中分配出最适合的计算节点供用户使用。
在原有软件的基础之上,新部署了OpenWorks 5000.8,Geofrme 4.5两套地震解释环境以及Petrel 2013建模系统、Eclipse2013数值模拟系统、随钻分析、钻井设计,软件种类超过10种,并在不断扩展之中。
4.3统一的作业管理
当用户提交计算作业后,用户随时可以在门户页面上看到作业的运行状态,并且随时查看作业计算过程中所产生的数据文件、输出信息。无论作业的量级多大,都能快速定位,即便数月之前提交的作业数据也能很方便的查看。
作为云平台管理员则可以查看所有用户的作业信息,对用户的使用情况做到清晰了解,当发现任何作业出现异常时,在门户界面之中就能处理,不必再寻找该作业所运行的节点,登录该节点后才能处理。
6 应用平台实现的功能
6.1 自助式智能集群部署
提供了简单友好的自服务门户界面,用户只需通过门户提供的统一认证功能,只需要一次登录认证,就能直接调用运行集成在大港油田勘探开发协同研究云一体化应用平台上的20余种应用软件,在调用软件的同时, 系统在后台自动为用户完成应用环境、硬盘资源的配置, 解决了用户应用流程繁琐, 较大地提高了用户生产研究工作效率。
6.2 跨平台软件资源的共享
在勘探开发专业软件一体化应用平台上,整合了新老软件资源,集成了基于windows、Linux等不同平台上运行的软件, 在同一台客户端工作站,用户既能调用windows系统下的专业软件,也能运行Linux系统下的软件,实现了软件资源的跨平台共享, 大大提高了勘探开发软件的利用率。
6.3 显著减少了硬件投资和运行维护费用
使用集中部署和应用虚拟化技术后,客户端不再需要配备高性能专业图卡,不再需要不断升级客户机硬件,不再担心用户数据丢失,不再经常到用户端安装部署专业软件,显著减少了日后硬件投资和运行维护费用。
7 结论
通过专业研究软硬件集中部署和自助式智能集群部署技术在大港油田实践,搭建了支撑油田勘探开发协同研究工作的软硬件集中部署、数据统一存储、备份统一管理、应用统一、用户单点使用的集成应用环境,实现了基于Linux环境下不同平台应用系统界面集成和软件资源跨平台共享,把20多种异构专业软件统一在一个平台中集中管理起来,彻底解决了以往单机作战应用模式带来各种弊端,保证了油田各项研究工作的高效进行,具有良好的应用前景。
参考文献
[1]张军华, 臧胜涛,单联瑜,等. 高性能计算的发展现状及趋势[J]. 石油地球物理勘探,
[2]赵改善, 包红林. 集群计算技术及其在石油工业中的应用[J]. 石油物探,
现阶段C919使用美国GE发动机,预计到2020年后换装由中航商用航空发动机有限责任公司(简称“中航工业商发”)研制的国产长江CJ-1000A发动机。其强有力的研发设计能力及先进的CAE仿真设计平台,推动了研制进程。CAE仿真设计平台的运用涉及到复杂的数据处理和计算,需要定制级高性能计算机的支持。
曙光HPC方案与交付部经理杜夏威在接受《中国信息化周报》记者采访时介绍,曙光致力于为以中航工业商发为代表的C919相关研制单位提供高性能解决方案,支持研制工作中所需要的设计、仿真任务的运行。
他介绍,曙光在2013年协助中航工业商发组建了一套高性能计算系统,满足发动机研制过程中涉及的CAD/CAE软件许可资源的共享和管理、虚拟样机设计与仿真、结构分析、气动力计算等需求,并最终建立一个高安全、高可扩展、易管理的软件管理及高性能计算机群系统。
曙光根据中航工业商发差异化的应用需求,在该套系统建设中采用“胖瘦结合的方式”,配置了曙光TC4600刀片系统,以满足用户分布式并行且扩展性好的CFD应用需求。同时,系统配置多台胖节点,以满足隐式结构求解等扩展性一般的单机并行应用需求。此外,通过结合适量GPU结算节点,对部分应用实现GPU加速。在中航工业商发的仿真高性能计算平台中,曙光较早地建立了远程CAD环境,将显示资源整合进后端资源池,统一了CAD与CAE数据,消除用户端显卡资源消耗,较早地实现了统一综合仿真计算平台,有效推动了中航工业商发发动机的设计、仿真,优化工作流的运转效率。最终,依托一贯坚持的“应用适配”理念,曙光协助中航工业商发建设起了一套完整的设计-仿真一体化高性能计算平台,助力中国国产商用发动机的研制。
在杜夏威看来, C9型客机成功首飞是中国航空领域的“争气机”,打破外对大飞机技术的垄断,奠定了中国在大型飞机设计制造中的地位。他坦言,目前的核心部件――发动机依然采用国外产品,希望有曙光高性能计算平台支撑的、由中航工业商发研制的中国自主产权的发动机早日在C919上实现换装。
对于曙光接下来如何继续贡献C919,未来的工作安排和攻坚难点,杜夏威介绍说,目前在航空领域,越来越多的设计、测试、实验工作由计算机数值模拟与仿真来完成,其中高性能计算系统发挥着重要的作用。
曙光作为国内领先的高性能计算系统供应商,希望未来能够在高性能计算系统与整体解决方案的研制方面,与航空领域在业务层面深度融合,不仅仅实现对仿真计算的高效支撑,而是能够协助用户,打通设计、仿真、数据管理等多个层面,实现符合航空领域业务特性、符合中国航空设计人员使用习惯的设计仿真一体化高性能计算平台。
关键词 高性能计算机 管理软件 接口
中图分类号:TP311 文献标识码:A
1基本原理
1.1主要管理功能
高性能的计算机的管理软件,主要是使用IPMI协议,通过对网络的启动以及结合BMC卡来达到对计算机的管理的目的。同时还可以通过Internet网来进行远程的关机,远程的对计算机进行安装系统、检测等操作,这些都是通过Java程序执行存放在指定位置的;linux脚本来实现的。
1.2工作原理
PXE是基于TCP/IP、DHCP、TFTP等Internet协议之上的一种扩展的网络协议,它能够提供网络启动的功能、协议又分为客户端(client)和服务端(server)两端,PXE client存储于网卡的ROM之中,在计算机引导的时候,BIOS能够把PXE client调入到内存中,然后对其进行执行,并且能够显示出命令菜单的操作,经过用户的选择之后,PXE client将在远端的操作系统能够通过网络下载到本地上,并且在本地上运行。
PXE能够通过网络传输来保证其最后橙红的运行,在计算机启动的时候,DHCP server能够给PXE client动态的分配一个IP地址,为了实现这个目的,在对DHCP server进行配置的时候应该增加对应的PXE特有的配置。由于在PXE client所在的那个ROM内部,已经存在和TFTP client,因此PXE client可以使用TFTP client,通过使用TFTP协议来在TFTP server上对其需要的文件进行下载。
在上述的条件下,PXE协议就能够正常的运行了。在这个过程中,把PXE client是需要安装Linux的计算机,TFTP server以及DHCP server是运行在不同的另一个Linux server之上的。并且,配置文件、,Bootstrap 文件、Linux内核以及Linux根目录等都是放置在Linux server 上面的TFTP服务器的根目录之下的。
需要值得注意的是,在PXE Client 正常的工作的过程中,还需要 3 个二进制文件:即
Bootstrap、Linux 内核以及 Linux 根文件系统这三种文件。其中,Bootstrap 文件是可执行的程序,它能够向用户提供一个比较简单的控制界面,并且可以通过用户自主的选择,来进行相匹配的 Linux 内核以及 Linux 根文件系统的下载。
2实现方案
2.1涉及基本内容
目前来看,对于高性能计算机的管理软件使用的是基于Java语言的管理软件,它能够在集机群中使用上面介绍的各种技术来完成需要完成的各项功能,并且与此同时,各个功能都是封装在shell脚本之中的,并且还可以通过使用跨平台的编程的 Java 语言中的进程管理来对shell脚本文件进行调用。在计算机的管理软件的前台,会使用JSP来对Java进行调用。
其中,shell脚本文件的调用过程中,会涉及到网络启动、本地启动和网络安装服务这三种十分重要的技术,它们都可以在Linux的操作系统的环境下把调用的服务写成脚本文件的形式来进行执行,在这样的条件下能够使得对前台命令的调用变得更加的方便。
Java是一种跨平台的语言,因此可以使用这种语言作为编程的基本语言来解决这个系统中对于未来的跨平台的一种管理的设想。然而,如果采用这种方式则会涉及到一个Java 与 Shell 脚本的调用接口问题,但是Java 中的进程管理已经提供了能够对 Shell 脚本进行调用的能力,因此则不存在相关的问题。其中,还会涉及到Java 提供的两个类:即 Runtime 和Process。
3 结论
目前,随着高性能的计算机的逐渐增多,对于高性能计算机的管理软件的研究也逐渐的引起了人们的重视。对于高性能的计算机的管理软件的研究方案,大多数都是在Java程序的基础上进行设计的一种管理软件,本文主要对其基本的原理进行了研究,主要包括涉及到的基本知识、以及其内部的软件构成、软件的结构等进行了介绍。该管理软件的工作原理比较简单,并且解决了对高性能计算机进行远程的管理存在的难点。希望通过本文的介绍,能够起到一定的参考作用。
参考文献
[1] 赖万东,钟理.浅析应用计算机软件辅助化工原理课程设计教学[J].化工高等教育,2012(01):63-65+70.
[2] 陈奇,朱家诚,公彦军.将计算机软件引入机械原理教学的探索与研究[J].合肥工业大学学报(社会科学版),2011(01):145-148.
[3] 向健极.计算机软件开发的基础架构原理分析[J].武汉冶金管理干部学院学报,2014(02):70-72.
全球领先的存储解决方案提供商希捷科技公司(NASDAQ:STX)日前了配备Nytro?智能输入/输出管理器的ClusterStor 300N存储系统,该系统再次壮大了专为高性能计算打造的可扩展存储系统家族,同时也是首个采用闪存缓存加速器的系统。
有了基于软件的Nytro智能输入/输出管理器支持,ClusterStor 300N可在同一存储平台中同时无缝运行多个混合的工作负载,消除因数据需求超出现有存储架构能力而带来的性能瓶颈。因此,机构可将其应用于同一存储平台中,自动支持生成不同输入/输出工作量的多个应用,无需担心性能受到影响。ClusterStor 300N存储系统非常适合目前要求严苛的、数据密集型高性能计算应用比如地震预测、金融转型建模、机械学习、地理空间分析及流体力学等,这些应用的工作负载多重而且无法预知。
对于工作量未知、需要管理海量数据且寻求高性能及成本效益的机构来说,ClusterStor 300N是理想的选择,该系统集希捷领先的企业级硬盘、创新的固态硬盘设计以及最尖端的系统软件于一体,专为机构管理和移动海量关键数据而打造,同时保证工作效率及降低每TB成本。同传统高性能计算存储系统相比,Nytro智能输入/输出管理软件的吞吐能力提升10倍且能够随时进行快速扩展以适应不同工作负载。
希捷高性能计算系统业务副总裁兼总经理Ken Claffey称,“以超级计算为代表的特殊运行环境中,最大化数据的价值就是能够处理极端的、不可预知的存储量以及灵活地进行扩容。运用于我们可靠的工程系统中,希捷ClusterStor 300N采用混合技术架构、成本远低于全闪存就可以处理巨大工作负载,为不同规模的高性能计算环境交付最佳性能及价值。”
ClusterStor 300N架构为通用平台,同时适用于ClusterStor、Lustre和IBM Spectrum Scale存储系统,而L300N 和G300N分别适用于这几个系统。
Atos极限计算产品与解决方案负责人Eric Eppe表示:“在关键高性能计算的开发与支持方面,Atos极限计算有着很长的历史,也很高兴能够支持希捷全新系列的Nytro智能输入/输出管理器为基础的ClusterStor设备。我们相信,希捷的300N设备将帮助我们的高性能计算客户以全面、高效的方式解决他们几乎所有数据密集型的工作负载和数据分层问题。”
惠普公司高性能计算存储副总裁Mike Vildibill表示:“希捷300N能够满足我们客户对当前高性能计算存储环境的需求,提供超大密度、最大带宽和低延迟,并且易于管理。希捷ClusterStor 300N等全新存储创新产品对于满足上述需求和面对各种不同工作负载保持高水平性能而言至关重要。”
希捷300N将于2017年1月全面发售。11月14日-11月17日期间,在美国犹他州盐湖城的2016超级计算大会(Supercomputing 2016)#1209希捷展台可以了解更多300N相关信息。大会期间,希捷其他技术展示包括密度最大的720TB双机架单元(RU)Lustre存储系统技术配置,可以据此打造全球首款15PB 42RU系统,以及NVMe over a Fabric 24盘全闪存阵列共享存储系统,可提供高达每秒480万的读写操作(IOPS),仅有单位数微秒级延迟。
ClusterStor系列架构是以希捷历经检验的企业级硬盘和Lustre与IBM Spectrum Scale等高性能并行文件系统为基础打造而成。ClusterStor系列将优越性能与超高效的可扩展性相结合,产品包括全新ClusterStor L300N和G300N,以及ClusterStor A200 Active Archive、ClusterStor L300、ClusterStor G200、ClusterStor 9000、ClusterStor 1500、ClusterStor安全数据设备和ClusterStorHadoop工作流加速设备。