在2008年的全球500强超级计算机榜单里,前几名被美国包揽,而且前100名里中国一席身影都没有。这种状况一直持续到2010年,深圳国家超算中心星云超级机实现了前100名零的突破,一举取得了世界第二的排名。随后这一情况势如破竹,2011年,中国天河1A超级计算机超过原排名第一的美国美洲虎系统取得了世界超级计算机的第一把交椅。紧接着从2013年起,我国的超级计算机就一直占据着世界超级计算机排名的第一位。而这一次,美国再次打破了这一局面,回到了曾经的巅峰位置。
在“天河二号”建成之后,前美国总统奥巴马就曾叫嚣过要建造一台比“天河二号”运算速度快三十倍的超级计算机,从而帮助美国在科研领域的领先地位。美国人深知超算的威力,虽然没有夸张的三十倍,但美国最新一代超级计算机却超过了中国“神威·太湖之光”近两倍。
新的第一名采用了IBM+NV的芯片
近日,美国能源部与IBM、英伟达合作打造出了新一代超级计算机,IBM将其称为Summit。其峰值运算性能达到200PFlops,也就是每秒执行20亿亿次浮点运算,是迄今为止性能最强的超级计算机,也标志着自2012年以来美国超算再次夺冠。
据了解,Summit在具体的配置参数上为基于IBM的Power Systems AC922做节点,每个节点搭载2个Power9处理器和6张NVIDIA Tesla V100 GPU显卡,总共设计约4600个节点。(Power9处理器依然是IBM的自研高性能微架构,80亿个晶体管,24个物理核心,每个核心承载4个加速线程,也就是96线程。支持8通道DDR4内存,带宽340GB/s。)
主机放一起可以装满两个篮球场,需要136英里线缆。在硬件的高速协同上,部署了96条PCIe 4.0通道、双端口的Mellanox EDR InfiniBand适配器(400Gbps)、支持NVLink 2.0(100GB/s),内存超过10PB(DDR4、HBM、非易失性混合),功耗15兆瓦(和神威一样)。定于2018年安装调试完成,未来Summit将被用于人工智能、能源以及其他科学研究方面的工作。
Summit 不仅代表美国重夺超算话语权的决心,也成功让 IBM Power 架构取代英特尔的 Xeon,重回超算领头地位,同时通过 IBM Power 9 的架构优势,让 GPU 计算的性能表现得以再往上提升。
几大芯片巨头谁是赢家、谁缺失了市场?
全球超级计算机的竞争是日趋激烈,日新月异,与普通计算机一样,超级计算机最核心的部件是芯片。在十几年前,超级计算机芯片供应商只有英特尔、IBM两家公司,英特尔与IBM型成了相对平衡双寡头局面。而之后AMD又参与了超级计算机芯片竞争,在美国的帮助下(对我国需求的高端芯片禁止出口)我国也加入了IBM与英特尔的超级计算机芯片的“战争”之中,打破了西方国家在这一领域的垄断地位。
虽然也遭遇到了巨大的竞争压力,但是从这几年世界超级计算机的发展来看,中国把其创新能力发挥得淋漓尽致,极大推动了这一领域的发展。“神威·太湖之光”超级计算机采用的是国产“申威26010”处理器,这也说明了中国超算在业内的领先地位,中国超算(天河一号、天河二号、天河三号)全部采用的是国产CPU。(天河一号刚出来夺得世界第一,当时确实是用英特尔处理器,后来美国对高端芯片禁止出口,天河一号也全换成国产处理器。)
在Summit之前,中国不仅拥有世界上最快的超级计算机,而且在最新公布的世界最快超级计算机500强排行榜上,中国的计算机占到四成。美国所占的比例不足1/3。超级计算机芯片由于长时间高负荷工作,每隔一段时间需要更换,因美国的高端芯片禁止出口并非只对中国产生影响,对生产“至强”芯片的英特尔公司而言,这不仅仅意味着减少大量芯片的销售额。虽然这个制裁不难绕过,但至少也会增加中国维护现有超算系统的麻烦和成本。刺激中国更多使用国产芯片来构建新型的超级计算机,将美国软硬件巨头排挤出中国核心领域市场。
超算技术长期来被视为一个国家创新能力乃至综合国力的象征,在诸如天气预报、生命科学的基因分析、航天等高科技领域发挥着至关重要的作用,因此也成为大国角力的擂台,当前竞争趋向白热化。
未来的百亿亿级超算,目前各国已经公布的研发计划和进度,谁会掌握未来高性能计算的脉搏?
“Summit”把算力推向另一个高峰,引领的是十亿亿次级别的争夺,美国也借 Summit 重回超算榜首地位,但这个宝座恐怕坐不了多久;在 Summit 推出的同时,全球的科技强国的超算计划也都分别往前推进了不少,毕竟百亿亿次的“E级超算”被公认为“超算界的下一顶皇冠”。目前,中、美、欧、日四强正在卯足劲向这一目标冲刺。
中国计划于2020年推出首台E级超算;美国能源部启动了“百亿亿次计算项目(Exascale Computing Project)”,希望于2021年至少交付一台E级超算,其中一台的名字为“极光(Aurora)”,初步规划峰值运算能力超过每秒130亿亿次,内存超过8PB,系统功耗约为40MW。此外,欧盟预计于2022年-2023年交付首台E级超算,使用的是美国、欧盟处理器,架构有可能类似ARM;日本发展E级超算的“旗舰2020计划”由日本理化所主导,完成时间也设定在2020年。
据新华社5月17日报道,国家超算天津中心当日对外展示了我国新一代百亿亿次超级计算机“天河三号”原型机,这也是该原型机首次正式对外亮相。据介绍,“天河三号”原型机将于今年6月部署,年底正式投入使用。“E级超算赛跑”中国在进度上暂时处于领先位置。
此外,国内现在同时启动了三大百亿亿次超算研发,分别是国防科大天津超算中心的天河三号、中科曙光的E级超算以及江南所济南超算中心的神威E级。以上三套百亿亿次超算中,有一条要求是共同的,那就是核心处理器必须是国产的。
写在最后
美国的超算,数量和利用率都是世界第一,大型计算可以几台机器协同计算,追求单台计算能力意义不大。当然,他想要做一台计算速度第一的超算,也是很简单的事。超级计算机竞争的核心动力某种意义上直接来源于其背后的芯片业发展。IBM Power 计算架构向世界展示了它的强大,而相较英特尔为主的 X86 体系逐渐走向封闭,其欲取代 X86 成为 AI 计算领域通用平台的的意图非常明显。
所以,我们和美国整体上差距是有的,但也不要看轻自己,随着中国两台E级原型机通过验收,美国这个第一还没坐实就要被撵下来了。就目前的发展情况来看,2020年或许将会成为这一重大突破实现的关键节点。所以,接下来的几年才是超算领域真正的重头戏。