曙光副总裁聂华:E级超算要来了,E级应用还远吗
日前,中科曙光在其举办的“2016曙光技术创新大会”上宣布,正式启动由其牵头的E级高性能计算机(简称“E级超算”)原型系统研制项目。曙光公司副总裁沙超群透露,按照预期目标,在该预研项目结题时,中科曙光将研制出能效比10GFlops/W以上、保证可扩展至10万节点、PUE低至一定水平的E级超级计算机的原型系统。
那么,E级高性能计算机相对于“神威太湖之光”强在哪里?是否会采用国产芯片和操作系统?究竟何时能建成呢,带着这些疑问,观察者网专访曙光副总裁聂华为网友们答疑解惑。
**观察者网:**E级超算原型系统和最后的E级超算差别在哪里?
**聂华:**简单地说,原型系统在速度、规模等方面和最终的E级超算存在差距。研制原型系统的目的,是对一些关键技术难点进行测试和改进,为最后建造全部的系统扫清障碍,避免出现大的技术错误和难题。在攻坚E级超算课题的路径上,曙光的计划是:
·完成E级原型机系统;
·验证E级机研制的关键技术和路线图;
·形成E级机的完整方案;
·为国产E级超算的研制奠定技术基础。
**观察者网:**E级超级计算机的运行速度比“神威太湖之光”快多少?
聂华: E级超算是指每秒可进行百亿亿次数学运算的超级计算机。刚刚荣膺TOP500榜首的神威·太湖之光,运算速度达到93PFlops,接近每秒十亿亿次,峰值速度则突破了十亿亿次,那么E级超级计算机,则要求运算速度在此基础上提高至少一个数量级,即10倍以上。考虑到当前超算已经发展达到的水平,未来或将面临一定技术瓶颈,因而实现这一跃升并不简单。

观察者网:“神威太湖之光”把最快计算机的持续计算速度刷新到93PFlops,有舆论说超算已经性能过剩了,这种说法对么?
**聂华:**判断超算性能是否“过剩”,需要辩证地分析。
从绝对意义上讲,人类追求速度是永无止境的。这就像人类文明的发展,相对于广袤的未知空间,人类的智慧是非常有限的。随着不断深入地认识世界,人们越来越深刻地体会到这一点。在探求前沿领域、解决复杂问题方面,我们永远需要更加强大的计算工具,也就是超级计算机。所以,在这个意义上,从来不存在速度和性能过剩的问题。
与此同时,出现这种声音,也提示我们在操作层面,出现了一些问题。也就是说,在应用领域,我们的应用和课题设计没有和硬件发展取得同步,稍显滞后。对于我国,在超算应用层面方兴未艾,与历经几十年发展积累的发达国家还存在一定差距,而我国的超级计算机硬件发展速度飞快,所以这方面的问题就更加凸显。
有了这样的认识,未来我们全社会应该更加重视应用开发,让领先世界的中国超算更好地为国家发展服务。
需要强调的是,曙光作为一家企业,完全遵循市场化运作,靠市场生存。因而推动超算市场化、商业化关系到企业的生存根本,因此应用更是曙光关注的焦点。近年来,曙光着力发展超算的应用,推动超算在市场中的应用,尤其是在云计算、大数据领域的应用,取得了显著成绩。
**观察者网:**发展E级超级计算机的意义何在?
**聂华:**用技术发展的眼光来看待,超级计算机从诞生之日到今天,其所发挥的重要所用不断突现。也就是说,随着超算性能的不断飞跃,随着人类社会、文化、科技等不断发展,我们不断欣喜地发现,超级计算机的应用领域在不断扩展,从最初局限于前沿科技到今天渗透进你我的生活。随着神威·太湖之光将人类超算速度刷新到接近100P,下一步实现E级超算,也就是1000P,已成为各国重要的战略课题。从这个意义上来说,早日实现E级超算,也标志着人类技术水平一个里程碑意义的跨越。作为地球村重要成员的中国,有能力、有义务、也有抱负,来率先实现这一目标。
以国家战略的眼光来审视,超级计算机是一个国家技术水平和综合国力的体现。发展E级超算,争取率先摘得这个王冠上的璀璨明珠,不但能够激励我国超算事业更快发展,还能带动与之密切相关的其它领域更快发展。与此同时,事关国家荣誉,它也将进一步提升全国人民对国家的信心,增强国人自信,推动国家进步。
曙光作为商用高性能计算机的领导厂商,不断致力于推动应用市场化。云计算、大数据时代的到来,为超级计算机打开了一片新的市场,很多E级应用都需要用E级超算来解决,在这方面,曙光已经在地球模拟、地球观测、环境预测三个领域,做了有益尝试。
案例方面,我们有两个潜在的E级应用:
一个是曙光与中科院电子所合作,联合投资成立了航天星图。航天星图是立志于做全球领先的空天数据系统和服务,专门处理卫星数据,种类多样的卫星产生的数据量非常大,一颗大的卫星一天的数据量就是上百个T,这些数据如何处理,从而为宏观决策、国计民生能发挥作用?这就是合资公司航天星图展开的E级应用开发。
另外,曙光与中科院大气所成立了中科三清,针对日益引起关注的雾霾问题,建立一套面向生态大数据平台的科技治霾的E级应用,包括雾霾成因更加精准地分析,以及为治霾提供决策支持。我们希望中科三清通过曙光的超级计算机跟环境数据的结合,能够打造一个天蓝、地绿、水清的世界。在这一过程中,模式、数据、超级计算机成为科技治霾的完整方案的组成部分,缺一不可。
按照公司领导的部署,未来曙光每年要争取开发两个重大应用领域,积累十年就可以为E级计算机找到20个重大应用,在气候、生态环境、航天、乃至癌症、犯罪等等领域,发挥高性能计算机的巨大价值,让E级超算真正用起来。
**观察者网:**曙光6000曾经采用过龙芯,加上曙光和计算所的关系,E级超级计算机会采用计算所研制的众核芯片么?
**聂华:**提到芯片,我相信未来也是百家争鸣、百花齐放的状态。曙光在实施E级超算研发的过程中,国产芯片毫无疑问是首要考虑的方案。
由于目前处于预研阶段,对于关键问题尚未有定论,我们会基于原型系统的研发,综合评估,确立最佳方案并及时公布。
**观察者网:**曙光的E级超级计算机能像“神威太湖之光”那样实现芯片、互联网络、操作系统等核心技术全部自主研发么?
**聂华:**如果简单问能不能,那么国人已经实现了的,我们的回答是一定能!而且,曙光也热切期盼我们国家在芯片、网络和操作系统,乃至应用领域都领先世界,成为实现E级超算的首选。
中国超算的起步,正是受制于发达国家的禁运,让我们认识到自主创新的主要性,曙光对此有着深刻的体会和认识。在这个意义上,神威·太湖之光再一次证明了中国在超算领域有能力在自主创新中取得领先,也给某些秉持保守落后的技术发展思维的发达国家上了一课。

一名研发工程师展示“神威太湖之光”所使用的“申威26010”众核处理器
然而回过头来,我们冷静客观地审视这个问题,盲目强调绝对的自创也不是我们应有的态度。归根结底,超级计算机代表的是全人类的技术进步。面对全人类共同的技术课题,开放包容、合作共赢的思路,一定程度上会帮助我们更加高质量、高效率、低成本地解决问题。
目前,曙光的E级超算刚刚启动,未来一切皆有可能。我们将综合考量,选择最适合的方案。
观察者网:“神威太湖之光”的性能功耗比是6GFlops/W,E级超级计算机如何做到10GFlops/W?
**聂华:**为应对扩展性的挑战,我们采用了层次化的设计,即6D-Torus全互联架构,我们从处理器、加速部件到节点,多个节点形成一个超节点,多个超节点组成一个硅元,由多个硅元形成超级计算机系统,这样可以进行很好的扩展。在这个网络里面,超节点采用IDC方向的互联,超节点之间采用XYZ方向的互联。我们采用的弹性的、可成定义的计算部件。这个计算部件采用自主知识产权的处理器和加速部件,可以达到性能功耗比每瓦10GFlops以上。在最近一次德国的超算大会上,全球最绿色的超级计算机6.6GFlops/瓦,也就是通过采用6D-Torus全互联架构,我们的性能功耗比将会提高一倍。
**观察者网:**E级超级计算机最大的挑战和技术难点在哪里?
**聂华:**实现E级超算,在访问存储、稳定性、功耗、扩展性等方面都面临着巨大的挑战。从技术角度看,最关键的难点在于功耗——如何能够在达到百亿次运算速度前提下,将功耗控制在20MW之内,这是世界各国面临的难题。
从超算作为一个行业的发展角度来看,E级计算机应用的挑战是最大的。从5年前,曙光就关注这个问题:这么大一台机器,几十亿的规模怎么把它用好、用出水平、用出规模?这是更大的跨越。对于曙光来说,没有应用,总有一天超级计算机做不下去,因为曙光是企业投入、市场是企业开拓,如果超级计算机技术不能在市场上获得应有的回报,总有一天超级计算机的市场会萎缩,我们的研发投入和创新就会萎缩。值得欣慰的是,5年来,曙光通过潜心钻研超级计算机与云计算、大数据、人工智能的结合点,应该说,我们有了一定的答案。
**观察者网:**新的E级超级计算机是由中科曙光、国防科技大学和江南所联合研制?还是三个单位各自为战,在几年后建成2-3个E级超级计算机?
**聂华:**应该说这里面既有竞争又必然包含合作。“十三五”规划确立三家单位各自牵头推进E级超算项目,未来会经过评估,确定一两家来完成,而攻坚阶段很可能会产生合作。
需要指出的是,三家单位在产品和市场上各有特色,缺一不可,共同促进中国高性能计算机产业的发展:
江南所最突出的是使用了全国产的CPU,在其它自主技术方面也很好,且在本次top500中获了第一名;
国防科大在自主高性能互联网络方面也非常独到,在网络方面拥有很好的技术,采用通用CPU;
曙光是三家机构中唯一完全遵循商业化市场运作的企业,因而更加注重高性能计算机的产品化、市场占有率。在商业化方面,曙光是做的比较好的。可以发现,目前国内最快的高性能计算机不是曙光的,但曙光连续7年蝉联中国高性能计算机TOP100排行榜市场份额第一,由此可以看出曙光更加注重市场份额。
**观察者网:**E级超级计算机原型系统以及E级超计算机预计何时才能够建成?
**聂华:**根据十三五规划,国家计划在2020年实现E级超级计算机的研制。根据目前的进度规划,目前处于预研阶段,两年后将对这阶段成果,主要是原型系统进行评估,之后进入下一阶段。
(采访:铁流 微信公众号:tieliu1988)
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。