天河三号超算系统
技术人员在运用超算解决地质难题
国家超级计算天津中心技术人员参与天河三号研发
天津超算中心刘光明领取“世界第一”获奖证书
国家超级计算天津中心
日前,由国防科技大学和天津海河传媒中心联合制作的三集纪录片《逐梦天河》正式播出。纪录片讲述了中国超算从萌芽、起步到登顶世界第一的发展历程,通过一代代以祖国需要为己任的计算机科技攻关队伍接续奋斗的故事,诠释了科学家精神的深刻内涵……
“每秒一亿次,一次不少!六年研制时间,一天不拖!预算经费,一分不超!”
1994年二三季度,是中国东南沿海一年当中最厉害的台风季。9月,在南太平洋形成的第17号台风,在浙江一带登陆,正是因为“银河-Ⅱ”巨型计算机提前的预报,准确判定了台风的强度和具体登陆地点,相关部门将台风造成的损失降到了最低。
此时,距离“银河”巨型机问世整整过去了11年。
……
慈云桂教授,中国首台巨型机“银河-Ⅰ”的总设计师。21岁时他在逃避战乱途中考取西南联合大学航空系,但却因病无法前往昆明报到,只好就近借读于湖南大学机械系,此后,因成绩优异被保送到清华大学。新中国成立后,慈云桂调入哈军工海军工程系任副主任、雷达教研室主任。半个世纪前,凭着一本只有数十页纸的计算机科普书,他带领9名学员迈出了中国自主设计研制电子计算机的第一步。
慈云桂将团队分成两组,一组由他率领南下北京,赴中科院计算机研究所学习研制磁芯存储器,解决元器件困难;另一组攻克基本电路设计实验以及运算器、控制器逻辑设计等一系列难关。
两年后,我国第一台自主设计制造的计算机107机研制成功。
1964年11月,我国第一台晶体管通用数字计算机441B宣告诞生。
此后10年,随着集成电路技术的应用,世界算力再次迎来新的突破。但几乎就在中国百万次计算机诞生的同时,美国科学家运用向量技术,实现了数据批量化处理,算力直指亿次大关,标志着计算机前沿领域跨入高速度、大容量的巨型机时代。
时钟的指针来到1978年,中国迎来了科学的春天。改革开放总设计师邓小平指出:“中国要搞四个现代化,没有巨型机不行!”当年阳春三月,中央召集巨型机研制部署会,研制任务又一次落在了慈云桂的肩上。
年逾花甲的慈云桂,受领任务后,立下军令状,“每秒一亿次,一次不少!六年研制时间,一天不拖!预算经费,一分不超!”
那时,中国工业基础薄弱,电子元器件性能和工艺水平落后,慈云桂的研究人手不足一百, 连间像样的实验室都没有,设备严重老化,加之国外对技术的封锁,这时候启动每秒亿次巨型机工程,无异于霸王硬上弓。
元器件落后,还要保证巨型机的算力,这使设计变得更加复杂。巨型机由7个楔形机柜组成,每个机柜可安7块底板,每块底板可插入14块插件,需要通过四万多根直径0.5毫米的细线有序连接起来,一旦出现错绕虚焊,整个电路板都将报废。
“在绕接的时候,两个人在上面绕,一个人在不停地报图纸的位置,并且要两遍三遍地核实。”国防科大原绕接组员工杨萍回忆。
这是一次以勤补拙的艰难探索。5年时间,慈云桂和全体研发人员放弃了节假日,吃在工厂、睡在机房。当时加班费一晚上两毛钱,却没有人来领。为的是省下每一分钱,用在零件、设备的生产上,尽快造出中国的巨型机。
最终,全机4万多条绕接线、12万个绕接点、861块插件板、200多万个手工焊点,无一错绕、无一虚焊。
“银河-Ⅰ”巨型机整机连续运行12天、主机连续运转289小时,毫无故障!1983年12月22日,新华社、人民日报、解放军报等近二十家中央媒体同时向世界宣布:中国第一台每秒运算一亿次以上的“银河”巨型机研制成功!这标志着中国跻身世界少数几个能研制巨型机的国家行列。
“一个国家、一个团队持续30年做一件事,拿个世界第一还有问题吗?”
关键核心技术,要不来、买不来、讨不来,这是中国计算机事业从无到有,艰苦奋斗几十年来,最深切的感受。
1986年3月,一项着眼世界战略性高科技发展的计划,被提上党中央议事日程。这项重大决策被命名为“863计划”。
在“863计划”助推下,“曙光一号”“银河-Ⅲ”“神威Ⅰ”等高性能计算机在中国南北相继诞生,逐渐形成了“曙光”“银河”“神威”三大系列,一如三支国家队,你追我赶,算力迅速攻破百万亿次。
自上世纪90年代开始,高性能计算机的发展依靠大规模并行计算,就是把几十、几百、上千个CPU中央处理器联结在一起。然而,当CPU数量增加到一定程度时,并不能带来运算速度的提高,却遇到了一系列瓶颈无法解决。
世界亟待一次突破。而这一次,灵感来自于中国。
2008年8月8日,奥运之火点亮中国,在举国欢庆的夜晚,国防科技大学的“银河楼”里灯火通明。国防科技大学和天津正式启动“国家超级计算天津中心”建设,联合承担“千万亿次高效能计算系统”的研制。在这里,一个全新的方案正在酝酿。
经过长达半年的封闭攻关,软件程序历经8万多次改进优化,最终,科研人员采用混合语言编程等技术,实现了计算核心异构协同,一举将GPU的计算效率提高到70%以上,达到世界最高水平。
2009年金秋十月,新中国六十华诞,我国首台千万亿次超级计算机宣告诞生,命名为“天河”。
从此,目光聚焦到渤海之滨──天津滨海新区。2010年夏天,“天河一号”超级计算机在这里进场安装。
“天河一号”副总设计师、国家超级计算天津中心首任主任刘光明回忆:“当时是6、7月份,正赶上桑拿天,机房里面空调还没到位。来了60个刚刚入校的硕士生,都是军人学员,有时候大家把衣服脱掉就穿个背心,身上刮得一道道的血印子,看着也挺心疼的。但是不这样做肯定赶不上,所以就24小时接班,只争朝夕……”
在科研人员的争分夺秒下,“天河一号”比原计划提前近一年时间成功入驻国家超级计算天津中心。与此同时,“天河一号”也在大洋彼岸掀起了波澜。
历史的高光时刻,停留在2010年11月16日。
这一天,在美国路易斯安那州新奥尔良市举办的世界超级计算大会上,“天河一号”二期系统以计算峰值4700万亿次,高出第二名美国克雷“美洲虎”1倍多的绝对优势,勇夺国际T0P500排名第一。
中国超算实现了弯道超车!
刘光明代表“天河一号”研制团队,接过刻有“中国制造”的奖牌。这是自鸦片战争以来,中国人第一次登上世界科技竞赛最高领奖台。
“当时记者采访问到,你怎么拿到世界第一的?感觉质疑我们为什么会有这样的技术实力,是不是偷了他们的核心技术,”刘光明回忆,“我说,一个国家、一个团队持续30年做一件事,拿个世界第一还有问题吗?中国超算此后辉煌的十年,在这个起点上意义非常重大。”
“超算中心所有费用加起来,实现收支平衡,还有结余,这在全世界是第一家。”
“天河一号”登顶世界第一后,外界的质疑随之而来,有风凉话说,“天河”超级计算机中看不中用,甚至说“天河一号”就是一台大号游戏机。
超级计算机最重要的作用就是开展应用、服务国家。对于国家超算天津中心应用研发部部长孟祥飞来说,当年他正是因为在自己的研究领域国内缺少计算能力支撑,而选择留学美国。中国与发达国家的差距,深深触动了孟祥飞,2010年他毅然决定回国加入天河团队,成为天河应用研发的中坚力量。
顶着外界各种压力和质疑,他毫不犹豫地说,“做不好‘天河一号’的应用,我就卷铺盖卷走人!”
彼时,国内超级计算机的应用刚起步。为了让“天河一号”尽快服务国家经济社会发展,签了军令状的孟祥飞带着团队,开始在全国各地奔波推广。
艰难之时,孟祥飞接到了来自中国石油东方地球物理公司的合作意向,其前身石油部物探局正是“银河-Ⅰ”巨型机的首个应用单位,这让天河团队看到了希望。
在2009年前后,石油勘探领域有一项技术叫做“逆时偏移”,是当时比较热门的一项成像技术。这项技术如同给大地做CT,是将地下构造通过计算机成像出来,作为钻井的依据,但需要传统成像技术几十倍的计算量。如果使用常规计算机需要运算40多天,但距离这款成像软件的发布时间,仅剩下短短一个月。
时间不等人,石油技术研发团队决定用“天河一号”试一试。
“那天我们晚上8点多调好程序把作业任务发到计算机上去,到10点钟的时候大家去吃饭,吃完饭回来发现已经死机了。”中国石油东方地球物探有限公司研发部副主任武威回忆。
这样的状况出乎意料,拥有着峰值4700万亿次的“天河一号”,怎么突然卡了壳?所有人都在分析可能的原因,寻找解决的办法。
“那天晚上大家忙到夜里2点左右,修复存储、讨论方案。”武威说。
为了解决这个问题,天河团队针对这种大规模数据吞吐的需求,结合天河超级计算机的结构设计,进行了负载均衡数据压缩等技术优化。
一直到第二天下午6点,“逆时偏移”成像软件终于得以在“天河一号”上完美呈现。从原计划的40多天,到实际执行的16个小时,“天河一号”用时间证明了自己。
2010年12月8日,《中国日报》向全世界介绍了这一成功案例,“天河一号”再次让全世界为之关注。
眼下,“天河一号”已经服役10年,每天运行计算任务超过1400个,一千多个科研团队借助“天河一号”开展科研工作,构建形成了石油勘探、生物医药、动漫与影视特效渲染、高端装备制造、地理信息等五大高性能计算应用平台。
到2013、2014年时,国家超级计算天津中心已经实现了收支平衡,大大超出了所有人的预期。“我们不只是把投资能回收,超算中心所有费用加起来,实现收支平衡,还有结余,这在全世界是第一家。”刘光明说。
从“银河”的历史性突破,到“天河”、“神威”等一系列超级计算机不断刷新世界速度,中国超级计算机的跨越只用了40年。今天,在国际TOP500名单里,中国超级计算机已经占据了228台,部署量位居世界第一。
在新时代的中国,大到国产大飞机C919的气动外形制造,小到商品包装盒的抗压设计,超级计算机技术正深入到国家发展的各个层面。七家国家级超算中心横贯南北,一个资源共享覆盖全国的国家超算网络正在形成。
2020年新冠肺炎疫情肆虐全球,通过超级计算机的演算,人类已经发现了新冠肺炎会导致人体停止分解一种叫做缓激肽的化学物质,从而导致患者肺部充满液体并引发炎症,使患者呼吸困难。而依托超算的大数据技术,在疫情联防联控精准施策过程中的应用同样初见成效。
如今,世界超算领域正迈向E级计算,即10的十八次方每秒百亿亿次运算,被全世界公认为是超级计算机界的下一顶皇冠。早在三年前,中国就超前布局,同时启动了E级超算的研制计划。
在第二届世界智能大会上,由国防科技大学和国家超级计算天津中心共同研发的新一代百亿亿次超级计算机“天河三号”原型机惊艳亮相。如今,天河、神威、曙光三大E级原型机已全部交付。
无论过去还是现在,无论苦难还是辉煌。“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”已成为中华民族精神不可或缺的一部分。面对未来人类发展的诸多难题,需要科技的支撑构建人类命运共同体。“超算”的故事还将持续,中国的贡献还将继续。(津云新闻编辑刘颖)