天津在线

首页> 资讯中心> 天津> 正文

国家超级计算天津中心系统管理部部长冯景华:为实现超算强国梦奋斗

弘扬民族精神 奋斗成就梦想

超级计算技术是当前最具前瞻性的研究领域之一,今年7月,我国自主研发的新一代百亿亿次超级计算机原型机系统在津完成研制部署,标志着我国在该领域迈出重要一步。在国家超级计算天津中心(简称“天津超算中心”),有一群平均年龄不到30岁的年轻人,他们投身于超算的系统平台建设和运行管理,攻坚克难,不断突破,从“天河一号”到“天河三号”原型机,用一串串跃动的代码谱写出奋斗者之歌。冯景华就是这群年轻人的“队长”。

今年34岁的冯景华,在天津超算中心算是一位不折不扣的“老人”。自2010年研究生毕业加入天津超算中心以来,他一直从事系统管理工作,8年时间,从青涩的学生成长为部门带头人。他带领的团队也由最初几个人壮大到30多人,成为天津超算中心的重要技术部门之一。走进天津超算中心,系统监控室里的18块屏幕不停闪烁,实时监测着“天河一号”和“天河三号”原型机系统数百个机柜的运行状况。这就是冯景华和同事们工作的地方。

“天河三号”全面采用自主核心技术,实现关键领域突破,运算能力将比“天河一号”提高200倍,因此更具挑战性。“这项复杂的系统工程对运行保障团队提出了更高的要求。”冯景华说,“‘天河三号’在计算密度上比‘天河一号’大幅提高,芯片结构完全不同。‘天河一号’的管理经验不能完全照搬过来,需要一边摸索一边创新。”

超级计算机全年运转无休,系统管理团队要24小时在岗。在“天河三号”原型机系统刚完成研制部署不到一个月时,一次突发的升温预警,让系统管理团队经历了紧张的考验。8月的一天,晚上10点多,“天河三号”原型机系统突然升温,机柜温度从26℃上升到了29℃,仅仅3℃的变化,让整个系统管理团队紧张忙碌起来。“‘天河三号’原型机采用了全新的水冷系统降温,降温效果更好、噪声更小,也更节能。但如果制冷系统一个环节出现问题,就可能影响到整个系统的运行。当时是一个传感器突然停止运行,导致制冷系统停滞,温度升高很快,只给我们3分钟至5分钟的处理时间,需要手动切换到另一套制冷系统运行。”当时24小时值班的系统监控人员迅速发现并解决了这个问题,没有影响到机器的运转。然而,这个突发状况,让冯景华和同事们在接下来的半个月里寻根究底,制定出三套方案,反复论证,并在系统满负荷运行状态下应急演练和故障模拟,终于筛选出一套完善的应急自动切换方案,加入系统部署,彻底解决了这一问题。

“这次突发状况,在技术难度上并不大,却考验了系统管理团队的应急反应速度和及时解决问题的能力。‘天河三号’原型机系统研制成功几个月来,已在数十个领域开展应用,取得了一批突破性成果,超级计算机正日益成为科技创新和产业发展的重要平台。今后需要我们以更完备的系统保障支持超算在更多领域和更深层次的应用。”冯景华说,“最近,基于‘天河一号’建立的天河工业云平台,迎来矿业云、建筑云和焊接云等新模块上线,将帮助更多企业节约研发投入,降低信息化使用门槛,加快制造业转型升级。”

“超级计算机是体现一个国家科技竞争力和综合国力的重要标志,必须不断超越。作为一名科研工作者,我庆幸能参与、见证我国超算领域的进步,也将为超算事业不懈奋斗,为早日实现科技强国梦贡献一份自己的力量。”(津云新闻编辑刘颖)

版权声明

一、凡注明来源为"天津在线"的所有作品文字、图片、音视频、美术设计和程序等作品,版权均属天津在线或相关权利人专属所有或持有所有。

二、未经本网书面授权,不得进行一切形式的下载、转载或建立镜像。否则以侵权论,依法追究相关法律责任。

三、凡本网注明"来源:XXX(非天津在线)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

四、转载声明:如本网转载作品涉及版权等问题,请在作品于本网发表之日起30日内及时同本网联系,否则视为放弃相关权利。

免责声明:本文仅代表作者个人观点,与天津在线无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们删除:jubao@72177.com

今日天津