弘扬民族精神 奋斗成就梦想
超级计算技术是当前最具前瞻性的研究领域之一,今年7月,我国自主研发的新一代百亿亿次超级计算机原型机系统在津完成研制部署,标志着我国在该领域迈出重要一步。在国家超级计算天津中心(简称“天津超算中心”),有一群平均年龄不到30岁的年轻人,他们投身于超算的系统平台建设和运行管理,攻坚克难,不断突破,从“天河一号”到“天河三号”原型机,用一串串跃动的代码谱写出奋斗者之歌。冯景华就是这群年轻人的“队长”。
今年34岁的冯景华,在天津超算中心算是一位不折不扣的“老人”。自2010年研究生毕业加入天津超算中心以来,他一直从事系统管理工作,8年时间,从青涩的学生成长为部门带头人。他带领的团队也由最初几个人壮大到30多人,成为天津超算中心的重要技术部门之一。走进天津超算中心,系统监控室里的18块屏幕不停闪烁,实时监测着“天河一号”和“天河三号”原型机系统数百个机柜的运行状况。这就是冯景华和同事们工作的地方。
“天河三号”全面采用自主核心技术,实现关键领域突破,运算能力将比“天河一号”提高200倍,因此更具挑战性。“这项复杂的系统工程对运行保障团队提出了更高的要求。”冯景华说,“‘天河三号’在计算密度上比‘天河一号’大幅提高,芯片结构完全不同。‘天河一号’的管理经验不能完全照搬过来,需要一边摸索一边创新。”
超级计算机全年运转无休,系统管理团队要24小时在岗。在“天河三号”原型机系统刚完成研制部署不到一个月时,一次突发的升温预警,让系统管理团队经历了紧张的考验。8月的一天,晚上10点多,“天河三号”原型机系统突然升温,机柜温度从26℃上升到了29℃,仅仅3℃的变化,让整个系统管理团队紧张忙碌起来。“‘天河三号’原型机采用了全新的水冷系统降温,降温效果更好、噪声更小,也更节能。但如果制冷系统一个环节出现问题,就可能影响到整个系统的运行。当时是一个传感器突然停止运行,导致制冷系统停滞,温度升高很快,只给我们3分钟至5分钟的处理时间,需要手动切换到另一套制冷系统运行。”当时24小时值班的系统监控人员迅速发现并解决了这个问题,没有影响到机器的运转。然而,这个突发状况,让冯景华和同事们在接下来的半个月里寻根究底,制定出三套方案,反复论证,并在系统满负荷运行状态下应急演练和故障模拟,终于筛选出一套完善的应急自动切换方案,加入系统部署,彻底解决了这一问题。
“这次突发状况,在技术难度上并不大,却考验了系统管理团队的应急反应速度和及时解决问题的能力。‘天河三号’原型机系统研制成功几个月来,已在数十个领域开展应用,取得了一批突破性成果,超级计算机正日益成为科技创新和产业发展的重要平台。今后需要我们以更完备的系统保障支持超算在更多领域和更深层次的应用。”冯景华说,“最近,基于‘天河一号’建立的天河工业云平台,迎来矿业云、建筑云和焊接云等新模块上线,将帮助更多企业节约研发投入,降低信息化使用门槛,加快制造业转型升级。”
“超级计算机是体现一个国家科技竞争力和综合国力的重要标志,必须不断超越。作为一名科研工作者,我庆幸能参与、见证我国超算领域的进步,也将为超算事业不懈奋斗,为早日实现科技强国梦贡献一份自己的力量。”(津云新闻编辑刘颖)