超级计算机“塞拉”为何必须退役
作者: aeks | 发布时间: 2026-02-28 09:04 | 更新时间: 2026-02-28 09:04
学科分类: 兵器科学与技术 核科学与技术 管理科学与工程 计算机科学与技术
根据全球超级计算机排名榜单TOP500,“Sierra”曾是世界第二快的超级计算机。十多年前,在美国国家实验室官员的一次技术讨论会上,它的构想在芝加哥一家酒店的会议室中诞生。作为“终极设计产物”,Sierra由数千个IBM Power9 CPU和英伟达Volta V100 GPU组装而成——在当时的利弗莫尔实验室看来,这是一种大胆且非主流的架构。
和其他超级计算机一样,Sierra体型庞大。它由数千个计算节点组成,这些节点一个个堆叠在机柜(本质上就是柜子)里,机柜支撑着它的处理核心部件。它共有240个这样的机柜,分布在约7000平方英尺的空间内。所有这些都是为了支持它的主要工作:为美国国家核安全管理局进行专业的、超高安全性的模拟运算。在被“判死刑”时,它的处理能力在全球排名仍高达第23位,相当可观。
让Sierra“告别”的原因有几个。一是硬件的自然寿命。即使在刚建成时,某些全新的组件也可能存在缺陷,所以启动机器就相当于立即开始一项实验——发现制造错误并更换这些组件。之后,机器进入黄金时期。但最终,计算机的大部分芯片会被推到极限,故障率再次开始上升。这种“高-低-高”的故障循环,IT专家有时称之为“浴缸曲线”,显然,人们不愿让机器走到曲线的另一端。“就像人类一样,随着年龄增长,你可能会得更多的‘病’,”东北大学研究高性能计算的德韦什·蒂瓦里说,“你可能会更频繁地出故障,所以需要更多的‘照顾和喂养’。”另一个相关问题是硬件和运行它的软件的过时。更换部件变得困难,甚至根本无法获取。
实验室负责武器模拟与计算的副主任罗布·尼利表示,Sierra并未过度进入浴缸曲线的最后阶段,但已面临这种危险。IBM和英伟达的相关组件都已停产,而且IBM也不再支持Sierra使用的红帽企业版Linux操作系统。“这实际上与资源有关,”美国能源部(负责监管国家实验室系统)前首席信息官安·邓金说,“如果他们有无限资源,就会运行无限多的超级计算机。”七年是超级计算机相当典型的寿命。
但对Sierra存在构成最大威胁的,是它更新、更快的继任者——“El Capitan”(曾是实验室里的“邻居”)。在外行看来,Sierra和El Capitan看起来没太大不同。它们都是一排排嗡嗡作响的机柜,连接着地板下的巨大电源。但关键在于内部。Sierra的组件令人印象深刻,但El Capitan在2025年投入使用时,配备了AMD Instinct MI300A APU,以及CPU和GPU共享的公共内存。它运行时最多需要36兆瓦电力(而Sierra是11兆瓦)。实验室称,这足以供3.6万户普通家庭用电。
衡量超级计算机的标准有很多,但关键指标是每秒浮点运算次数(flops)。运算速度越快,就越“成功”。Sierra巅峰时期每秒能达到94.64千万亿次浮点运算。而El Capitan以1.809百亿亿次每秒的速度,大约比Sierra快19倍。2025年底,它被正式宣布为世界上最快的超级计算机。尼利说,Sierra的“价值”已不再值得投入。
退役过程分阶段进行,先从计算节点和机柜交换机开始——管理节点最后处理,因为直到最后都需要它们。这个过程包括运行脚本以数字方式关闭计算机,然后关闭硬电源开关。还有“脱水”步骤。Sierra运行时会变得很热,所以实验室每分钟会循环数千加仑水,这些水通过从地板下延伸上来的“血管状”管道输送。在它“临终”前,这些水必须排掉。安全人员会先对水进行检测,确保其pH值对环境无害。
值得一提的是,超级计算机可以有更体面的退役方式。有些会捐赠给其他机构或博物馆,也可以拍卖,就像美国总务管理局在2024年处理由硅谷图形国际公司制造的千万亿次超级计算机“Cheyenne”那样。但事实是,旧超级计算机的需求并不多,大多数都被拆解取零件。早在2013年,新墨西哥州在无法引起人们对其州资助的“Encanto”超级计算机整机兴趣后,选择将其拆解成零件出售。阿贡国家实验室曾试图将其曾是世界第三快的“Intrepid”超级计算机的大部分捐赠给其他实验室和一家计算机博物馆,但接受者寥寥。除了少数机柜被送往北卡罗来纳州立大学,Intrepid最终被回收了。
Sierra的回收规模极为庞大。毕竟,它是为支持国家核储备而设计的,因此充满了机密数据——不能就这么扔掉。相反,必须将Sierra彻底“粉碎”,以避免任何可能被部分“复活”并用于重建国家机密的风险。这是一个“血腥”的过程。工作人员戴着手套,取出节点并移除遍布各处的锂离子电池(这些电池将被送往专业电池回收商)。其他部件,如系统板、处理器以及支撑Sierra的框架机柜,会被送到场外进行粗粉碎。任何无法回收的东西,在经过严格的数据安全分析后,都会被销毁。
然而,Sierra的闪存组件即使在断电情况下也能存储数据,因此这些组件会被研磨成极细的粉末。同时,为了处理任何磁驱,实验室楼下有一台经过政府批准的特殊消磁器。这个装置使用永久磁铁(一种无需电力就能产生磁场的材料)来彻底清除组件上的数据(这块磁铁的磁力强到足以消掉附近的信用卡信息,还会干扰敏感的医疗设备)。
整个过程需要几个月时间,就Sierra而言,在这篇报道发表时应该已接近完成。最后一步,电工永久切断它的电源。它将彻底消失,只留下地板下的冷却和电力系统,以及实验室用于保护超级计算机免受地震影响的结构基座——这些会为它的继任者保留。
有些人告诉《连线》杂志,当这些机器“死亡”时,他们确实会感到难过。其他人则强调,感到失落的是那些实际运行模拟运算的用户,而非IT部门。“你知道,我从未对任何硬件产生过情感依恋,”桑迪亚国家实验室的系统工程师拉里·巴卡说。在他的职业生涯中,他已经打包过几十台计算机。负责TOP500排名的超级计算专家霍斯特·西蒙也认为没什么好沮丧的:“虽然个别超级计算机会‘死亡’,”但计算领域“非常有活力”。
除非有一天不再如此。专家表示,这一切至少有两种可能的终结方式。一种可能是,有一天,新硬件与旧软件、新软件与旧硬件的同步变得非常容易,以至于不再需要全新的超级计算机——只需同一台机器,配上源源不断的更好的替换零件。另一种不太令人兴奋的可能是:我们可能再也找不到更好、更快的芯片型号来证明建造新机器的合理性。许多人担心,摩尔定律确实在放缓。
不过目前,Sierra的终结将为另一台几乎肯定会占据它曾经位置的超级计算机让路。“这只是生活的正常部分,”IT办公室的艾伦说,“就像,你知道的,你的猫或狗突然变得非常昂贵,占用你大量时间,还问题不断,对吧?最终你不得不进行这样的‘讨论’。”
标签: El Capitan Sierra 浮点运算 超级计算机 退役