算力「芯」动向 | 中国超算回榜首:灵晟2.198E登顶TOP500!但成绩单背面这三个细节,比第一更刺激

中国超算时隔8年再夺TOP500榜首,灵晟2.198E登顶。但看点不在名次:HPL第一不等于全球最强算力,纯CPU是封锁倒逼的新赛道,30套对162套暴露生态鸿沟,84.4%扩展效率才是隐藏杀招。




时隔8年,中国超算终于又回到了TOP500榜首的位置。

德国汉堡ISC 2026会议上,深圳国家超级计算中心的灵晟系统以2.198 ExaFLOPS的HPL成绩,把美国劳伦斯利弗莫尔国家实验室的El Capitan按在了第二名。


朋友圈里已经开始刷屏,但真正的行业观察者,会先把恭喜的话咽回去,翻过这张成绩单看看背面。

因为背面写着的三个细节,比第一这个数字更值得细品。

TOP500第一,不等于全球最强算力

先泼一盆冷水。

灵晟拿下的这个第一,考的是HPL高性能Linpack基准测试,本质上是一场双精度浮点运算的闭卷考试。但眼下算力市场的主战场早就换了考卷,大模型训练用的是BF16和FP16,推理甚至已经卷到了INT4和INT8。

灵晟在HPL-MxP混合精度基准测试里排名第四,在HPCG高性能共轭梯度测试里倒是拿了第一,这恰恰说明它的绝对强项是科学工程计算,而不是当下最热门的AI训练。

更关键的是,TOP500榜单从来就不是全球算力的全部版图。

亚马逊、微软、谷歌和xAI等云巨头的AI训练集群根本没有提交参赛,它们的系统如果参与排名,榜单座次会立刻重写。

加州大学的研究人员之前就直言,如果超大规模数据中心愿意提交成绩,灵晟的有效排名甚至会跌出前五。

所以灵晟的登顶,更像是在一场特定规则、特定赛道的考试里拿了状元,而不是在奥林匹克赛场上包揽了所有金牌。

这不是贬低,而是正确定位。


清醒认知比盲目欢呼更重要,否则容易把科学计算的第一名,误读成算力霸权争夺战的全局胜利。


纯CPU不是备胎,而是被倒逼出来的新赛道

另一个容易被忽略的细节是,灵晟是一台纯CPU超算,整个系统里没插一张GPU加速卡。

在TOP500榜单里,配备GPU加速器的系统占比已经升到了55.4%,纯CPU架构反而成了国内特色路线。

很多人第一反应是,这不是因为美国禁运高端GPU,我们只能退而求其次吗?如果只看到这个层面,就漏掉了更深层的技术逻辑。


灵晟搭载的LX2处理器基于ARMv9架构,每颗芯片集成了304个CPU核心,并且原生支持SVE可伸缩向量扩展和SME可伸缩矩阵扩展。

换句话说,这颗CPU自己就能干GPU的活儿,从FP64到INT8全覆盖。更关键的是它的混合内存设计,片上集成了32GB HBM高带宽内存,片外还能扩展256GB DDR5,内存带宽相比传统CPU提升了10倍。

在传统的CPU加GPU异构架构里,数据在CPU内存和GPU显存之间来回搬运的能耗和延迟,往往比计算本身更致命。灵晟的纯CPU设计恰恰绕过了这个瓶颈,让所有计算都在同一个内存空间里完成。

这很像当年日本富岳超算走通的A64FX路线。

美国的禁运确实是一道封锁线,但灵晟证明了一件事,封锁线有时候不是绝路,而是起跑线。当全世界都在给CPU找GPU搭子,中国直接让CPU单飞,并且在AI for Science这种需要海量数据预处理、复杂控制流和密集通信的场景里,飞出了不一样的航线。


30套对162套,单点爆破与生态差距

成绩单背面第三个刺眼的数字,是上榜总量。


美国以162套系统继续保有绝对优势,日本、德国分列二三位,中国上榜系统只有30套,综合总算力位居全球第四。灵晟以一己之力把中国的总算力上限大幅拉高,但一台超算再强,也填不上三十台和一百六十二台之间的生态鸿沟。

这就好比一场战争,你派出了最锋利的尖刀连拿下了敌方指挥部,但对方在整个战线上还有上百个据点。

超算竞赛从来不是单台机器的决斗,而是算力网络的密度战、应用生态的渗透战、以及从芯片到软件全栈人才的储备战。

灵晟的2.198 ExaFLOPS是一个漂亮的单点爆破,但爆破之后,能不能把三十套系统扩展成六十套、一百套,能不能让国产LX2处理器走出深圳超算中心进入更多科研机构和产业场景,这才是决定中国能不能从超算大国变成超算强国的真正考题。


从堆料到导流,灵晟的隐藏杀招

如果非要给灵晟找一个最被低估的亮点,我会投给84.4%的扩展效率。在超过千万核心级别的并行计算里,很多国际顶尖超算一旦核心规模突破百万级,扩展效率就会断崖式下跌到50%以下。

灵晟能在20,480个计算节点、40,960颗处理器组成的庞大集群里保持84.4%的扩展效率,靠的是自研的灵渠高速互连网络

这个名字取得很有意思,秦始皇修灵渠是为了疏导水系、打通南北,而现代灵渠网络要疏导的是数据洪流,200万个端口、双平面多轨胖树拓扑,每个节点1.6 Tb/s的带宽,本质上是在做同一件事,让数据流不再堵死在任何一个节点上。

再加上100%全液冷散热和约52 GFlops/W的能效比,灵晟在42.2兆瓦的功耗下完成了这场冲刺。

42.2兆瓦是什么概念?

相当于一座小型城市的高峰用电量。如果不解决能效问题,E级超算的经济成本会高到让科研机构用不起,最终变成一场昂贵的政绩秀。

灵晟在能效上的突破,说明中国超算团队不仅懂怎么堆料,更懂怎么在堆料之后让机器可持续地跑下去。

灵晟的登顶,本质上是一张全栈自主可控的体检报告,而不是一张可以裱起来的毕业证书。它证明了中国在芯片禁运的极端环境下,有能力用纯CPU路线跑通E级超算,有能力在系统级工程上做出世界级创新,但同时也暴露了我们在算力生态总量上的真实差距。

当大众的欢呼声散去,超算竞赛的下半场其实才刚刚开始。未来的战场不再是谁的峰值算力更高,而是谁的算力网络更密、谁的能效比更极限、谁能让AI训练和科学仿真在同一个架构里无缝融合。灵晟的真正价值,或许不在于它拿回了阔别8年的第一名,而在于它为中国超算开辟了一条被封锁下的最优解路线。这条路线能不能从深圳超算中心走向更广阔的产业腹地,才是接下来最值得盯紧的悬念。

算力“芯”动向 · 专注AI与算力产业观察

今日阅读文章分享:

(1)2.198EFlops!时隔8年,中国超算重回全球第一!

(链接:https://mp.weixin.qq.com/s/-Q2G-MwABbla8afVE6e33A)

(2)中国超算重回世界首位

(链接:https://mp.weixin.qq.com/s/j17Ro8DdZla_X59KlfUkNg )

本文若有歧义欢迎读者分享指正。

·END·



扫描下方二维码 关注我们


我们以算力为线,持续跟进算力基础设施的报道,输出洞察,伴随算力行业实现算力自由。敬请关注!



本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。

赞 ()

相关推荐

发表回复

评论列表

点击查看更多

    联系我们

    微信:百易小助手

    邮件:contact@doit.com.cn

    工作时间:周一至周五,9:30-18:30,节假日休息

    微信