国产最强通用计算平台：当所有人盯着GPU，中科曙光在FP64的地下水位上凿了一口深井

Sugon · 百核聚变

128核、512线程、10T双精度算力，零迁移成本，PUE 1.04。国产通用高性能计算平台首次达到国际旗舰级水平。

当所有人都在抢GPU、聊大模型Token价格的时候，中科曙光在6月15日扔出了一颗看似不够性感但后劲极大的消息。新一代通用高性能计算平台，128核、512线程、单CPU FP64双精度算力10T，HPL性能较当代平台提升近2倍，STREAM访存性能提升近1倍，应用性能平均提升近1倍，整体规格首次达到国际厂商旗舰级水平。

被忽略的精度战争，AI时代为什么还需要FP64

一个反常识的事实是，GPU在AI训练里把FP16用得飞起，但回到科学与工程计算领域，FP64双精度浮点仍然是不可替代的硬通货。

大模型训练可以差不多就行，但飞机机翼的流体力学模拟不能差不多，公里级天气预测的网格计算不能差不多，材料科学里的量子力学仿真更不能差不多。

单CPU FP64双精度算力10T

HPL双精度浮点性能提升近2倍

公里级天气模拟性能1.95倍

工业仿真实测性能1.86倍

更关键的是，这不是单纯的硬件堆料，而是算存传三级协同的系统工程。

计算层引入BurstBuffer缓存加速与SocketDirect通信优化，存储层搭载ParaStor F9000实现端到端无阻塞I/O，网络层基于自研scaleFabric高速交换机把端到端时延压到0.93μs，交换机转发延时仅260ns，单子网支持11.4万卡组网。

这意味着在大规模并行场景下，通信墙被实质性破解，CPU算力得以真正释放。

零迁移成本是最被低估的杀招，这不是兼容，是生态层面的特洛伊木马

比起性能参数，业内真正头疼的是软件迁移。

工业仿真、材料计算、生物计算领域的应用软件往往经过数十年深度优化，代码资产和工程经验沉淀极重，迁移与重构成本常常高过硬件本身。

过去国产芯片最大的痛点不是跑分不够高，而是用了我的芯片，你得重写代码。

中科曙光这次给出的解法很直接，原生兼容x86生态，而且是国内首个原生支持AVX512指令集的国产通用计算平台。

AVX512已经是全球HPC软件生态的事实标准，GROMACS、NAMD这些核心科学计算套件都深度绑定其加速路径。

现有HPC软件无需重新编译或修改源码即可直接运行，并自动调用AVX512优化路径，用户软件授权、业务流程、工程经验全部保留。

这相当于什么？

相当于你换了一部新手机，但不需要重新学习怎么打字，所有App直接能用，聊天记录一条不丢。

中科曙光高端计算总工程师李建军把这叫作换手机一样的正常设备更新周期。

但从产业竞争视角看，这不是简单的技术妥协，而是商业层面的特洛伊木马。

龙芯和申威在走自主指令集的硬核路线，中科曙光选择了一条更务实的路径，先让你无痛切换，再在规模应用中迭代扎根。

生态兼容的真正价值，是为国产CPU技术迭代赢得了宝贵的时间窗口，让用户在实际生产中不断反馈、不断优化，而不是在封闭环境里闭门造车。

从PUE 1.04看算力地产，散热升级的本质是选址经济学

这次平台提供了风冷、冷板液冷、浸没液冷三种散热形态。

2U风冷标准双路机架式服务器H620G59单节点可提供20TFLOPS算力，配置灵活。

冷板式高密计算柜TC800 G6单柜实现P级计算能力，PUE低至1.08。

浸没式超高密计算柜TC8600H G5采用第三代浸没相变液冷技术，最高支持80000以上CPU核心部署，PUE进一步降至1.04。

风冷单节点20TFLOPS

冷板液冷PUE1.08

浸没液冷PUE1.04，80000+核心

很多报道把这部分当作环保技术来解读，但背后的逻辑远比环保硬核。

北京、上海等一线城市对数据中心PUE的限制日趋严格，北京要求新建数据中心PUE控制在1.2以内。

当PUE做到1.04，意味着你不需要把算力中心搬到西部去蹭便宜的电和凉快的气候，你可以在东部核心城市、在科研院所和工业企业身边直接部署高密度算力。

这不是省电，这是算力地产的坪效逻辑，是单位面积、单位能耗下能产出多少有效算力的经济账。

从风冷到冷板再到浸没，本质上是在回答一个问题，不同规模的算力中心到底该用什么姿势落地。

中小型集群用风冷灵活起步，大型数据中心用浸没液冷把密度拉满，这种分级部署能力让国产高性能计算平台从可用真正走向了更好用。

网络层0.93μs与超智融合，HPC正在给AI4S修高速公路

如果把这次发布放在更大的时间轴上看，4月中科曙光刚发布了6万卡规模的AI4S计算集群，5月在智博会展示了scaleX万卡超集群真机，6月再推新一代通用高性能计算平台。

这三步棋连起来看，核心指向只有一个，超智融合。

高精度科学计算与低精度智能计算不再是两套各说各话的体系，而是需要在同一底座上协同运行。

数学模型驱动的FP64高精度计算与数据模型驱动的FP16低精度AI，未来将在材料研发、药物发现、气象预报等领域深度互补。

网络层0.93μs的端到端时延和11.4万卡的组网能力，实际上是在为这种超智融合修高速公路，让CPU和加速卡之间的数据交换不再成为瓶颈。

中科曙光董事长历军在智博会上说过，算力就是AI4S时代的电力。

没有强大的算力基础设施，一切科学智能创新都无从谈起。

这次新一代通用高性能计算平台的发布，不是在追AI的风口，而是在夯实AI4S的地基。

当AI for Science成为科技强国竞争的核心驱动力，全精度覆盖的算力底座就是那张入场券。

当AI算力成为显学，通用算力反而成了隐形冠军。中科曙光用128核、10T FP64、零迁移成本、PUE 1.04这组组合拳告诉我们，算力产业的竞争从来不只是单点硬件的突破，而是从芯片、系统、平台到应用的全链路协同。国产算力最艰难的关卡从来不是跑分，而是让周一早上的工程师能够无缝上班，让跑了二十年的工业仿真软件不需要重写一行代码。

从可用到更好用，国产高性能计算正在跨过生态这道最难的门槛。当零迁移成本成为现实，国产化替代不再意味着妥协与牺牲，而是真正意义上的同等体验和平滑升级。这或许才是中科曙光这次发布最深远的影响，它让国产算力有了进入核心生产系统的底气，也让超智融合从概念真正走向了工程化落地。

END