DeepSeek安利的“UE8M0 FP8”:下一代国产算力标准?

导读


“UE8M0 FP8是针对即将发布的下一代国产芯片设计。”在DeepSeek-V3.1发布文章的置顶评论中,这句简短的技术说明迅速在AI圈引发热议。

这不仅仅是一次模型升级,更是中国AI算力自主化道路上的重要里程碑。DeepSeek此次的技术选择,首次从软件层面反向定义国产芯片标准,为摆脱对外部算力的依赖提供了关键支撑。

如果把AI产业比作一条高速公路,过去三十年我们擅长把路修宽(扩大算力规模),却一直在用别国设计的“车道宽度”(FP32/FP16/BF16 等国际标准)。DeepSeek这一次把车道缩到8bit,却通过UE8M0把动态范围放大32倍,等于在原有路基上凭空多修了两条应急车道——不增加制造成本,却让国产芯片第一次能把大模型“开”得又快又稳。

文字编辑|宋雨涵

1

技术破局:

FP8不再是英伟达的独角戏

在AI计算领域,数据精度格式长期被国际巨头主导。FP8(8位浮点数)作为较新的数据格式,能够显著降低显存占用和计算资源需求,同时保持较高的计算精度。

传统FP8存在两种主流格式:E4M3(4位指数+3位尾数)和E5M2(5位指数+2位尾数),均由英伟达等国际巨头主导制定

DeepSeek采用的UE8M0格式则完全不同:无符号、8位指数、0位尾数,这种格式只能表示2的n次方,特别适合作为缩放因子在矩阵运算中使用。

UE8M0最初来源于NVIDIA PTX指令集,但DeepSeek通过DeepGEMM开源库实现了工程化突破,为整个生态的落地提供了可能。

UE8M0 FP8详细解读

FP8:FP代表浮点数(小数),8代表数据用8bit(8位0、1)表示。计算机里的小数都是用科学计数法表示的,只不过与通常的科学计数法不同,不是10的次方,而是2的次方,例如3.14可以表示为1.57*2^1,0.618可以表示为1.236*2^(-1)。

U:Unsigned,无符号,与有符号(Signed)相对应,也就是数字不带正负号,这种数据格式无法表示负数,但是可以用同样的数据长度表示更多正数。

E:Exponent,指数,科学计数法的“次方”。

M:Mantissa,尾数,科学计数法的“头”或“有效数字”。

UE8M0:无符号(只能取0或正数),用8位数字表达指数,用0位数字表达尾数(此时尾数默认为1),也就是说这种数字格式只能表示2的n次方,从2的0次方到2的255次方。

UE8M0与常规FP8的区别:常规FP8通常是“(S1)E5M2”或者“(S1)E4M3”,对数据的表示范围有所不同。

与英伟达主导的E4M3/E5M2 FP8标准相比,UE8M0的无符号设计和全指数编码更贴合国产芯片的架构特性。例如,摩尔线程MTT S5000 GPU、芯原VIP9000 NPU等新一代国产芯片已原生支持UE8M0格式,并与DeepSeek等15家厂商完成联合验证。这种软硬协同的设计,使国产芯片在同等硬件条件下可运行更大规模模型,“性价比” 竞争力显著提升。

2

为什么是UE8M0?

国产算力的巧妙取舍

相比传统浮点格式(如FP32、FP16或BF16),UE8M0 FP8的优势包括:

1、内存和带宽节省:FP8能减少50%-75%的内存占用,而UE8M0进一步简化结构(无符号、无尾数),在相同硬件下可降低显存需求高达75%,允许更大模型在有限资源上运行;

2、计算效率提升:通过将浮点乘法转换为指数加法,利用整数计算单元,应对算力不足的问题。在训练速度上,可提高整体效率,减少硬件依赖(如手机芯片阵列);相比标准FP8,UE8M0更适合微缩放场景,减少量化误差,并在国产芯片上提供更高兼容性;

3、成本降低:更低的内存和计算需求意味着数据中心的运营成本下降;而且,相比FP4(更低精度但精度损失更大),UE8M0平衡了效率和可用性,避免过度牺牲模型性能。

举例来说,2^m * 2^n = 2^(m+n),只需要一次加法运算即可完成。在硬件层面,加法器电路面积远小于乘法器,运算速度也快数倍,这可大幅提升计算效率并降低芯片面积。

对国产芯片而言,这一特性意义重大。通过在有限制程下塞入更多整形计算单元,国产芯片可以在硬件性能暂时落后的情况下,通过算法优化实现综合竞争力的提升。

UE8M0格式的采用,体现了DeepSeek在工程优化上的创新思维:以算法创新弥补硬件不足,为国产算力找到了一条差异化发展路径。

三、挑战与机遇并存:国产算力的黄金时代

尽管UE8M0 FP8带来了新的机遇,国产算力仍面临多重挑战。

硬件基础上,国产芯片在制程工艺、内存带宽、互联技术等方面与国际顶尖水平存在差距。

软件生态的成熟非一日之功,需要芯片厂商、算法公司、应用开发者共同长期投入。 UE8M0 FP8要真正发挥作用,需要国产芯片在算子层面原生支持E4M3/E5M2格式,并支持UE8M0缩放标准。

国际市场政策环境的不确定性,也可能影响相关技术的全球推广与合作。 国产算力需要在国内市场率先形成闭环应用,才能具备国际竞争力。

建议与思考,国产算力的发展路径

对芯片厂商而言,应加快FP8技术的硬件支持,同时积极参与软件生态建设,降低开发者使用门槛。

对模型开发商而言,应继续深化与芯片厂商的合作,通过算法创新弥补硬件不足,实现软硬件协同优化。

对政府部门而言,应保持政策连续性,同时加强标准制定和产业引导,避免重复建设和资源浪费。

对行业用户而言,应给予国产算力更多试错机会,通过实际应用反馈促进技术迭代,共同构建国产算力生态。

结语:

FP8的本质是通过一定精度的牺牲,来取得更大的算力综合性能。DeepSeek作为领先的AI模型开发商,其技术选型对行业具有强示范效应,成功应用FP8证明了这一技术路径的可行性,为整个产业提供了重要参考。

随着国产芯片对FP8的全面支持和完善,中国有望在AI算力领域形成硬件、软件、应用协同发展的良性生态。这不仅将支撑中国AI产业的创新发展,更将在全球算力格局中塑造新的竞争态势。