风雪压“我”两三年,“我”比HBM还值钱

导读

当AI模型参数突破万亿级,HBM已从“配件”升级为“算力核心”。华为8月12日发布的UCM技术以颠覆性架构撕开一道裂缝。

该成果聚焦通过算法优化、架构创新及软硬件协同,减少对HBM的依赖。HBM作为AI计算核心组件,长期受海外技术垄断和产能限制,华为的技术突破或缓解国内AI产业供应链压力,降低算力成本。

文字编辑|宋雨涵

1

HBM芯片

万亿算力的内存心脏

什么是HBM芯片?

HBM芯片,即High Bandwidth Memory的缩写,意为高带宽内存芯片,是一种专为应对数据密集型应用对内存带宽的严苛需求而设计的新型存储芯片,属于DRAM(动态随机存取存储器)家族中的高端分支 。与传统内存芯片相比,HBM芯片最大的特点在于采用了先进的3D堆叠技术,通过硅通孔(TSV)将多个DRAM芯片垂直堆叠在一起,并与GPU或CPU等处理器封装在同一模块中,实现了大容量、高位宽的DDR组合阵列。

为什么HBM芯片这么重要?

从训练具备千亿参数的Transformer模型,到部署实时推理的生成式AI应用,算力需求正以指数级态势迅猛增长。据IDC预测,到2025年,中国智能算力规模将达到1037.3 EFLOPS,同比增长43%。然而,传统“存储墙”问题——即存储系统性能限制导致计算机整体性能无法有效提升的现象,正成为算力提升的重大瓶颈。具体表现为,数据在存储器与处理器之间的传输速度远低于计算速度,进而导致能效比低下。

在此形势下,高带宽存储器(HBM)与先进封装技术成为突破瓶颈的关键所在。HBM借助3D堆叠与硅通孔(TSV)技术,实现了单颗带宽超过1TB/s,相比传统GDDR6提升了5倍之多;而台积电的CoWoS、英特尔的EMIB等先进封装技术,则通过异构集成方式,将CPU、GPU、NPU等芯片整合为“超级芯片”,有效突破了单芯片面积与功耗的限制。这两项技术共同构成了AI算力革命的“隐形战场”,其发展不仅关乎技术路线的竞争,更牵涉到地缘政治与产业链话语权的激烈争夺。

2

技术命脉:

HBM在核心领域的应用实践

1

高性能计算:加速科学发现

在气候模拟、基因测序等HPC场景中,HBM的高带宽特性使数据处理效率提升3-5倍。例如,英伟达H100 GPU搭载HBM3E内存,可实现每秒4TB的内存带宽,使分子动力学模拟速度提升一个数量级。SK海力士预测,到2030年,HPC领域对HBM的需求将以年均30%的速度增长,成为推动HBM市场扩张的核心动力。

2

人工智能与机器学习:赋能大模型训练

深度学习训练对内存带宽和容量的需求呈指数级增长。以GPT-4为例,其1.8万亿参数需要TB级内存支持。HBM4通过提供每堆栈1.5TB/s的带宽,使AI加速器能够实时处理海量数据,将训练周期从数月缩短至数周。谷歌TPU v5e采用HBM3技术,使推荐系统模型推理延迟降低60%,显著提升用户体验。

3

数据中心与云计算:重构能效比

随着东数西算工程推进,数据中心对PUE(电源使用效率)的要求日益严苛。HBM的低功耗特性使其成为降低数据中心TCO(总拥有成本)的关键技术。英特尔Sapphire Rapids处理器集成HBM2E内存,使内存子系统功耗占比从25%降至15%,同时将每瓦特性能提升40%。这种能效优势使HBM在边缘计算、实时分析等场景中具有不可替代性。

三、UCM推理创新技术降低对HBM依赖

在今天的2025金融AI推理应用落地与发展论坛上,华为发布的AI推理创新技术UCM(推理记忆数据管理器)。作为一款以KV Cache为中心的推理加速套件,其融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。

据悉,UCM可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,同时融合多种稀疏注意力算法实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2至22倍,从而降低每个Token的推理成本。

选择金融领域作为发布场景,因金融行业对AI推理的实时性、稳定性和安全性要求极高(如高频交易、智能风控)。华为此次成果已通过金融级严苛场景验证,未来可向医疗、工业、智慧城市等领域辐射,加速AI推理技术规模化落地。华为此次携手中国银联共同发布AI推理的最新应用成果,共同探索AI推理技术在金融领域的规模化落地路径。

该技术突破将推动昇腾AI芯片、CANN异构计算框架等核心生态组件的应用,利好昇腾服务器代工、算力调度、垂直行业解决方案等产业链环节,并促进金融、政务、医疗等场景的AI商业化进程。

为何能够降低AI训推对HBM的依赖?

以存代算”技术核心解析:该技术通过将AI推理所需的矢量数据从DRAM内存迁移至SSD闪存介质,以此优化计算效率。其核心价值在于缓解先进制程的限制(例如华为受7nm制程制约)、降低对HBM/GPU的过度依赖,并实现“存算一体”系统创新。该技术的本质是存储层的扩展(从内存扩展到SSD),而非替代DRAM。

全球“以存代算”产业趋势:这并非华为独有的技术,日本铠侠正在推进SSD赋能AI推理,美光推出了AI-SSD产品线,英伟达等巨头也在同步布局。华为由于受到美国制裁,无法突破先进制程,因此转向系统级创新,这是其布局该技术的特殊动因。

华为“以存代算”硬件突破:华为采用DOB封装技术,突破了传统16层的限制,实现了24/36层堆叠,单颗芯片容量达到36TB;推出了palm-SSD产品,2024年容量为128TB(巴掌大小),2025年将升级至256TB(密度较普通硬盘高1000倍)。其核心技术支撑包括采用长江存储232层3D NAND颗粒(单颗粒1TB),以及在PCB板上集成8颗36TB或10颗24TB芯片。

华为关键芯片创新:SSD主控芯片负责数据寻址调度(类比电影院座位分配),解决了闪存颗粒读写不均导致的性能衰减问题。华为采用海思自研的Hi1812/Hi1822系列主控芯片,技术突破点在于维持长期读写速度(从物理层限制转为数学优化),并通过均衡磨损算法延长SSD寿命。

以存代算”核心逻辑与前景:该技术的哲学理念是“存即是算”(记忆能力是智能的组成部分),2024华为存储精英大会已发布了相关技术路线,东北电子团队已连续两年深度追踪。在市场空间方面,AI推理需要非易失存储来保存中间过程,2025华为全联接大会将重点推广此技术。华为AI的三大方向包括昇腾芯片、大规模组网、存储赋能,AI推理带动的SSD需求将持续超越传统存储的增长曲线。

结语:

这场博弈也揭示了一个颠覆性逻辑:存储正在成为新的算力战场。华为以“存即是算”的技术哲学,通过系统级创新绕开制程限制,将存储劣势转化为架构优势。