DeepSeek新模型与国产芯片的“零日之舞”,寒武纪与华为昇腾“即时适配”彰显国产AI生态协同加速度

导读

在2025年国庆节前夕,当人们的注意力逐渐转向假期时,中国的人工智能领域却迎来了一场“秋收”的喜悦。AI独角兽企业深度求索DeepSeek正式推出了其最新的实验性大模型——DeepSeek-V3.2-Exp

此外更爆炸的是两大国产AI芯片巨头寒武纪与华为昇腾在模型发布当日即宣布完成全面适配支持。

这一“Day 0”级别的快速响应,宣告了国产大模型与国产AI芯片之间前所未有的协同发展态势已然形成。这不再是软件追赶硬件,或硬件等待软件的传统模式,而是一种深度绑定、共同进化的新型产业关系。

文字编辑|宋雨涵

1

DeepSeek-V3.2-Exp:

重新定义长文本处理的效率与成本

DeepSeek-V3.2-Exp的发布,并非一次常规的性能迭代,而是对大模型底层架构的一次大胆探索。其核心亮点,直指当前大模型应用中最棘手的难题之一:长文本处理的效率与成本。

技术革新:DeepSeek稀疏注意力(DSA)机制

传统Transformer模型的核心是自注意力机制,它允许模型中的每个词元(Token)关注输入序列中的所有其他词元。这种机制虽然强大,但也带来了巨大的计算负担,其计算复杂度与序列长度(L)的平方(O(L²))成正比。这意味着当文本长度从1K增加到100K时,计算量会暴增一万倍,使得超长文本的实时推理变得异常昂贵且缓慢。

DeepSeek-V3.2-Exp引入的DeepSeek稀疏注意力(DeepSeek Sparse Attention, DSA)机制,正是为了打破这一瓶颈。它巧妙地引入了一个名为“闪电索引器”(Lightning Indexer)的组件。该组件能够像一位经验丰富的速读者,在处理海量历史信息时,快速预判并索引出那些对当前生成任务“最重要”的少数关键Token。随后,模型只需将计算资源集中在这些被选中的关键信息上,进行精细的注意力计算。

DeepSeek-V3.2-Exp模型中的稀疏注意力架构,核心在于“闪电索引器”和“Top-k选择器”的高效协作。

通过这一革新,注意力的计算复杂度从O(L²)骤降至O(Lk),其中k是一个远小于序列长度L的固定值。这意味着,即使处理的文本再长,其计算成本的增长也趋于线性,而非指数级爆炸。

“性能不降、成本骤减”

技术上的优雅最终要体现在实际应用价值上。DeepSeek-V3.2-Exp在这一点上交出了一份令人信服的答卷。

根据官方公布的数据,在处理128K(约20万汉字)的超长文本时,新模型的推理成本相比前代V3.1-Terminus模型实现了惊人的下降。无论是在处理初始输入(Prefilling)还是在逐字生成(Decoding)阶段,成本节约都极为显著。

与V3.1相比,V3.2-Exp在Prefilling和Decoding阶段的推理成本随文本长度增长极为平缓,优势明显。

更重要的是,这种效率的提升并未以牺牲核心能力为代价。在编程、数学、逻辑推理等关键能力的严谨评估中,DeepSeek-V3.2-Exp与前代旗舰模型基本持平。这一成果直接转化为对开发者社区的重大利好:得益于效率提升,DeepSeek官方宣布其API价格大幅下调超过50%,其中输出成本降至每百万Token仅需3元人民币。

2

“零日适配”:

国产AI生态成熟的标志

如果说DeepSeek-V3.2-Exp的发布是一场精彩的独奏,那么寒武纪与华为昇腾的“零日适配”(Day 0 Adaptation)则为这段独奏注入了灵魂,产生共鸣。这标志着国产AI生态已经具备与国际顶尖水平相媲美的敏捷性和协同能力。

寒武纪:速度与开源的结合

在DeepSeek模型发布的同一天,寒武纪迅速跟进,不仅宣布其AI芯片已完成对DeepSeek-V3.2-Exp的适配,更同步开源了其大模型推理引擎vLLM-MLU的适配源代码。这种“即发即用,源码开放”的姿态,展现了寒武纪对开源生态的坚定拥抱和技术自信。

DeepSeek与寒武纪在社交媒体上几乎同时发布消息,彰显了双方紧密的合作关系。

据了解,寒武纪通过Triton算子开发实现了快速适配,并利用其自研的BangC融合算子技术进行了极致的性能优化。结合DeepSeek模型的稀疏特性与寒武纪芯片的计算效率,长序列场景下的AI应用成本有望被进一步压缩。开发者可以访问vLLM-MLU的GitHub仓库获取源码。

华为昇腾:性能与编程范式的创新

华为昇腾同样展现了惊人的响应速度,第一时间基于vLLM、SGLang等主流推理框架完成了对新模型的部署支持,并同样面向开发者开源了所有推理代码和算子实现。

华为昇腾强调其“0Day支持”能力,并突出其在算子编程上的创新。

昇腾团队针对模型中的“Lightning Indexer”和“Sparse Flash Attention”这两个全新算子,进行了深度优化,确保在128K长序列下依然能保持低于2秒的首字返回时间(TTFT)和低于30毫秒的吞吐性能(TPOT)。

更重要的是,昇腾CANN借此机会首次推出了PyPTO大融合算子编程体系。这一创新的PTO(Python-based Tensor Operator)编程范式,允许开发者仅用数百行Python代码即可完成过去需要数千行C++代码才能实现的动态Shape算子开发,极大地降低了AI算子开发的门槛和周期。同时,对新兴AI编程语言TileLang的支持,也展现了昇腾积极拥抱前沿技术、构建开放生态的决心。

3

软硬件协同

国产AI的必然与未来

国产大模型与AI芯片的紧密协同,
正在形成独特的竞争优势。DeepSeek-V3.2-Exp与国产芯片的 “同频发布”,并非偶然的技术巧合,而是中国AI产业从 “单点突破” 向 “系统作战” 转型的必然结果。

快速响应能力构建生态壁垒。Day 0适配的实现,依赖于模型厂商与芯片厂商的前期技术协同、接口标准化建设和联合调试机制。这种 “提前布局、即时响应” 的能力,使国产生态能快速捕捉技术创新红利,在与国际巨头的竞争中抢占时间窗口。

中科曙光:开放架构“跨层协同”

基于中国首个AI计算开放架构,芯片层、软件层、模型层实现“跨层协同”,使得曙光AI超集群系统完成对DeepSeek新版本的深度适配与调优,支持各行各业客户进行全量落地部署。

AI计算开放架构原生具备“跨层联动”优势,通过统一的技术标准和接口规范,打通从底层硬件到上层应用的全链路:

在芯片层,适配国产主流GPU加速卡,避免客户被单一厂商锁定;

在软件层,DeepAI深算智能引擎发挥关键作用,内置的GPU异构计算工具套件在编程前端提供与CUDA逻辑完全一致的接口,使国产GPU厂商只需维护一套代码即可无缝兼容CUDA;

在模型层,全面支持以DeepSeek为代表的全球主流开源大模型。

曙光AI超集群系统拥有“超高性能、超高效率、超高可靠、全面开放”四大特征,“跨层联动”优势使得曙光AI超集群可以充分利用自身的紧耦合系统设计,快速适配DeepSeek-V3.2-Exp,并高效支持Tilelang算子,确保大模型算力“零等待”部署。

在不久前召开的2025人工智能计算大会上还发布《超节点智算应用“北京方案”》,该方案以 “国芯、国连、国用” 为核心理念,精准对接多元行业场景的智能体开发需求。

这一方案为“人工智能+”在各领域的深度落地提供了实践路径。从模型到芯片,从系统软件到应用生态,国产AI产业的全栈协同格局正在形成。

结语:

DeepSeek-V3.2-Exp与国产AI芯片的“零日之舞”,标志着中国AI产业已从过去的“单点突破”正式进入“生态协同”的新阶段。这种软硬件深度绑定的发展模式,正在为国产AI产业筑起坚实的技术壁垒和生态优势。