梁文锋署名DSpark:融资500亿后,DeepSeek把AI竞赛的坐标从“聪明”切到了“快”

DeepSeek联合北大开源DSpark推理框架与DeepSpec工具链,半自回归架构叠加置信度调度实现单用户提速60%至85%,标志大模型竞赛从参数内卷转向推理效率决胜。


融资500亿后,DeepSeek的第一枪没有对准参数更大的模型,而是联合北京大学甩出了一篇论文和一个代码库。

论文讲的是DSpark,一个推理加速框架;代码库叫DeepSpec,是支撑推测解码的全栈工具链。没有新模型发布,没有版本号迭代,但懂行的人已经嗅到了风向变化。当行业还在模型能力的山顶上插旗,DeepSeek选择先修好上山的公路。

01
半自回归架构:在串行和并行之间劈开第三条路

大模型推理慢,根子出在自回归机制上。

每蹦出一个新字,都要把前面所有内容重新嚼一遍,输出越长,GPU越喘。

推测解码的解法并不新鲜。

让小模型先写草稿,大模型再批量批改。

但过去两条技术路线各自卡壳。

自回归草稿像手写,一笔一画猜得准,但写得慢;并行草稿像复印,一次性印一整页,快是快了,却经常印出前后矛盾的句子,越往后错得越离谱,接受率断崖式下跌。

DSpark的破局点在半自回归架构

它保留了并行主干的高吞吐优势,同时叠加了一个极轻量的串行模块,给每个位置补充前缀依赖的转移偏置。

实验里有个反直觉的数据。


两层Transformer深度的DSpark,在所有测试领域超过了五层DFlash的接受长度。当草稿块长从7增加到15时,DSpark相对DFlash的优势从15%至18%扩大至22%至30%

这意味着,并行架构的长块速度潜力,此前一直被后缀衰减封印,而半自回归设计把它彻底释放了出来。

在AI工程领域,聪明的架构比盲目的深度更重要。

DSpark不是在原有路线上打补丁,而是在串行和并行之外,劈开了第三条路。

02
置信度调度:算力从平均主义走向精准主义

如果说半自回归解决的是草稿质量,那置信度调度解决的就是验证效率。

传统做法里,草稿模型生成多少个token,就原封不动提交多少个给大模型验证,这是一种全量盲审。


但越往后的token越不靠谱,把低置信度的候选送去验证,看似只浪费了一点算力,在高并发的生产系统里却是灾难性的系统性损耗。

DSpark的做法是给草稿模型加装一个置信度头,实时预测每个token的存活概率。

但AI打分天生容易自我感觉良好,估出来的通过率往往偏乐观。

团队配套的时序温度缩放校准方案,把误差从原来的3%至8%压缩到约1%,让概率预估变得足够精准。

基于这个精准预判,硬件感知调度器会根据实时引擎吞吐动态分配验证预算。

低负载时自动拉长验证块,把空闲算力吃满;高负载时主动裁剪低价值token,避免资源争抢。

这相当于让推理系统从静态配置走向了动态自适应,从撒网捕鱼变成了精准垂钓。

03
DeepSpec的野心:从模型开源到系统开源

随论文一同开源的DeepSpec,不是一个简单的代码仓库,而是一个全栈推测解码框架。


它包含数据准备工具、草稿模型实现、训练代码和评估脚本,目前内置DSpark、DFlashEagle3三种实现,兼容Qwen、Gemma等主流基座,采用MIT许可。

这步棋的深层含义在于标准化。

过去行业开源多停留在模型权重层面,DeepSpec却直接把推理优化的生产链条全摊开了。

内置三种实现意味着它提供了一个统一的评估基准,让不同方案可以在同一套度量衡下公平竞争。

对于缺乏底层算法团队的中小企业和ToB服务商,这相当于把原本需要巨额研发投入的推理优化能力,变成了开箱即用的基础设施。

更值得注意的是跨模型泛化能力。

DSpark在Qwen3-4B、8B、14B和Gemma4-12B上均取得了稳定增益,这说明它不是一个绑定自家模型的专属插件,而是一套可以移植的通用加速方案。

当模型能力逐渐趋同,推理基础设施正在成为新的护城河。DeepSeek选择把这张牌开源,本质上是在争夺推理优化领域的事实标准。

04
领域差异暴露了一个反直觉的落地信号

论文里有一组数据特别值得细品。

在数学推理和代码生成这类结构化任务中,草稿的平均接受长度天然更高;而开放式对话场景的接受长度则明显偏低。

这揭示了一个被行业忽视的信号。

垂直领域的AI落地,可能比通用对话更快到来。

结构化任务的可预测性更强,token之间的依赖关系更明确,DSpark的半自回归架构正好对症下药。

这意味着实时代码助手、数学辅导、逻辑推理Agent等场景,有望率先吃到推理效率跃升的红利。

通用大模型的叙事里,聊天机器人总是站在C位,但工程现实却在暗示,先跑通的可能是那些看起来不够性感的垂直工具。

DSpark和DeepSpec的发布,标志着大模型竞赛正在进入下半场。

上半场比的是模型智商,下半场比的是交付效率。当顶尖模型在通用能力上的差距逐渐收窄,单用户生成速度提升60%至85%的价值,不亚于参数再翻一倍。

DeepSeek这步棋的真正目的,不是秀肌肉,而是换赛道。

它把竞争的焦点从实验室的benchmark拉到了生产环境的真实吞吐,从模型架构的创新拉到了系统工程的精细打磨。未来AI商业化的胜负手,或许不再是谁的模型更聪明,而是谁的聪明能被更低成本、更高速度、更稳定地送到用户手里。DeepSpec开源的每一行代码,都在为那个未来铺设轨道。



·END·



扫描下方二维码 关注我们


我们以算力为线,持续跟进算力基础设施的报道,输出洞察,伴随算力行业实现算力自由。敬请关注!



本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。

赞 ()

相关推荐

发表回复

评论列表

点击查看更多

    联系我们

    微信:百易小助手

    邮件:contact@doit.com.cn

    工作时间:周一至周五,9:30-18:30,节假日休息

    微信