梁文锋署名DSpark：融资500亿后，DeepSeek把AI竞赛的坐标从“聪明”切到了“快”

作者：赖雅清 • 2026年06月29日 • AI与大模型

DeepSeek联合北大开源DSpark推理框架与DeepSpec工具链，半自回归架构叠加置信度调度实现单用户提速60%至85%，标志大模型竞赛从参数内卷转向推理效率决胜。

融资500亿后，DeepSeek的第一枪没有对准参数更大的模型，而是联合北京大学甩出了一篇论文和一个代码库。

论文讲的是DSpark，一个推理加速框架；代码库叫DeepSpec，是支撑推测解码的全栈工具链。没有新模型发布，没有版本号迭代，但懂行的人已经嗅到了风向变化。当行业还在模型能力的山顶上插旗，DeepSeek选择先修好上山的公路。

半自回归架构：在串行和并行之间劈开第三条路

大模型推理慢，根子出在自回归机制上。

每蹦出一个新字，都要把前面所有内容重新嚼一遍，输出越长，GPU越喘。

推测解码的解法并不新鲜。

让小模型先写草稿，大模型再批量批改。

但过去两条技术路线各自卡壳。

自回归草稿像手写，一笔一画猜得准，但写得慢；并行草稿像复印，一次性印一整页，快是快了，却经常印出前后矛盾的句子，越往后错得越离谱，接受率断崖式下跌。

DSpark的破局点在半自回归架构。

它保留了并行主干的高吞吐优势，同时叠加了一个极轻量的串行模块，给每个位置补充前缀依赖的转移偏置。

实验里有个反直觉的数据。

两层Transformer深度的DSpark，在所有测试领域超过了五层DFlash的接受长度。当草稿块长从7增加到15时，DSpark相对DFlash的优势从15%至18%扩大至22%至30%。

这意味着，并行架构的长块速度潜力，此前一直被后缀衰减封印，而半自回归设计把它彻底释放了出来。

在AI工程领域，聪明的架构比盲目的深度更重要。

DSpark不是在原有路线上打补丁，而是在串行和并行之外，劈开了第三条路。

置信度调度：算力从平均主义走向精准主义

如果说半自回归解决的是草稿质量，那置信度调度解决的就是验证效率。

传统做法里，草稿模型生成多少个token，就原封不动提交多少个给大模型验证，这是一种全量盲审。

但越往后的token越不靠谱，把低置信度的候选送去验证，看似只浪费了一点算力，在高并发的生产系统里却是灾难性的系统性损耗。

DSpark的做法是给草稿模型加装一个置信度头，实时预测每个token的存活概率。

但AI打分天生容易自我感觉良好，估出来的通过率往往偏乐观。

团队配套的时序温度缩放校准方案，把误差从原来的3%至8%压缩到约1%，让概率预估变得足够精准。

基于这个精准预判，硬件感知调度器会根据实时引擎吞吐动态分配验证预算。

低负载时自动拉长验证块，把空闲算力吃满；高负载时主动裁剪低价值token，避免资源争抢。

这相当于让推理系统从静态配置走向了动态自适应，从撒网捕鱼变成了精准垂钓。

DeepSpec的野心：从模型开源到系统开源

随论文一同开源的DeepSpec，不是一个简单的代码仓库，而是一个全栈推测解码框架。

它包含数据准备工具、草稿模型实现、训练代码和评估脚本，目前内置DSpark、DFlash和Eagle3三种实现，兼容Qwen、Gemma等主流基座，采用MIT许可。

这步棋的深层含义在于标准化。

过去行业开源多停留在模型权重层面，DeepSpec却直接把推理优化的生产链条全摊开了。

内置三种实现意味着它提供了一个统一的评估基准，让不同方案可以在同一套度量衡下公平竞争。

对于缺乏底层算法团队的中小企业和ToB服务商，这相当于把原本需要巨额研发投入的推理优化能力，变成了开箱即用的基础设施。

更值得注意的是跨模型泛化能力。

DSpark在Qwen3-4B、8B、14B和Gemma4-12B上均取得了稳定增益，这说明它不是一个绑定自家模型的专属插件，而是一套可以移植的通用加速方案。

当模型能力逐渐趋同，推理基础设施正在成为新的护城河。DeepSeek选择把这张牌开源，本质上是在争夺推理优化领域的事实标准。

领域差异暴露了一个反直觉的落地信号

论文里有一组数据特别值得细品。

在数学推理和代码生成这类结构化任务中，草稿的平均接受长度天然更高；而开放式对话场景的接受长度则明显偏低。

这揭示了一个被行业忽视的信号。

垂直领域的AI落地，可能比通用对话更快到来。

结构化任务的可预测性更强，token之间的依赖关系更明确，DSpark的半自回归架构正好对症下药。

这意味着实时代码助手、数学辅导、逻辑推理Agent等场景，有望率先吃到推理效率跃升的红利。

通用大模型的叙事里，聊天机器人总是站在C位，但工程现实却在暗示，先跑通的可能是那些看起来不够性感的垂直工具。

DSpark和DeepSpec的发布，标志着大模型竞赛正在进入下半场。

上半场比的是模型智商，下半场比的是交付效率。当顶尖模型在通用能力上的差距逐渐收窄，单用户生成速度提升60%至85%的价值，不亚于参数再翻一倍。

DeepSeek这步棋的真正目的，不是秀肌肉，而是换赛道。

它把竞争的焦点从实验室的benchmark拉到了生产环境的真实吞吐，从模型架构的创新拉到了系统工程的精细打磨。未来AI商业化的胜负手，或许不再是谁的模型更聪明，而是谁的聪明能被更低成本、更高速度、更稳定地送到用户手里。DeepSpec开源的每一行代码，都在为那个未来铺设轨道。

·END·

扫描下方二维码关注我们

我们以算力为线，持续跟进算力基础设施的报道，输出洞察，伴随算力行业实现算力自由。敬请关注！

本文来源于DOIT传媒，文章内容仅供参考，不构成投资建议。

梁文锋署名DSpark：融资500亿后，DeepSeek把AI竞赛的坐标从“聪明”切到了“快”

DeepSeek联合北大开源DSpark推理框架与DeepSpec工具链，半自回归架构叠加置信度调度实现单用户提速60%至85%，标志大模型竞赛从参数内卷转向推理效率决胜。

2026年06月29日 17点27分
新华三换帅，王竑弢履新CEO

2026年6月26日起生效

2026年06月29日 17点23分
浪潮KaiwuDB开源项目入选“中国开源项目影响力跃升先锋榜 Top10”

近日，国内权威中立开源社区开源社正式发布《2025 中国开源年度报告》（以下简称“2025 年报”），并依托行业公认 OpenRank 量化评价体系评选「中国开源项目影响力跃升先锋榜 Top10」

2026年06月29日 10点25分
2026红帽全球峰会：平台即选择权，开源重塑企业AI落地新范式

红帽以“平台即选择权”为核心战略，依托Red Hat AI 3.4、RHEL、OpenShift、Ansible全栈产品，搭配50亿美金投入的光井开源安全项目，为企业提供稳定、安全、灵活、可规模化的统一底座。

2026年06月29日 16点02分
CXL能否进入AI存储层级？

CXL正在从概念验证走向产品化和真实部署

2026年06月29日 15点30分
奔向“GW级”的数据中心和未投产的“Token工厂”

“Token工厂”这条从瓦特到Token的价值链条上就开始叠加更多变量

2026年06月29日 13点57分
第 21 届开源中国开源世界高峰论坛圆满收官！

随着大语言模型能力持续提升，Agent 正快速从实验室走向生产环境。开源与开放标准将成为这一生态的关键基础设施

2026年06月29日 13点55分
数据驱动・AI 赋能：东软解锁城市智慧养老全新发展逻辑

携城市级智慧养老平台、AI 康养技术体系、多城落地标杆案例集中亮相，展示产业互联网模式下银发经济高质量发展路径。

2026年06月29日 09点59分
数聚丝路·智赋医疗——医疗数据与人工智能融合创新实践

2026年6月26日至28日，第七届西部数字经济博览会在西安国际会展中心举行，以“数聚丝路活力智绘西部未来”为主题，汇聚300余家重点企业及国际组织商协会代表。

2026年06月29日 10点54分
亚马逊云科技

所有人都在喊AI原生数据库，亚马逊云科技却劝你别急

亚马逊云科技中国峰会期间，亚马逊云科技数据库服务副总裁Ganapathy (G2) Krishnamoorthy大谈AI时代的数据库，他的介绍让我看到了AI时代，到底应该对数据库做点什么。

2026年06月29日 09点30分
MWC上海观察：AI竞逐下半场，数据存储为何成了关键一环？

6 月 24 日，MWC26 上海在上海新国际博览中心开幕。相比往年更熟悉的 5G、终端和网络能力，今年展会里的 AI 议题更密集：运营商谈智能基建，终端厂商谈移动 AI，车联网、工业互联网和具身智能也进入产业讨论。MWC 上海官方把 N4 馆设置为 Mobile AI Innovation Frontiers，展示范围覆盖从芯片、AI 服务器、前沿模型，到 AI 原生硬件和人形机器人。

2026年06月26日 21点46分
英特尔联合英维克、嘉实多发布单相冷板液冷工质测试验证成果

对散热能力需求的提高、绿色算力的推进，均离不开经过严格测试验证的液冷工质。

2026年06月24日 00点00分
英特尔

冷板液冷最隐蔽的坑，终于被英特尔和嘉实多给填上了

现在的AI数据中心，CPU、GPU的功耗一路狂飙，风冷越来越力不从心，液冷俨然成了必选项。如果你选好了液冷冷板、CDU、管路、分水器等硬件，可等真到落地那一步，千万别忘了还得选好管子里循环的那桶冷却液。

2026年06月26日 16点42分
算力「芯」动向 | 台积电2026中国技术论坛：“万亿宣言”的背后是先进封装正在重新定义算力权力结构

台积电论坛将半导体万亿市场节点提前至2026年，N2量产与A16推迟并行，CoWoS向14倍光罩、SoW向晶圆级系统演进，算力主战场正从晶体管密度转向先进封装。

2026年06月26日 16点26分
Mac和iPad开始涨了！iPhone还能撑多久？一场AI算力对消费电子的系统性虹吸已经开始

苹果多款产品涨价，AI算力正虹吸消费电子。库克跳过M6冲刺M7，iPhone暂未涨价只是弃车保帅。当通用DRAM利润率年内或触90%，拐点要等到2028年，我们买的究竟是设备还是数据中心的账单？

2026年06月26日 16点23分
2026 IT市场年会召开，探讨数智时代中国软件产业发展态势

立足数智化发展大势，聚焦ICT产业核心赛道，搭建起高效的交流对接平台

2026年06月25日 00点00分