AI推理进入“10毫秒、1块钱”时代！浪潮信息发布面向智能体优化AI计算系统-DOIT-数据产业媒体与服务平台

9月26日，在2025人工智能计算大会上，浪潮信息公布，基于元脑SD200超节点AI服务器，DeepSeek R1大模型token生成速度仅需8.9毫秒，创造国内大模型最快token生成速度；而最新发布的元脑HC1000超扩展AI服务器，实现每百万token成本首次击破1元。浪潮信息对AI计算架构的持续创新，旨在解决智能体产业化面临的交互速度和token成本两大瓶颈，为多智能体协同与复杂任务推理的规模化落地，提供高速度、低成本的算力基础设施。

随着Scaling Law持续推动模型能力跃升，以DeepSeek为代表的开源模型极大的降低了创新门槛，加速智能体产业化的到来。智能体产业化的核心三要素是能力、速度和成本。其中模型能力决定了智能体的应用上限，交互速度决定了智能体的商业价值，token成本决定了智能体的盈利能力。

仅需8.9毫秒！元脑SD200引领token生成速度率先进入“10毫秒时代”

浪潮信息最新公布，基于元脑SD200超节点AI服务器运行DeepSeek R1大模型，单token生成速度低至8.9毫秒，带动国内AI服务器token生成速度率先进入“10毫秒时代”。

元脑SD200基于创新研发的多主机低延迟内存语义通信架构，在单机内实现了64路本土AI芯片的高速统一互连，单机可承载4万亿参数单体模型，或部署多个万亿参数模型组成的智能体应用，实现多模型协同执行复杂任务。为实现极低的通信延迟，元脑SD200采用精简高效的三层协议栈，原生支持多种内存语义操作，避免冗余数据拷贝，将基础通信延迟降至百纳秒级，硬件化链路层重传与分布式预防式流控进一步适配高吞吐、低延迟的 AI 推理场景。

元脑HC1000，推理成本首次击破1元/每百万token

浪潮信息重磅发布元脑HC1000超扩展AI服务器，基于全新开发的全对称DirectCom极速架构，无损超扩展设计聚合海量本土AI芯片、支持极大推理吞吐量，推理成本首次击破1元/每百万token，为智能体突破token成本瓶颈提供极致性能的创新算力系统。

元脑HC1000通过全面优化降本和软硬协同增效，创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计，大幅降低单卡成本和每卡系统分摊成本。同时，全对称的系统拓扑设计支持超大规模无损扩展。据测算，元脑HC1000通过算网深度协同、全域无损技术，实现推理性能相比传统RoCE提升1.75倍，单卡模型算力利用率最高提升5.7倍。

未来，智能体带来的推理算力需求将呈现出指数级的爆发式增长。浪潮信息将通过软硬件协同设计与深度优化，持续推动AI计算架构的创新与突破，不断实现token生成“提速降本”，积极促进大模型、智能体等人工智能技术与实体经济的深度融合，让人工智能成为千行百业的生产力和创新力。

AI推理进入“10毫秒、1块钱”时代！浪潮信息发布面向智能体优化AI计算系统

lixiangjing

相关推荐

近期文章

热门标签