华为开发者大会:华为发布基于昇腾芯片的盘古大模型!华为云具身智能大爆发

导读

2025年6月20日,华为开发者大会(HDC 2025)在东莞揭幕。华为常务董事、华为云CEO张平安正式发布盘古大模型5.5与CloudMatrix 384超节点昇腾AI云服务,标志着国产大模型在推理能力、行业应用与算力架构上实现三重跃迁。

作为华为面向产业智能化推出的最新一代AI大模型,盘古5.5延续 “不作诗,只做事” 的理念,专注于解决实际产业问题。涵盖自然语言处理、计算机视觉、多模态、预测与科学计算五大基础模型全面升级。其7180亿参数的Ultra MoE架构、世界模型、深度研究系统DeepDiver等创新,正推动人工智能在工业、农业、汽车、科研等领域的深度落地。

文字编辑|宋雨涵

1

技术突破

以五大基础模型重构AI能力边界

新一代昇腾AI云服务打造算力基础

随着大模型训练与推理对算力需求呈现出爆炸式的增长态势,传统计算架构在支撑AI技术实现代际跨越方面已显得力不从心。华为云相关专家指出,传统分布式系统本质上属于松耦合系统,在多数应用场景下,服务器之间借助25Gbps或100Gbps以太网带宽即可满足需求。

为满足这些需求,云平台必须借助新型超高性能网络,将大量GPU、CPU等多元算力紧密连接。同时,需用“对等架构”取代传统的“主从架构”,使多元算力能够直接通信,无需再依赖CPU进行中转。这一能力,正是AI原生云基础设施最为核心的关键能力。

华为云新一代昇腾AI云服务基于CloudMatrix 384超节点创新性地采用全新高速网络MatrixLink,将384颗昇腾NPU与192颗鲲鹏CPU实现全对等互联,从而构建出一台超级“AI服务器”。在此架构下,单卡推理吞吐量大幅提升至2300 Tokens/s,相较于非超节点架构,性能提升近4倍。

在面对万亿、十万亿参数级别的大模型训练任务时,超节点架构在云数据中心展现出强大的扩展能力,可将432个超节点级联起来,构建出最高可达16万卡的超大集群。此外,超节点还支持训练与推理算力的一体化部署,例如采用“日推夜训”的模式,实现训推算力的灵活分配,助力客户实现资源的最优利用。

目前,昇腾AI云服务已成功为科大讯飞、新浪、硅基流动、面壁智能、中科院、360等超过1300家客户提供强劲的AI算力支持。

基于国产算力,盘古大模型5.5全面升级

盘古大模型5.5首次实现自然语言处理(NLP)、计算机视觉(CV)、多模态、预测与科学计算五大领域的全栈升级

1、自然语言处理(NLP):

  • 高效长序列处理:通过Adaptive SWA和ESA技术,能够轻松应对100万 token 长度的上下文。
  • 低幻觉:采用知识边界判定和结构化思考验证等创新方案,提升模型推理的准确度。
  • 快慢思考融合:自适应快慢思考合一技术,根据问题难易程度自动切换思考模式,简单问题快速回复,复杂问题深度思考,推理效率提升8倍。
  • 深度研究能力:盘古DeepDiver通过长链难题合成和渐进式奖励机制,在网页搜索、常识性问答等应用中表现出色,可在5分钟内完成超过10跳的复杂问答,并生成万字以上专业调研报告。

2、计算机视觉(CV)

300亿参数视觉大模型:支持多维度泛视觉感知、分析和决策,构建工业场景稀缺的泛视觉故障样本库,提升业务场景的可识别种类与精度。

3、多模态

世界模型:为智能驾驶、具身智能机器人训练构建数字物理空间,实现持续优化迭代。例如在智能驾驶领域,可生成大量训练数据,无需依赖高成本路采。

4、预测:

Triplet Transformer 架构:将不同行业的数据进行统一的三元组编码和预训练,提升预测精度和跨行业、跨场景的泛化性。

5、科学计算:

AI集合预报:例如深圳气象局基于盘古大模型升级的“智霁”大模型,首次实现 AI 集合预报,能更直观地反映天气系统的演变可能性。

2

世界模型诞生

多模态能力跨越式突破

此次,盘古5.5在NLP领域主要有三大模型组成,即盘古Ultra MoE、盘古Pro MoE、盘古Embedding;以及快慢思考合一的高效推理策略、盘古深度研究产品DeepDiver。

盘古UltraMoE:超大规模与高效推理的融合

盘古UltraMoE具备超大规模与稀疏激活特性,拥有7180亿参数,采用256个路由专家,每个token激活8个专家,激活量达39亿,实现了超大规模和高稀疏比的完美结合。

在架构设计上,它引入了MLA(Multi-headLatentAttention)注意力机制,有效压缩KVCache空间,缓解了推理阶段的内存带宽瓶颈。同时,采用MTP(Multi-TokenParallelism)多头扩展,通过单头MTP训练后扩展至多头结构,实现多Token投机推理,加速了整体推理过程。

在训练技术方面,提出了Depth-ScaledSandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,解决了超大规模MoE模型训练过程中的稳定性难题,实现了超过18TB数据的长期稳定训练。此外,采用EPgrouploss负载优化方法,保证了各个专家之间较好的负载均衡,同时提升了专家的领域特化能力。训练策略上,使用Dropless训练策略,避免Drop&Pad训推不一致问题,提升训练的数据效率;还采用迭代难例挖掘与多能力项均衡的奖励函数,参考GRPO算法,提升了模型的训练效率与最终推理性能。

盘古ProMoE:创新架构与卓越性能的典范

盘古ProMoE创新性地提出分组混合专家模型(MoGE),在专家选择阶段对专家进行分组,并约束token在每个组内激活等量专家,实现了专家负载均衡,显著提升了模型在昇腾平台的部署效率。

在推理性能上,表现十分出色。在昇腾300IDuo平台上,单卡吞吐量可达201tokens/s,通过引入MTP解码和多token优化可进一步提升至321tokens/s。在昇腾800IA2平台上,低并发场景下可实现毫秒级响应,高并发条件下单卡吞吐量可达1148tokens/s,结合优化后可提升至1528tokens/s,性能大幅领先于同等规模的稠密模型。

在推理能力方面,盘古ProMoE在跨语言多领域基准测试中展现出色性能,涵盖英语通用推理、阅读理解、常识推理,逻辑推理中的代码生成和中英双语数学问题,以及中文的知识问答和阅读理解等,全面验证了模型在复杂认知任务上的通用性与领域适应性。同时,针对昇腾300IDuo和800IA2平台进行系统优化,深度融合昇腾硬件加速架构的并行计算特性与算子级编译优化技术,实现了从算法设计到系统落地的全栈创新。

盘古Embedding:双系统认知架构的智慧结晶

盘古Embedding采用双系统认知架构,集成“快思考”与“慢思考”双推理模式。通过两阶段训练框架,第一阶段通过迭代蒸馏和多源动态奖励系统(MARS)构建基础推理器;第二阶段赋予模型快慢思考能力,可根据任务难度自动切换模式,实现推理效率与深度的动态平衡。

在训练策略上,提出基于模型感知型迭代蒸馏的SFT方案,动态选择与模型当前能力相匹配的数据样本进行训练,并通过训练过程中的模型合并策略保留早期知识,持续提升性能。通过引入特定领域的长思考数据继续训练,可显著提升模型在专业任务上的能力水平。例如在法律领域,经过法律语料训练后,在LawBench基准测试中的平均准确率达到54.59%。模型还能够根据任务的复杂程度自动调整推理深度,在简单问题上快速输出答案,在复杂问题上进行深入分析,确保输出的准确性。

盘古DeepDiver:深度研究场景的得力助手

盘古DeepDiver针对深度研究场景,如科学助手、个性化教育以及复杂的行业报告调研等,能够完成超过10跳的复杂问答,并生成万字以上的专业调研报告。通过构建大量的合成交互数据,并采用渐进式奖励策略进行强化学习训练,在开放域信息获取中表现出色,可在5分钟内完成复杂的任务,生成高质量的调研报告。同时,显著提升了盘古大模型的自主规划、探索、反思等高阶能力,使其在复杂任务处理中表现更加出色。

具身智能平台

开启机器人新时代

本次大会的另一重磅发布是华为云推出的CloudRobo具身智能平台。该平台整合数据合成、模型训练、仿真验证、云边协同部署等全流程能力,并发布三大核心模型:具身多模态生成、规划与执行大模型。

为破解机器人接口协议复杂、传感器种类繁多等挑战,华为云同步推出R2C开放协议(Robot to Cloud),推动机器人与云平台的标准化联接。通过协同伙伴和行业组织,共建 “可连接、可调用、可成长” 的具身智能新生态。

具身智能平台的推出大幅降低了机器人开发门槛。开发者无需从零构建基础能力,可基于平台统一技术栈快速开发行业专用机器人。这一布局显示华为正从“云端智能”向“具身智能”拓展,构建更完整的AI生态系统。

结语:

盘古大模型5.5的问世,彰显了华为“扎根产业,务实创新”的AI路径。其秉持“不作诗,只做事”理念,将7180亿参数的Ultra MoE架构、自适应快慢思考及世界模型等落地应用,把大模型从实验室变为产业升级引擎。此外随着CloudRobo具身智能平台和R2C开放协议推出,华为AI版图迈向“云端+具身智能”融合生态。此次华为开发者大会是中国AI大模型自主研发能力的检阅,标志着AI进入新阶段,致力于改变世界。