导读
百余台人形机器人穿梭会场,银河通用Galbot精准取药,天工2.0灵巧制作甜点,宇树G1表演格斗拳法——2025北京智源大会现场,机器人从展品蜕变为真正的生产力伙伴。

2025年6月6日,第七届北京智源大会在中关村国家自主创新示范区展示中心开幕。这场汇聚4位图灵奖得主、30余位AI企业CEO、200余位顶尖学者的“AI界春晚”,以“全球视野、思想碰撞、前沿引领”为内核,揭开了人工智能从数字世界迈向物理世界的技术拐点。
文字编辑| 宋雨涵
1
技术突破:
“悟界”系列构建物理世界交互基座
智源研究院院长王仲远在主题演讲中宣布推出 “悟界”系列大模型,包含四大核心技术成果,覆盖从微观生命到宏观机器智能的全链条:
原生多模态世界模型Emu3
突破性架构:基于“下一个token预测”统一文本、图像、视频模态,通过新型视觉tokenizer构建模态无关的表征空间,实现任意组合理解与生成。
物理因果推理:王仲远以咖啡杯为例说明其价值——“现有模型能描述‘杯子在桌上’,但Emu3可推断‘杯沿悬空会坠落’,这是对物理规律的真正理解”。
脑科学模型“见微Brainμ”
首次将fMRI、EEG等脑信号统一token化,实现脑活动与文本、图像的双向映射;
在便携式脑电设备上重建感觉信号,已应用于睡眠分型、脑疾病诊断,并与清华、北大等机构合作探索脑机接口新场景。
具身智能双引擎:RoboBrain 2.0 + RoboOS 2.0
RoboBrain 2.0:全球最强开源具身大脑,空间推理准确率提升74%,新增闭环反馈与深度思考能力;
RoboOS 2.0:跨本体协作框架响应时延降至3ms以下,支持“机器人应用商店”生态,代码量仅为传统方案的1/10。
微观生命模型OpenComplex2
在原子分辨率层面模拟生物分子动态构象,破解蛋白质结构预测瓶颈,为药物研发提供新工具。
通往物理AGI的必经之路战略意图:
“打造强大的世界模型是人类通往AGI的必经之路。”智源大会上,这一观点成为共识。
李飞飞近期在与硅谷风投机构a16z的对话中也探讨了“世界模型”概念——这些AI系统不仅能理解和推理文字信息,还能理解物理世界的运作规律。
世界模型代表着智能系统对物理世界的数字化理解与预测能力。在智能驾驶领域,各企业的竞争已从拼车端算力演进到比拼云端构建的世界模型能力。
华泰证券分析指出,这将持续提升车载芯片算力及传感器精度,对算法公司和主机厂技术研发能力提出新要求。
亿欧智库报告则提醒,世界模型通过云端训练+车端蒸馏提升泛化能力,但规模化落地仍受限于算力成本与数据质量两大桎梏。
“大模型技术路线正从大语言模型转向多模态尤其是原生多模态世界模型,”王仲远指出,“所有这一切构成的世界模型,是实现物理AGI的重要发展路径。”
2
具身智能爆发
机器人2.0时代落地提速
在过去一年里,具身智能领域呈现出爆发式的增长态势,已然成为人工智能与机器人技术深度融合的核心领域。
在本届智源大会上,“具身智能”元素无处不在,热度空前。在开幕式的具身会客厅环节,现场热闹非凡,宇树、天工、银河通用三大明星机器人纷纷登台展示绝技,引得观众阵阵喝彩。
- 银河通用Galbot:已在北京7家无人药店上岗,今年计划扩展至京沪深100家门店,实现零售场景规模化落地;
- 天工2.0:全球首个人形机器人马拉松冠军,现场展示精细化“水果摆盘”技能;
- 宇树G1:以敏捷格斗动作演绎机器人运动控制突破。
与此同时,Physical Intelligence联合创始人兼CEO Karol Hausman与宇树科技创始人王兴兴、银河通用创始人兼CTO(同时也是北京大学助理教授、智源具身智能研究中心主任)王鹤、穹彻智能联合创始人兼上海交通大学教授卢策吾、北京人形机器人创新中心总经理熊友军以及智源研究院院长王仲远,通过线上连线的方式,共同探讨具身智能的现状与未来走向。
技术路线与底层逻辑
清华大学教授孙富春认为世界模型是全要素模型,空间智能是其视觉投影,强调触觉纠偏重要性,要构建沉浸式数字物理系统;清华大学研究员赵明国提出类脑算法可替代传统控制器,人形机器人发展需向视觉决策等升级,人类进化底层运动智能有启示意义。
数据瓶颈突破
银河通用王鹤主张采用合成数据为主的具身大模型训练范式,其机器人Galbot已在多场景落地;上海人工智能实验室庞江淼认为合成数据有助于泛化,但实现全合成数据零样本泛化需时间;北京大学卢宗青提出利用互联网视频预训练姿态生成模型解决数据稀缺问题;清华大学高阳指出机器人数据采集成本高、难描述,可利用互联网视频数据结合强化学习解决仿真与现实差距;北京人形机器人创新中心唐剑认为虚实结合是正确方式,世界模型能模拟规律、生成数据、预测变化。
通用泛化能力构建
智源具身多模态大模型中心仉尚航认为构建具身快慢系统是从“单一任务/本体”迈向“通用泛化”的关键,介绍了两条技术路线及相关最新工作;北京邮电大学方斌指出视触觉感知是迈向“精准操作”的核心,需通过多种方式解决操作稳定性与泛化性难题。
智源研究院理事长黄铁军在闭幕致辞中表示,智源持续布局类脑等方向的研究,意在构造精细完整的物理智能体,从原子到器官打造媲美人类的物理智能体。他带领团队开发的脉冲视觉芯片,功能类似人眼,速度比人眼快千倍,就是为具身智能准备的“超级电眼”。2024年底登上Nature子刊封面的智源线虫,实现秀丽线虫神经系统、身体与环境的闭环仿真,能够自主觅食,逼真诠释了具身理念。5-10年,具身智能有望代替人类从事不愿干、危险的劳动,但这并非具身智能的终极目标。人类从地球演化出来,只适合在地球生存,生理上不适合移民到其他星球。2045 年具身智能有望全面超越人类,代表人类走向星际,“我们的目标是星辰大海!我们的使命伟大而光荣!”
安全警钟
图灵奖得主呼吁全球协同治理
在AI技术高歌猛进之际,安全警钟长鸣。图灵奖得主约书亚·本吉奥在大会尖峰对话环节发出警示:当前AI在规划、推理等领域进步飞速,部分前沿模型已显现自我保护、欺骗性对齐等类生物主体行为。
本吉奥警告,若形成 “智能+自主目标+行动能力”组合将引发失控风险,甚至可能威胁人类生存。
“要在AGI可能于5年内达到人类水平的紧迫时间窗口内,通过技术创新与全球协作筑牢安全防线。”他呼吁推动全球协同治理,建立国际监管框架与技术验证机制。
另一位图灵奖得主理查德·萨顿则提出不同思路:以去中心化合作替代中心化控制,通过信任、协调和市场机制引导AI与人类共生。
智源研究院持续推进AI安全底层关键技术研究,2024年3月发起并承办我国首个AI安全国际对话高端闭门论坛,与全球AI领袖联合签署《北京AI安全国际共识》。
结语:
王仲远指出,大模型技术演进远未抵达终点,而当前大语言模型的性能提升正面临显著瓶颈,主要源于互联网高质量训练数据的枯竭与同质化竞争。
“悟界”系列的推出标志着中国AI研究从“数字AGI”迈向 “物理AGI” 的关键转折。当Emu3能理解咖啡杯放桌沿会摔碎,当RoboBrain 2.0能精准规划机器人行动路径,当Brainμ解码人脑信号——物理世界的运行规则正被AI重新书写。