智源大会深度对话:大模型自进化、智能体与世界模型的下一步

要选对赛道,做重要的事

2026年6月12日上午北京智源大会的一场压轴对话——重构世界-中国大模型巅峰观点汇总。

主持人:智源研究院院长 王仲远

嘉宾:清华大学教授/生数科技首席科学家 朱军;

清华大学教授/面壁智能联合创始人 刘知远;

南洋理工大学校长讲席教授 安波;

小米MiMo大模型负责人 罗福莉 

王仲远院长在对话开场表示,人工智能站在一个新的历史临界点上,正在成为重构世界的底层力量。AI Coding、自主智能体、模型自进化正在打开AI的可能性,而世界模型、具身智能和机器人则让智能从数字世界延伸到物理世界。未来最重要的竞争是:谁率先掌握创造智能、驾驭智能并让智能重塑现实的能力。

问题一:Claude Fable 5模型及AI Coding的进展,是量变的累积还是已到质变的临界点?模型能力是否在加速提升?

罗福莉认为Claude是科学Scaling(扩展)即有规律地扩展参数规模、数据规模和计算投入的阶段性产物。Claude的成功源于三维度:

参数规模推测是现有最强开源模型的数倍;

强化学习/Test-time Scaling,即推理端算力投入极大;

数据规模从互联网文本迈向人+智能体共同产生的合成数据。 

她强调模型能力是涌现过程,很难用单一线性或指数曲线去量化。当参数量和数据规模同时跃上新台阶时,涌现出的能力可能超出预期。

朱军认为Token消耗减少是正确方向。他结合自身视频/世界模型训练经验,观察到模型规模和数据Scale up(向上扩展)带来显著性能提升——从幻觉严重,到能生成影视级内容。最关键的是新版Claude在解决同样任务时,Token消耗量变少了。这意味着模型拥有了更高级的智能来调用工具和思考,而不是只靠堆算力。

刘知远认为Claude的成功本质上是可持续Scaling——通过全球用户使用代码生成产生的数据反馈,构成了持续演进的动力引擎。代码是数字世界最重要的生产力工具,其能力提升将颠覆工业软件、漏洞发现等行业,甚至可能,通过代码大模型重写被卡脖子的工业软件,以此形成国产化生态。

也就是说任何专业领域,如果能像代码一样快速形成数据闭环,AI 的行业应用就能加速落地。

安波认为自进化依赖外部反馈,Claude Code和Codex的成功路径都是获取人的使用数据和反馈实现持续增强。但并非所有问题都能用代码解决——他们团队的研究方向是理解人们如何使用这些工具,从中寻找模式和共性。

问题二:AI自进化(AI构建AI)的趋势如何?递归自我改进(Recursive Self-Improvement)的发展现状到了什么阶段?

罗福莉观点是模型能力正在自进化,差距在研究的品味上,taste。目前唯一模型还相对有差距的地方就是提出假设——提出有验证性的问题,提出值得去实验的问题。这是一种研究 taste,以及如何根据早期结果及时停止无意义研究的判断力。但这个差距正在被更强的模型叠加原生自我改进智能体系统(Native Self-Improvement Agent System)慢慢弥合。她对自己身处这个时代、见证这一历程感到非常兴奋。

朱军观点是从信息熵角度看,演化过程一定要有额外的东西输入进去——除非系统内部的东西还没学完。物理世界本身是一个完全的开环、开集,和固定的数据集不是一个概念。

未来需要构建一个可演化、可进化的发育环境。智能体可以在其中学习,也可以走出来与真实世界交互,将反馈再作用到底座环境上。

刘知远观点是用 AI 制造 AI是智能革命高级阶段的标志。从两个角度看,工业革命的核心是用机器替代人的重复体力劳动,发展到极致就是『用机器制造机器』。同理,智能革命就是要用 AI 替代人的机械重复脑力劳动,那么『用 AI 制造 AI』就是人工智能发展到高级状态的标志。而递归自改进的最外层必须是人,由人来驱动 AI 去制造 AI。当『AI 制造 AI』做好后,如何进一步自动化地制造『能制造 AI 的 AI』,这是递归的核心思想。

安波观点是封闭自进化很难成功,必须依赖外部反馈。一方面在 AI 能力还比较弱的时候,完全在封闭环境中搞自演化是很难行得通的。比如Claude Code 和 Codex 等成功案例,都使用了大量内部员工写代码的数据,或从外部获取了大量反馈。完全封闭地搞数据飞轮——尤其在 AI 能力较弱时——他不认为能成功。

问题三:智能体技术和方向中,哪些问题和技术是当前最为关注的?

安波认为智能体的核心是上下文工程,最大潜力在垂直领域。智能体仍在起步阶段,未来还有很长的路。当前大家可能还在关注通用智能体,但更大潜力在于落到垂直领域解决真问题——比如攻克艾滋病或癌症。

技术层面,最核心的是上下文工程(Context Engineering),包含两个关键组件——记忆系统(Memory)和编排能力(Orchestration),尤其是复杂动态编排,智能体在求解过程中能动态并行、涉及新架构和通信。

问题四:重构世界最有可能的路径是什么?各位更相信哪一条路径能更快、更有效地改变世界?

罗福莉的观点是目前语言模型和世界模型并驾齐驱地向前发展,但语言模型会先行一步,探索得更清楚。

语言模型路径在数字世界中,我们能更好地从数据中还原出智能诞生的环境,驱动模型发挥出更高上限,再叠加Agent系统让模型自由探索,辅以精准的奖励体系激励,实现自我提升。

世界模型当前的关键挑战是效率,尤其是能否构建一个足够高效的世界模拟器。这类模型不只是生成视频内容,是要以较低成本模拟现实世界中的时空变化。目前行业还缺少真正高效、可用于复杂任务推演的视频生成模型。一旦高效视频生成器成熟,就可以与Agent系统结合,让智能体在视觉环境中进行预测、规划和试错,从而处理更复杂的现实任务。

语言模型和世界模型最终会互通。但语言模型会先探索清楚,之后世界模型的高效架构、物理系统以及强化学习才会慢慢诞生。

朱军表示从视频模型走向通用Foundation世界模型要先把智能上限推上去。之后会有很多手段可以把它做小、做专去部署。

语言模型最早最成熟地验证了Scaling法则,视频模型紧随其后,世界模型正在凝聚共识。世界模型需要三个层次的能力——理解状态、预测想象、规划行动。视频数据是记录世界最方便、最大量的方式,视频模型就是做这件事。

如果只看per-token的效率,视频模型并不一定低。而且对机器而言,不需要渲染像素给人看,只需在内在模型里思考、规划动作、端到端输出即可,优化空间很大。

问题五:给年轻人的建议?如何应对AI快速发展带来的焦虑和职业变化?

罗福莉认为,在当今AIGC进步速度极快的时代,有一项非常恒定不变的特质——人的探索欲和好奇心。保持自己的探索欲和好奇心,然后更极致地去使用AI最新的大模型。

在这个过程中,需要进行大量的试错,并培养自己独特的判断力和研究品味。

朱军结合自己在清华培养AI本科生的经历,表示无论时代怎么变化,有根基才有竞争力,无穹书院倡导学生从第一天起就用AI陪伴学习。不要太焦虑,最重要的是积极拥抱AI、使用AI

刘知远结合带研究生的经验给出三点建议,面向智能革命,大的创新总是反共识的。要在所有人还没做、还没看到的时候,就敢于做出不一样的选择。做了不一样的选择,一定会遭遇非议和否定——能否坚持、不忘初心非常关键。不做既得利益者,取得成绩后不能躺在成功路径上不愿改变。要敢于自我否定,做出新的探索和尝试。

安波的回答最为务实直接,首先是选对赛道,做重要的事。在这个年代,学位已经不那么重要了。真正会什么才最重要。

世界变化太快,如果一个概念花两三天还卡住,就不能再自己闷头研究,必须找人交流讨论,哪怕是线上的小组。


本文来源于DOIT传媒,文章内容仅供参考,不构成投资建议。

赞 ()

相关推荐

发表回复

评论列表

点击查看更多

    联系我们

    微信:百易小助手

    邮件:contact@doit.com.cn

    工作时间:周一至周五,9:30-18:30,节假日休息

    微信