各大巨头纷纷布局!AI界下个风口浪尖来袭——世界模型

导读

在人工智能(AI)发展日新月异的当下,一个新兴且极具潜力的概念——世界模型(World Model),正逐渐成为行业焦点。它宛如AI系统中的“智慧大脑”,为AI赋予了对所处环境的深度理解与精准预测能力,有望推动AI技术迈向新的高度。

文字编辑|宋雨涵

世界模型近期愈发火热

2025年6月12日,Meta实验室里,工程师向屏幕输入一段视频:一颗金属球从桌沿滚落。新升级的V-JEPA 2模型几乎瞬间作出反应——它预判了球的坠落轨迹,并在虚拟界面中标记出可能的落点区域。“它知道被遮挡的物体不会消失,也理解重力对运动物体的影响”,研发负责人指着屏幕解释。此刻,这个系统正从数百万小时的真实世界视频中提炼物理规律,就像婴儿通过观察学习世界那样自然。

同一时间,谷歌DeepMind团队在顶级会议ICML上抛出一枚“理论炸弹”:一篇仅5个单词标题的论文《通用智能体需要世界模型》,用数学证明了一个颠覆性结论——任何能处理复杂任务的智能体,必然拥有内部世界模型,且能力越强,模型越精确。

6月20日,在华为开发者大会2025上,发布基于盘古多模态大模型的世界模型。该模型能为智能驾驶、具身智能机器人训练构建数字物理空间。在火星探测领域,可基于单张火星地表图片生成高精度数字物理空间,助力火星车训练避障能力与提升机械臂操作能力;在智能驾驶领域,输入相关信息可生成行车视频和激光雷达点云,为智能驾驶提供大量训练数据。

1

什么是世界模型?

一位工程师头脑中的物理模拟器

世界模型的核心目标在于,于AI系统内部构建一个针对所处环境(涵盖物理世界、虚拟环境或特定领域)的动态且具因果关系的内部表示或模拟器,旨在使AI能够精准预测环境状态的变化结果,深刻理解自身行动对未来状态产生的影响,并具备反事实思考能力,即思考“如果我做了X,会发生什么?”。其核心能力丰富多样,包括预测功能,即给定当前状态和动作,能够精准预测下一个状态或观察结果;理解因果关系,洞察环境中的因果联系;进行反事实推理,评估不同假设情况下的结果;规划能力,在内部模拟中评估不同行动序列的后果,以制定最优策略;以及表征学习能力,构建环境的压缩、抽象表示。

从本质上看,世界模型是一个内部模拟引擎,是AI理解世界运作方式、进行有效决策和规划的基石,且通常为多模态的,能够整合视觉、听觉、物理、社会信号等多种信息。

在与大语言模型(LLM)和深度推理模型(DRM)的关系方面

LLM可视为在文本世界中训练出的一个不完整且不精确的世界模型,它虽捕捉了语言描述中的世界模式,但缺乏对物理现实、感官体验和真实因果的直接建模,而真正的世界模型能为LLM提供更坚实、基于物理/因果的“常识”基础;

对于DRM而言,世界模型为其深度推理提供了必要的内容和上下文,因为进行有意义的推理需要以关于世界的模型为基础,世界模型提供模拟环境,DRM则利用该环境进行推理和规划。然而,世界模型也存在一定局限性,构建一个全面、准确且可扩展的世界模型极具挑战性,尤其是在开放物理世界中,如何有效学习和更新世界模型是关键难题,与行动和感知的紧密集成也是一大难点。

简单而言做一个比喻,LLM就像一位博学但缺乏实践经验的学者: 阅读了大量书籍(文本数据),能流畅地谈论、写作、回答基于书本的问题,甚至能基于书中模式进行一些推测。但他对现实世界的物理规律、动手操作、真实因果链只有间接的、可能不准确的理解。

DRM像一位严谨的逻辑学家/数学家: 特别擅长遵循规则、进行一步步推导、证明定理、解决逻辑谜题。他需要明确的问题和规则(可能由LLM提供背景,或由世界模型提供模拟环境)。

世界模型像一位工程师头脑中的物理模拟器: 他理解杠杆原理、材料强度、齿轮如何啮合。他能在脑海中想象推一块积木会发生什么(预测),理解为什么用锤子敲钉子比用手掌有效(因果),并思考如果换一种材料桥会不会塌(反事实)。这是他设计和建造东西(规划、行动)的基础。LLM可能为他提供设计描述或历史案例,DRM帮他精确计算受力或优化结构。

2

核心能力

从感知到决策的全链路升级

世界模型的核心能力体现在多个方面。首先是预测能力,给定当前环境状态和AI系统的动作,世界模型能够预测下一个状态或观察结果。例如,在机器人操作任务中,世界模型可以根据机器人当前的位置、姿态和即将执行的动作,预测机器人下一步的位置和可能遇到的障碍物,为机器人的路径规划提供依据。

其次是理解因果关系,世界模型能够揭示环境中的因果联系,而不仅仅是表面的相关性。在医疗诊断领域,传统的AI模型可能只能根据症状的相似性进行诊断,而世界模型则可以分析症状与疾病之间的因果关系,从而提高诊断的准确性。

反事实推理能力也是世界模型的重要特点之一。它允许AI系统思考“如果我做了X,会发生什么?”,通过评估不同行动的潜在后果,为AI提供更多的决策选择。在金融投资中,世界模型可以模拟不同的投资策略对投资组合的影响,帮助投资者做出更明智的决策。

此外,世界模型还具备规划和表征学习的能力。在规划方面,它能够在内部模拟中评估不同行动序列的后果,制定出最优的行动计划。在表征学习方面,它可以将复杂的环境信息简化为易于处理的形式,同时保留关键的特征,提高AI系统的处理效率。

3

巨头布局

群雄逐鹿世界模型赛道

英伟达:Cosmos模型开启物理世界模拟新纪元

在2025年CES展会上,英伟达CEO黄仁勋宣布推出Cosmos世界模型,引起了行业的广泛关注。Cosmos模型专为理解物理世界打造,具备生成逼真视频和创建合成训练数据的能力。它有Nano、Super、Ultra三个版本,分别适用于边缘设备、消费级显卡和工作站级GPU,能够满足不同场景的需求。

以自动驾驶为例,Cosmos模型可以生成各种复杂的交通场景,包括恶劣天气、突发事故等,为自动驾驶模型的训练提供丰富的数据。这些合成数据不仅可以降低数据采集成本,还可以模拟一些现实中难以遇到的危险场景,提高自动驾驶模型的安全性和鲁棒性。此外,Cosmos模型还可以与英伟达的DRIVE平台深度集成,为自动驾驶汽车提供实时的环境感知和决策支持。

谷歌:DeepMind团队探索世界模型新边界

谷歌旗下DeepMind组建了专门的世界模型研究团队,聘请Sora核心人员Tim Brooks掌舵,展现了其在世界模型领域的雄心壮志。DeepMind发布的Genie模型就是一个典型的例子,该模型能够模拟虚拟世界以及逼真的动画和物理效果。

Genie模型通过对大量图像和视频数据的学习,构建了一个虚拟世界的生成模型。它可以根据用户的输入生成各种不同的虚拟场景,如奇幻森林、未来城市等,并且这些场景中的物体运动和交互都符合物理规律。在游戏开发领域,Genie模型可以为游戏设计师提供无限的创意灵感,快速生成各种游戏场景和角色,降低游戏开发成本和时间。同时,Genie模型还可以用于教育和培训领域,为学生和学员提供一个沉浸式的虚拟学习环境。

Meta:杨立昆领衔探索世界模型理论根基

Meta首席AI科学家杨立昆早在2022年就开始领导团队研究“可以模拟世界运作方式的AI系统”。他认为,真正的智能蕴含在生命与物理世界的交互中,因此设计一套AI学习范式和架构,使机器能够以自监督而非人类干预的方式学习并掌握世界模型,是实现通用人工智能(AGI)的关键。

Meta放大招了,LeCun亲自出镜,开源V-JEPA 2世界模型,AI界巨擘押注“预测学习”未来

AI教母李飞飞的空间智能

李飞飞提出的“空间智能”(Spatial Intelligence)是她创立的 World Labs 公司的核心研究方向,旨在构建能够感知、推理并与三维物理世界交互的“世界模型”(World Model)。这一概念被视为实现通用人工智能(AGI)的关键路径,其核心在于让AI超越文本和2D图像的局限,真正理解并模拟人类所处的立体空间环境。

空间智能的续集来了!“AI教母”李飞飞创业归来,AI靠单图生成3D世界,生成式AI进入3D化沉浸式新时代

世界模型面临的挑战与机遇

(一)挑战

算力需求巨大:训练和运行世界模型需要比当前生成模型更多的计算能力。例如,Sora单次训练算力需求或可达到GPT-3 175B的8.2倍,而世界模型的算力需求更大,这对企业的技术和资金实力提出了极高的要求。

幻觉和偏见问题:像所有AI模型一样,世界模型也会产生幻觉并内化训练数据中的偏见。例如,ChatGPT中文对话的效果不如英文给出的答案,高质量的训练数据对于世界模型至关重要,且训练数据必须足够广泛和具体,同时还要解决训练数据的版权问题。

复杂行为模拟困难:目前的模型难以准确捕捉世界居民(如人类和动物)的行为,这限制了世界模型在一些需要精准模拟人类行为场景中的应用。

(二)机遇

技术创新空间广阔:世界模型作为AI领域的新兴方向,为科研人员和企业提供了巨大的技术创新空间。通过不断的研究和开发,有望突破现有的技术瓶颈,实现更高级别的智能表现。

商业应用前景广阔:随着世界模型技术的不断成熟,其在影视、游戏、自动驾驶、机器人等行业的商业应用前景十分广阔。例如,在影视制作中,世界模型可以快速生成逼真的场景和特效,降低制作成本和时间;在自动驾驶领域,可以提高车辆的安全性和智能化水平。

推动AI与现实世界融合:世界模型的发展有望推动人工智能与现实世界的深度融合,为人类社会带来更多的便利和变革。例如,通过世界模型可以实现更智能的城市管理、医疗诊断和环境监测等。

结语:

世界模型作为AI领域的新兴力量,正以其独特的魅力和巨大的潜力,引领着AI技术的发展方向。尽管目前还面临着一些挑战,但随着科技巨头的布局和科研人员的不断努力,世界模型有望在未来取得重大突破,为人工智能与现实世界的融合开辟新的途径。