谷歌DeepMind发布Genie 3:一句话生成可玩的3D世界!实时交互世界模型开启AGI新纪元

导读

2025年8月6日,谷歌DeepMind正式发布Genie 3世界模型,首个支持实时交互的生成式环境引擎。它基于文本、图像或视频输入,以每秒24帧的速率创建长达数分钟的高保真动态世界。

相比前代Genie 2仅能维持10-20秒的360P画面,此次升级被英伟达科学家Jim Fan誉为 “游戏引擎2.0时代”的降临。

谷歌DeepMind Genie 3与Genie 2、由神经模型驱动的游戏引擎GameNGen、视频生成模型Veo对比,最突出的特点是其生成时长翻倍增长,且能做到针对已生成的环境修改:

文字编辑|宋雨涵

1

三大核心技术突破:

重新定义AI世界模型

1

实时交互性:

Genie 3此次进化的一大显著亮点,在于其具备实时响应的用户交互能力,并且能在长达数分钟的时间里保持场景(三维)的高度一致性。

为使Genie 3在可控性与实时交互性上达到高水平,谷歌在技术层面实现了多项重大突破。

在模型每帧的自回归生成进程中,需持续考量随时间推移而增加的轨迹信息。比如,当用户在一分钟之后重新回到某个地点时,模型要能够追溯并调用一分钟前生成的相关信息。

要达成真正的实时交互效果,这种计算必须每秒进行多次,如此才能及时响应源源不断的用户输入。

2

环境一致性:

为让AI生成的世界更具沉浸感,环境在长时间跨度内必须维持物理层面的连贯性。不过,通过自回归方式生成环境,相较于一次性生成整段视频,技术难度要大得多,因为误差会随着时间逐步累积。

即便面临这一难题,Genie 3所生成的环境在数分钟内依旧能保持高度一致,其视觉记忆能力最远可追溯至一分钟前的画面状态。

如上图所示的“建筑物左侧的树木”,在互动过程中始终保持一致:

Genie 3的一致性是一项新兴能力。NeRF和高斯分布等方法在实现一致的可导航3D环境同时,需要依赖于提供明确的3D表示,相比之下,Genie 3生成的世界是根据世界描述和用户操作逐帧创建的,因此生成内容更为丰富、真实。

Genie 3通过记忆已生成的内容并进行长期推理,自学世界中的物体如何移动、下落和互动。该模型是自回归的,这意味着它一次只生成一帧,其必须回顾之前生成的内容,才能决定下一步要做什么。这是该架构的关键部分。

3

可提示世界事件:

Genie 3引入了”可提示世界事件”功能,这是一个革命性的创新。用户不仅可以在世界中导航,还能通过文本指令动态改变世界状态。

下面的“面包店”场景中,演示出分别给出了走进搅拌机、前往冷却架、走到玻璃柜前的任务:

在给定的“市场”环境中,案例分别演示了走进花摊、去面包师那里等任务:

在具身Agent的研究领域,研究人员就可以选择一个世界设定,然后选择希望Agent实现的目标并观察它如何实现目标。

2

喜忧参半

Genie 3的局限性

尽管能力惊人,Genie 3仍面临多重技术壁垒。

动作空间有限。尽管可提示的世界事件允许进行广泛的环境干预,但这些干预不一定由agent自身执行。agent可以直接执行的动作范围目前受到限制。

其他agent的交互与模拟。在共享环境中准确建模多个独立agent之间的复杂交互仍然很难。

真实世界位置的准确表示。Genie 3目前无法以完美的地理精度模拟真实世界位置。

文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。

交互时间有限。目前 Genie 3支持几分钟的连续交互,而非数小时。

此外DeepMind研究团队在官方博客中坦言:实现数小时级的稳定交互需要算法与算力的双重突破。现有模型已需数千块GPU协同训练,延长交互时间意味着计算成本指数级增长。

三、世界模型演进:

通往AGI的必经之路

长久以来,“世界模型”始终被行业视为迈向通用人工智能(AGI)征程中至关重要的基石。原因在于,它能够为AI智能体提供无限多样且丰富的模拟环境用于训练。

在过去十多年的时间里,谷歌DeepMind在模拟环境研究领域始终处于前沿地位,其研究范畴广泛,从教导AI智能体精通即时战略游戏,到为开放式学习以及机器人技术打造模拟环境,均有深入探索。

正是基于这些持续且深入的研究,谷歌DeepMind成功开发出了“世界模型”。

Genie 3的发布标志着世界模型发展进入新阶段。从Genie 1的静态场景生成,到Genie 2的短暂交互,再到如今分钟级实时交互,技术演进呈现加速突破态势。

DeepMind将Genie 3定位为 “通向AGI的关键基础设施”。传统AI训练依赖有限数据集,而Genie 3能无限生成多样化环境,为AI智能体提供试炼场。

产业层面,世界模型正驱动两条技术路线的竞合:谷歌的语言驱动生成(Genie 3)、英伟达的数字孪生平台(Omniverse)、Meta的空间计算,以及小鹏汽车等企业探索的“云端世界模型工厂”——通过模拟交通场景蒸馏自动驾驶能力。

而DeepMind将Genie 3定位为“AGI基础设施”,其价值不仅在于为机器人提供零成本试错的仓库火灾训练场,更在于逼迫AI建立行动-结果的因果链:风吹草动、火势蔓延,这些基础逻辑恰是通用智能的基石。

结语:

世界模型的终极意义,是让AI从“统计规律拟合者”蜕变为“因果逻辑掌控者”。Genie 3的虚拟海浪拍岸时,我们看到的不仅是水的纹理,更是AI对流体动力学的内化推演。

这不仅是技术升级,更是认知革命:当AI通过创造世界来理解世界,人类第一次有机会将智能的本质封装进代码——那条通往AGI的幽深小径,正被世界模型的火光逐渐照亮。