导读
2025年10月17日,斯坦福大学教授李飞飞(Fei-Fei Li)创立的空间智能公司World Labs于近日正式发布了新一代实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型)。

RTFM是一款能够实时生成交互式三维世界的全新模型,其最大突破在于仅需单块NVIDIA H100 GPU即可实时渲染出持久且3D一致的虚拟世界。这意味着用户只需提供一张2D图像作为输入,RTFM便能即时生成对应的完整3D场景,并支持用户在其中自由探索,场景内容保持稳定一致,不会因视角改变或时间推移而消失或重置。
文字编辑|宋雨涵
1
李飞飞的空间智能:
实时、持久、3D一致的世界模型
2024年9月,公司宣布获得了2.3亿美元的巨额融资,投后估值达到10亿美元。强大的资金支持为团队提供了充足的资源来推进研发。2025年10月16日,李飞飞通过社交媒体正式宣布RTFM模型的公开预览版上线,并开放了在线演示供公众体验。
李飞飞教授在推特上分享RTFM模型的最新研究成果
RTFM的设计遵循高效性、可扩展性和持久性三大核心原则。
首先,高效性体现在推理速度上——模型经过高度优化,单张H100 GPU即可达到交互级帧率(每秒24帧以上),实现真正的实时运行。
其次,可扩展性意味着模型架构简洁,能够随着训练数据量和算力的增长持续提升性能,符合AI领域“算力扩展定律”的思路。
最后,持久性指模型构建的虚拟世界是永久存在的:用户可以无限时地与场景交互,即使大幅移动视角或长时间离开后返回,场景内容依然保持不变。
这三大原则确保RTFM在保持高保真度的同时,能够在当前主流硬件上实现永不消逝的实时交互虚拟世界。
技术原理:端到端学习与可学习渲染器
TFM采用了与传统计算机图形学截然不同的技术路径,将自身定位为一个“可学习的渲染器”(learned renderer)。
传统渲染流程依赖显式的3D模型(如三角网格、点云等)和复杂的物理渲染管线,而RTFM通过端到端的深度学习直接从海量视频数据中学习渲染规律。其核心架构是一个自回归扩散变换器(autoregressive diffusion transformer),经过在大规模视频数据集上的训练,掌握了从已有图像帧预测新视角图像的能力,整个过程无需人工构建任何显式3D几何模型。
简单来说,RTFM将复杂的物理渲染问题转化为了数据驱动的感知建模任务——通过学习真实世界的光照、材质和空间关系,直接“想象”出新视角下场景的样子。
2
Marble和RTFM
数字大脑和神笔马良
就在今年九月,斯坦福大学教授李飞飞的创业公司World Labs才刚刚上线了空间智能研究成果:Marble。时隔一个月,又再次发布了RTFM,这个节奏属实比原来快了很多啊。
我们来看看这两者有何不同:
Marble旨在创造一个理解世界如何运作的“数字大脑”,而RTFM则专注于打造一支能实时画出世界的“神笔”。
Marble(数字大脑):它的核心目标是理解物理世界的因果和动态。比如,一个球滚下斜坡会发生什么?它更像一个学习物理定律的“科学家”,最终服务于需要深度推理的领域,如机器人或自动驾驶。
RTFM(神笔):它的核心专长是从少数几张图片,实时生成一个持久且3D一致的视觉世界。它不深究物理规律,而是极致专注于视觉内容的生成与渲染,像一个技艺超群的“画家”,主打高效和逼真的视觉效果。
简而言之,一个重在“理解世界”,另一个重在“呈现世界”。 它们并非竞争关系,而是构建未来数字世界所需的两种不同但互补的核心能力。
3
算力豹观察
“大型世界模型”构建之路
李飞飞本人在发布时表示,团队的长期愿景是构建“大型世界模型”(Large World Model, LWM),让AI能够深入理解并模拟三维物理世界。RTFM是这一愿景的第一步,它证明了在现有硬件上实现实时世界生成的可行性。
她在展望未来时说到,随着技术的演进,我们有望迎来更加智能、逼真的虚拟世界,人类与AI将在数字空间中进行前所未有的互动与创造。
RTFM作为“世界模型,在AI与现实世界交互方面,自动驾驶汽车可以利用类似的模型,将车载摄像头获取的2D画面实时转化为周围环境的3D模型,辅助路径规划;机器人可以通过生成模型预测环境变化,提高对动态环境的适应性。这类空间智能模型的发展,将使AI从理解2D图像提升到理解3D世界,为物联网、智能制造等领域带来新的突破。
尽管RTFM带来了令人振奋的突破,但我们也需冷静地看到其面临的挑战和局限:
RTFM展示了在当前硬件上实现复杂生成任务的可能性,但也对未来硬件提出了更高要求。
随着模型规模和数据量的增加,新一代AI芯片需要在并行计算能力、内存带宽等方面进一步提升,以支撑更大规模的世界模型。同时,软件生态也将随之调整,例如出现专门针对实时生成优化的渲染引擎、游戏引擎插件,以及标准化的3D内容格式来存储和共享AI生成的场景。可以预见,围绕生成式世界模型将形成新的产业链,包括数据提供、模型训练服务、内容分发平台等,推动相关产业的繁荣。
写在最后:
李飞飞团队的RTFM,在技术指标之外,最革命性的地方或许在于:它悄悄拆除了专业创作者与普通大众之间的那堵高墙。当创造世界变得像拍照一样简单,我们每个人都将可以构建自己的元宇宙——只不过需要的,只是一块GPU和一点点想象力。