最近,NVIDIA英伟达在SIGGRAPH上正式发布Cosmos Reason,这是一款面向物理AI的开放、可商用推理型视觉语言模型(VLM),能够像人类一样结合先验知识、物理规律、物理交互和常识进行思考,能提高模型对世界的认识能力。
NVIDIA Cosmos Reason模型,提高AI对世界的认识能力
与传统VLM只能做物体识别、模式识别不同,NVIDIA Cosmos Reason可以处理多步骤任务、应对从未见过的新情境。尽管只有70亿参数,但它在多项评测榜单上都达到了业界领先水平。
Cosmos Reason是开放的,支持完全定制,非常适合部署在边缘设备和机器人中。几乎所有具备视觉能力的智能物联网设备、家用和工业机器人,都可以借助Cosmos Reason拥有推理能力,更好地理解所看到的世界。
Cosmos Reason将改变数据筛选与标注的现状。数据筛选与标注是物理AI中最复杂的三大工作流之一。当前,这类工作通常由人工与非推理型VLM配合完成,速度慢且质量也不高。而Cosmos Reason让大规模、高质量、多样化数据自动筛选与标注成为可能。
在机器人中,通常需要两个AI模型:一个VLM负责理解指令并规划行动,另一个视觉语言动作模型(VLA)负责快速反应和执行动作。有了Cosmos Reason作为VLM,机器人能够更好地理解模糊的指令,并推导出具体的行动方案。
英伟达Omniverse与仿真技术副总裁Rev Lebaredian展示了一个Demo:当接到“帮我烤点面包”指令时,机器人会识别出烤面包机和面包,把“点”面包理解为两片面包,选择常见的中档,并推断用户的需求是想要一份完成的食物,于是会取出盘子,把面包端上桌子。

Cosmos Reason还将改变视频分析领域。该模型已集成到NVIDIA Blueprint视频搜索与总结方案中,能够在录好的视频和实时视频流中提取有价值洞察。未来,基于该模型的视频智能体,将在交通监控、工业设施、城市巡逻场景中发挥重要作用。
物理AI开发面临的核心挑战在于数据短缺
NVIDIA Cosmos是英伟达推出的用来开发物理AI的平台,包含生成式世界基础模型(WFM)、安全防护机制以及高速数据处理与筛选流水线。可以用它来开发智能辅助驾驶汽车,智能机器人以及分析类AI智能体。
在英伟达的判断中,继AI智能体之后,AI技术发展的下一个站是“物理AI”——能够感知、理解并与物理世界互动的AI模型。这将推动智能工厂、智能辅助驾驶、人形机器人等领域的革命。英伟达认为,这一市场价值万亿美元。
然而,物理AI面临着与大语言模型截然不同的核心挑战:数据鸿沟——也就是数据不够用的问题。大语言模型可以利用整个互联网进行预训练,而物理AI所需的数据,不仅获取成本高,而且会有很多难以覆盖的极端情况。
对此,英伟达给出的解决方案是,让物理AI模型在虚拟世界中推理、学习、反复练习技能。英伟达免费提供了需要用到的开源库、框架和模型,让开发者能直接集成到自己的工具和工作流中。
NVIDIA Cosmos为物理AI打造虚拟成长平台
具体而言,物理AI学习的时候需要三个步骤:
第一步:世界重建 (World Composition)
为了让机器人在虚拟世界中训练,首先需要一个逼真的“训练场”。如果要靠大量3D艺术家手工建模、上材质、添加物理属性,成本高,而且很难成规模。为此,英伟达发布了一个叫NuRec的Omniverse库,它利用3DGS(3D 高斯溅射)等技术,能将真实世界的传感器数据自动重建为可交互、物理精确的3D虚拟场景。
同时,为了把来自传感器、CAD工具以及模拟框架的不同来源的数据统一起来,英伟达新增了对于OpenUSD(通用场景描述语言)的支持,实现了英伟达Isaac Sim、Mujoco、Gazebo等主流仿真框架的数据互通,极大地简化了虚拟世界的构建流程。
第二步:世界生成 (World Generation)
现实世界通常非常复杂,各种环境变量都非常多,为了提高模型在不同环境和光照条件下的表现,提高模型的泛化能力,要尽可能的让模型见识到各种各样的环境。为此,英伟达打造了Cosmos,里面有一系列世界模型。

比如,有个模型叫Cosmos Predict,给它一段文字、一张图片或一段视频,它可以“想象”接下来会发生什么,并生成后续的视频画面,用它生成连续的视频数据。

还有个模型叫Cosmos Transfer,只需通过简单的文本提示,就能在一个3D场景基础上生成无数个新场景,带有不同的背景和光照条件,也可以用来做数据增强。
据介绍,这些模型自发布以来已被下载超过200万次,成为物理AI开发领域当中的热门工具。
第三步,就是一开始提到的Cosmos Reason所能做到的,提升AI模型对于所看到的世界的理解能力,还有与世界交互的能力。这三步所提供的能力,可以解决物理AI开发常见的诸多问题。

结束语
NVIDIA Cosmos提供了从数据生成、世界模拟到高级推理的开源模型和一系列软件工具,当然还有采用CUDA生态的一系列显卡方案,这对于开发物理AI都非常重要。英伟达正在追逐万亿美元规模的物理AI市场,打造一个更智能的未来世界。