震惊!断网都没用,谷歌发布端侧VLA模型,机器人有了自己的“离线大脑”

导读

在机器人技术遭遇网络依赖瓶颈的当下,谷歌DeepMind今日正式发布革命性产品Gemini Robotics On-Device模型。这款完全本地化运行的视觉-语言-动作(VLA)模型首次让机器人摆脱了对云端的绝对依赖,标志着具身智能迈向自主化的重要一步。

更引人注目的是其精细操作能力:现场演示中,搭载该模型的机器人流畅完成了拉开袋子拉链、折叠衣物甚至系鞋带等曾令机器人望而却步的高难度任务。

文字编辑|宋雨涵

首次进行革命性改变

此前,包括谷歌在内的诸多机器人系统普遍采用混合架构模式:

在机器人端部署小型模型负责快速响应,而将涉及复杂推理与规划的任务交由云端服务器处理。尽管这种模式具备可行性,但其缺陷也十分突出。一方面,该模式对网络连接的稳定性和传输速度要求极高,一旦出现网络延迟或中断,机器人就可能出现响应迟缓甚至停止运行的情况;另一方面,将传感器数据(特别是家庭、医疗等隐私敏感场景下的视觉数据)上传至云端,也带来了持续的隐私和安全隐患。

新推出的Gemini Robotics On-Device模型正是为攻克这些关键难题而设计的。它是一款完全集成的视觉语言动作模型(VLA),能够同步处理视觉输入、自然语言指令并输出动作指令。如今,这一系列复杂的“思考”流程均可在机器人自身的计算单元内完成。

1

离线革命

机器人技术的历史性跨越

Gemini Robotics On-Device的功能亮点:

本地离线运行:Gemini Robotics On-Device能完全在机器人本地运行,无需依赖云端计算,解决网络延迟和连接不稳定的问题。让机器人在没有网络连接或网络信号弱的环境中能稳定地执行任务。

遵循自然语言指令:模型能理解人类的自然语言指令。模型能处理复杂的多步骤指令,让机器人真正按照人类的意图进行操作。

完成精细操作任务:支持从人形机器人到工业双臂机器人的多种机器人本体,能完成各种需要精细操作的任务,如拉开袋子、叠衣服、给午餐盒拉拉链、抽卡片、倒沙拉酱、工业级的皮带装配等。

快速适应新任务:谷歌首次开放VLA模型的微调功能,开发者只需要50到100个演示样本,就能让模型适应全新的任务。即使是最复杂的任务,用不到100个样本就能达到相当高的成功率。

跨平台部署:模型能迁移到完全不同的机器人平台上,如双臂Franka FR3机器人和Apptronik公司的Apollo人形机器人,展现出强大的泛化能力。

2

首个可供微调的VLA模型

技术原理大揭秘

Gemini On-Device的本质,是通过“算法-硬件-安全”的协同创新,将具身智能的认知闭环压缩至终端,使机器人首次在资源受限环境下实现人类级的实时决策与精微操作。随着物理仿真数据的持续注入与神经架构的演进,这一技术或将成为机器人在工业、家庭等复杂场景中自主进化的“离线大脑”,推动AI从数字智能迈向实体智能的临界点。

Gemini On-Device的创新在于采用端到端联合学习框架,使视觉感知(如摄像头捕捉的环境图像)、语言指令(自然语言命令)和动作输出(机械臂关节控制)在单一模型内协同编码。

模型压缩与硬件适配:边缘智能的工程突破

此外为在机器人嵌入式硬件(如移动GPU或专用AI芯片)上高效运行,谷歌采用知识蒸馏与稀疏化计算技术,将千亿级参数的云端Gemini模型压缩为仅保留核心能力的轻量化版本。其关键优化包括:

  • 计算图重构:以算子融合减少内存访问开销,适配移动端GPU的并行架构;
  • 动态精度量化:对非关键层采用8位整型计算,在精度损失可控(<3%)前提下提升吞吐量;
  • 硬件感知编译:通过MLIR编译器生成针对机器人处理器(如NVIDIA Jetson或TPU Edge)的定制化内核。

这些技术使模型在本地运行时仍保持接近云端版本的泛化能力,例如在折叠衣物任务中成功率达80%以上,逼近人类操作水平。

低样本迁移学习:泛化能力的生成式进化

Gemini Robotics On-Device模型的任务适应性能

区别于传统强化学习需数万次试错,该模型引入演示驱动的少样本微调机制。开发者通过50-100次遥操作演示(如人工控制机械臂完成新任务),录制动作轨迹与视觉-语言配对数据,输入模型进行参数软更新(Soft Prompt Tuning)。其底层依赖Gemini的多模态对齐能力:将演示视频帧编码为视觉token,动作序列解码为运动token,再通过跨模态注意力机制建立语义映射。例如在“系鞋带”任务中,模型能从少量演示中抽象出“交叉-穿引-拉紧”的动作范式,泛化至不同鞋型。这种能力源于预训练阶段对海量物理交互模拟数据(如MuJoCo仿真环境)的学习,使模型具备对物体动力学与操作逻辑的隐式理解。

开发赋能

安全框架下的开放生态

为加速技术落地,谷歌同步推出Gemini Robotics SDK开发套件。开发者可通过该工具包在MuJoCo物理模拟器中测试模型,并在现实环境中部署验证。

这个SDK不仅能让开发者轻松评估模型在自己任务和环境中的表现,还提供了MuJoCo物理模拟器的测试功能。开发者可以先在模拟环境中验证想法,再部署到真实机器人上,大大降低了开发成本和风险。

目前技术通过 “可信测试者”计划 逐步开放,延续了谷歌在机器人领域审慎落地的策略。

结语:

这一模型的出现也将极大地推动机器人技术的创新和发展。开发者可以基于它,开发出更多功能丰富、性能卓越的机器人应用,进一步拓展机器人在各个行业的应用边界。从长远来看,Gemini Robotics On-Device模型有望成为机器人技术发展史上的一个重要里程碑,引领机器人产业迈向一个更加智能、自主和高效的新时代。