导读
在刚刚的第五届中国国际进口博览会上,国内两大顶尖人形机器人企业——宇树科技与智元机器人,分别在各自的分论坛上,就行业的核心痛点与未来方向,进行了一场“隔空对话”。这场对话不仅是两家公司的观点交锋,更是整个行业对“ChatGPT时刻”何时到来的集体叩问。

宇树科技创始人王兴兴的直言不讳,精准地切中了行业的脉搏:“尽管行业增长迅速,但人形机器人的机器人大模型进展仍显缓慢,真正的‘ChatGPT时刻’尚未到来。” 这一论断,引发了我们对当前具身智能(Embodied AI)发展阶段的深刻反思。
与此同时,智元机器人的合伙人姚卯青则展示了一幅更具建设性的蓝图,通过全栈式布局与技术创新,试图为这一“缓慢”注入新的动能。
文字编辑|宋雨涵
1
王兴兴的“泼冷水”:
行业共识下的“缓慢”困境
在第八届虹桥国际经济论坛上,宇树科技股份有限公司创始人兼首席执行官王兴兴在“人形机器人创新发展合作”分论坛上亮相。谈及智能体机器人当下及未来最关键的挑战,王兴兴表示,目前模型和数据都仍需改进。
在模型层面,他认为目前简单的模型结构已经做了很多尝试,但整体泛化能力还不太够;数据层面,虽然大家希望数据质量更好一点、有更大规模的数据,但目前对于数据的采集和数据的质量评判还是非常困难。
王兴兴认为,模型和数据是相辅相成的,需要花更多时间,而非仅仅单纯采集大量数据或把模型规模做大。
王兴兴的“泼冷水”并非悲观,而是建立在对行业深刻洞察之上的理性分析。他将挑战归结为三个核心层面:模型结构、数据采集与质量。这三个维度,正是当前所有尝试构建通用人形机器人的公司都必须跨越的“珠峰”。
除此之外他提出了一个明确的”ChatGPT时刻“标志:在80%的陌生生活场景中,给机器人发送语音或文字,机器人能完成80%左右的任务。
“如果到明年这个时候,随便弄一台人形机器人到一个它完全没见过的场景,你跟它说话交代任务,比如给这位记者朋友拿一份东西过去,它能直接过去把任务完成,并且达到80%左右的成功率,这就基本达到了ChatGPT时刻。”
2
智元的“飞轮迭代”:
全栈布局破局数据难题
面对相同的行业难题,智元机器人选择了一条全栈布局的道路。
智元机器人合伙人、高级副总裁姚卯青介绍,智元在机器人本体、数据、模型、场景上形成了相互驱动的飞轮迭代逻辑。姚卯青坦言,智元机器人进入“飞轮循环”的首个挑战就是数据。
“机器人从业者需直面与物理世界的强交互特性,其数据需求与互联网数据存在本质差异,尤其是大量动作类、长程规划类数据极为稀缺。”
1
高质量数据集的开源与共建
智元于2024年底开源了AgiBot World百万真机数据集,每条数据都经过多轮审核,确保场景贴近现实、任务复杂多样。
这一举措不仅降低了行业门槛,更吸引了全球开发者共同参与模型训练与验证。
2
创新数据采集方式提升信息密度
智元在数据采集方式上有两项关键创新:“对抗式采集数据”和“自主进化式采集方案”。
前者在常规数据采集过程中主动引入干扰,提升数据信息密度;后者针对“长尾失效”问题,将“难场景”下的高价值数据补充到训练集。
3
世界模型的深耕
智元还在深耕世界模型方向,其GenieEnvisioner模型今年8月正式开源,打出“行业首个面向双臂真机的世界模型”概念。
世界模型类似于真正的人类大脑,通过学习现实世界中的物理和因果规律,具备“物理直觉”,可在内部模拟环境变化。
就在上月,智元机器人举行线上直播发布会上,发布新一代工业级交互式具身作业机器人智元精灵G2。在AI技术支撑上,精灵G2正是基于智元全栈自研的通用基座大模型GO-1与世界模型GE-1,其复杂任务处理能力显著提升。
写在最后:
宇树科技与智元机器人在进博会上的“隔空对话”,为我们勾勒出了一幅关于人形机器人未来的清晰图景。王兴兴的坦诚,是行业对现实困境的清醒认知;而智元的实践,则为我们展示了一条充满希望的探索路径。
这场对话并非终点,而是一个新的起点。它让我们看到,人形机器人的发展并非一蹴而就,它需要我们在模型结构、数据采集、世界模型等核心领域持续攻坚,更需要我们在生态构建和产业落地中耐心耕耘。







