又向世界模型迈进一步：字节跳动EX-4D震撼开源，单目视频秒变自由视角4D大片-DOIT-数据产业媒体与服务平台

2025年7月3日，字节跳动旗下PICO-MR团队正式宣布开源EX-4D——这一具有突破性意义的4D视频生成框架。该框架能够基于单一视角（单目）视频，高效生成具备高质量、多视角特性的4D视频序列（涵盖3D空间信息与时间维度），为视频生成技术的发展树立了全新里程碑。EX-4D不仅在多项技术指标上显著超越现有开源方案，更为沉浸式3D内容创作以及“世界模型”的构建提供了强有力的技术支撑。

文字编辑｜宋雨涵

打破传统枷锁

DW-Mesh技术

传统视频生成技术在多视角领域长期面临双重枷锁。高昂的数据成本首当其冲，多视角拍摄需专业设备阵列，数据集构建成本呈几何级增长。更棘手的是物理一致性困境——当视角偏移超过30度，物体边缘开始出现撕裂，遮挡区域暴露逻辑混乱的“数字穿帮”。

现有技术路线陷入两难：依赖相机外参数控制的方法面临数据分布偏移风险；而点云投影方案无法准确表达物体遮挡关系，在复杂场景中频频“露馅”。

2025年6月，PICO-MR团队在预印本平台公开EX-4D论文时，展示了一段对比演示：当传统方法在90度视角生成中让车辆“悬浮”在错位背景上时，他们的系统精准保留了轮胎与地面的接触阴影，连车窗反射的云朵移动都保持连续轨迹。

核心技术突破点在于“脑补”能力——仅凭单目视频推断全视角信息，这正是构建真实世界模型的关键跳板。

DW-Mesh是EX-4D的核心技术，其通过构建全密闭网格结构，精准记录场景中的可见与隐形面片信息，无需依赖多视角监督便可统一处理复杂场景拓扑。结合预训练深度预测模型，EX-4D能将单帧像素投影至3D空间，形成网格顶点，并根据几何关系精确标记遮挡区域。这一方法确保了生成视频即便在极端视角（如±90°）下，仍能维持物理一致性与细节完整性。

此外，EX-4D引入了渲染mask和跟踪mask两种模拟mask生成策略，通过模拟视角移动与帧间一致性，有效破解了多视角训练数据稀缺的难题。这些策略让EX-4D仅凭单目视频便能“脑补”出全视角数据，大幅降低了数据采集成本。

性能测试结果显示，EX-4D在FID（弗雷歇距离）、FVD（弗雷歇视频距离）和VBench等行业标准指标上，均全面超越现有开源方法。尤其在极端视角（如接近90°）的生成任务中，EX-4D的性能优势更加显著，生成的视频在物体细节与遮挡逻辑上均展现出更高的真实性。

性能表现

指标全面领先

在性能测试环节，EX-4D交出了一份令人瞩目的答卷。依托包含150个网络视频的测试数据集，EX-4D在FID（弗雷歇距离）、FVD（弗雷歇视频距离）以及VBench等业界公认的标准指标上，全方位超越了现有的开源方法。特别是在处理接近90°极端视角的生成任务时，EX-4D展现出的性能优势格外突出，生成视频中的物体细节刻画更为精细，遮挡逻辑也更为自然真实。

在一项由50位志愿者参与的主观评价活动中，高达70.7%的参与者明确表示，EX-4D在极端视角下呈现出的物理一致性显著优于其他开源方案。这一结果充分证明，EX-4D不仅在技术指标上占据领先地位，更在实际应用中赢得了用户的广泛赞誉。

字节跳动已将EX-4D全面开源，其代码及配套文档均已在GitHub平台公开发布，全球开发者均可免费获取。这一举措不仅彰显了字节跳动对开源社区的鼎力支持，更为沉浸式3D影视、虚拟现实（VR）、增强现实（AR）等前沿领域的创新发展提供了坚实的技术基石。

三、世界模型：

通向未来数字宇宙的钥匙

当Sora、Veo等2D视频模型还在平面维度上突破时，字节跳动旗下PICO-MR团队推出的EX-4D已开启三维空间革命。这款全球首个单目视频到自由视角4D生成框架，不仅突破了传统视频生成的技术边界，更通过”空间智能”的范式升级，为元宇宙、数字孪生、自动驾驶等领域注入核心动能。正如李飞飞教授所言：”空间智能是AI理解物理世界的北极星”，EX-4D的开源标志着人类向”数字宇宙”迈出了关键一步。

在视频生成领域，EX-4D所引领的变革正推动技术向更深层次的演进。未来，视频生成将不再局限于静态空间的重构，而是朝着动态环境交互与实时物理模拟的方向跃迁。基于EX-4D的DW-Mesh动态建模技术，下一代视频生成框架或将实现”场景自进化”——系统能根据用户交互行为实时调整空间布局，例如在虚拟演唱会中，观众弹幕可触发舞台结构的动态重组，或是在开放世界游戏中，NPC会根据环境变化自主生成符合物理规则的避险动作。

多模态融合将成为另一核心方向。EX-4D已展现出单目视频到4D空间的转换能力，而未来技术将进一步整合触觉、听觉甚至气味数据，构建全感官沉浸体验。例如，自动驾驶仿真系统不仅能生成4D视觉场景，还能模拟轮胎与路面的摩擦声、急刹车时的G力反馈，甚至通过气味模块还原暴雨中的泥土气息，使训练数据更贴近真实驾驶环境。

结语：

技术演进永无止境。EX-4D团队已在攻克透明材质折射难题，而学术圈更关注其世界模型潜力：当AI能精准推演不可见区域的物理状态，我们距离真正的数字孪生世界还远吗？下一次技术跃迁的种子，或许正埋在今天开源的代码行间。

又向世界模型迈进一步：字节跳动EX-4D震撼开源，单目视频秒变自由视角4D大片

lixiangjing

相关推荐

近期文章

热门标签