2025年7月3日,字节跳动旗下PICO-MR团队正式宣布开源EX-4D——这一具有突破性意义的4D视频生成框架。该框架能够基于单一视角(单目)视频,高效生成具备高质量、多视角特性的4D视频序列(涵盖3D空间信息与时间维度),为视频生成技术的发展树立了全新里程碑。EX-4D不仅在多项技术指标上显著超越现有开源方案,更为沉浸式3D内容创作以及“世界模型”的构建提供了强有力的技术支撑。
文字编辑|宋雨涵
1
打破传统枷锁
DW-Mesh技术
传统视频生成技术在多视角领域长期面临双重枷锁。高昂的数据成本首当其冲,多视角拍摄需专业设备阵列,数据集构建成本呈几何级增长。更棘手的是物理一致性困境——当视角偏移超过30度,物体边缘开始出现撕裂,遮挡区域暴露逻辑混乱的“数字穿帮”。
现有技术路线陷入两难:依赖相机外参数控制的方法面临数据分布偏移风险;而点云投影方案无法准确表达物体遮挡关系,在复杂场景中频频“露馅”。
2025年6月,PICO-MR团队在预印本平台公开EX-4D论文时,展示了一段对比演示:当传统方法在90度视角生成中让车辆“悬浮”在错位背景上时,他们的系统精准保留了轮胎与地面的接触阴影,连车窗反射的云朵移动都保持连续轨迹。
核心技术突破点在于“脑补”能力——仅凭单目视频推断全视角信息,这正是构建真实世界模型的关键跳板。

DW-Mesh是EX-4D的核心技术,其通过构建全密闭网格结构,精准记录场景中的可见与隐形面片信息,无需依赖多视角监督便可统一处理复杂场景拓扑。结合预训练深度预测模型,EX-4D能将单帧像素投影至3D空间,形成网格顶点,并根据几何关系精确标记遮挡区域。这一方法确保了生成视频即便在极端视角(如±90°)下,仍能维持物理一致性与细节完整性。
此外,EX-4D引入了渲染mask和跟踪mask两种模拟mask生成策略,通过模拟视角移动与帧间一致性,有效破解了多视角训练数据稀缺的难题。这些策略让EX-4D仅凭单目视频便能“脑补”出全视角数据,大幅降低了数据采集成本。
性能测试结果显示,EX-4D在FID(弗雷歇距离)、FVD(弗雷歇视频距离)和VBench等行业标准指标上,均全面超越现有开源方法。尤其在极端视角(如接近90°)的生成任务中,EX-4D的性能优势更加显著,生成的视频在物体细节与遮挡逻辑上均展现出更高的真实性。
2
性能表现
指标全面领先
在性能测试环节,EX-4D交出了一份令人瞩目的答卷。依托包含150个网络视频的测试数据集,EX-4D在FID(弗雷歇距离)、FVD(弗雷歇视频距离)以及VBench等业界公认的标准指标上,全方位超越了现有的开源方法。特别是在处理接近90°极端视角的生成任务时,EX-4D展现出的性能优势格外突出,生成视频中的物体细节刻画更为精细,遮挡逻辑也更为自然真实。
在一项由50位志愿者参与的主观评价活动中,高达70.7%的参与者明确表示,EX-4D在极端视角下呈现出的物理一致性显著优于其他开源方案。这一结果充分证明,EX-4D不仅在技术指标上占据领先地位,更在实际应用中赢得了用户的广泛赞誉。
字节跳动已将EX-4D全面开源,其代码及配套文档均已在GitHub平台公开发布,全球开发者均可免费获取。这一举措不仅彰显了字节跳动对开源社区的鼎力支持,更为沉浸式3D影视、虚拟现实(VR)、增强现实(AR)等前沿领域的创新发展提供了坚实的技术基石。
三、世界模型:
通向未来数字宇宙的钥匙
当Sora、Veo等2D视频模型还在平面维度上突破时,字节跳动旗下PICO-MR团队推出的EX-4D已开启三维空间革命。这款全球首个单目视频到自由视角4D生成框架,不仅突破了传统视频生成的技术边界,更通过”空间智能”的范式升级,为元宇宙、数字孪生、自动驾驶等领域注入核心动能。正如李飞飞教授所言:”空间智能是AI理解物理世界的北极星”,EX-4D的开源标志着人类向”数字宇宙”迈出了关键一步。
在视频生成领域,EX-4D所引领的变革正推动技术向更深层次的演进。未来,视频生成将不再局限于静态空间的重构,而是朝着动态环境交互与实时物理模拟的方向跃迁。基于EX-4D的DW-Mesh动态建模技术,下一代视频生成框架或将实现”场景自进化”——系统能根据用户交互行为实时调整空间布局,例如在虚拟演唱会中,观众弹幕可触发舞台结构的动态重组,或是在开放世界游戏中,NPC会根据环境变化自主生成符合物理规则的避险动作。
多模态融合将成为另一核心方向。EX-4D已展现出单目视频到4D空间的转换能力,而未来技术将进一步整合触觉、听觉甚至气味数据,构建全感官沉浸体验。例如,自动驾驶仿真系统不仅能生成4D视觉场景,还能模拟轮胎与路面的摩擦声、急刹车时的G力反馈,甚至通过气味模块还原暴雨中的泥土气息,使训练数据更贴近真实驾驶环境。
结语:
技术演进永无止境。EX-4D团队已在攻克透明材质折射难题,而学术圈更关注其世界模型潜力:当AI能精准推演不可见区域的物理状态,我们距离真正的数字孪生世界还远吗?下一次技术跃迁的种子,或许正埋在今天开源的代码行间。