硬刚Sora 2,谷歌最新Veo 3.1视频生成模型发布,网友又要玩嗨了

导读

2025年10月16日,谷歌DeepMind携Veo 3.1视频生成模型正式入局AI影视赛道,同步升级的Flow创作平台以 “原生音频集成+精准画面控制” 的双重突破,打破了OpenAI Sora 2垄断的技术格局。

随着新模型的发布,由其驱动的AI电影创作工具Flow也迎来了更新,可以帮助你更精细地编辑视频片段,对最终场景实现更颗粒化的控制。

文字编辑|宋雨涵

1

Veo 3.1的技术突破:

核心性能跃升

谷歌Veo 3.1作为当前AI视频生成领域的标杆产品,在多项关键指标上实现了显著突破:

技术指标Veo 3.1表现对比Veo 3提升行业基准对比
生成速度1-4分钟2倍提速快于Sora 2(3-5分钟)
视频分辨率1080P高清画质提升40%与Runway Gen-3相当
视频时长最长60秒大幅延长接近Sora的1分钟上限
音频支持完整音频生成新增功能领先于大部分仅支持基础音效的竞品

关键技术创新点解析

1. 画面真实感与叙事控制力:Veo 3.1通过融合物理引擎与3D时空注意力机制,显著提升了场景真实感。其”真实纹理捕捉”技术能够还原材质细节,如布料褶皱、金属反光等微观特征。

在叙事控制方面,引入了精确的相机运动参数调节(包括焦距、光圈、运动轨迹)和对象轨迹编辑系统,使用户可预设复杂镜头语言,如环绕跟踪、推拉摇移等专业运镜效果。

2. 多模态输入与提示词理解:支持文本、图像、视频片段的混合输入模式,实现”文本+参考图”的精准创作控制。通过Diffusion Transformer架构优化,模型对复杂提示词的理解准确率提升35%,能解析包含情绪描述(如”忧郁的雨天街道”)、镜头语言(如”希区柯克式变焦”)和风格指定(如”韦斯·安德森美学”)的复合指令。

3. 音画同步与音频生成能力:Veo 3.1实现了三大音频突破:

  • 环境音效自动匹配根据场景内容生成符合逻辑的环境音(如海滩场景自动添加海浪与海鸥声)
  • 音画情感一致性悲伤场景自动采用低沉配乐,动作场景匹配快节奏打击乐
  • 多轨道音频控制支持分离调节对话、音效、配乐轨道,满足专业制作需求

2

Flow平台的新功能

编辑更灵活,音频功能强大

作为Veo模型的应用载体,谷歌的Flow平台此次也进行了同步升级,
引入了一系列新功能来充分发挥Veo 3.1的潜力。Flow定位为AI影视创作工具,旨在帮助用户以更直观高效的方式制作视频。自2025年5月推出以来,Flow已经展现出强大的创造力,在短短5个月内生成了超过2.75亿段视频。

Flow中新增的两个编辑功能—— 插入新元素让用户可以随时添加内容,Flow会自动处理阴影和光线,使新增部分自然融入原有画面;
移除对象功能(即将上线)则可以删除不需要的元素,Flow动重建背景保持一致性。这两个工具的组合能够让视频的编辑过程变得更加灵活。

新版Flow首次将AI生成的音频引入到所有主要功能中,实现了视频生成与音频生成的一体化。在过去,用户使用Flow生成的视频往往只有画面没有声音,需要后期手动添加配乐或音效。而现在,当用户使用“素材生视频”“首尾帧转视频”“视频延展”等功能时,Flow会自动为生成的视频片段配上相应的音频。

3

算力豹观察

AI影视创作的发展趋势与未来展望

一、多模态融合:创意表达的 “全链路解放” 已见雏形

谷歌Veo 3.1与Flow平台的联动,实则为AI影视的多模态未来埋下了重要伏笔。当模型既能读懂“黑泽明式光影”的文本指令,又能接纳SVG矢量图素材输入,还能同步生成匹配画面情绪的环境音效时,“文本—图像—音频”的创作壁垒已在悄然瓦解。

这种融合绝非技术堆砌。对创作者而言,这意味着“小说改编动画短片”“广告分镜直转动态视频”等跨媒体创作将从构想落地为现实。正如Flow平台“素材转视频”功能所展示的,三张风格参考图+百字文本,就能生成逻辑连贯的短片——这正是多模态模型“理解复杂创意意图”的初级实践,未来更有望实现“一次创意输入,多艺术形式输出”的创作自由。

二、实时生成:影视与互动体验的边界将被打破

当前Veo 3.1生成8秒视频需28秒的效率,虽距“实时”尚有距离,但已透出明确信号:随着云端算力优化与模型轻量化发展,低延迟视频生成正在逼近。这一技术突破的价值,远不止于缩短制作周期。

这种“可玩的电影”形态,或将成为继网剧之后的下一代内容风口,而谷歌在云端部署与专用硬件上的探索,正为这一天铺垫基础。

三、模型进化:朝着“更聪明的创作伙伴”迭代

从技术底层看,Veo 3.1的“首尾帧锚定”与片段延展功能,已暴露出现有模型在长序列生成上的努力——通过分层处理关键帧与中间帧,兼顾连贯性与细节精度。

更值得关注的是“生成模型+大语言模型”的融合趋势。当Veo 3.1能理解500字剧本并生成多镜头序列时,本质是视频生成能力与语言理解能力的初步结合。未来,这种融合将催生“能聊剧情、会做分镜、懂镜头语言”的智能创作伙伴,甚至能通过强化学习不断优化生成内容,贴合人类审美偏好。

写在最后:

从月初的Sora 2到今天的Veo 3.1,视频生成领域的竞赛在短时间内再度升温。然而,与从Veo 2到Veo 3的代际飞跃相比,Veo 3.1的此次升级更像是一次扎实的“中期迭代”,其意义在于将尖端技术转化为创作者手中更稳定、更可控的生产工具。

总体而言,Veo 3.1的发布为AI视频创作提供了更强大的支撑,尤其是在原生音频集成与画面精准编辑上,标志着多模态生成正走向成熟。但在实际应用中,这并未完全解决AI视频的所有挑战。创作者在利用其高效生成能力的同时,仍需对画面细节、逻辑连贯性进行人工审查与调整,以克服模型当前的局限,从而将工具的潜力转化为真正高质量的作品。

当前,行业正从追求技术奇观的“冲刺期”,逐步进入一个更为关键的“应用深耕期”。未来的竞争,将不仅是参数的比拼,更是如何将技术无缝融入创作流程,在提升效率的同时,真正释放而非束缚人类的创意。