硬刚Sora 2，谷歌最新Veo 3.1视频生成模型发布，网友又要玩嗨了-DOIT-数据产业媒体与服务平台

导读

2025年10月16日，谷歌DeepMind携Veo 3.1视频生成模型正式入局AI影视赛道，同步升级的Flow创作平台以 “原生音频集成+精准画面控制” 的双重突破，打破了OpenAI Sora 2垄断的技术格局。

随着新模型的发布，由其驱动的AI电影创作工具Flow也迎来了更新，可以帮助你更精细地编辑视频片段，对最终场景实现更颗粒化的控制。

文字编辑｜宋雨涵

Veo 3.1的技术突破：

核心性能跃升

谷歌Veo 3.1作为当前AI视频生成领域的标杆产品，在多项关键指标上实现了显著突破：

技术指标	Veo 3.1表现	对比Veo 3提升	行业基准对比
生成速度	1-4分钟	2倍提速	快于Sora 2（3-5分钟）
视频分辨率	1080P高清	画质提升40%	与Runway Gen-3相当
视频时长	最长60秒	大幅延长	接近Sora的1分钟上限
音频支持	完整音频生成	新增功能	领先于大部分仅支持基础音效的竞品

关键技术创新点解析

1. 画面真实感与叙事控制力：Veo 3.1通过融合物理引擎与3D时空注意力机制，显著提升了场景真实感。其”真实纹理捕捉”技术能够还原材质细节，如布料褶皱、金属反光等微观特征。

在叙事控制方面，引入了精确的相机运动参数调节（包括焦距、光圈、运动轨迹）和对象轨迹编辑系统，使用户可预设复杂镜头语言，如环绕跟踪、推拉摇移等专业运镜效果。

2. 多模态输入与提示词理解：支持文本、图像、视频片段的混合输入模式，实现”文本+参考图”的精准创作控制。通过Diffusion Transformer架构优化，模型对复杂提示词的理解准确率提升35%，能解析包含情绪描述（如”忧郁的雨天街道”）、镜头语言（如”希区柯克式变焦”）和风格指定（如”韦斯·安德森美学”）的复合指令。

3. 音画同步与音频生成能力：Veo 3.1实现了三大音频突破：

环境音效自动匹配根据场景内容生成符合逻辑的环境音（如海滩场景自动添加海浪与海鸥声）
音画情感一致性悲伤场景自动采用低沉配乐，动作场景匹配快节奏打击乐
多轨道音频控制支持分离调节对话、音效、配乐轨道，满足专业制作需求

Flow平台的新功能

编辑更灵活，音频功能强大

作为Veo模型的应用载体，谷歌的Flow平台此次也进行了同步升级，引入了一系列新功能来充分发挥Veo 3.1的潜力。Flow定位为AI影视创作工具，旨在帮助用户以更直观高效的方式制作视频。自2025年5月推出以来，Flow已经展现出强大的创造力，在短短5个月内生成了超过2.75亿段视频。

Flow中新增的两个编辑功能—— 插入新元素让用户可以随时添加内容，Flow会自动处理阴影和光线，使新增部分自然融入原有画面；
移除对象功能（即将上线）则可以删除不需要的元素，Flow动重建背景保持一致性。这两个工具的组合能够让视频的编辑过程变得更加灵活。

新版Flow首次将AI生成的音频引入到所有主要功能中，实现了视频生成与音频生成的一体化。在过去，用户使用Flow生成的视频往往只有画面没有声音，需要后期手动添加配乐或音效。而现在，当用户使用“素材生视频”“首尾帧转视频”“视频延展”等功能时，Flow会自动为生成的视频片段配上相应的音频。

算力豹观察

AI影视创作的发展趋势与未来展望

一、多模态融合：创意表达的 “全链路解放” 已见雏形

谷歌Veo 3.1与Flow平台的联动，实则为AI影视的多模态未来埋下了重要伏笔。当模型既能读懂“黑泽明式光影”的文本指令，又能接纳SVG矢量图素材输入，还能同步生成匹配画面情绪的环境音效时，“文本—图像—音频”的创作壁垒已在悄然瓦解。

这种融合绝非技术堆砌。对创作者而言，这意味着“小说改编动画短片”“广告分镜直转动态视频”等跨媒体创作将从构想落地为现实。正如Flow平台“素材转视频”功能所展示的，三张风格参考图+百字文本，就能生成逻辑连贯的短片——这正是多模态模型“理解复杂创意意图”的初级实践，未来更有望实现“一次创意输入，多艺术形式输出”的创作自由。

二、实时生成：影视与互动体验的边界将被打破

当前Veo 3.1生成8秒视频需28秒的效率，虽距“实时”尚有距离，但已透出明确信号：随着云端算力优化与模型轻量化发展，低延迟视频生成正在逼近。这一技术突破的价值，远不止于缩短制作周期。

这种“可玩的电影”形态，或将成为继网剧之后的下一代内容风口，而谷歌在云端部署与专用硬件上的探索，正为这一天铺垫基础。

三、模型进化：朝着“更聪明的创作伙伴”迭代

从技术底层看，Veo 3.1的“首尾帧锚定”与片段延展功能，已暴露出现有模型在长序列生成上的努力——通过分层处理关键帧与中间帧，兼顾连贯性与细节精度。

更值得关注的是“生成模型+大语言模型”的融合趋势。当Veo 3.1能理解500字剧本并生成多镜头序列时，本质是视频生成能力与语言理解能力的初步结合。未来，这种融合将催生“能聊剧情、会做分镜、懂镜头语言”的智能创作伙伴，甚至能通过强化学习不断优化生成内容，贴合人类审美偏好。

写在最后：

从月初的Sora 2到今天的Veo 3.1，视频生成领域的竞赛在短时间内再度升温。然而，与从Veo 2到Veo 3的代际飞跃相比，Veo 3.1的此次升级更像是一次扎实的“中期迭代”，其意义在于将尖端技术转化为创作者手中更稳定、更可控的生产工具。

总体而言，Veo 3.1的发布为AI视频创作提供了更强大的支撑，尤其是在原生音频集成与画面精准编辑上，标志着多模态生成正走向成熟。但在实际应用中，这并未完全解决AI视频的所有挑战。创作者在利用其高效生成能力的同时，仍需对画面细节、逻辑连贯性进行人工审查与调整，以克服模型当前的局限，从而将工具的潜力转化为真正高质量的作品。

当前，行业正从追求技术奇观的“冲刺期”，逐步进入一个更为关键的“应用深耕期”。未来的竞争，将不仅是参数的比拼，更是如何将技术无缝融入创作流程，在提升效率的同时，真正释放而非束缚人类的创意。

硬刚Sora 2，谷歌最新Veo 3.1视频生成模型发布，网友又要玩嗨了

lixiangjing

相关推荐

近期文章

热门标签