DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

OpenAI文生视频大模型Sora:开启视觉语言交互新篇章

2月16日,OpenAI推出文生视频大模型Sora, 区别于动画生成,通过文字描述即可生成1分钟拟真视频,能通过多视角将整个视频的画面非常连贯地呈现出来。同时还能输出不同尺寸、分辨率、宽高比的视频。无疑是大模型领域一大王炸技术,对短视频和广告等行业形成巨大冲击。

2月16日,OpenAI推出文生视频大模型Sora, 区别于其他大模型生成的动画式视频,只要通过文字描述即可生成1分钟拟真视频,能通过多视角将整个视频的画面非常连贯地呈现出来。同时还能输出不同尺寸、分辨率、宽高比的视频。无疑是大模型领域一大王炸技术,对短视频和广告行业形成巨大冲击。

Sora制作的视频中,一名女子准备吹灭生日蛋糕上的蜡烛
 (图片来源OpenAI,CNET截图)

文生视频已成为生成式人工智能领域新一轮军备竞赛。OpenAI、谷歌、微软等公司都在不断发力。

Sora主要的优势在于以往文生视频软件是在2D平面上操作图形元素,视频将多个真实图片做成组合,而Sora可以像人一样理解真实世界和逻辑,模拟出真实的物理世界。

Sora可以理解很长的提示词,这在一定程度上要归功于OpenAI过去在Dall-E和GPT模型上的工作,2023年热门 AI 图像生成器的这是其热门 AI 图像生成器Dall-E3升级到最新版本,引起大众的关注。而Sora借用了Dall-E3的重现技术,这项技术可以为视觉训练数据生成高精准度的描述性文字说明。该模型还可以从静止图像生成视频,扩展现有视频或填充缺失的帧。

当然Sora也有弱点,比如难以准确地描述复杂场景的物理现象,难以理解因果关系,例如被人咬过的饼干上可能没有咬痕。OpenAI没有透露Sora何时候能被广泛使用,但表示希望首先采取“几个重要的安全措施”,包括满足OpenAI现有的安全标准,禁止极端暴力、虚假信息、保护名人肖像和个人IP等。

360创始人周鸿祎表示,Sora意味着AGI(通用人工智能)实现或将从10年缩短到一至两年。

通用人工智能(AGI)是一种更高级的人工智能形式,更接近类人智能,具有执行更广泛任务的能力。无疑,Sora模型展现出了对真实世界的理解和模拟能力。OpenAI开发的这款模型能够理解视频中的复杂场景和动态,这种能力是AGI发展中的一个关键组成部分,涉及到机器对环境的感知和反应。而Sora在视频制作方面的能力可能会对相关行业产生颠覆性影响,这种影响力可能会激发更多的创新和应用,从而推动整个人工智能领域的发展。

大模型的开发将对直播电商、影视制作、宣传片制作等场景渗透,也会影响到相关行业的教育市场,刺激国内文生视频大模型技术的开发。对于很多人担心的Sora打击影视工业的问题,周鸿祎表示,视频主题、脚本、分镜头的策划、台词的配合这些都还需要人来提供创意,机器需要人给出提示词,简而言之,Sora可以成为创作工具,但不是取代。

未经允许不得转载:DOIT » OpenAI文生视频大模型Sora:开启视觉语言交互新篇章