学习笔记:Sora是个啥?

大年初七的早上,无意间刷到了Sora模型做的视频,当时的震撼,让我想到了从红白机过度到3A大作时的心情。

​OpenAI Sora文生视频的效果非常惊艳,只需一个简短的提示词,就能生成一个可以以假乱真的视频。

最让人受不了的就是日本东京街头走路的人,官方说这些视频都没有经过二次编辑。

Prompt提示词:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

(机翻版Prompt:一位时髦的女士穿行在东京的街头,街道两旁是温暖的霓虹灯和动态的城市标识。她身穿黑色皮夹克、一条长红裙和黑靴,手拿黑色钱包。她佩戴着太阳镜和红色口红,自信而随意地走着。街道潮湿且能反射光,营造出彩色灯光的镜像效果。许多行人来来往往。)

另外,我看到这个视频甚至有两段运镜,一个是远景,一个镜头拉的很近的特写,甚至能看见女生脸上的痘痘。

打开OpenAI的官网,我找到了一些介绍内容,我把我的学习和理解的内容写在这里。

OpenAI在官网介绍中提到,他们帮AI理解和模拟物理世界的运动,他们的目标是用这个模型,来解决需要与现实世界交互时会碰到的各种问题,比如,自动驾驶汽车就算一种。

简单说,AI模型能更好地理解现实世界,能理解现实世界的人物和物体的运动方式,如果这种东西被用在智能驾驶领域,应该会很有前景。

Sora作为一个文生视频模型,能生成最多1分钟时长的视频,这并不神奇,现在Runway早就可以做到。只不过,Sora输出的视频质量很高,同时,能紧跟着提示词里输入的内容来生成。

目前,Sora还没有完全对外公开可用,只是面向安全测试人员还有部分视觉艺术家、设计师和电影制作人访问来体验这个模型,先看看专业人士的意见。

Sora拥有生成包含众多角色、特定动作类型及主题与背景精确细节的复杂场景的能力。该模型不仅能理解用户在提示中的请求,还能洞察这些元素在物理世界中的实际存在方式。从而让人物和物体的动作更流程和自然。

Sora对语言有深刻的理解,能够准确地理解提示词,并生成引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头,准确地保持角色和视觉风格的连贯性。

现在的Sora模型也有明显不足。

它在模拟复杂场景的物理特性上会有问题,可能不能很好地理解特定因果关系。例如,一个人可能会咬一口饼干,但饼干可能看不到咬过的痕迹。模型也可能搞错空间细节,例如,将左和右搞混。

在将Sora整合到OpenAI的产品中之前,OpenAI会邀请安全专家对模型进行对抗性测试,帮助处理错误信息、仇恨内容和偏见等问题。

OpenAI还在开发工具,帮助检测误导性内容,比如一个检测分类器,能够识别出一个视频是由Sora生成的。未来,如果正式对外部署这一模型,还会在视频中包含C2PA元数据。

C2PA是由内容真实性和来源联盟(C2PA)定义的一种标准,旨在提高数字内容(如照片、视频和文档)的透明度和可信度。通过在内容中嵌入C2PA元数据,可以提供关于该内容创作和修改历史的详细信息,包括内容是如何、何时以及由谁创建或更改的。

这有助于验证内容的真实性,打击深度伪造和误导性信息,为用户提供关于数字内容来源和完整性的可靠信息。

出于安全和负责人方面的考虑,OpenAI把给DALL·E 3准备的安全手段也都会用在Sora模型上。

他们会阻止包含有极端暴力、性内容、仇恨等不合适的内容请求。同时,还会准备检查视频帧的服务,以确保生成的视频内容符合相关政策。

尽管OpenAI做了很多工作来确保AI技术的安全,但还是无法完全预见技术潜在风险。因此,他们强调与社会各界合作并从实际应用中进行摸索,在推进AI技术发展的同时,也逐步提高系统的安全性。

稍微谈一点技术细节部分。

Sora是一种(Diffusion)扩散模型,基本原理上,它通过从一个静态噪声的视频开始,在随后多个步骤中逐渐去除噪声,从而生成视频。

看起来就跟Stable Diffusion、Disco Diffusion一样。

Sora能够一次性生成一整个视频,或者给已有视频添加新的时长。通过让模型一次性预见多帧,Sora解决了一个极具挑战性的问题,即使主体暂时离开视野,也能保持不变,有很好的一致性。

与很多GPT模型一样,Sora也采用了Transformer架构,从而获得了更强的可扩展性。

在Sora模型中,视频和图像被表示为一系列更小的数据单元,称为“补丁”(patches),每个补丁都类似于GPT中的一个“令牌”(token)。通过将数据的表示方式进行统一,Sora可以在更广泛的视觉数据上进行训练,这些数据包括不同的持续时间、分辨率和纵横比。

Sora模型是在DALL·E和GPT模型的基础上而构建的。它采用了DALL·E 3中的重新标注技术,它可以为视觉训练数据生成高质量的数据标注。因此,模型能够很好地遵从用户输入的文本指令。

Sora模型不仅能够用文本生成视频,还能够用已有的静态图来生成视频,准确地将图片变成动画,图片中的细节也都会处理的很好。此外,模型还能够延长已有视频的内容,还能自动填补缺失的帧。

在OpenAI看来,Sora是那些能够理解和模拟现实世界的模型的基础,这一能力将是实现通用人工智能(AGI)的一个重要里程碑。

OpenAI公布了在视频数据上训练大规模生成式模型的方法,具体内容可以查看如下链接:

https://openai.com/research/video-generation-models-as-world-simulators

这部分介绍中,OpenAI直接将视频生成模型看做是世界模拟器(Video generation models as world simulators)。

想想也是,如果让AI模型来理解这个世界的一些规律,如果能给模型输入足够的数据,那么,AI的世界就能演绎真实的世界。

如果AI模型能理解世界更多规律,包括物理、化学、数学、医药等自然科学方面的规律,如果能给模型输入足够多的数据,那该是一种什么样的未来?