学习笔记：Sora是个啥？-DOIT-数据产业媒体与服务平台

大年初七的早上，无意间刷到了Sora模型做的视频，当时的震撼，让我想到了从红白机过度到3A大作时的心情。

OpenAI Sora文生视频的效果非常惊艳，只需一个简短的提示词，就能生成一个可以以假乱真的视频。

最让人受不了的就是日本东京街头走路的人，官方说这些视频都没有经过二次编辑。

（机翻版Prompt：一位时髦的女士穿行在东京的街头，街道两旁是温暖的霓虹灯和动态的城市标识。她身穿黑色皮夹克、一条长红裙和黑靴，手拿黑色钱包。她佩戴着太阳镜和红色口红，自信而随意地走着。街道潮湿且能反射光，营造出彩色灯光的镜像效果。许多行人来来往往。）

另外，我看到这个视频甚至有两段运镜，一个是远景，一个镜头拉的很近的特写，甚至能看见女生脸上的痘痘。

打开OpenAI的官网，我找到了一些介绍内容，我把我的学习和理解的内容写在这里。

OpenAI在官网介绍中提到，他们帮AI理解和模拟物理世界的运动，他们的目标是用这个模型，来解决需要与现实世界交互时会碰到的各种问题，比如，自动驾驶汽车就算一种。

简单说，AI模型能更好地理解现实世界，能理解现实世界的人物和物体的运动方式，如果这种东西被用在智能驾驶领域，应该会很有前景。

Sora作为一个文生视频模型，能生成最多1分钟时长的视频，这并不神奇，现在Runway早就可以做到。只不过，Sora输出的视频质量很高，同时，能紧跟着提示词里输入的内容来生成。

目前，Sora还没有完全对外公开可用，只是面向安全测试人员还有部分视觉艺术家、设计师和电影制作人访问来体验这个模型，先看看专业人士的意见。

Sora拥有生成包含众多角色、特定动作类型及主题与背景精确细节的复杂场景的能力。该模型不仅能理解用户在提示中的请求，还能洞察这些元素在物理世界中的实际存在方式。从而让人物和物体的动作更流程和自然。

Sora对语言有深刻的理解，能够准确地理解提示词，并生成引人入胜的角色。Sora还能在单个生成的视频中创建多个镜头，准确地保持角色和视觉风格的连贯性。

现在的Sora模型也有明显不足。

它在模拟复杂场景的物理特性上会有问题，可能不能很好地理解特定因果关系。例如，一个人可能会咬一口饼干，但饼干可能看不到咬过的痕迹。模型也可能搞错空间细节，例如，将左和右搞混。

在将Sora整合到OpenAI的产品中之前，OpenAI会邀请安全专家对模型进行对抗性测试，帮助处理错误信息、仇恨内容和偏见等问题。

OpenAI还在开发工具，帮助检测误导性内容，比如一个检测分类器，能够识别出一个视频是由Sora生成的。未来，如果正式对外部署这一模型，还会在视频中包含C2PA元数据。

C2PA是由内容真实性和来源联盟（C2PA）定义的一种标准，旨在提高数字内容（如照片、视频和文档）的透明度和可信度。通过在内容中嵌入C2PA元数据，可以提供关于该内容创作和修改历史的详细信息，包括内容是如何、何时以及由谁创建或更改的。

这有助于验证内容的真实性，打击深度伪造和误导性信息，为用户提供关于数字内容来源和完整性的可靠信息。

出于安全和负责人方面的考虑，OpenAI把给DALL·E 3准备的安全手段也都会用在Sora模型上。

他们会阻止包含有极端暴力、性内容、仇恨等不合适的内容请求。同时，还会准备检查视频帧的服务，以确保生成的视频内容符合相关政策。

尽管OpenAI做了很多工作来确保AI技术的安全，但还是无法完全预见技术潜在风险。因此，他们强调与社会各界合作并从实际应用中进行摸索，在推进AI技术发展的同时，也逐步提高系统的安全性。

稍微谈一点技术细节部分。

Sora是一种（Diffusion）扩散模型，基本原理上，它通过从一个静态噪声的视频开始，在随后多个步骤中逐渐去除噪声，从而生成视频。

看起来就跟Stable Diffusion、Disco Diffusion一样。

Sora能够一次性生成一整个视频，或者给已有视频添加新的时长。通过让模型一次性预见多帧，Sora解决了一个极具挑战性的问题，即使主体暂时离开视野，也能保持不变，有很好的一致性。

与很多GPT模型一样，Sora也采用了Transformer架构，从而获得了更强的可扩展性。

在Sora模型中，视频和图像被表示为一系列更小的数据单元，称为“补丁”（patches），每个补丁都类似于GPT中的一个“令牌”（token）。通过将数据的表示方式进行统一，Sora可以在更广泛的视觉数据上进行训练，这些数据包括不同的持续时间、分辨率和纵横比。

Sora模型是在DALL·E和GPT模型的基础上而构建的。它采用了DALL·E 3中的重新标注技术，它可以为视觉训练数据生成高质量的数据标注。因此，模型能够很好地遵从用户输入的文本指令。

Sora模型不仅能够用文本生成视频，还能够用已有的静态图来生成视频，准确地将图片变成动画，图片中的细节也都会处理的很好。此外，模型还能够延长已有视频的内容，还能自动填补缺失的帧。

在OpenAI看来，Sora是那些能够理解和模拟现实世界的模型的基础，这一能力将是实现通用人工智能（AGI）的一个重要里程碑。

OpenAI公布了在视频数据上训练大规模生成式模型的方法，具体内容可以查看如下链接：

这部分介绍中，OpenAI直接将视频生成模型看做是世界模拟器（Video generation models as world simulators）。

想想也是，如果让AI模型来理解这个世界的一些规律，如果能给模型输入足够的数据，那么，AI的世界就能演绎真实的世界。

如果AI模型能理解世界更多规律，包括物理、化学、数学、医药等自然科学方面的规律，如果能给模型输入足够多的数据，那该是一种什么样的未来？

学习笔记：Sora是个啥？