OpenAI Sora：文字生成视频

正月初八，一起焕新出发！

昨天，OpenAI 又放大招啦！

真真地“日日工业革命，夜夜文艺复兴”！

OpenAI 构建了一个名为 Sora 的引人注目的新型生成视频模型，它可以将简短的文本描述转化为长达一分钟的详细高清电影剪辑。

OpenAI 正在推出一种新的视频生成模型，它的名字叫 Sora。

OpenAI 宣称，Sora”可以根据文字说明创建逼真而富有想象力的场景”。

Sora “可以根据文本指令创建现实且富有想象力的场景”。它允许用户根据自己编写的提示词，创建长达一分钟的逼真视频。

根据 OpenAI 的介绍性博客文章，Sora 能够创建“具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景”。

该公司还指出，该模型可以理解物体“在物理世界中如何存在”，以及“准确地解释道具并生成引人注目的角色来表达充满活力的情感。”

该模型还可以基于静止图像生成视频，以及填充现有视频上缺失的帧或扩展它。

OpenAI 博客文章中包含的 Sora 生成的演示包括淘金热期间加利福尼亚州的空中场景、一段看起来像是从东京火车内部拍摄的视频等等。

几年前，像 Midjourney 这样的文本到图像生成器处于模型将文字转换为图像的能力的最前沿。

而最近，视频开始以惊人的速度进步：Runway和 Pika 等公司展示了自己令人印象深刻的文本到视频模型，而谷歌的 Lumiere 也被认为是 OpenAI 在这一领域的主要竞争对手之一。

与 Sora 类似，Lumiere 为用户提供文本转视频工具，还允许他们从静态图像创建视频。

现在，Sora正式发布之后，任何人都可以用 18 个字制作如下这类电影级的视频。

提示词：逼真的特写视频，两艘海盗船在一杯咖啡中航行时互相争斗。

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

毫无疑问，在OpenAI官网上展示的示例视频尽管全部是经过精心挑选的，以展示 Sora 的最佳状态。

从OpenAI 官网介绍的样例视频中，不少细心地网友发现，所生成的视频还有不少矛盾和错误，比如：

1。看来挖出来的椅子不被认为是硬质物质。椅子的物理原理也有问题，它最终会漂浮在空中。

2。当包含大量物体时，动物和人往往会突然出现。提示词指定“5 只灰狼”，但它们一开始有 4 只，最终却增加到大约 10 只。

3。它们似乎不擅长再现多个对象和角色之间的“复杂交互”。该视频使用了演示视频顶部的长提示，但即使它说“吹灭蜡烛以将其熄灭”和“蜡烛的光熄灭”两次，蜡烛始终也没有熄灭。它还没有消失。

4。物理建模不准确。这个演示视频直到播放到中间部分，看起来都还不错（爆炸本身是由提示指定的），但是，第二个球却偏出了球门。

5、对象挂起。一名名为Will的网友认为，“这并不是官方认为的弱点，但我个人认为值得发布。”

Will 指出，大约十秒后，尽管没有具体指示词，但云巨人还是停了下来。

他说，这种现象在 Gen2 等模型中也出现过，但似乎也存在主体突然不自然地停止移动的趋势。

在OpenAI官网上展示的示例视频并没有提供更多信息，因此，我们很难知道它们对模型典型输出的代表性。

一部120分钟的电影，显然几乎不可能由这样120个 Sora 生成视频合成。

这些样例视频中多少都有一些明显的人工智能迹象——比如博物馆视频中可疑移动的地板——OpenAI 表示，该模型“可能难以准确模拟复杂场景的物理原理”，但总体结果令人印象深刻。

我们也没有办法知道，生成这样长达1分钟的视频，Sora 需要工作过多长时间？

无论如何，2024年2月16日，是人工智能历史上一个重要的、具有标志性意义的日子。

OpenAI 的这个视频生成模型 Sora模型，从演示来看，视频生成时长、运动幅度以及稳定性均碾压迄今为止所有视频生成模型。

Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。

从技术角度来看，这似乎是一次非常重大的飞跃。

OpenAI 非常清楚生成视频模型带来的风险。

我们已经看到深度伪造图像的大规模滥用。逼真的视频将深度伪造提升到了另一个水平和高度。