当前位置:首页文章攻略 → OpenAI发布首款视频生成模型Sora

OpenAI发布首款视频生成模型Sora

来源:网络 更新时间:2024-09-06

ChatGPTOpenAI发布了最新的视频生成模型“OpenAI”Sora“这个模型可以根据文本指令生成1分钟的高清视频,并具有一定的“现实模拟”能力。与制作游戏的物理引擎相比,上限要高得多。以下是详细的介绍。

OpenAI发布首款视频生成模型Sora

1.他们训练这个模型的基础是找到一个统一的用文本描述视频材料的范式,让大量的视频和相应的描述材料来训练模型。获得这个模型的能力是文本和视觉呈现之间的某种相互关系(能力)。如何获得大量带有相应文本字幕的视频?

他们应用了 DALL·E 3 重构字幕技术(原图片)到视频。首先,训练一个高度描述性的字幕生成器模型,然后使用它为所有训练集中的视频生成文本字幕。 可以想象,训练和使用模型所消耗的计算能力是惊人的,因此短期内不太可能大规模开放;

OpenAI发布首款视频生成模型Sora

2.大框架为:扩散模型 时空补丁,基于深度学习的扩散模型,将随机噪声分布(指向图像)转换为有意义的图像或视频内容,时空补丁定义时间序列,使图像的变化符合时间逻辑;

3.Sora 可采样宽屏 1920x1080p 视频、垂直 1080x1920 两者之间的视频和所有视频。因为它是直接生成的,而不是剪辑视频,所以在取景和动态效果上也有一定的优势;

OpenAI发布首款视频生成模型Sora

4.这个模型还有几个意想不到但合理的能力:

a.它可以从一个时间点向前或向后延伸视频,也就是说,在这个时间点之前或之后生成一个视频;

b.自由改变视频的风格和环境;

c.两个视频通过插值自然连接;

d.这一点非常重要,即该模型出现了一定的“现实模拟”能力,我们在显示视频中看到的不同镜头应用程序,包括 3D图像的一致性(例如,由于镜头的变化,同一物体的形状在视觉上保持一致),以及真实物体的交互(如面包后面包上的咬痕)不是故意设计或“建模”的结果,而是自然出现的,我们已经在纯语言模型中看到了这一点。

这种能力出现在这个模型上,用文章中的原话来描述,“这是一条有前途的道路,开发物理和数字世界,以及生活在其中的物体、动物和人的强大模拟器。”

免责声明:本站资源仅供个人学习交流,如本文侵犯了您的权益,请联系我们删除!