OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成人工智能模型看起来令人难以置信,为许多行业带来了巨大的潜力。
Sora是 OpenAI 的文本到视频生成人工智能模型。这意味着您编写一个文本提示,它会创建一个与提示描述相匹配的视频。
如何运作?
与DALL·E 3、StableDiffusion和Midjourney等文本到图像生成 AI 模型一样,Sora 是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始,并使用机器学习逐渐将图像转换为类似于提示中的描述的内容。Sora 视频最长可达 60 秒。
解决时间一致性问题
Sora 的一个创新领域是它同时考虑多个视频帧,这解决了物体移入和移出视野时保持物体一致的问题。在下面的视频中,请注意袋鼠的手多次移出镜头,当它返回时,手看起来与之前相同。
结合扩散模型和变压器模型
Sora 将扩散模型与Transformer 架构结合起来,如 GPT 所使用的那样。
在结合这两种模型类型时,Jack Qiao指出“扩散模型非常擅长生成低级纹理,但在全局合成方面较差,而变形金刚则存在相反的问题。” 也就是说,您需要一个类似 GPT 的转换器模型来确定视频帧的高级布局,并需要一个扩散模型来创建细节。
在一篇有关 Sora 实现的技术文章中,OpenAI 提供了这种组合如何工作的高级描述。在扩散模型中,图像被分解为更小的矩形“块”。对于视频来说,这些补丁是三维的,因为它们会随着时间的推移而持续存在。补丁可以被认为相当于大型语言模型中的“标记”:它们不是句子的组成部分,而是一组图像的组成部分。模型的转换器部分组织补丁,模型的扩散部分生成每个补丁的内容。
这种混合架构的另一个怪癖是,为了使视频生成在计算上可行,创建补丁的过程使用降维步骤,这样就不需要对每个帧的每个像素进行计算。
通过重述提高视频保真度
为了忠实地捕捉用户提示的本质,Sora 使用了DALL·E 3 中也可用的重述技术。这意味着在创建任何视频之前,GPT 用于重写用户提示以包含更多细节。本质上,它是自动提示工程的一种形式。
Sora 有哪些用例?
Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中丢失的帧。
就像文本到图像生成人工智能工具使无需图像编辑专业知识的图像创建变得更加容易一样,Sora 承诺使无需图像编辑经验的视频创建变得更加容易。以下是一些关键用例。
社交媒体
Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台创建短片。难以拍摄或无法拍摄的内容尤其适合。例如,拍摄 2056 年拉各斯的场景在技术上很难用于社交帖子,但使用 Sora 就可以轻松创建。