Open AI 的 Sora 是什么?它是如何工作的、用例、替代方案等等

zhang9个月前sora434

OpenAI 最近宣布了其最新的突破性技术——Sora。到目前为止,这种文本到视频的生成人工智能模型看起来令人难以置信,为许多行业带来了巨大的潜力。


Sora是 OpenAI 的文本到视频生成人工智能模型。这意味着您编写一个文本提示,它会创建一个与提示描述相匹配的视频。

如何运作?

与DALL·E 3StableDiffusionMidjourney等文本到图像生成 AI 模型一样,Sora 是一种扩散模型。这意味着它从由静态噪声组成的视频的每一帧开始,并使用机器学习逐渐将图像转换为类似于提示中的描述的内容。Sora 视频最长可达 60 秒。

解决时间一致性问题

Sora 的一个创新领域是它同时考虑多个视频帧,这解决了物体移入和移出视野时保持物体一致的问题。在下面的视频中,请注意袋鼠的手多次移出镜头,当它返回时,手看起来与之前相同。 


结合扩散模型和变压器模型

Sora 将扩散模型与Transformer 架构结合起来,如 GPT 所使用的那样。

在结合这两种模型类型时,Jack Qiao指出“扩散模型非常擅长生成低级纹理,但在全局合成方面较差,而变形金刚则存在相反的问题。” 也就是说,您需要一个类似 GPT 的转换器模型来确定视频帧的高级布局,并需要一个扩散模型来创建细节。

一篇有关 Sora 实现的技术文章中,OpenAI 提供了这种组合如何工作的高级描述。在扩散模型中,图像被分解为更小的矩形“块”。对于视频来说,这些补丁是三维的,因为它们会随着时间的推移而持续存在。补丁可以被认为相当于大型语言模型中的“标记”:它们不是句子的组成部分,而是一组图像的组成部分。模型的转换器部分组织补丁,模型的扩散部分生成每个补丁的内容。

这种混合架构的另一个怪癖是,为了使视频生成在计算上可行,创建补丁的过程使用降维步骤,这样就不需要对每个帧的每个像素进行计算。

通过重述提高视频保真度

为了忠实地捕捉用户提示的本质,Sora 使用了DALL·E 3 中也可用的重述技术。这意味着在创建任何视频之前,GPT 用于重写用户提示以包含更多细节。本质上,它是自动提示工程的一种形式。

Sora 有哪些用例?

Sora 可用于从头开始创建视频或扩展现有视频以使其更长。它还可以填充视频中丢失的帧。

就像文本到图像生成人工智能工具使无需图像编辑专业知识的图像创建变得更加容易一样,Sora 承诺使无需图像编辑经验的视频创建变得更加容易。以下是一些关键用例。

社交媒体

Sora 可用于为 TikTok、Instagram Reels 和 YouTube Shorts 等社交媒体平台创建短片。难以拍摄或无法拍摄的内容尤其适合。例如,拍摄 2056 年拉各斯的场景在技术上很难用于社交帖子,但使用 Sora 就可以轻松创建。


相关文章

如何登录 Sora?OpenAI Sora入口在哪? Sora使用方法介绍

OpenAI一直处于人工智能领域的前沿,最近推出了名为Sora的文本到视频模型,再次引领潮流。那么,你可能会想知道OpenAI Sora的入口在哪里?接下来我们将介绍OpenAI Sora的使用方法。...

Sora AI 的 10 多个最新视频提示词

还记得 2022 年 OpenAI 发布了 DALL-E 2,这是其前身的突破性演变吗?DALL-E 的这一高级版本超出了预期,标志着人工智能生成图像的重大飞跃。现在,人工智能生成图像和视频的浪潮正处...

OpenAI 的 Sora:视频创作的革命,还是潘多拉魔盒的释放?

OpenAI 推出的 Sora 是他们最新的人工智能工具,能够根据文本提示生成一分钟长的视频,引发了一场激烈的争论。从简化教育内容到彻底改变营销策略,潜在的应用似乎是无限的。然而,除了兴奋之外,还潜藏...

Sora 颠覆:娱乐领域的技术革命

OpenAI最近发布了一款突破性产品Sora,在好莱坞引起了轰动。这种创新的人工智能文本到视频模型可以根据文本提示生成极其逼真的视频。视频中的细节和真实感令人印象深刻,标志着人工智能行业的重大飞跃。O...

什么是 Sora OpenAI?Sora OpenAI:新一代文本转视频工具

什么是 Sora OpenAI?OpenAI 不断开发人工智能来理解和复制物理世界的动态。目的是训练帮助个人解决现实世界交互问题的模型。OpenAI 推出文本视频生成器 Sora 后,世界见证了多媒体...

OpenAI 的文本到视频人工智能 Sora 是未来主义的现实

Sora 是 OpenAI 在过去一年中一直致力于开发的文本转视频模型,它可以根据文本提示生成长达一分钟的高清 1080p 视频。它是更广泛的生成人工智能领域日益拥挤的子集中最新的文本到视频模型,加入...

 
Copyright © 2021张少学习分享网 All Rights Reserved 黔ICP备2021004591号