想象一下,在文本字段中写入短语“两艘海盗船在一杯咖啡内航行时互相战斗的特写”,并在几分钟后找到此视频。
在这里,这就是 Sora 可以做到的事情, Sora是由 OpenAI 开发的新型“文本到视频”生成人工智能模型,能够“根据文本指令创建逼真且富有想象力的场景”,持续时间长达一分钟”保持视觉质量并响应用户需求”
根据 Sam Altman 创立的初创公司在博客文章中的说法,该公司过去已经创建了Chat-GPT聊天机器人和DALL-E 图像生成器,Sora 能够创建“具有多个角色的复杂场景,特定类型的运动以及主题和背景的准确细节”。但不仅如此。该公司还指出,该模型不仅能够理解用户在提示中请求的内容,还能理解物体和人如何“存在于物理世界中”
该模型显然比谷歌的 Lumiere 先进得多,还具有“对语言的深刻理解”,这使其能够准确解释指令并生成“表达充满活力的情感的引人入胜的字符”。Sora 还能够在单个生成的视频中拍摄多个镜头,就好像使用了多个摄像机一样,“准确地保留了角色和视觉风格”
最后,Sora 还能够基于静止图像生成视频, “精确地动画图像内容并关注小细节”,或者填充现有视频中缺失的帧或扩展它以使其持续时间更长。帖子中发布了许多演示,通过这些演示,可以真正理解这种新的生成人工智能模型提供的所有潜力(和担忧)。
然而,当前的模式也有弱点。OpenAI 表示,Sora 可能难以准确模拟复杂场景的物理原理(只需在其中一个演示视频中看到女人和人的脚步声),并且“可能无法理解因果关系的具体实例”。例如,一个人可能咬了一口饼干,但饼干可能不会留下咬痕。
此外,模型还可能混淆提示的空间细节,例如混淆左右,并且难以精确描述随时间推移发生的事件,例如遵循特定的相机轨迹
Sora 目前不会公开。OpenAI 表示,计划在开始将其集成到商业产品中之前采取“几项重要的安全措施” 。Altman 的公司目前正在与红队成员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将以对抗性方式测试该模型。
OpenAI 还致力于开发工具来帮助检测误导性内容,包括可以识别 Sora 何时生成视频的检测分类器。如果该模型部署在其产品之一中,该公司计划将来纳入 C2PA 元数据。分类器将检查每个生成视频的帧,以确保其在显示给用户之前遵守使用政策。
针对这种新模式肯定会产生的担忧,OpenAI 表示,来自世界各地的政治家、教育家和艺术家将参与其中,以“了解他们的担忧并确定这项新技术的积极用例”。
OpenAI 意识到,“尽管进行了广泛的研究和测试”,它可能无法“预测人们将使用该技术的所有积极方式”,“也无法预测他们将滥用该技术的所有方式”。因此,他认为“从现实世界的使用中学习是随着时间的推移构建和发布越来越安全的人工智能系统的关键组成部分。”
这些话“听起来不错”,但并不能让我们限制对此类模型的访问可能影响人类工作世界并鼓励数字虚假信息传播的方式所产生的潜在风险的担忧。在深度造假在网上变得越来越普遍的时代,任何人都可以以这种方式创建视频的世界中的道德和安全影响无疑是令人畏惧的。