跳至主要内容
OpenAI

本页所有视频均由 Sora 直接生成,未经修改。

正在加载…

我们正在教导人工智能理解和模拟运动中的物理世界,目的是训练模型,帮助人们解决需要真实世界互动的问题。

下面介绍我们的文本转视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示。

今天,我们将向红队测试人员开放 Sora 访问权限,以评估关键领域的危害或风险。我们还开放了多位视觉艺术家、设计师和电影制作人的访问权限,旨在收集专业反馈,指导我们改进模型,更好地服务于创意专业人士。

我们将尽早分享研究进展,开始与 OpenAI 以外的人员合作并获得他们的反馈,同时让公众了解人工智能的发展前景。

Sora 能够生成包含多个角色、特定动作类型以及精确的主体和背景细节的复杂场景。这款模型不仅能够理解用户在提示中的需求,还能理解这些内容在现实世界的存在方式。

这款模型对语言有着深入的理解,能够准确地解读提示,并生成能够表达生动情感的引人入胜的角色。Sora 还可以在生成的单个视频中创建多个镜头,准确地体现角色和视觉风格。

当前模型仍有改进空间。它可能难以模拟复杂场景中的物理现象,也可能无法理解具体的因果关系(例如:角色咬过饼干后,饼干上可能不会出现咬痕)。该模型还可能混淆提示中包含的空间细节,例如辨别左右,或者难以准确描述随时间展开的事件,例如特定的摄像机轨迹。

Safety

在将 Sora 纳入 OpenAI 的产品组合之前,我们将采取几项重要的安全措施。我们正在与红队成员(虚假信息、仇恨内容和偏见等领域的专家)合作,他们将对该模型进行对抗性测试。

我们还构建了工具来帮助检测误导性内容,例如可以区分由 Sora 生成的视频的检测分类器。未来如果我们在 OpenAI 产品中部署该模型,我们计划纳入 C2PA 元数据(在新窗口中打开)

除了开发新技术为部署做准备之外,我们还会利用现有的安全方法(在新窗口中打开),这些方法是我们为使用 DALL·E 3 的产品构建的,同样适用于 Sora。

例如,一旦纳入 OpenAI 产品,我们的文本分类器就会检查并拒绝违反我们使用政策的文本输入提示,例如要求极端暴力、性内容、仇恨意象、名人肖像或他人 IP 的提示。我们还开发了强大的图像分类器,用于审查生成的每个视频的帧,帮助确保其符合我们的使用政策,然后再展现给用户。

我们将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧并确定这项新技术的积极用例。尽管进行了广泛的研究和测试,我们仍无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用它的所有方式。基于这一点,我们认为,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的关键组成部分。

研究技术

Sora 是一种扩散模型,它首先生成一个看起来像静态噪声的视频,然后通过多步迭代去噪的过程逐步转化为连贯画面。

Sora 能够一次生成整个视频,也可以扩展生成的视频增加其长度。通过让模型一次预测多帧,我们解决了一个具有挑战性的问题,即确保目标物体暂时离开视野时继续保持同一性。

与 GPT 模型类似,Sora 采用 Transformer 架构,实现了卓越的扩展性能。

我们将视频和图像表示为较小数据单元(称为“补丁”)的集合,每个补丁类似于 GPT 中的标记。通过统一数据的表示方式,我们可以在比以往更广泛的视觉数据上训练扩散式 Transformer,涵盖不同的时长、分辨率和纵横比。

Sora 以过往的 DALL·E 和 GPT 模型研究成果为基础。它采用了 DALL·E 3 中的重标注技术,为视觉训练数据生成高度描述性的文本标注。因此,该模型能够在生成的视频中更忠实地执行用户的文本指令。

除了能够单凭文本指令生成视频外,该模型还能够获取现有的静止图像并从中生成视频,精确地将图像内容动画化,并关注小细节。该模型还可以采用现有的视频并进行扩展或填充缺失的帧。在我们的技术报告中了解更多信息

Sora 为创建能够理解和模拟现实世界的模型奠定了基础,我们相信这一能力将成为实现 AGI 的一个重要里程碑。

正在加载...