我们正在教导人工智能理解和模拟运动中的物理世界,目的是训练模型,帮助人们解决需要真实世界互动的问题。
下面介绍我们的文本转视频模型 Sora。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵循用户的提示。
提示:一位时尚女性行走在东京街头,街上满是温暖闪烁的霓虹灯和动态城市广告牌。她身穿黑色皮夹克、红色长裙和黑色短靴,手拎黑色手提包,戴着太阳镜,涂着红唇。她的步伐自信而从容。街道潮湿反光,五彩缤纷的灯光营造出镜面般的效果。往来的行人熙熙攘攘。
提示:几头巨大的猛犸象正踏着白雪皑皑的草地缓缓走近,它们蓬松的长毛在风中轻轻飘扬,远处是披着银装的树木和巍峨的雪山,午后的光线伴着飘渺的云朵和远处高悬的太阳,营造出温暖的光晕。低机位镜头捕捉到这群毛茸茸的庞然大物,画面优美,景深迷人。
提示:一部电影预告片,讲述一位 30 岁太空人的冒险故事:他头戴红色羊毛编织摩托车头盔,背景是湛蓝的天空与盐碱荒漠。采用 35 毫米胶片拍摄,画面电影感十足,色彩鲜活饱满。
提示:无人机拍摄的海浪冲击大苏尔加雷角海滩崎岖悬崖的景象。蓝色的海水拍打着海岸,形成白色的浪尖,落日的金色光芒照亮了岩石海岸。远处的小岛上建有一座灯塔,绿色的灌木丛覆盖悬崖的边缘。从公路到海滩的陡峭落差令人叹为观止,悬崖的边缘伸向海面。这幅景象捕捉到了海岸的原始美景,以及太平洋海岸公路崎岖的地貌。
提示:动画场景特写:一只毛茸茸的小怪兽跪在一根正在融化的红蜡烛旁。艺术风格为 3D 写实,注重光影和纹理。画面中的小怪物睁大眼睛、张开嘴巴凝视着火焰,充满了惊叹和好奇。它的姿势和表情传达出一种天真和活泼的气息,仿佛是第一次探索周围的世界。暖色调和戏剧性灯光进一步增强了画面的温馨氛围。
提示:一个华丽的珊瑚礁纸艺世界,色彩斑斓的鱼类和海洋生物随处可见,绚丽多彩。
提示:这个维多利亚冠鸽的特写镜头展示了它醒目的蓝色羽毛和红色胸脯。它的冠羽由精致的蕾丝羽毛构成,眼睛呈现醒目的红色。鸟儿的头部微微向一侧倾斜,散发出高贵而威严的气质。背景经过虚化处理,将人们的注意力吸引到这只鸟引人注目的外表上。
提示:两艘海盗船在咖啡杯内航行时相互搏斗的逼真特写视频。
提示:一个 20 多岁的年轻人坐在天空的一片云上看书。
今天,我们将向红队测试人员开放 Sora 访问权限,以评估关键领域的危害或风险。我们还开放了多位视觉艺术家、设计师和电影制作人的访问权限,旨在收集专业反馈,指导我们改进模型,更好地服务于创意专业人士。
我们将尽早分享研究进展,开始与 OpenAI 以外的人员合作并获得他们的反馈,同时让公众了解人工智能的发展前景。
提示:加利福尼亚在淘金热时期的历史镜头。
提示:一个玻璃球的近景,里面有一个禅意花园。球体内有一个小矮人,正在耙拾禅院的沙土,并在沙土上创造出各种图案。
提示:一名 24 岁女子眨眼的极致特写,她站在马拉喀什,正值“魔幻时刻”。70 毫米电影胶片拍摄,景深效果,色彩鲜明,呈现电影质感。
提示:一只卡通袋鼠在跳迪斯科。
提示:一段精美的自制视频,展示 2056 年尼日利亚拉各斯人的生活。用手机摄像头拍摄。
提示:培养皿中生长着一片竹林,红色小熊猫在竹林里面跑来跑去。
提示:镜头围绕着一大堆老式电视机旋转,这些电视机正在播放着不同的节目:上世纪 50 年代的科幻电影、恐怖电影、新闻、静态节目、上世纪 70 年代的情景喜剧等,背景是纽约一家大型博物馆的展厅。
提示:3D 动画中,一个圆滚滚、毛茸茸的小动物睁着一双神采奕奕的大眼睛,在生机勃勃的魔法森林中探索。这个动物是兔子和松鼠的奇异混合体,有着柔软的蓝色皮毛和条纹浓密的尾巴。它沿着一条波光粼粼的小溪跳跃,眼睛睁得大大的,充满了惊奇。森林里遍布神奇的元素:会发光和变色的花朵、长着紫色和银色叶子的树木,以及像萤火虫一样的小浮灯。这只动物停下来,与一群围着蘑菇环跳舞的小精灵嬉戏互动。它抬头仰望着一棵发光的大树,这棵树似乎是森林的中心。
Sora 能够生成包含多个角色、特定动作类型以及精确的主体和背景细节的复杂场景。这款模型不仅能够理解用户在提示中的需求,还能理解这些内容在现实世界的存在方式。
提示:镜头跟随一辆白色复古 SUV,车顶有黑色行李架,车辆在陡峭的山坡上沿着松树环绕的陡峭土路快速行驶,轮胎扬起阵阵尘土,阳光为疾驰的车身镀上金边,给整个场景铺满温暖的光晕。土路缓缓弯曲延伸至远方,视野中没有其他车辆。道路两旁的树木都是红杉,零星分布着一些绿色植物。从后面可以看到,汽车轻松地顺着弯道行驶,让人感觉到崎岖的地形。土路周围是陡峭的丘陵和山脉,头顶是晴朗的蓝天,上面飘着薄薄的云朵。
提示:列车穿过东京郊外,车窗倒映不同的景色。
提示:一架无人机围绕坐落在阿马尔菲海岸岩石上的一座历史悠久的美丽教堂拍摄,画面展示了历史悠久、宏伟壮观的建筑细节以及层层叠叠的小径和露台,并俯瞰意大利阿马尔菲海岸的海岸水域和丘陵景观,海浪拍打着下方的岩石。在远处的露台,人们一边散步一边欣赏着壮丽的海景,午后温暖的阳光为整个场景镀上一层魔幻而浪漫的色彩,摄影构图令人叹为观止。
提示:一只巨大的橙色章鱼静静地栖息在海底,与沙石地形融为一体。它的触手伸展在身体周围,双眼紧闭。这只章鱼丝毫没有察觉到一只帝王蟹正从岩石后方向它爬来,帝王蟹张开爪子,随时准备发起攻击。这只帝王蟹呈棕色,全身多刺,拥有长长的腿和触角。这个场景以广角拍摄,展现了海洋的浩瀚与深邃。海水清澈湛蓝,阳光透过海水洒落。镜头清晰锐利,动态范围大。章鱼和螃蟹清晰对焦,背景略微虚化,营造出景深效果。
提示:一群纸飞机飞过茂密的丛林,像候鸟一样在林间穿梭。
提示:一只猫咪正在叫醒熟睡的主人讨要早餐。主人试图不理这只猫,但这只猫又想出新招,最后主人从枕头下拿出了偷偷藏起来的零食,想让猫咪再坚持一会儿。
提示:京那巴当岸河上的婆罗洲野生动物
提示:舞中国龙庆祝中国农历新年的视频。
这款模型对语言有着深入的理解,能够准确地解读提示,并生成能够表达生动情感的引人入胜的角色。Sora 还可以在生成的单个视频中创建多个镜头,准确地体现角色和视觉风格。
提示:参观艺术画廊,欣赏许多不同风格的精美艺术作品。
提示:美丽的东京,白雪皑皑,熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几位正在享受冬日美丽雪景和在附近摊位购物的人们。绚丽的樱花花瓣伴着雪花在风中飘扬。
提示:定格动画,一朵花在郊外房屋的窗台上盛开。
提示:赛博朋克背景下机器人的生活故事。
提示:一位 60 多岁、留着胡须的灰发男子的特写镜头。他坐在巴黎的一家咖啡馆里陷入沉思,思考着宇宙的历史,他的眼睛注视着画面外行走的人们,而他则一动不动地坐着。他身着羊毛大衣和纽扣衬衫,头戴棕色贝雷帽,戴着眼镜,一副教授风范。最后他闭着嘴微微一笑,仿佛找到了生命奥秘的答案。金色光影,以巴黎街道和城市为背景,35 毫米电影胶片,景深效果,非常具有电影质感。
提示:美丽的剪影动画,展示一只狼对着月亮嚎叫,它感到孤独,直到它找到自己的狼群。
提示:纽约市就像亚特兰蒂斯一样淹没在水中。鱼类、鲸鱼、海龟和鲨鱼在纽约街头游来游去。
提示:一窝金毛幼犬在雪地里玩耍。它们的头从雪地里冒出来,浑身都是雪。
当前模型仍有改进空间。它可能难以模拟复杂场景中的物理现象,也可能无法理解具体的因果关系(例如:角色咬过饼干后,饼干上可能不会出现咬痕)。该模型还可能混淆提示中包含的空间细节,例如辨别左右,或者难以准确描述随时间展开的事件,例如特定的摄像机轨迹。
提示:使用逐帧印片技术拍摄的一个人跑步的场景,采用 35 毫米电影胶片。
缺点:Sora 有时会生成物理上不可能实现的动作。
提示:五只灰狼幼崽在一条偏僻的碎石路上嬉戏追逐,路两旁都是草地。幼崽们奔跑跳跃,互相追逐,互相轻咬,一起玩耍。
缺点:动物或人可能自发出现,特别是在包含许多实体的场景中。
提示:篮球穿过篮筐然后爆炸。
缺点:一个不准确的物理建模和不自然的物体“变形”的例子。
提示:考古学家在沙漠中发现了一把普通的塑料椅子,他们小心翼翼地挖掘并掸去灰尘。
缺点:在这个例子中,Sora 未能将椅子建模为刚性物体,导致不准确的物理相互作用。
提示:一位头发灰白、梳理整齐的老奶奶站在木制餐桌旁,桌上是插着许多蜡烛的彩色生日蛋糕,她的表情流露出纯粹的喜悦和幸福,眼中闪烁着幸福的光芒。她身体前倾,轻轻地吹灭了蜡烛,蛋糕上有粉红色的糖霜和糖屑,蜡烛也不再闪烁。老奶奶穿着一件浅蓝色的上衣,饰有花卉图案。可以看到镜头焦点外有几个快乐的朋友和家人坐在桌子旁庆祝。场景拍摄精美,富有电影质感,展现了老奶奶和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了气氛。
缺点:模拟物体和多个角色之间的复杂交互通常对模型来说是一个挑战,有时会生成滑稽的场景。
在将 Sora 纳入 OpenAI 的产品组合之前,我们将采取几项重要的安全措施。我们正在与红队成员(虚假信息、仇恨内容和偏见等领域的专家)合作,他们将对该模型进行对抗性测试。
我们还构建了工具来帮助检测误导性内容,例如可以区分由 Sora 生成的视频的检测分类器。未来如果我们在 OpenAI 产品中部署该模型,我们计划纳入 C2PA 元数据(在新窗口中打开)。
除了开发新技术为部署做准备之外,我们还会利用现有的安全方法(在新窗口中打开),这些方法是我们为使用 DALL·E 3 的产品构建的,同样适用于 Sora。
例如,一旦纳入 OpenAI 产品,我们的文本分类器就会检查并拒绝违反我们使用政策的文本输入提示,例如要求极端暴力、性内容、仇恨意象、名人肖像或他人 IP 的提示。我们还开发了强大的图像分类器,用于审查生成的每个视频的帧,帮助确保其符合我们的使用政策,然后再展现给用户。
我们将与世界各地的政策制定者、教育工作者和艺术家合作,了解他们的担忧并确定这项新技术的积极用例。尽管进行了广泛的研究和测试,我们仍无法预测人们使用我们技术的所有有益方式,也无法预测人们滥用它的所有方式。基于这一点,我们认为,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的关键组成部分。
提示:镜头正对着意大利布拉诺岛色彩缤纷的建筑。一只可爱的斑点狗正透过一楼建筑物的窗户向外张望。许多人沿着建筑物前的运河街道散步或骑自行车。
提示:一只快乐可爱的水獭身穿黄色救生衣自信地站在冲浪板上,在郁郁葱葱的热带岛屿附近踏着碧绿的热带海水乘风破浪,充分呈现了 3D 数字渲染艺术风格。
提示:这段变色龙的特写镜头展示了其惊人的变色能力。背景经过虚化处理,人们的注意力被吸引到这只动物引人注目的外表上。
提示:一只柯基犬在热带毛伊岛拍摄视频博客。
提示:一只白橙相间的虎斑猫欢快地在茂密的花园里窜来窜去,好像在追逐什么东西。它的眼睛睁得圆圆的,欢快地向前跑着,边跑边扫视身边的树枝、花朵和树叶。这条小路很窄,穿过了所有植物。场景从地面角度拍摄,紧随猫的身影,展现出低姿态的亲密视角。图像具有电影质感,色调温暖,纹理颗粒感强。树叶和植物之间散射的日光形成了温暖的对比,突出了猫的橙色皮毛。镜头清晰锐利,景深较浅。
提示:日落之后的圣托里尼岛鸟瞰图,展示了带有蓝色圆顶的白色基克拉迪建筑迷人的建筑风格。火山口的景色令人叹为观止,灯光营造出一种美丽、宁静的氛围。
提示:移轴镜头下的建筑工地:现场挤满了工人、设备和重型机械。
提示:一朵巨大的、高耸的人形云耸立在大地之上。人形云向地球发射闪电。
提示:夜晚,一只萨摩耶犬和一只金毛猎犬在霓虹闪烁的未来风格城市中嬉戏玩耍。附近建筑物投射的霓虹灯光在它们的皮毛上闪闪发光。
提示:格伦芬南高架桥是苏格兰一座历史悠久的铁路桥,横跨马莱格镇和威廉堡之间的西部高地线。蒸汽火车驶离大桥,穿越拱形高架桥时的景象令人惊叹。郁郁葱葱的绿色植物和岩石山脉点缀其间,为这趟火车之旅创作了如画的背景。天空湛蓝,阳光灿烂,正是探索这个壮美景点的好日子。
Sora 是一种扩散模型,它首先生成一个看起来像静态噪声的视频,然后通过多步迭代去噪的过程逐步转化为连贯画面。
Sora 能够一次生成整个视频,也可以扩展生成的视频增加其长度。通过让模型一次预测多帧,我们解决了一个具有挑战性的问题,即确保目标物体暂时离开视野时继续保持同一性。
与 GPT 模型类似,Sora 采用 Transformer 架构,实现了卓越的扩展性能。
我们将视频和图像表示为较小数据单元(称为“补丁”)的集合,每个补丁类似于 GPT 中的标记。通过统一数据的表示方式,我们可以在比以往更广泛的视觉数据上训练扩散式 Transformer,涵盖不同的时长、分辨率和纵横比。
Sora 以过往的 DALL·E 和 GPT 模型研究成果为基础。它采用了 DALL·E 3 中的重标注技术,为视觉训练数据生成高度描述性的文本标注。因此,该模型能够在生成的视频中更忠实地执行用户的文本指令。
除了能够单凭文本指令生成视频外,该模型还能够获取现有的静止图像并从中生成视频,精确地将图像内容动画化,并关注小细节。该模型还可以采用现有的视频并进行扩展或填充缺失的帧。在我们的技术报告中了解更多信息。
Sora 为创建能够理解和模拟现实世界的模型奠定了基础,我们相信这一能力将成为实现 AGI 的一个重要里程碑。