我們正在訓練 AI 理解和模擬現實世界的動態運作,旨在打造一款模型,能夠協助人們解決需要真實世界互動才能解決的問題。
隆重推出文字轉影片模型,Sora。Sora 可以生成長達一分鐘的影片,不僅畫質出色,而且能夠遵循使用者提示的需求。
提示:一位打扮時髦的女士走在東京街頭,街道上到處是溫暖的霓虹燈和熱鬧的城市標誌。她身穿黑色皮衣,一襲紅色長裙,腳踏黑色長靴,手提黑色皮包。她帶著墨鏡,塗上鮮豔口紅。她自信悠閒地穿行於街道。街道潮濕,地面反光,形成了五彩燈光的鏡面效果。許多行人走來走去。
提示:幾頭巨大的猛獁象走過一片雪白的草地,它們行走時長長的毛在風中輕輕飄揚,遠處是白雪覆蓋的樹木和白雪皚皚的壯麗山脈,午後的陽光與縷縷白雲和遠處高掛的太陽形成了溫暖的光芒,低角度鏡頭令人驚艷,捕捉到這隻大型毛茸茸哺乳動物的畫面,展現出精美的攝影效果與出色的景深。
提示:電影預告片講述了 30 歲太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷,藍天、鹽漠、電影風格,採用 35 釐米膠片拍攝,色彩鮮豔。
提示:無人機拍攝海浪衝擊大蘇爾加雷角海灘崎嶇懸崖的景象。波濤洶湧的藍色海水形成白色波浪,落日的金色光芒照亮了岩石海岸。遠處有一座建有燈塔的小島,綠色灌木覆蓋著懸崖邊緣。從公路到海灘,山坡陡峭,落差巨大,令人嘆為觀止,懸崖邊緣伸出海面,氣勢磅礴。這一景觀展現了太平洋海岸公路的原始美麗面貌和崎嶇不平的地形。
提示:動畫場景特寫,一隻活潑矮小的毛茸茸怪物跪在一根融化的紅蠟燭旁。採用 3D 藝術風格,畫面逼真,並著重光影與紋理的呈現。這幅畫的基調為驚奇和好奇,怪物睜大眼睛,張開嘴巴注視著火焰。姿勢和表情要傳達出一種天真和嬉戲的感覺,就像是第一次探索周圍的世界。使用暖色調和戲劇性照明,進一步增強圖片中的舒適氛圍。
提示:華麗的紙藝珊瑚礁世界,充滿色彩繽紛的魚類和海洋生物。
提示:維多利亞冠鴿的特寫鏡頭,展示其引人注目的藍色羽毛和紅色胸部。它的冠毛由精緻的花邊羽毛組成,眼睛則是醒目的紅色。鳥的頭部微微向一側傾斜,給人一種高貴而威嚴的感覺。背景虛化,將人們的注意力吸引到這隻鳥引人注目的外觀上。
提示:一段逼真的特寫影片,呈現兩艘海盜船在咖啡杯中航行並激烈交戰。
提示:一位二十多歲的年輕人坐在天空中的一朵雲上看書。
自即日起,Sora 已開放予紅隊專家使用,以便評估潛在危害與風險重點領域。我們也開放存取權限給部分視覺藝術家、設計師與電影創作者並蒐集其意見回饋,以進一步優化模型,盡可能提升其對創意工作的支援能力。
我們提早分享研究進展,是為了能與 OpenAI 以外的人合作並收集來自各界的回饋,同時也讓大眾對未來的 AI 能力有初步認識與期待。
提示:加州淘金熱時期的歷史影像畫面。
提示:一顆玻璃球的特寫畫面,球體內是一座禪風花園。玻璃球中有一個小矮人,正在用釘耙整理禪風花園,在沙面上描繪出各種圖案。
提示:超近距離特寫一位 24 歲女子眨動的眼睛,她正身處馬拉喀什的魔幻時刻,畫面以 70 毫米膠片拍攝,具有景深、色彩鮮明,呈現電影質感。
提示:一隻卡通袋鼠在跳迪斯可舞。
提示:一部美麗的自製影片,呈現了 2056 年奈及利亞拉各斯人們的生活風貌。使用手機鏡頭拍攝。
提示:一個培養皿中長出了一座竹林,迷你紅熊貓在竹林中四處奔跑。
提示:鏡頭繞著一大堆復古電視旋轉,這些電視播放著不同的節目,有 1950 年代的科幻電影、恐怖片、新聞、雜訊、1970 年代的情境喜劇等等,鏡頭場景設置在紐約一座大型博物館的展覽廳內。
提示:一隻小巧圓潤、毛茸茸生物的 3D 動畫,擁有炯炯有神的大眼睛,在充滿生機而神秘的魔法森林中探險。這隻奇特的生物融合了兔子與松鼠的特徵,身披柔軟的藍色毛皮,還擁有蓬鬆的條紋尾巴。它在閃閃發光的小溪旁跳躍,雙眼充滿驚奇。森林中充滿各種魔法元素:會發光和變換色彩的花朵、葉子呈紫色和銀色的樹木,以及像螢火蟲般漂浮的小光點。這隻生物停下腳步,與一群在蘑菇圈周圍跳舞的小精靈生物玩耍互動。這隻生物仰望著一棵巨大的發光樹木,神情敬畏,那棵樹就像是整個森林的核心。
Sora 能夠生成包含多個角色、特定動作類型的複雜場景,還能精確呈現主體和背景中的細節。這款模型不僅可以理解使用者在提示中所提出的要求,還了解這些事物在實體世界的存在方式。
提示:鏡頭從後方跟隨一輛白色復古 SUV,車頂配有黑色行李架。SUV 在被松樹環繞的陡峭泥土山路上疾馳,車輪揚起塵土,陽光灑落在車身,為整個場景籠罩上一層溫暖的光芒。這條泥土路緩緩地向遠方蜿蜒,視野中沒有其他汽車。道路兩旁是紅衫林,林中點綴著一些綠色植被。視角從後方跟隨著這輛車輕鬆地沿著彎道前進,彷彿正自在地穿越崎嶇的地形。這條泥土路兩旁環繞著陡峭的山丘和高山,天空清澈蔚藍,點綴著少許雲朵。
提示:火車車窗上倒映出火車正穿越東京郊區。
提示:無人機鏡頭環繞著一座歷史悠久、建在阿瑪菲海岸岩石上的美麗教堂,畫面展現壯麗的古建築細節,還有層層疊疊的階梯小徑和露台。海浪拍打著岩石,遠眺視野覆蓋了義大利阿瑪菲海岸的海岸水域與丘陵景觀。遠處幾位遊客在露台上漫步,欣賞壯闊的海景。午後陽光灑落,營造出魔幻且浪漫的氛圍,整體畫面以精美攝影手法捕捉,令人驚艷。
提示:一隻巨大的橘色章魚安靜地棲息在海底,與沙地和岩石地形完美融合。牠的觸手在身體四周伸展開來,雙眼緊閉。這隻章魚毫無警覺性,此時一隻帝王蟹正從岩石後方爬向牠,揚起蟹鉗準備攻擊。帝王蟹軀體呈棕色且長滿尖刺,擁有細長的腿和觸角。場景以廣角鏡頭拍攝,展現出海洋的寬廣與深邃。海水清澈湛藍,陽光穿過海水灑落在海底。畫面使用高動態範圍成像,清晰銳利,色彩層次豐富,畫面真實細膩。鏡頭清晰對焦在章魚與螃蟹身上,背景則略微模糊,營造出景深效果。
提示:一群紙飛機在茂密的叢林中翩翩飛舞,穿梭於樹木間,像是一群遷徙的鳥兒。
提示:一隻貓咪叫醒正在睡覺的主人,很心急想要吃早餐。主人不想理會貓咪,但貓咪換了新招,最後主人從枕頭底下拿出藏在裡面的零食,暫時讓貓咪安分一下。
提示:京那巴當岸河上的婆羅洲野生動物
提示:一段有中國舞龍表演的中國農曆新年慶祝影片。
模型能夠深度理解語言,準確解讀提示,生成具有鮮明情感表現的迷人角色。Sora 還能在一段生成的影片中製作多個鏡頭,精準維持角色與視覺風格的一致性。
提示:參觀藝術畫廊的鏡頭,裡面展示了許多風格各異的精美藝術作品。
提示:白雪皚皚的美麗東京城裡,人群熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟隨著幾個享受美麗雪景的人,他們在附近的攤位購物。絢麗的櫻花花瓣與雪花一起在風中飛舞。
提示:展示郊區房屋窗台上長出一朵花的定格動畫。
提示:賽博龐克背景下,一個機器人的生命故事。
提示:一位六十多歲、留著鬍鬚的灰髮男子坐在巴黎咖啡館中,特寫鏡頭捕捉他沉思宇宙歷史的神情。他穿著羊毛西裝外套和襯衫,頭戴棕色貝雷帽、戴著眼鏡,氣質儼然如學者。他凝視著畫外的路人,幾乎一動不動,嘴角露出一絲微妙微笑,彷彿領悟了生命的奧祕。金色電影感光線灑落,背景是巴黎街道和市景,帶有景深效果,使用 35 毫米膠片拍攝。
提示:一段唯美的剪影動畫中,一隻孤獨的狼對著月亮嚎叫,直到牠終於與狼群重逢。
提示:紐約市像亞特蘭提斯一樣被水淹沒。魚、鯨魚、海龜和鯊魚在紐約的街道中穿梭游動。
提示:一窩黃金獵犬幼犬在雪地裡玩耍。牠們的頭從雪中探出並被雪覆蓋。
目前模型仍有改進空間。在模擬複雜場景的物理特性時,可能會有些困難,也可能會無法理解特定的因果關係 (例如,角色咬一口餅乾後,餅乾可能未留下咬痕)。有時,模型也可能混淆提示中涉及的空間細節,例如無法分辨左右,或難以精準呈現持續進行事件的描述,例如特定的鏡頭移動路徑。
提示:一段使用慢速快門拍攝效果呈現的奔跑場景,以 35 釐米膠片拍攝,營造出電影感視覺風格。
缺點:Sora 有時會創造出物理上無法實現的動作。
提示:五隻幼年灰狼在一條偏僻的碎石路上嬉戲追逐,周圍是草地。小灰狼們奔跑跳躍,互相追逐、啃咬、玩耍。
缺點:動物或人類會自發出現,在包含許多實體的場景中尤其如此。
提示:籃球穿過籃框然後爆炸。
缺點:物理建模不準確,物體不自然「變形」的範例。
提示:考古學家在沙漠中發現了一把普通的塑膠椅子,他們小心翼翼地挖掘並撣去灰塵。
缺點:在這個範例中,Sora 未能將椅子建模為剛體,導致物理互動表現不準確。
提示:一位頭髮灰白、梳理整齊的祖母站在木製餐桌旁,面前是插著無數蠟燭的彩色生日蛋糕,她的表情充滿真摯的喜悅和幸福,雙眼閃爍著幸福的光芒。她傾身向前,輕輕一吹,將蠟燭吹熄,蛋糕上塗上了粉紅色的糖霜和糖屑,蠟燭停止閃爍,祖母穿著一件飾有花卉圖案的淺藍色上衣,幾位開心愉悅的朋友和家人坐在桌旁慶祝,只是他們未在對焦範圍內。場景唯美且富有電影氛圍,鏡頭展現了祖母以及餐廳大約四分之三的範圍。使用暖色調和柔和燈光增強氣氛。
缺點:模擬物體和多個角色之間的複雜互動通常對模型來說是一種挑戰,有時會導致場景有些滑稽。
將 Sora 引入 OpenAI 產品陣容之前,我們會先採取多項重要的安全措施。我們與專精於錯誤資訊、仇恨言論與偏見等領域的紅隊專家合作,讓他們以對抗性方式測試模型。
我們也在開發一些可以用來協助偵測誤導性內容的工具,例如能判別影片是否由 Sora 生成的偵測分類器。若未來我們將此模型部署於 OpenAI 產品中,預計將納入 C2PA 中繼資料(在新視窗中開啟)。
除了開發新的部署準備技術以外,我們也會利用一些現有的安全方法(在新視窗中開啟),這些安全方法是為使用 DALL·E 3 的產品而建立,且同樣適用於 Sora。
例如,將 Sora 整合到 OpenAI 產品後,我們的文字分類器會檢查並拒絕違反使用政策的文字輸入提示,例如涉及極端暴力、性相關內容、仇恨圖像、名人肖像或他人智慧財產權等請求。我們也開發了強大的圖片分類器,用於審查每支生成影片的每一幀畫面,確保內容符合使用政策後,才會向使用者呈現。
我們將與全球各地的政策制定者、教育工作者和藝術家合作,了解他們關切的議題,並一起發掘這項新技術的正面用途。儘管我們進行了大量的研究和測試,但仍無法預測人們將如何利用這項技術,也無法完全預見所有可能發生的濫用方式。因此,我們認為從真實世界的使用經驗中學習,是逐步打造和發佈更安全 AI 系統的關鍵所在。
提示:鏡頭正對著義大利布拉諾島上色彩繽紛的建築。一隻可愛的大麥町犬正透過一樓建築物的窗戶向外張望。許多人沿著建築物前的運河街道散步或騎腳踏車。
提示:一隻開心又可愛的水獺穿著黃色救生衣,自信地站在衝浪板上,悠閒地在鬱鬱蔥蔥的熱帶島嶼旁的碧綠海面上衝浪。畫面風格為 3D 數位渲染藝術。
提示:變色龍的特寫鏡頭,展示其驚人的變色能力。背景虛化,將觀眾的注意力吸引到這隻動物吸睛的外觀上。
提示:一隻柯基犬在熱帶島嶼茂伊島拍攝影片部落格。
提示:一隻橘白色虎斑貓在茂密的花園裡快樂地奔跑,好像在追逐什麼。它以穩定的速度前行,睜大眼睛、滿臉歡欣,一邊掃視沿途的枝葉與花朵。路很狹窄,穿越所有植物而行。場景採地平面的角度拍攝,緊跟著貓咪的身影,呈現低角度的親密視角。畫面具有電影質感,色調溫暖,紋理顆粒感強。樹葉和植物之間散射的日光形成了溫暖的對比,突出貓的橘色毛髮。鏡頭清晰銳利,景深效果較淺。
提示:聖托里尼壯麗景色藍調時刻的空拍畫面,白色基克拉澤斯建築與藍色圓頂交織出迷人建築風貌。火山口的景致令人嘆為觀止,光線營造出美麗、寧靜的氛圍。
提示:移軸鏡頭下的施工現場,現場擠滿了工人、設備和重型機械。
提示:一朵巨大、高聳的人形雲朵聳立在大地之上。雲朵人向地面發射閃電。
提示:夜晚時分,一隻薩摩耶犬和一隻黃金獵犬在充滿未來感的霓虹燈城市中嬉戲玩耍。附近建築物發出的霓虹燈光倒映在牠們的皮毛上,閃閃發光。
提示:格倫芬南高架橋是英國蘇格蘭的一座歷史悠久的鐵路橋,橫跨馬萊格鎮和威廉堡之間的西部高地線。蒸氣火車駛出大橋,通過拱形高架橋,景象令人嘆為觀止。鬱鬱蔥蔥的綠色植物和岩石點綴在山脈間,為火車之旅創造出如畫背景。天空湛藍,陽光燦爛,是探索這個壯麗景致的好日子。
Sora 是一種擴散模型,它從一段看起來像雜訊的影片開始,在多重步驟中逐漸移除這些雜訊,最終生成一段完整的影片。
Sora 能夠一次生成完整影片,或是在原有影片的基礎上延伸,製作出更長的片段。透過讓模型同時預見多個畫面,我們得以解決一項難題:即使主體暫時離開視野,也能確保其外觀保持一致。
與 GPT 模型類似,Sora 也採用了 Transformer 架構,從而在擴展方面展現出卓越的效能。
我們將影片與圖片以較小資料單元組成的集合表示,這些單元稱為「資料片段」,每個資料片段都類似於 GPT 模型中的一個 token。將資料表示方式統一後,我們可以在比以往更廣泛的視覺資料上訓練擴散 Transformer 模型,涵蓋不同的時間長度、解析度與寬高比。
Sora 是以過去 DALL·E 與 GPT 模型的研究基礎而建立,它使用來自 DALL·E 3 的重新標註技術,這種方法會為視覺訓練資料生成高度描述性的說明文字。這樣,模型便可以更忠實地根據使用者的文字指示來生成影片內容。
除了可以僅依靠文字指示生成影片之外,這款模型還能從現有的靜態圖片著手,將其內容準確地動態化,並生成細節豐富的影片。模型還能接收現有影片,對其進行延伸或補足缺失的影格。不妨閱讀技術報告,深入了解更多資訊。
Sora 為可以理解和模擬現實世界的模型奠定了基礎,我們相信,這項能力將成為實現 AGI 的重要里程碑。