跳至主要內容
OpenAI

本頁面上的所有影片都由 Sora 直接生成,不經過任何修改。

載入中…

我們正在訓練 AI 理解和模擬現實世界的動態運作,旨在打造一款模型,能夠協助人們解決需要真實世界互動才能解決的問題。

隆重推出文字轉影片模型,Sora。Sora 可以生成長達一分鐘的影片,不僅畫質出色,而且能夠遵循使用者提示的需求。

自即日起,Sora 已開放予紅隊專家使用,以便評估潛在危害與風險重點領域。我們也開放存取權限給部分視覺藝術家、設計師與電影創作者並蒐集其意見回饋,以進一步優化模型,盡可能提升其對創意工作的支援能力。

我們提早分享研究進展,是為了能與 OpenAI 以外的人合作並收集來自各界的回饋,同時也讓大眾對未來的 AI 能力有初步認識與期待。

Sora 能夠生成包含多個角色、特定動作類型的複雜場景,還能精確呈現主體和背景中的細節。這款模型不僅可以理解使用者在提示中所提出的要求,還了解這些事物在實體世界的存在方式。

模型能夠深度理解語言,準確解讀提示,生成具有鮮明情感表現的迷人角色。Sora 還能在一段生成的影片中製作多個鏡頭,精準維持角色與視覺風格的一致性。

目前模型仍有改進空間。在模擬複雜場景的物理特性時,可能會有些困難,也可能會無法理解特定的因果關係 (例如,角色咬一口餅乾後,餅乾可能未留下咬痕)。有時,模型也可能混淆提示中涉及的空間細節,例如無法分辨左右,或難以精準呈現持續進行事件的描述,例如特定的鏡頭移動路徑。

Safety

將 Sora 引入 OpenAI 產品陣容之前,我們會先採取多項重要的安全措施。我們與專精於錯誤資訊、仇恨言論與偏見等領域的紅隊專家合作,讓他們以對抗性方式測試模型。

我們也在開發一些可以用來協助偵測誤導性內容的工具,例如能判別影片是否由 Sora 生成的偵測分類器。若未來我們將此模型部署於 OpenAI 產品中,預計將納入 C2PA 中繼資料(在新視窗中開啟)

除了開發新的部署準備技術以外,我們也會利用一些現有的安全方法(在新視窗中開啟),這些安全方法是為使用 DALL·E 3 的產品而建立,且同樣適用於 Sora。

例如,將 Sora 整合到 OpenAI 產品後,我們的文字分類器會檢查並拒絕違反使用政策的文字輸入提示,例如涉及極端暴力、性相關內容、仇恨圖像、名人肖像或他人智慧財產權等請求。我們也開發了強大的圖片分類器,用於審查每支生成影片的每一幀畫面,確保內容符合使用政策後,才會向使用者呈現。

我們將與全球各地的政策制定者、教育工作者和藝術家合作,了解他們關切的議題,並一起發掘這項新技術的正面用途。儘管我們進行了大量的研究和測試,但仍無法預測人們將如何利用這項技術,也無法完全預見所有可能發生的濫用方式。因此,我們認為從真實世界的使用經驗中學習,是逐步打造和發佈更安全 AI 系統的關鍵所在。

研究技術

Sora 是一種擴散模型,它從一段看起來像雜訊的影片開始,在多重步驟中逐漸移除這些雜訊,最終生成一段完整的影片。

Sora 能夠一次生成完整影片,或是在原有影片的基礎上延伸,製作出更長的片段。透過讓模型同時預見多個畫面,我們得以解決一項難題:即使主體暫時離開視野,也能確保其外觀保持一致。

與 GPT 模型類似,Sora 也採用了 Transformer 架構,從而在擴展方面展現出卓越的效能。

我們將影片與圖片以較小資料單元組成的集合表示,這些單元稱為「資料片段」,每個資料片段都類似於 GPT 模型中的一個 token。將資料表示方式統一後,我們可以在比以往更廣泛的視覺資料上訓練擴散 Transformer 模型,涵蓋不同的時間長度、解析度與寬高比。

Sora 是以過去 DALL·E 與 GPT 模型的研究基礎而建立,它使用來自 DALL·E 3 的重新標註技術,這種方法會為視覺訓練資料生成高度描述性的說明文字。這樣,模型便可以更忠實地根據使用者的文字指示來生成影片內容。

除了可以僅依靠文字指示生成影片之外,這款模型還能從現有的靜態圖片著手,將其內容準確地動態化,並生成細節豐富的影片。模型還能接收現有影片,對其進行延伸或補足缺失的影格。不妨閱讀技術報告,深入了解更多資訊

Sora 為可以理解和模擬現實世界的模型奠定了基礎,我們相信,這項能力將成為實現 AGI 的重要里程碑。

載入中...