跳到主要內容
OpenAI

此頁面上的所有視訊皆由 Sora 直接產生,未經修改。

正在載入...

我們正在讓人工智能學習如何理解並模擬現實世界中的動態,目標是訓練出的模型能夠協助人類解決需要與現實世界互動的問題。

我們隆重推出 Sora。這個文字轉視訊模型能夠產生長達一分鐘的視訊,同時保持視覺品質並嚴格遵從用戶的提示詞。

Sora 現已開放給紅隊測試人員使用,用於評估關鍵領域的損害或風險。我們也讓多位視覺藝術家、設計師和電影製作人使用,以獲得他們的意見,了解可以如何提升此模型,為創意專業人士發揮出最大的功效。

我們提早公開研究進展,是為了與 OpenAI 以外的各界人士展開合作,收集大家的意見,同時讓公眾了解即將面世的人工智能技術。

Sora 能夠產生複雜的場景,包含多個角色、特定動作類型,以及主體與背景的準確細節。不僅理解用戶在提示詞中的要求,更確切地掌握這些事物在現實世界中的存在方式。

Sora 非常了解語言,因此能夠準確地解讀提示詞,並產生表達豐富情感的生動角色。此外,它也可以在單一產生的視訊中建立多個鏡頭,準確保持角色和視覺風格。

現有模型仍有改進空間。它可能難以模擬複雜場景的物理特性,也可能無法理解因果關係的具體實例(例如:一個角色咬曲奇後,曲奇上可能不會留下痕跡)。此外,還可能混淆提示詞中包含的空間細節,如辨別左右,或難以準確描述經過一段時間而展開的事件,如特定的攝影機軌跡。

Safety

在將 Sora 套用至 OpenAI 產品之前,我們將採取多項重要的安全措施。我們正在與紅隊測試人員(研究誤導資訊、仇恨內容和偏見等領域的專家)合作,他們將對 Sora 進行對抗性測試。

此外,我們正在建立工具,幫助偵測誤導性內容,例如可以識別由 Sora 產生的視訊的偵測分類器。如果我們將此模型套用到 OpenAI 產品中,我們便會計劃在未來包含 C2PA 元數據(在新視窗中開啟)

除了開發新技術為應用做好準備之外,我們也運用現有的安全措施(在新視窗中開啟),這是專為使用 DALL·E 3 的產品而建立的,也適用於 Sora。

例如,一旦在 OpenAI 產品中使用,我們的文字分類器將檢查並拒絕違反使用政策的文字輸入提示詞,例如要求極端暴力、色情內容、仇恨圖像、名人肖像或他人知識產權的提示詞。我們也開發出強大的圖像分類器,用於審核產生的每段視訊的影格,以確保視訊符合我們的使用政策,然後才向用戶展示。

我們將與世界各地的政策制定者、教育工作者和藝術家交流,了解他們的顧慮,並為這項新技術找出具建設性的用例。儘管我們進行了廣泛的研究和測試,但無法完全預測人們將如何善用這項技術,或可能如何濫用。因此,我們相信,從實際使用中學習是建立和發佈日益安全的人工智能系統的重要流程。

研究技術

Sora 屬於擴散模型,會先產生一段類似靜態雜訊的視訊,然後透過多個步驟去除雜訊,再逐步進行轉換,最終產生出視訊。

Sora 可以一次性產生整段視訊,或者擴展已產生的視訊,延長視訊的時間。我們賦予此模型一次預測多個影格的能力,藉此解決了一個具挑戰性的問題:即使主體暫時離開畫面,也能保持其原始狀態。

Sora 與 GPT 模型類似,採用變換器架構來實現卓越的擴展效能。

我們將視訊和圖像表示為一系列更小的資料單元,稱為「區塊」,每個區塊都類似於 GPT 中的詞元。我們可以透過統一資料表示方式,運用比以往更廣泛的視覺資料來訓練擴散變換器,涵蓋不同的長度、解析度和寬高比。

Sora 以過去的 DALL·E 和 GPT 模型的研究成果為基礎,採用 DALL·E 3 中的重新標記技術,為視覺訓練資料產生描述性高的説明文字。因此,此模型能更忠實地遵從用戶在產生視訊中的文字指示。

除了可以只根據文字指示產生視訊以外,此模型也能利用現有的靜態圖像產生視訊,將圖像內容化為動畫,效果既準確又注重細節。此模型也可以利用現有的視訊,進行擴展或填補缺少的影格。閱讀我們的技術報告以了解更多資訊

Sora 為理解和模擬現實世界的模型奠立基礎,我們相信這種能力將成為實現通用人工智能的重要里程碑。

正在載入...