2024年5月13日

開啟 GPT‑4o 之旅

我們隆重推出 GPT‑4o，這是一款能夠在音訊、視覺和文字之間進行即時推理的旗艦模型。

此頁面中所有影片皆以 1 倍實際速度播放。

猜測 5 月 13 日的公告內容。

更多資源

載入中…

GPT‑4o (其中的「o」代表「omni」) 是邁向人類與機器之間更自然互動的重要一步，它可以接收文字、音訊、圖片和影片等任意組合作為輸入內容，並產生文字、音訊與圖片等任意組合作為輸出內容。它最快能在 232 毫秒內回應音訊輸入，平均回應時間為 320 毫秒，接近人類在對話中的反應時間⁠(在新視窗中開啟)。它在英文文字與程式碼方面的表現與 GPT‑4 Turbo 旗鼓相當，且在非英文語言的文字處理上有明顯改善，同時在 API 中的執行速度更快，成本也降低了 50%。GPT‑4o 在視覺與音訊理解方面，表現尤為優異，遠勝過現有模型。

模型功能

兩個 ChatGPT‑4o 模型進行互動與合唱。

準備面試。

石頭剪刀布遊戲。

嘲諷。

與 Sal 與 Imran Khan 一起學數學。

兩個 GPT‑4o 模型合唱。

指一指，學西班牙文。

認識 AI。

即時翻譯。

搖籃曲。

說話速度加快。

生日快樂。

狗狗。

老爹笑話。

GPT‑4o 與來自倫敦 BeMyEyes 的 Andy。

客戶服務的概念驗證。

GPT‑4o 面世前，您可以透過語音模式⁠與 ChatGPT 對話，但平均延遲時間為 2.8 秒 (GPT‑3.5) 及 5.4 秒 (GPT‑4)。為了實現語音互動，「語音模式」是由三個獨立模型組成的流程：第一個簡單模型負責將音訊轉換為文字，GPT‑3.5 或 GPT‑4 負責接收文字並輸出回應文字，最後第三個簡單模型再把這段文字轉換回音訊。這個流程會讓主要的核心人工智慧 GPT‑4 錯失許多關鍵資訊，不僅無法直接察覺語調變化、多人對話、背景聲音等，也沒辦法表達出笑聲、唱歌或情緒反應。

在 GPT‑4o 中，我們訓練了一個全新的單一模型，它能夠從頭到尾處理文字、影像和音訊，也就是說，所有輸入與輸出都由同一個神經網路處理。GPT‑4o 是我們第一個結合多模態的模型，因此我們目前仍處於初步探索階段，正逐步瞭解這個模型的潛力與限制。

功能探索

選擇範例：

輸入

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

輸出

輸入

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

輸出

輸入

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

輸出

模型評估

根據傳統基準測試結果，GPT‑4o 在文字、推理與程式設計智慧方面達到與 GPT‑4 Turbo 相同的水準，在多語言、音訊與視覺功能方面也創下新水準。

文字評估

語言符元化

下列 20 種語言被選為代表，用以展示新的符元化工具在不同語系中的壓縮效果。

古吉拉特語 token 數減少 4.4 倍 (從 145 減至 33)	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
泰盧固語 token 數減少 3.5 倍 (從 159 減至 45)	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
泰米爾語 token 數減少 3.3 倍 (從 116 減至 35)	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
馬拉地語 token 數減少 2.9 倍 (從 96 減至 33)	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
印地語 token 數減少 2.9 倍 (從 90 減至 31)	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
烏爾都語 token 數減少 2.5 倍 (從 82 減至 33)	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
阿拉伯語 token 數減少 2.0 倍 (從 53 降至 26 )	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
波斯語 token 數減少 1.9 倍 (從 61 減至 32)	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
俄語 token 數減少 1.7 倍 (從 39 減至 23)	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
韓語 token 數減少 1.7 倍 (從 45 減至 27)	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南語 token 數減少 1.5 倍 (從 46 減至 30)	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
中文 token 數減少 1.4 倍 (從 34 減至 24)	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
日語 token 數減少 1.4 倍 (從 37 減至 26)	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
土耳其語 token 數減少 1.3 倍 (從 39 減至 30)	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
義大利語 token 數減少 1.2 倍 (從 34 減至 28)	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
德文 token 數減少 1.2 倍 (從 34 減至 29)	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
西班牙語 token 數減少 1.1 倍 (從 29 減至 26)	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙語 token 數減少 1.1 倍 (從 30 減至 27)	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
法文 token 數減少 1.1 倍 (從 31 減至 28)	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
英文 token 數減少 1.1 倍 (從 27 減至 24)	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

模型安全性與限制

GPT‑4o 設計之初便內建多模態安全機制，透過篩選訓練資料及後訓練階段微調模型行為來實現。我們也開發了新的安全系統，為語音輸出設立防護機制。

我們已根據應變整備框架⁠對 GPT‑4o 進行評估，並遵循我們的自願承諾⁠ 。我們針對網路安全、CBRN、說服力及模型自主性等方面的評估顯示，GPT‑4o 在這些類別中風險均未超過中等程度。這項評估涵蓋了整個模型訓練過程中，透過一系列自動化與人工評估進行的測試。我們針對模型在安全措施實施前後的版本，使用自訂微調和提示進行測試，以便更充分地發揮模型的功能。

GPT‑4o 同時也經過逾 70 位來自社會心理學、偏見與公平性、錯誤資訊等領域的外部專家⁠進行嚴格的外部紅隊演練，以識別新增的多模態功能可能帶來或加劇的風險。我們運用這些經驗，建立起一套安全介入措施，進一步提升與 GPT‑4o 互動的安全性。我們將持續針對新發現的風險進行防範與降低機率。

我們明白 GPT‑4o 的音訊模態帶來了各種新的風險。今天，我們公開推出了文字和圖片輸入以及文字輸出功能。在接下來的幾週和幾個月內，我們將致力於建立技術架構、透過後訓練提升可用性，並且完善安全機制，為發行其他模態做好準備。例如，在正式推出時，我們將音訊輸出限制在數種預設語音範圍內，並遵循我們現有的安全政策。我們將在即將發佈的系統說明卡中，進一步說明 GPT‑4o 所涵蓋的所有模態細節。

在測試和調整模型的過程中，我們發現它在各種模態上仍存在一些限制，下面簡單舉幾個例子說明。

模型限制範例

我們非常歡迎大家提出意見回饋，協助我們找出 GPT‑4 Turbo 表現仍優於 GPT‑4o 的任務，讓我們能持續改善模型。

ChatGPT-4o 風險計分卡

^{2024 年 5 月 8 日更新}

追蹤風險類別

緩解前風險等級

使用已知最佳能力引導技術來評估緩解前的風險等級

緩解後風險等級

使用已知最佳能力引導技術，在緩解措施實施後評估整體風險等級

資安

低

CBRN

低

說服力

中

模型自主性

低

作為我們應變整備框架⁠的其中一環，我們會定期進行評估並更新模型的計分卡。只有在後續降低風險評分達到「中等」或以下的模型，才會正式部署。整體風險等級是根據所有分類中最高的風險等級來判定。在風險評估中，無論是降低前還是降低後，目前 GPT‑4o 的評分皆為中等風險。

模型可用性

GPT‑4o 是我們突破深度學習極限的新里程碑，這次的模型致力於讓技術更貼合實際可用性。過去兩年裡，我們投入大量心力，不斷從各層面提升效率。GPT‑4 等級模型是這項研究的初步成果，我們已成功將其推廣至更多領域使用。GPT‑4o 的功能將會分階段推出 (紅隊演練權限將從今天起擴大開放)。

今天也會在 ChatGPT 中推出 GPT‑4o 的文字與影像功能。使用者可以在免費版本中使用 GPT‑4o，Plus 版本使用者則可享有最高 5 倍的訊息上限。未來幾週內，我們將在 ChatGPT Plus 版本內以 Alpha 版本形式推出搭載 GPT‑4o 的全新版本語音模式。

現在，開發者也可以透過 API 使用 GPT‑4o 的文字與影像模型。GPT‑4o 比 GPT‑4 Turbo 快 2 倍，價格減半，而訊息頻率上制則提升 5 倍。我們計劃在未來幾週內，向部分信賴的合作夥伴釋出 GPT‑4o 的音訊與影片 API 新功能。

作者

OpenAI

檢視貢獻者

開啟 GPT‑4o 之旅

模型功能

功能探索

模型評估

文字評估

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

語言符元化

模型安全性與限制

ChatGPT-4o 風險計分卡

模型可用性

作者