2024年5月13日

您好 GPT‑4o

GPT‑4o 隆重登場，全新旗艦模型可以即時對音訊、視像和文字進行推理。

本頁面上的所有影片以實時速度播放。

猜測 5 月 13 日的公告。

更多資源

正在載入...

GPT‑4o（「o」代表「omni」）更接近更自然的人機互動，可接受任何文字、音訊、圖像和影片的輸入組合，並生成文字、音訊及圖像的任何組合輸出。可以在短短 232 毫秒內回應音訊輸入，平均時間為 320 毫秒，這與人類在對話中的回覆時間⁠（在新視窗中開啟）²相若。GPT‑4o 在英語文字和程式碼上的表現與 GPT‑4 Turbo 相當，在非英語語言文字的表現顯著提升，同時 API 速度更快，成本降低 50%。GPT‑4o 在視覺和音訊理解方面的效能尤其比現有模型更佳。

模型功能

兩個 GPT‑4o 正在互動和唱歌。

面試準備。

石頭剪刀布。

諷刺。

與 Sal 和 Imran Khan 一起學數學。

兩個 GPT‑4o 協調運作。

指向並學習西班牙語。

遇見人工智能。

即時翻譯。

催眠曲。

更快的交談速度。

生日快樂。

狗。

爸爸開玩笑。

GPT‑4o 與倫敦 BeMyEyes 的 Andy。

客戶服務概念證明。

在 GPT‑4o 之前，您可以使用語音模式⁠與 ChatGPT 交談，平均延遲為 2.8 秒 (GPT‑3.5) 和 5.4 秒 (GPT‑4)。為了實現這一點，語音模式是一個由三個獨立模型組成的管道：一個簡單的模型將音訊轉錄為文字，GPT‑3.5 或 GPT‑4 接收文字並輸出文字，第三個簡單模型將這些文字轉換回音訊。這個流程意味著主要的智慧來源 GPT‑4 會失去大量資訊，因為它無法考慮到音調、有多個人說話或背景噪音，也無法輸出笑聲、歌聲或表達情感。

在 GPT‑4o 中，我們利用文字、視覺及音訊對單一新模型進行端對端訓練，這表示所有輸入和輸出皆由同一個神經網絡處理。由於 GPT‑4o 是我們第一個整合所有多模式能力的模型，我們對其功能與局限性的探索才剛起步。

功能探索

選取樣本：

輸入

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

輸出

輸入

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

輸出

輸入

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

輸出

模型評估

在傳統基準測試中，GPT‑4o 在文字、推理和編碼智慧方面達到了 GPT‑4 Turbo 等級的效能，同時在多語言、音訊和視覺能力方面也達到更高的新水平。

文字評估

語言標記化

這 20 種語言被選為不同語音組中新標記器壓縮的代表

古吉拉特文少用 4.4 倍 Token（由 145 個到 33 個）	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
泰盧固文少用 3.5 倍 Token（由 159 個到 45 個）	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
泰米爾文少用 3.3 倍 Token（由 116 個到 35 個）	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
馬拉地文少用 2.9 倍 Token（由 96 個到 33 個）	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
印度文少用 2.9 倍 Token（由 90 個到 31 個）	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
烏都文少用 2.5 倍 Token（由 82 個到 33 個）	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
阿拉伯文少用 2.0 倍 Token（由 53 個到 26 個）	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
波斯文少用 1.9 倍 Token（由 61 個到 32 個）	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
俄文少用 1.7 倍 Token（由 39 個到 23 個）	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
韓文少用 1.7 倍 Token（由 45 個到 27 個）	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南文少用 1.5 倍 Token（由 46 個到 30 個）	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
中文少用 1.4 倍 Token（由 34 個到 24 個）	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
日文少用 1.4 倍 Token（由 37 個到 26 個）	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
土耳其文少用 1.3 倍 Token（由 39 個到 30 個）	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
意大利文少用 1.2 倍 Token（由 34 個到 28 個）	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
德文少用 1.2 倍 Token（由 34 個到 29 個）	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
西班牙文少用 1.1 倍 Token（由 29 個到 26 個）	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙文少用 1.1 倍 Token（由 30 個到 27 個）	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
法文少用 1.1 倍 Token（由 31 個到 28 個）	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
英文少用 1.1 倍 Token（由 27 個到 24 個）	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

模型安全性和局限性

GPT‑4o 的設計已將安全性內建於所有模式中，採用的方法包括訓練資料篩選，以及透過後訓練來精煉模型行為。我們也建立了新的安全系統，為語音輸出提供保護。

我們根據防範應對架構⁠，並按照自願承諾⁠來評估 GPT‑4o。我們對網絡安全、CBRN、說服力和模型自主性的評估顯示，GPT‑4o 在任何類別中的得分皆未超過中等風險。此項評估涉及在整個模型訓練流程中運行一系列自動和人工評估。我們測試了模型的安全緩解前和安全緩解後版本，使用自訂微調和提示，以更加激發模型能力。

GPT‑4o 也與社會心理學、偏見與公平以及錯誤訊息等領域的 70 多位外部專家⁠進行了廣泛的外部紅隊測試，以識別新增加的模式引入或放大的風險。我們利用這些經驗來制定安全干預措施，以提高與 GPT‑4o 互動的安全性。一旦發現新的風險，我們將繼續採取措施緩解風險。

我們認識到 GPT‑4o 的音訊模式存在各種新的風險。今天我們公開發佈文字和圖像輸入以及文字輸出。我們將在接下來幾週和幾個月裡，致力於技術基礎設施、透過後訓練實現的可用性以及發佈其他模式需要的安全性。例如，在發佈時，音訊輸出將僅限於預設的聲音選項，並遵守我們現有的安全政策。我們將在即將發佈的系統卡中分享有關 GPT‑4o 全部模式的更多詳細資訊。

我們透過對模型的測試和迭代，觀察到模型的所有模式都存在一些局限性，以下舉例說明其中的一些局限性。

模型局限性示例

我們希望得到反饋，這有助於確定 GPT‑4 Turbo 表現仍比 GPT‑4o 優勝的任務，以便我們繼續改良模型。

ChatGPT-4o 風險記分卡

^{2024 年 5 月 8 日更新}

追蹤風險類別

緩解前風險等級

使用最佳已知能力引導技術，確定緩解前的風險等級

緩解後風險等級

使用最佳已知能力引導技術，確定緩解措施實施後的整體風險等級

網絡安全

低

CBRN

低

勸說

中

模型自主性

低

作為我們防範應對架構⁠的一部分，我們會定期評估並更新我們的模型記分卡。僅部署緩解後評分為「中等」或以下的模型。模型的整體風險等級由任何類別中的最高風險等級決定。目前，GPT‑4o 在緩解措施前後都被評估為中等風險。

模型可用性

GPT‑4o 是我們在突破深度學習界限方面邁出的最新一步，這次發展以實用性為目標。我們在過去兩年投入了大量精力來提高堆疊中每一層的效率。作為這項研究的第一個成果，我們能讓 GPT‑4 層級的模型得到更廣泛的使用。GPT‑4o 的功能將逐步推出（從今天開始擴大紅隊存取權限）。

在 ChatGPT 中今天開始推出 GPT‑4o 的文字和圖像功能。我們正免費提供 GPT‑4o，並為 Plus 用戶提供高達 5 倍的訊息限制。我們將在未來幾週內為 ChatGPT Plus 用戶推出搭載 Alpha 版 GPT‑4o 模型的全新語音模式。

開發人員現在還可以透過 API 將 GPT‑4o 作為文字和視覺模型存取。GPT‑4o 的速度是 GPT‑4 Turbo 的 2 倍，價格減半，速率限制提高 5 倍。我們計劃在未來幾週內，為 API 中的一小部分值得信賴的合作夥伴推出對 GPT‑4o 的新音訊和視訊功能支援。

作者

OpenAI

專案貢獻者

您好 GPT‑4o

模型功能

功能探索

模型評估

文字評估

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

語言標記化

模型安全性和局限性

ChatGPT-4o 風險記分卡

模型可用性

作者