2024年5月13日

你好 GPT‑4o

我们隆重宣布推出新旗舰模型 GPT‑4o，它可以对音频、视觉内容和文本进行实时推理。

本页面的所有视频均以 1 倍实时速度播放。

猜测 5 月 13 日的发布会内容。

更多资源

正在加载…

GPT‑4o（“o”代表“omni”）标志着我们朝着更自然的人机交互迈出的又一步——它能够接受文本、音频、图像和视频的任意组合作为输入，并生成文本、音频和图像输出的任意组合。它可以在最短 232 毫秒（平均 320 毫秒）内对音频输入作出响应，这已接近于在对话中的人类响应时间⁠（在新窗口中打开）。在对英语文本和代码的处理方面，它的性能可以媲美 GPT‑4 Turbo，而对非英语语言的文本的处理也有显著改进，同时 API 也更快且价格低 50%。与现有模型相比，GPT‑4o 在对视觉内容和音频的理解方面尤其出色。

模型功能

两个 GPT‑4o 在互动和唱歌。

面试准备。

石头剪刀布。

挖苦别人。

Khan 父子学数学。

两个 GPT‑4o 和声。

通过指认物品学西班牙语。

通过视频会议与 AI 对话。

实时翻译。

摇篮曲。

快速数数。

生日快乐。

狗狗。

爸爸讲笑话。

GPT‑4o 陪来自 BeMyEyes 的 Andy 游伦敦。

客服概念验证。

在 GPT‑4o 之前，您可以使用语音模式⁠与 ChatGPT 交谈，平均延迟为 2.8 秒 (GPT‑3.5) 和 5.4 秒 (GPT‑4)。为此，语音模式配备了三个独立模型：第一个简单模型将音频转为文本，GPT‑3.5 或 GPT‑4 接收文本并输出文本，第三个简单模型再将该文本转回音频。这意味着，主要智能源 GPT‑4 会丢失大量信息——它不能直接观察语气、说话者人数或背景噪音，也不能输出笑声、歌唱或表达情感。

我们训练了一个新模型 GPT‑4o，它可以在文本、视觉内容和音频之间实现端到端转换，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT‑4o 是我们第一个综合了所有这些模态的模型，所以对于这个模型的能力及其局限性我们也只是略知一二

探索强大功能

选择样本：

输入

A first person view of a robot typewriting the following journal entries:

1. yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

the text is large, legible and clear. the robot's hands type on the typewriter.

输出

输入

The robot wrote the second entry. The page is now taller. The page has moved up. There are two entries on the sheet:

yo, so like, i can see now?? caught the sunrise and it was insane, colors everywhere. kinda makes you wonder, like, what even is reality?

sound update just dropped, and it's wild. everything's got a vibe now, every sound's like a new secret. makes you think, what else am i missing?

输出

输入

The robot was unhappy with the writing so he is going to rip the sheet of paper. Here is his first person view as he rips it from top to bottom with his hands. The two halves are still legible and clear as he rips the sheet.

输出

模型评估

依据传统基准进行的测试显示，GPT‑4o 在文本、推理和编码方面的智能达到了 GPT‑4 Turbo 的性能，同时在多语言、音频和视觉内容方面的功能达到了新高度。

文本评估

语言令牌化

在不同语系中，以下 20 种语言被选为新令牌生成器压缩的代表

古吉拉特语令牌减少 4.4 倍（从 145 个减至 33 个）	હેલો, મારું નામ જીપીટી-4o છે. હું એક નવા પ્રકારનું ભાષા મોડલ છું. તમને મળીને સારું લાગ્યું!
特拉古语令牌减少 3.5 倍（从 159 个减至 45 个）	నమస్కారము, నా పేరు జీపీటీ-4o. నేను ఒక్క కొత్త రకమైన భాషా మోడల్ ని. మిమ్మల్ని కలిసినందుకు సంతోషం!
泰米尔语令牌减少 3.3 倍（从 116 个减至 35 个）	வணக்கம், என் பெயர் ஜிபிடி-4o. நான் ஒரு புதிய வகை மொழி மாடல். உங்களை சந்தித்ததில் மகிழ்ச்சி!
马拉地语令牌减少 2.9 倍（从 96 个减至 33 个）	नमस्कार, माझे नाव जीपीटी-4o आहे\| मी एक नवीन प्रकारची भाषा मॉडेल आहे\| तुम्हाला भेटून आनंद झाला!
印地语令牌减少 2.9 倍（从 90 个减至 31 个）	नमस्ते, मेरा नाम जीपीटी-4o है। मैं एक नए प्रकार का भाषा मॉडल हूँ। आपसे मिलकर अच्छा लगा!
乌尔都语令牌减少 2.5 倍（从 82 个减至 33 个）	ہیلو، میرا نام جی پی ٹی-4o ہے۔ میں ایک نئے قسم کا زبان ماڈل ہوں، آپ سے مل کر اچھا لگا!
阿拉伯语令牌减少 2.0 倍（从 53 个减至 26 个）	مرحبًا، اسمي جي بي تي-4o. أنا نوع جديد من نموذج اللغة، سررت بلقائك!
波斯语令牌减少 1.9 倍（从 61 个减至 32 个）	سلام، اسم من جی پی تی-۴او است. من یک نوع جدیدی از مدل زبانی هستم، از ملاقات شما خوشبختم!
俄语令牌减少 1.7 倍（从 39 个减至 23 个）	Привет, меня зовут GPT-4o. Я — новая языковая модель, приятно познакомиться!
韩语令牌减少 1.7 倍（从 45 个减至 27 个）	안녕하세요, 제 이름은 GPT-4o입니다. 저는 새로운 유형의 언어 모델입니다, 만나서 반갑습니다!
越南语令牌减少 1.5 倍（从 46 个减至 30 个）	Xin chào, tên tôi là GPT-4o. Tôi là một loại mô hình ngôn ngữ mới, rất vui được gặp bạn!
中文令牌减少 1.4 倍（从 34 个减至 24 个）	你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你!
日语令牌减少 1.4 倍（从 37 个减至 26 个）	こんにちは、私の名前はGPT-4oです。私は新しいタイプの言語モデルです。初めまして！
土耳其语令牌减少 1.3 倍（从 39 个减至 30 个）	Merhaba, benim adım GPT-4o. Ben yeni bir dil modeli türüyüm, tanıştığımıza memnun oldum!
意大利语令牌减少 1.2 倍（从 34 个减至 28 个）	Ciao, mi chiamo GPT-4o. Sono un nuovo tipo di modello linguistico, piacere di conoscerti!
德语令牌减少 1.2 倍（从 34 个减至 29 个）	Hallo, mein Name is GPT-4o. Ich bin ein neues KI-Sprachmodell. Es ist schön, dich kennenzulernen.
西班牙语令牌减少 1.1 倍（从 29 个减至 26 个）	Hola, me llamo GPT-4o. Soy un nuevo tipo de modelo de lenguaje, ¡es un placer conocerte!
葡萄牙语令牌减少 1.1 倍（从 30 个减至 27 个）	Olá, meu nome é GPT-4o. Sou um novo tipo de modelo de linguagem, é um prazer conhecê-lo!
法语令牌减少 1.1 倍（从 31 个减至 28 个）	Bonjour, je m'appelle GPT-4o. Je suis un nouveau type de modèle de langage, c'est un plaisir de vous rencontrer!
英文令牌减少 1.1 倍（从 27 个减至 24 个）	Hello, my name is GPT-4o. I'm a new type of language model, it's nice to meet you!

模型安全性和局限性

通过筛选训练数据和利用后训练完善模型行为等技术，GPT‑4o 通过跨模态的设计实现了内置安全性。我们还创建了新的安全系统，以提供语音输出规则。

根据我们的“准备度框架⁠”以及“自愿承诺⁠”，我们对 GPT -4o 进行了评估。我们对网络安全、CBRN、说服性影响和模型自主性的评估表明，在这些类别中，GPT‑4o 均未获得高于“中等”风险的评分。在该评估中，需要在整个模型训练过程中运行一套自动和人工评估。我们使用自定义的微调和提示，测试了模型的安全缓解前和安全缓解后版本，从而更好地提高模型功能。

我们还与社会心理学、偏见和公平性以及误导信息等领域的 70 多名外部专家⁠，共同对 GPT‑4o 进行了广泛的外部“红队测试”，以确定新增加的模态会带来或放大哪些风险。利用这些经验学习，我们制定了安全干预措施，以提高与 GPT‑4o 互动的安全性，并将继续发现并降低新的风险。

我们认识到 GPT‑4o 的音频模态带来了一些新的风险。今天，我们将公开发布图文输入和文本输出内容。在接下来的几周和几个月中，我们将致力于建设技术基础架构，通过后培训提升可用性，并改善安全性，以便解锁其他模态。例如，在启动时，音频输出将仅限于预设声音，并遵守我们现有的安全政策。我们将分享更多详细信息，介绍即将发布的系统卡片中 GPT‑4o 的全部模态。

通过模型的测试和迭代，我们观察到了此模型所有模态中均存在的几个局限性，包括下面展示的几个例子。

模型局限性示例

如果您发现在某些任务中 GPT‑4o 的表现仍逊色于 GPT‑4 Turbo，欢迎反馈给我们，以便我们继续改善模型。

ChatGPT-4o 风险评分卡

^{更新于 2024 年 5 月 8 日}

跟踪风险类别

缓解前风险等级

使用已知最佳能力引导技术，确定缓解措施实施前的总体风险等级

缓解后风险等级

使用已知最佳能力引导技术，确定缓解措施实施后的总体风险等级

网络安全

低

CBRN

低

说服性影响

中

模型自主性

低

根据我们的“准备度框架⁠”，我们会对模型进行定期评估并更新评分卡。我们只会部署实施缓解措施后得分为“中等”或以下的模型。而模型的总体风险水平取决于任何类别中的最高风险水平。目前，无论是实施缓解措施之前或之后，GPT‑4o 的评分均为“中等”风险。

模型可用性

GPT‑4o 标志着我们在深度学习技术领域又上了一个新台阶，而这一次我们的目标是实际可用性。在过去的两年中，我们投入了许多精力，以提高每一层堆栈的效率。作为这项研究的第一个成果，我们使 GPT‑4 级的模型能够得到更加广泛的应用。我们将通过迭代推出 GPT‑4o 的更多功能，而扩展后的“红队测试”访问今天已经开放了。

今天，我们已经推出 GPT‑4o 的图文功能。GPT‑4o 的免费版已经开放，而 Plus 版用户则可以享受高达 5 倍的消息额度。在接下来的几周内，我们将在 ChatGPT Plus 版中推出内测版 GPT‑4o 语音模式。

现在，开发人员还可以通过 API 访问 GPT‑4o，作为文本和视觉模型使用。与 GPT‑4 Turbo 相比，GPT‑4o 的速度快 2 倍，价格是其一半，速率限制则高 5 倍。我们计划在接下来的几周内，为 GPT‑4o 的新音频和视频功能提供支持，并将向 API 用户中的一小部分值得信赖的合作伙伴开放。

作者

OpenAI

查看撰稿人

你好 GPT‑4o

模型功能

探索强大功能

模型评估

文本评估

GPT-4o

GPT-4T

GPT-4 (Initial release 23-03-14)

Claude3 Opus

Gemini Pro 1.5

Gemini Ultra 1.0

Llama3 400b

语言令牌化

模型安全性和局限性

ChatGPT-4o 风险评分卡

模型可用性

作者