OpenAI 致力于尽可能广泛地普及智能。今天,我们发布 GPT‑4o mini,这是我们性价比最高的小型模型。我们预计,GPT‑4o mini 将使智能变得更加经济实惠,从而大大扩展利用人工智能构建的应用范围。GPT‑4o mini 在 MMLU 测试中的得分为 82%,目前在 LMSYS 排行榜(在新窗口中打开)上的聊天偏好方面优于 GPT‑41。其定价为每百万输入令牌 (token) 0.15 美元、每百万输出令牌 0.60 美元,比以往的前沿模型便宜一个数量级,且比 GPT‑3.5 Turbo 便宜超过 60%。
GPT‑4o mini 以其低成本和低延迟实现了各种任务,如连锁或并行多个模型调用(例如调用多个应用程序接口)、向模型传递大量上下文(例如完整代码库或对话历史)或通过快速、实时文本回复与客户交互(例如客户支持聊天机器人)的应用。
目前,GPT‑4o mini 的 API 支持文本和视觉,未来还将支持文本、图像、视频和音频的输入和输出。该模型的背景信息窗口包含 128K 个令牌,每个请求最多支持 16K 个输出令牌,并且拥有截至 2023 年 10 月的知识。由于改进了与 GPT‑4o 共享的令牌器,现在处理非英语文本更加经济高效。
具有卓越文本智能和多模态推理能力的小型模型
GPT‑4o mini 在文本智能和多模态推理的学术基准测试中超越了 GPT‑3.5 Turbo 和其他小型模型,并且支持的语言范围与 GPT‑4o 相同。它还在函数调用方面表现出色,使开发者能够构建获取数据或与外部系统交互的应用,并且与 GPT‑3.5 Turbo 相比,GPT‑4o mini 还提高了长背景信息性能。
GPT‑4o mini 已在多个关键基准测试中完成评估2。
推理任务:在涉及文本和视觉的推理任务方面,GPT‑4o mini 优于其他小型模型,在文本智能和推理基准 MMLU 测试中的得分率为 82.0%,而 Gemini Flash 为 77.9%,Claude Haiku 为 73.8%。
数学和编码能力:GPT‑4o mini 在数学推理和编程任务中表现出色,超越了市面上之前的小型模型。在衡量数学推理能力的 MGSM 测试中,GPT‑4o mini 得分为 87.0%,而 Gemini Flash 和 Claude Haiku 的得分分别为 75.5% 和 71.7%。在衡量编程能力的 HumanEval 测试中,GPT‑4o mini 得分为 87.2%,而 Gemini Flash 和 Claude Haiku 的得分分别为 71.5% 和 75.9%。
多模态推理:GPT‑4o mini 在多模态推理评估 MMMU 中也表现出色,得分率为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。
模型评估分数
作为模型开发流程的一部分,我们与一些值得信赖的合作伙伴合作,以更好地了解 GPT‑4o mini 的用例和局限性。我们与 Ramp(在新窗口中打开) 和 Superhuman(在新窗口中打开)等公司合作,他们发现 GPT‑4o mini 在从收据文件中提取结构化数据或在提供线程历史记录的情况下生成高质量电子邮件回复等任务方面的表现明显优于 GPT‑3.5 Turbo。
内置安全措施
我们的模型从一开始就内置了安全性,并在开发过程的每一步都得到了强化。在预训练阶段,我们会过滤掉(在新窗口中打开)我们不希望模型学习或输出的信息,例如仇恨言论、成人内容、主要汇集个人信息的网站以及垃圾邮件。在训练后阶段,我们会使用诸如强化学习与人工反馈 (RLHF) 等技术,使模型的行为与我们的策略保持一致,从而提高模型回复的准确性和可靠性。
GPT‑4o mini 内置了与 GPT‑4o 相同的安全缓解措施,我们根据防范准备框架和自愿承诺,使用自动和人工评估系统对 GPT‑4o 进行了仔细评估。超过 70 位来自社会心理学和虚假信息等领域的外部专家对 GPT‑4o 进行了测试,以识别潜在风险。我们已处理这些风险,并计划在即将发布的 GPT‑4o 系统卡和防范准备记分卡中分享详细信息。这些专家评估的见解有助于提高 GPT‑4o 和 GPT‑4o mini 的安全性。
在这些经验的基础上,我们的团队还利用研究中获得的新技术努力提高 GPT‑4o mini 的安全性。API 中的 GPT‑4o mini 是第一个应用我们指令分层(在新窗口中打开)方法的模型,该方法有助于提高模型抵御越狱、提示注入和系统提示提取的能力。这使模型的回复更加可靠,有助于在大规模应用中更安全地使用。
我们将继续监控 GPT‑4o mini 的使用情况,并在发现新的风险时提高模型的安全性。
可用性和定价
GPT‑4o mini 现已作为文本和视觉模型在助手 API、聊天完成 API 和批处理 API 中提供。开发人员每 100 万个输入令牌支付 15 美分,每 100 万个输出令牌支付 60 美分(大约相当于标准书籍的 2500 页)。我们计划在未来几天内对 GPT‑4o mini 进行微调。
ChatGPT 的 Free、Plus 和 Team 用户从今天起将能够使用 GPT‑4o mini,以替代 GPT‑3.5。企业用户也将可以从下周开始使用,这符合我们让所有人都能享受 AI 优势的使命。
下一步计划
过去几年,我们见证了 AI 智能的显著进步和成本的大幅下降。例如,自 2022 年推出性能较弱的模型 text-davinci-003 以来,GPT‑4o mini 的单个令牌成本已下降 99%。我们致力于继续保持这一趋势,在降低成本的同时提升模型性能。
在我们的设想中,未来模型将无缝集成到每个应用程序和每个网站中。GPT‑4o mini 为开发人员铺平了道路,使他们能够更高效、更经济地构建和扩展强大的人工智能应用。人工智能的未来正变得更易获取、可靠,并融入到我们的日常数字体验中,我们很高兴能够继续引领这一潮流。
作者
OpenAI致谢
负责人:Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such
项目负责人:Mianna Chen
脚注
- 1
截至 2024 年 7 月 18 日,GPT-4o mini 的早期版本在性能上优于 GPT-4T 25 年 01 月版。
- 2
GPT-4o mini 的评估分数是通过我们的 simple-evals(在新窗口中打开) 存储库,结合 API 助手系统消息提示计算得出的。对于竞争对手模型,我们采用其报告的分数(如可用)中的最大值、HELM(在新窗口中打开) 排行榜上的分数,以及我们通过 simple-evals 进行的复现结果。