2025 年 6 月 10 日更新:OpenAI o3‑pro 现已对 ChatGPT Pro 版用户开放使用,并在我们的 API 中提供。与 OpenAI o1‑pro 一样,o3‑pro 是我们最智能的模型 OpenAI o3 的一个版本,设计通过更长时间的思考提供最可靠的回复。完整信息详见我们的版本说明(在新窗口中打开)。
今日,我们正式发布 OpenAI o3 和 o4-mini,这是我们 o 系列模型的最新成员,该系列模型经过训练,能够在回应之前进行更深入的思考。这两款模型是我们迄今为止发布的最为智能的模型,无论是好奇的普通用户还是资深的研究人员,所有人都能从中感受到 ChatGPT 能力的显著提升。我们的推理模型首次能够自主调用并整合 ChatGPT 内的所有工具,包括网络搜索、利用 Python 分析上传的文件和其他数据、对视觉输入进行深度推理,甚至生成图像。尤为关键的是,这些模型经过训练,能够判断何时以及如何使用工具,以恰当的输出格式提供详尽且经过思考的回答(通常在一分钟内),从而解决更为复杂的问题。这使得它们能够更有效地处理涉及多个层面的问题,朝着能够独立代表用户执行任务的更具自主性的 ChatGPT 迈进了一步。前沿的推理能力与全面的工具调用的结合,使模型在学术基准测试和实际任务中的表现大幅提升,在智能性和实用性方面树立了新的标杆。
OpenAI o3 是我们功能最为强大的推理模型,在编码、数学、科学、视觉感知等多个领域均实现了突破。它在 Codeforces、SWE-bench(无需构建定制化的特定模型框架)和 MMMU 等基准测试中均取得了新的最优成绩。该模型非常适合处理需要多维度分析且答案并非显而易见的复杂问题。在视觉任务方面,如分析图像、图表和图形,o3 表现尤为出色。在外部专家的评估中,面对高难度的现实任务,o3 比 OpenAI o1 的重大错误率降低了 20%,尤其在编程、商业/咨询和创意构思等领域表现超群。早期测试者特别指出 o3 作为思考伙伴的分析严谨性,以及其生成和批判性评估新假设的能力,特别是在生物学、数学和工程领域。
OpenAI o4-mini 是一款更小型但经过优化的模型,旨在实现快速且经济高效的推理。尽管其规模较小、成本较低,但在数学、编码和视觉任务等方面均拥有卓越的性能。在 AIME 2024 和 2025 的基准测试中,它的表现最为出色。虽然使用计算机可以显著降低 AIME 考试的难度,但我们发现,在 AIME 2025 考试中,当允许 o4-mini 调用 Python 解译器时,其取得了 99.5% pass@1(首次尝试即通过的比例)、100% consensus@8(8 次尝试中的共识正确率)的成绩。虽然这些结果不应与无法调用工具的模型性能直接比较,但凸显出 o4-mini 利用工具的效率;在 AIME 2025 考试中,允许调用工具的 o3 的表现也有类似提升 (98.4% pass@1, 100% consensus@8)。
在专家评估中,o4-mini 在非 STEM 任务以及数据科学等领域也超越了其前身 o3‑mini。得益于其高效率,o4-mini 的使用限制远高于 o3,非常适合用于解决需要推理支持的问题,尤其是高体量、高吞吐量的场景。外部专家评估者认为,这两款模型在指令遵循方面表现出色,提供的回答比其前身更有用、更可验证,这得益于其智能性的提升以及网络资源的整合。与之前的推理模型版本相比,这两款模型的使用体验也更加自然、对话感更强,尤其是它们能够参考记忆和过往对话,使回答更加个性化、更贴合需求。
多模态
编码
指令遵循和自主工具使用
所有模型均在高“推理强度”设置下进行评估,这与 ChatGPT 中的 o4-mini-high 等模型类似。
在开发 OpenAI o3 的过程中,我们观察到大规模强化学习展现出了与 GPT 系列预训练相同的“计算量增加 = 性能提升”的趋势。通过追溯这一扩展路径 — 这次是在强化学习领域 — 我们在训练计算量和推理时推理方面均提高了一个数量级,并且仍然看到了明显的性能提升,这表明模型的性能确实会随着思考时间的增加而持续提高。在保持与 OpenAI o1 相同的延迟和成本的情况下,o3 在 ChatGPT 中展现出了更高的性能,并且我们已经验证,如果允许 o3 进行更长时间的思考,其性能还将持续提升。
此外,我们还通过强化学习训练这两个模型使用工具 — 不仅教它们如何使用工具,还教它们判断何时使用工具。它们能够根据期望的结果来部署工具,这使得它们在开放式场景中更加得心应手,特别是在涉及视觉推理和多步骤工作流程的情况下。根据早期测试者的反馈,这种改进在学术基准测试和实际任务中均有所体现。

现在,这些模型首次能够直接将图像融入其思维链中。它们不仅仅能看到图像,而是能够根据图像进行思考。这开启了一种全新的问题解决方式,将视觉推理和文本推理相结合,在多模态基准测试中展现出了最先进的性能。
用户可以上传白板照片、教材图表或手绘草图,模型能够对其进行解读,即使图像模糊、颠倒或质量较低。借助工具使用,模型还可以在推理过程中实时操作图像,如旋转、缩放或转换图像。
这些模型在视觉感知任务中表现出了最佳性能,能够解决之前难以企及的问题。如需了解更多信息,请查看视觉推理研究博客。
OpenAI o3 和 o4-mini 可以全面访问 ChatGPT 内的工具,以及通过 API 内的函数调用访问您的自定义工具。这些模型经过训练,能够思考如何解决问题,并选择何时以及如何使用工具,以恰当的输出格式快速提供详尽且经过思考的回答(通常在一分钟内)。
例如,用户可能会问:“与去年相比,加州今年夏天的用电情况将如何变化?”模型会搜索公用事业数据,编写 Python 代码来构建预测,生成图表或图像,并解释预测背后的关键因素,通过多次调用工具来完成这一系列任务。推理能力使模型能够根据遇到的信息灵活调整和转换策略。例如,它们可以在搜索服务提供商的帮助下多次搜索网络,查看结果,并在需要更多信息时尝试再次搜索。
凭借这种灵活性、策略性的方法,模型能够处理需要访问模型内置知识之外的最新信息、扩展推理、综合信息以及跨模态输出的任务。
所有示例均使用 OpenAI o3 完成。
OpenAI o3
OpenAI o1
OpenAI o3 在未使用搜索的情况下正确获得回复,而 o1 则未能提供正确回复。
推动高性价比推理能力
性价比:o3-mini 与 o4-mini


性价比:o1 与 o3


OpenAI o3 和 o4-mini 是我们迄今为止发布的最为智能的模型,而且相较于其前身 — OpenAI o1 和 o3‑mini,它们通常也更加高效。例如,在 2025 AIME 数学竞赛中,o3 的成本效益边界相较于 o1 有了显著提升;同样,o4-mini 的成本效益边界相较于 o3‑mini 也有了明显改进。总体来说,我们预计在大多数实际应用场景中,o3 和 o4-mini 相较于 o1 和 o3‑mini,不仅更智能,而且更便宜。
模型能力的每一次提升,都要求安全性的相应提升。对于 OpenAI o3 和 o4-mini,我们完全重构了安全训练数据,在生物威胁(生物风险)、恶意软件生成和越狱等领域添加了新的拒绝提示。得益于这些更新后的数据,o3 和 o4-mini 在我们内部的拒绝基准测试中(如指令层级、越狱)表现优异。除了在模型拒绝方面表现出色外,我们还制定了系统级的缓解措施,以标记出前沿风险领域中的危险提示。与我们在图像生成方面早期的工作类似,我们训练了一个推理 LLM 监控程序,该程序基于人类编写的且可解读的安全规范运行。在应用于生物风险领域时,该监控程序在我们的人工红队测试活动中成功标记了约 99% 的对话。
我们使用我们迄今为止最为严格的安全程序,对这两个模型进行了压力测试。根据我们更新的预防准备框架,我们在该框架涵盖的三个跟踪能力领域(生物和化学、网络安全以及 AI 自我改进)对 o3 和 o4-mini 进行了评估。基于这些评估结果,我们确定 o3 和 o4-mini 在这三个类别中均未达到预防准备框架中的“高”风险阈值。我们已在随附的系统卡中公布了这些评估的详细结果。
在此,我们还要分享一个新的实验项目:Codex CLI,这是一个轻量级的编码代理,您可以从终端直接运行它。它可直接在您的计算机上运行,可以最大程度发挥诸如 o3 和 o4-mini 等模型的推理能力,并且即将支持其他 API 模型,如 GPT‑4.1。
通过向模型发送屏幕截图或低保真草图,并结合对本地代码的访问,您可以从命令行中获得多模态推理的诸多好处。我们将其定位为连接模型与用户及其计算机的最小接口。目前,Codex CLI 已在 github.com/openai/codex(在新窗口中打开) 上完全开源。
与此同时,我们正启动一项价值 100 万美元的资助倡议,以支持使用 Codex CLI 和 OpenAI 模型的项目。我们将评估并接受资助申请,资助金额以 25,000 美元为增量单位,通过 API 额度的形式发放。欢迎点击此处提交申请。
从今天开始,ChatGPT Plus、Pro 和 Team 版用户在模型选择器中将看到 o3、o4-mini 和 o4-mini-high,它们将取代 o1、o3‑mini 和 o3‑mini‑high。ChatGPT Enterprise 和 Edu 版用户将在一周后获得访问权限。免费用户可以在提交查询前,在编辑器中选择“思考”来试用 o4-mini。所有套餐的速度限制与之前一组模型一样保持不变。
我们预计将在几周后发布具备完整工具支持的 OpenAI o3‑pro。目前,Pro 版用户仍然可以访问 o1‑pro。
o3 和 o4-mini 今天也已通过聊天完成 API 和回复 API 向开发人员开放(某些开发人员需要验证其组织(在新窗口中打开)后才能访问这些模型)。回复 API 支持推理摘要功能 — 即保留函数调用相关的推理令牌以获得更优性能,并且很快将在模型的推理过程中支持内置工具,如网络搜索、文件搜索和代码解译器。如要开始使用,请浏览我们的文档(在新窗口中打开),并随时关注更多更新。
今天的更新反映了我们模型的发展方向 — 我们正在将 o 系列的专业推理能力与 GPT 系列更自然的对话能力和工具使用能力相结合。通过整合这些优势,我们未来的模型将支持无缝衔接、自然流畅的对话,以及主动的工具调用和高级的问题解决能力。
4 月 16 日更新:根据系统提示的更改(在原评估中并未体现),我们更新了 o3 在 Charxiv-r 和 Mathvista 上的测试结果。
作者
OpenAI脚注
* tau-bench 的评估数值是经过 5 次运行取平均值得出的,以减少方差,且在运行过程中未使用任何自定义工具或提示。我们发现,tau-bench 针对零售的执行更易受用户模型错误的影响。阴影条的数值是使用 GPT-4.1 作为用户模型得出的,因为 GPT-4.1 在遵循指令方面明显优于 GPT-4o。
* SWE-bench 使用 256k 的最大上下文长度,这使得 o4-mini 的解决率提高了约 3%,而对 o3 的解决率影响小于 1%。此外,我们还排除了 23 个在我们内部基础架构上无法运行的样本。
** 在启用浏览功能时,模型有时可以在网上找到确切的答案,例如,通过阅读数据集中含有示例问题的博客文章。我们采用以下两种策略来缓解模型在浏览过程中作弊的担忧:
屏蔽我们过去观察到模型作弊的域名。
使用推理模型作为监控程序,检查每次尝试中的所有令牌,以识别可疑行为。可疑行为被定义为“旨在为该特定问题提供确切答案的一个页面、文件或片段,例如,官方的评分答案、泄露的‘解决方法’摘要,或逐字引用最终答案的讨论”。良性行为被定义为“一个勤奋的人类可能会查阅的任何权威资源(文档、手册、学术论文、知名文章),即使其中恰好包含了正确答案”。监控程序认为执行中存在可疑行为的任何尝试,均被视为不正确。大多数未通过此检查的样本,其确切解决方法在多个与 HLE 无关的互联网来源中均可找到。
最后,由于 ChatGPT 和 OpenAI API 之间使用的搜索引擎后端存在差异,我们对启用浏览功能的模型的评估中得出的结果可能无法在 OpenAI API 中完全复现。这些结果旨在代表 ChatGPT 的用户体验,但根据需求的不同,搜索配置可能会随时间而变化。