今天,我们正式在 API 平台上发布了 GPT‑5——这是我们迄今为止在编码和智能体任务方面表现最佳的模型。
GPT‑5 在关键编码基准测试中处于行业领先水平 (SOTA),在 SWE-bench Verified 测试中得分 74.9%,在 Aider polyglot 测试中得分 88%。我们训练了GPT‑5,使其成为真正的编码协作伙伴。它擅长生成高质量代码并处理诸如修复漏洞、修改代码以及解答复杂代码库相关问题等任务。该模型具备可控性和协作性——它能够以极高精度执行非常详细的指令,并在工具调用前及期间提前解释其操作原因。 该模型在前端编码方面也表现出色,在内部测试中,其在 70% 的前端 Web 开发任务中表现优于 OpenAI o3。
我们与初创公司和企业的早期测试者合作,使用真实世界的编码任务对 GPT‑5 进行了训练。Cursor 表示 GPT‑5 是“【他们】使用过的最智能的模型”,并且“异常智能、易于操控,甚至拥有其他模型中未见过的个性”。Windsurf 指出,GPT‑5 在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。Vercel 表示,“它是目前最佳的前端 AI 模型,在美学感知和代码质量方面均达到顶尖水平,堪称独树一帜”。
GPT‑5 在持续型智能体任务中同样表现卓越——在两个月前刚发布的工具调用基准测试 τ2-bench telecom 中,以 96.7% 的成绩刷新了业界最优水平。GPT‑5 改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。Manus 表示,GPT‑5 “在【他们的】内部基准测试中取得了【他们】迄今为止单个模型的最佳性能”。 Notion 表示,“【模型的】快速回复能力,尤其在低推理模式下,使 GPT‑5 成为解决复杂任务的一站式理想选择”。Inditex 指出:“真正让 [GPT‑5] 脱颖而出的是其推理的深度:细致入微、多层次的答案,体现了对实际主题的深刻理解。”
我们在 API 中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5 支持新的 verbosity 参数(取值:低、中、高),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5 的 reasoning_effort 参数现在可以设置为最小值,以更快获取答案,无需先进行大量推理。我们还新增了一种工具类型——自定义工具——使 GPT‑5 能够使用纯文本而非 JSON 调用工具。自定义工具支持基于背景信息无关文法的约束配置。
我们将在 API 中发布 GPT‑5 的三个版本——gpt-5、gpt-5-mini 和 gpt-5-nano——以赋予开发人员更多灵活性,在性能、成本和延迟之间进行权衡。虽然 ChatGPT 中的 GPT‑5 是一个包含推理、非推理和路由器模型的系统,但 API 平台中的 GPT‑5 则是驱动 ChatGPT 实现最佳性能的推理模型。值得注意的是,GPT‑5 的最小推理模型与 ChatGPT 中的非推理模型是不同的模型,且更适合开发人员使用。ChatGPT 中使用的非推理模型可通过 gpt-5-chat-latest 获取。
GPT‑5 是我们迄今为止发布的最强大的编码模型。它在编码基准测试和实际应用场景中均优于 o3,并且经过专门优化,在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等自主编码产品中表现尤为出色。GPT‑5 给我们的 Alpha 测试者留下了深刻印象,在他们多次内部私密评估中创下了多项纪录。
关于 GPT‑5 在实际编码任务中的早期反馈
“GPT-5 是我们使用过的最智能的编码模型。我们的团队发现,GPT-5 具有显著的智能,易于操控,甚至拥有任何其他模型中不具备的人格特质。它不仅能发现那些难以察觉的深层隐藏漏洞,还能运行长时间的多轮后台任务,确保复杂任务顺利完成——这些正是过去其他模型难以解决的问题。它已成为我们日常工作的得力工具,从规划和实施 PR 到完成端到端构建,无所不能。”
在基于真实软件工程任务的 SWE-bench Verified 评估中,GPT‑5 的得分达到 74.9%,较 o3 版本的 69.1% 有所提升。值得注意的是,GPT‑5 以更高的效率和速度获得了高分:与 o3 在高推理强度下相比,GPT‑5 的输出令牌数量减少了 22%,工具调用次数减少了 45%。
在 SWE-bench Verified 基准测试中,模型会获得代码仓库和问题描述,并需要生成补丁来解决问题。文本标签用于标识推理强度。我们的评分排除了 500 个问题中的 23 个,因其解决方案在我们的测试环境中无法稳定通过。GPT‑5 收到一个简短的提示,强调要彻底验证解决方案;而相同的提示对 o3 没有帮助。
在评估代码编辑能力的 Aider polyglot 测试中,GPT‑5 以 88% 的得分刷新纪录,其错误率较 o3 版本降低了三分之一。
在 Aider Polyglot(在新窗口中打开) (diff) 中,模型会收到来自 Exercism 的编码练习,并且必须将其解决方案以代码差异的形式编写出来。推理模型在高推理强度下运行。
我们还发现,GPT‑5 在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。在像 OpenAI 的强化学习框架这样复杂的代码库中,我们发现 GPT‑5 能够帮助我们分析和解答关于代码的问题,从而加速我们日常工作的效率。
在为 Web 应用生成前端代码时,GPT‑5 展现出更优的审美水准、更强的能力和更高的准确性。在与 o3 的并排比较中,GPT‑5 在 70% 的情况下更受我们的测试人员青睐。
以下是一些精选的有趣示例,展示 GPT‑5 仅需单次提示就能完成的任务:
提示:请为一项服务设计一个美观且真实的登录页,该服务面向顶级咖啡爱好者,提供每月 200 美元的订阅计划,包含咖啡烘焙设备租赁及专业指导,助其打造完美意式浓缩咖啡。目标受众为旧金山湾区的中年人群,可能从事科技行业,受过良好教育,拥有可支配收入,并对咖啡的艺术与科学充满热情。优化转化率,以实现 6 个月的订阅注册。
查看更多由 GPT‑5 生成的示例,请访问我们这里(在新窗口中打开)的图库。
GPT‑5 是出色的协作者,尤其在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等自主编码产品中表现突出。在运行过程中,GPT‑5 能够在工具调用间隙输出执行计划、状态更新和操作摘要。相比我们以往的模型,GPT‑5 在执行复杂任务时更具主动性,无需等待用户确认指令,也不会因任务复杂度高而迟疑。
以下示例展示了 GPT‑5 处理复杂任务时的运行状态(本例中是为一家餐厅创建网站):
当用户请求为其餐厅创建网站时,GPT‑5 会快速制定计划、搭建应用框架、安装依赖项、生成网站内容、运行构建流程以检查编译错误、总结工作成果,并提出潜在的下一步建议。本视频已加速播放约 3 倍以节省您的等待时间;完整创建网站的实际耗时约为三分钟。
除智能体编码外,GPT‑5 在各类智能体任务中的表现都更为出色。GPT‑5 在指令遵循和工具调用两大基准测试中创下新纪录:在Scale MultiChallenge 测试(由 o3‑mini 评估)中达到 69.6% 的准确率,在τ2-bench telecom 测试中工具调用准确率高达 96.7%。通过增强的工具智能,GPT‑5 能更可靠地串联多个操作步骤来完成现实世界任务。
关于 GPT‑5 在智能体任务中的早期反馈
“GPT-5 实现了重大突破。它在我们的内部基准测试中取得了迄今为止单个模型的最佳性能。GPT-5 在各种智能体任务中都表现出色,即使在我们尚未修改任何代码或调整提示词之前。通过新的前导消息机制和更精准的工具控制体系,我们的智能体在稳定性和可控性方面实现了质的飞跃。”
GPT‑5 在遵循指令方面比其所有前代模型更加可靠,在 COLLIE、Scale MultiChallenge 以及我们内部的指令遵循评估中均取得了高分。
在 COLLIE(在新窗口中打开) 任务中,模型必须生成符合多种约束条件的文本。在 Scale MultiChallenge(在新窗口中打开) 任务中,模型需在多轮对话中正确运用来自先前消息的四种信息类型。我们的评分使用 o3‑mini 作为评分气,其准确性优于 GPT‑4o。在我们的内部 OpenAI API 指令遵循评估中,模型必须遵循从真实开发人员反馈中衍生出的复杂指令。推理模型在高推理强度下运行。
我们努力优化了工具调用机制,以满足开发者的实际需求。GPT‑5 在遵循工具指令、处理工具错误以及自主实现串行或并行的多工具调用方面表现更佳。当收到指令时,GPT‑5 还可以在工具调用前及期间输出前置消息,以便在执行较长的智能体任务时向用户更新进度。
两个月前,Sierra.ai 发布了τ2-bench telecom 测试基准,该基准作为高难度工具使用评估体系,重点揭示了语言模型在用户可变更环境状态下的性能显著衰减现象。根据其发布报告(在新窗口中打开),所有参评模型的得分均未超过 49%。而 GPT‑5 的得分为 97%。
在 τ2-bench(在新窗口中打开) 测试中,模型必须使用工具来完成一项客户服务任务,其中可能存在能够与系统交互并根据系统状态采取行动的用户。推理模型在高推理强度下运行。
GPT‑5 在长背景信息性能方面也展现出显著提升。在 OpenAI-MRCR(一种衡量长背景信息检索能力的指标)中,GPT‑5 的表现优于 o3 和 GPT‑4.1,且随着输入长度的增加,这种优势会显著扩大。
在 OpenAI-MRCR(在新窗口中打开)(多轮共指解析)中,多个相同的“针”用户请求被插入到由相似请求和响应组成的长“草堆”中,模型被要求重现第 i 个“针”的响应。平均匹配比率衡量模型回复与正确答案之间的平均字符串匹配比率。在 256k 最大输入令牌处的数据点代表 128k 至 256k 输入令牌范围内的平均值,依此类推。这里,256k 代表 256 × 1,024 = 262,114 个令牌。推理模型在高推理强度下运行。
我们还开源了 BrowseComp Long Context(在新窗口中打开),这是一个用于评估长背景信息问答的新基准。在此基准中,模型会收到用户查询、一长串相关搜索结果,并必须基于搜索结果回答问题。我们设计 BrowseComp Long Context 时,旨在使其具有现实性、挑战性,并确保基准答案绝对可靠。对于输入量为 128K 至 256K 令牌的数据,GPT‑5 的正确率为 89%。
在 API 中,所有 GPT‑5 模型最多可接受 272,000 个输入令牌,并生成最多 128,000 个推理及输出令牌,总上下文长度为 400,000 个令牌。
GPT‑5 比我们之前的模型更值得信赖。在 LongFact 和 FactScore 基准测试的提示下,GPT‑5 的事实错误率比 o3 低约 80%。这使得 GPT‑5 尤其适用于正确性要求高的智能体任务场景,特别是在代码生成、数据处理和决策支持等关键领域。
分数越高越差。LongFact(在新窗口中打开) 和 FActScore(在新窗口中打开) 由开放式事实求证问题组成。我们使用基于大型语言模型 (LLM) 的评分系统,通过浏览功能对这些基准测试中的提示进行事实核查,并测量事实错误陈述的比例。实现和评分细节可在系统卡中找到。推理模型采用了高推理强度。搜索功能未启用。
通常情况下,GPT‑5 经过训练后能够更好地认识到自身的局限性,并更有效地应对突发状况。我们还对 GPT‑5 进行了训练,使其在健康相关问题上更加准确(更多详情请参阅我们的研究博客)。与所有语言模型一样,我们建议您在重要场合使用 GPT‑5 时进行验证。
开发人员可通过 API 中的 reasoning_effort 参数控制 GPT‑5 的推理耗时。除了原有的低、中(默认值)和高三档参数外,GPT‑5 还支持最低模式,该模式会将 GPT‑5 的推理强度降到到最低,以快速返回答案。
调高 reasoning_effort 参数值可以优化输出质量,而降低参数值可以提升响应速度。并非所有任务都能通过额外的推理获得同等收益,建议根据实际应用场景测试调参,以确定最佳配置方案。
例如,在相对简单的长背景信息检索任务中,提升推理能力(低以上级别)带来的增益有限,但在视觉推理基准测试 CharXiv Reasoning(在新窗口中打开) 中却能提升几个百分点。
GPT‑5 的推理强度在不同任务上带来不同收益。对于 CharXiv 推理任务,GPT‑5 被授予访问一个 Python 工具的权限。
为调控 GPT‑5 回答的默认长度,我们新增了 verbosity API 参数,该参数支持低、中(默认值)和高三档可选值。如果显式指令与冗余参数发生冲突,则显式指令优先。例如,如果您让 GPT‑5“写一篇五段论文章”,该模型的回复始终应包含五段内容,无论冗长程度如何(不过,各段落的长度可能有所不同)。
Verbosity=low
Verbosity=medium
Verbosity=high
如果收到指令,GPT‑5 将在工具调用前及调用期间输出用户可见的前置消息。与隐藏的推理消息不同,这些可见的消息使 GPT‑5 能够向用户传达计划和进展,帮助最终用户理解其在工具调用背后的方法和意图。
我们正在推出一种新的工具类型,即自定义工具,它允许 GPT‑5 使用纯文本而非 JSON 调用工具。为了限制 GPT‑5 遵循自定义工具格式,开发人员可以提供正则表达式,甚至更详细的背景信息无关文法(在新窗口中打开)。
之前,我们为开发人员自定义工具设计的接口要求必须采用 JSON 格式调用,而 JSON 是 Web API 及开发人员群体广泛使用的通用格式。然而,要输出有效的 JSON,模型必须完美地转义所有引号、反斜杠、换行符和其他控制字符。尽管我们的模型经过充分训练能够输出 JSON 格式,但当输入内容较长时(例如数百行代码或一份 5 页报告),其出错概率会显著上升。借助自定义工具,GPT‑5 可以将工具输入以纯文本形式编写,无需对所有需要转义的字符进行转义处理。
在 SWE-bench 中,使用自定义工具而非 JSON 工具进行验证时,GPT‑5 的得分与之前大致相同。
GPT‑5 在安全性方面取得了重大突破,是一款更加稳健、可靠且实用的新型模型。与我们之前的模型相比,GPT‑5 出现幻觉的可能性显著降低,能够更诚实地向用户传达其行为和能力,并在确保安全边界的前提下,尽可能提供最有用答案。您可以在我们的研究博客中阅读更多内容。
GPT‑5 现已在 API 平台以三种规格提供:gpt-5、gpt-5-mini 和 gpt-5-nano。它支持回复 API、聊天完成 API,并作为 Codex CLI 的默认模型。GPT‑5 的定价为每 100 万输入令牌 1.25 美元和每 100 万输出令牌 10 美元,GPT‑5 mini 的定价为每 100 万输入令牌 0.25 美元和每 100 万输出令牌 2 美元,而 GPT‑5 nano 的定价为每 100 万输入令牌 0.05 美元和每 100 万输出令牌 0.40 美元。
这些模型均支持 reasoning_effort 和 verbosity API 参数,以及自定义工具。此外,它们还支持并行工具调用、内置工具(Web 搜索、文件搜索、图像生成等)、核心 API 功能(流式处理、结构化输出等),以及节省成本的功能,如提示缓存和批量 API。
ChatGPT 中使用的 GPT‑5 非推理版本在 API 中以 gpt-5-chat-latest 的名称提供,其定价同样为每 100 万输入令牌 1.25 美元和每 100 万输出令牌 10 美元。
GPT‑5 还将登陆微软旗下多个平台,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 以及 Azure AI Foundry。
查看 GPT‑5 文档(在新窗口中打开)、定价详情(在新窗口中打开)和提示指南(在新窗口中打开),立即开始使用。
智能
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] 与我们在之前的博客文章中报告的数字存在一些差异,因为那些数据是在 HLE 的旧版本上运行的。
多模态
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
编码
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$11万 | US$7.5万 | US$4.9万 | US$8.6万 | US$6.6万 | US$3.4万 | US$3.1万 | US$9000 |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] 我们排除了 500 个问题中 23 个无法在我们的基础设施上运行的问题。被排除的 23 个任务的完整列表为:‘astropy__astropy-7606’、‘astropy__astropy-8707'、‘astropy__astropy-8872’、‘django__django-10097'、‘django__django-7530’、‘matplotlib__matplotlib-20488'、‘matplotlib__matplotlib-20676'、‘matplotlib__matplotlib-20826’、‘matplotlib__matplotlib-23299'、‘matplotlib__matplotlib-24970’、‘matplotlib__matplotlib-25479'、‘matplotlib__matplotlib-26342’、‘psf__requests-6028'、‘pylint-dev__pylint-6528’、‘pylint-dev__pylint-7080’、‘pylint-dev__pylint-7277’、‘pytest-dev__pytest-5262’、‘pytest-dev__pytest-7521’、‘scikit-learn__scikit-learn-12973'、‘sphinx-doc__sphinx-10466’、‘sphinx-doc__sphinx-7462’、‘sphinx-doc__sphinx-8265’,以及 ‘sphinx-doc__sphinx-9367’。
指令遵循
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] 注意:我们发现,MultiChallenge (GPT-4o) 中的默认评分器经常对模型回复进行错误评分。我们发现,将评分器替换为推理模型(如 o3-mini)后,在我们检查的样本上评分准确性显著提升。
函数调用
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
长背景信息
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
幻觉评估
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


