跳至主要内容
OpenAI

2025年8月7日

产品

隆重推出面向开发人员的 GPT‑5

我们最先进的编码与智能体任务模型

正在加载…

简介

今天,我们正式在 API 平台上发布了 GPT‑5——这是我们迄今为止在编码和智能体任务方面表现最佳的模型。

GPT‑5 在关键编码基准测试中处于行业领先水平 (SOTA),在 SWE-bench Verified 测试中得分 74.9%,在 Aider polyglot 测试中得分 88%。我们训练了GPT‑5,使其成为真正的编码协作伙伴。它擅长生成高质量代码并处理诸如修复漏洞、修改代码以及解答复杂代码库相关问题等任务。该模型具备可控性和协作性——它能够以极高精度执行非常详细的指令,并在工具调用前及期间提前解释其操作原因。  该模型在前端编码方面也表现出色,在内部测试中,其在 70% 的前端 Web 开发任务中表现优于 OpenAI o3。

我们与初创公司和企业的早期测试者合作,使用真实世界的编码任务对 GPT‑5 进行了训练。Cursor 表示 GPT‑5 是“【他们】使用过的最智能的模型”,并且“异常智能、易于操控,甚至拥有其他模型中未见过的个性”。Windsurf 指出,GPT‑5 在其评估中达到最先进水平,且“与其他前沿模型相比,工具调用错误率仅为其一半”。Vercel 表示,“它是目前最佳的前端 AI 模型,在美学感知和代码质量方面均达到顶尖水平,堪称独树一帜”。

GPT‑5 在持续型智能体任务中同样表现卓越——在两个月前刚发布的工具调用基准测试 τ2-bench telecom 中,以 96.7% 的成绩刷新了业界最优水平。GPT‑5 改进的工具智能使其能够可靠地串联数十次工具调用(无论串行还是并行),保持路径一致性,这使其在执行复杂的现实世界端到端任务时表现得远优于其他模型。它还更精确地遵循工具指令,更好地处理工具错误,并在长背景信息内容检索方面表现出色。Manus 表示,GPT‑5 “在【他们的】内部基准测试中取得了【他们】迄今为止单个模型的最佳性能”。 Notion 表示,“【模型的】快速回复能力,尤其在低推理模式下,使 GPT‑5 成为解决复杂任务的一站式理想选择”。Inditex 指出:“真正让 [GPT‑5] 脱颖而出的是其推理的深度:细致入微、多层次的答案,体现了对实际主题的深刻理解。”

我们在 API 中引入了新功能,让开发人员对模型回复具有更多控制权。GPT‑5 支持新的 verbosity 参数(取值:),帮助控制控制回答是简短扼要还是详尽全面。GPT‑5 的 reasoning_effort 参数现在可以设置为最小值,以更快获取答案,无需先进行大量推理。我们还新增了一种工具类型——自定义工具——使 GPT‑5 能够使用纯文本而非 JSON 调用工具。自定义工具支持基于背景信息无关文法的约束配置。

我们将在 API 中发布 GPT‑5 的三个版本——gpt-5gpt-5-minigpt-5-nano——以赋予开发人员更多灵活性,在性能、成本和延迟之间进行权衡。虽然 ChatGPT 中的 GPT‑5 是一个包含推理、非推理和路由器模型的系统,但 API 平台中的 GPT‑5 则是驱动 ChatGPT 实现最佳性能的推理模型。值得注意的是,GPT‑5 的最小推理模型与 ChatGPT 中的非推理模型是不同的模型,且更适合开发人员使用。ChatGPT 中使用的非推理模型可通过 gpt-5-chat-latest 获取。

如需了解 ChatGPT 中的 GPT‑5,以及更多关于 ChatGPT 改进的信息,请访问我们的研究博客。如需了解更多关于企业如何积极采用 GPT‑5 的信息,请参阅我们的企业博客

编码

GPT‑5 是我们迄今为止发布的最强大的编码模型。它在编码基准测试和实际应用场景中均优于 o3,并且经过专门优化,在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等自主编码产品中表现尤为出色。GPT‑5 给我们的 Alpha 测试者留下了深刻印象,在他们多次内部私密评估中创下了多项纪录。 

关于 GPT‑5 在实际编码任务中的早期反馈

“GPT-5 是我们使用过的最智能的编码模型。我们的团队发现,GPT-5 具有显著的智能,易于操控,甚至拥有任何其他模型中不具备的人格特质。它不仅能发现那些难以察觉的深层隐藏漏洞,还能运行长时间的多轮后台任务,确保复杂任务顺利完成——这些正是过去其他模型难以解决的问题。它已成为我们日常工作的得力工具,从规划和实施 PR 到完成端到端构建,无所不能。”
Cursor 联合创始人兼首席执行官 Michael Truell

在基于真实软件工程任务的 SWE-bench Verified 评估中,GPT‑5 的得分达到 74.9%,较 o3 版本的 69.1% 有所提升。值得注意的是,GPT‑5 以更高的效率和速度获得了高分:与 o3 在高推理强度下相比,GPT‑5 的输出令牌数量减少了 22%,工具调用次数减少了 45%。

SWE-bench Verified 基准测试中,模型会获得代码仓库和问题描述,并需要生成补丁来解决问题。文本标签用于标识推理强度。我们的评分排除了 500 个问题中的 23 个,因其解决方案在我们的测试环境中无法稳定通过。GPT‑5 收到一个简短的提示,强调要彻底验证解决方案;而相同的提示对 o3 没有帮助。

在评估代码编辑能力的 Aider polyglot 测试中,GPT‑5 以 88% 的得分刷新纪录,其错误率较 o3 版本降低了三分之一。

Aider Polyglot(在新窗口中打开) (diff) 中,模型会收到来自 Exercism 的编码练习,并且必须将其解决方案以代码差异的形式编写出来。推理模型在高推理强度下运行。

我们还发现,GPT‑5 在深度分析代码库方面表现出色,能够精准解答关于代码模块运作机制及相互协作的问题。在像 OpenAI 的强化学习框架这样复杂的代码库中,我们发现 GPT‑5 能够帮助我们分析和解答关于代码的问题,从而加速我们日常工作的效率。 

前端工程

在为 Web 应用生成前端代码时,GPT‑5 展现出更优的审美水准、更强的能力和更高的准确性。在与 o3 的并排比较中,GPT‑5 在 70% 的情况下更受我们的测试人员青睐。

以下是一些精选的有趣示例,展示 GPT‑5 仅需单次提示就能完成的任务:

提示:请为一项服务设计一个美观且真实的登录页,该服务面向顶级咖啡爱好者,提供每月 200 美元的订阅计划,包含咖啡烘焙设备租赁及专业指导,助其打造完美意式浓缩咖啡。目标受众为旧金山湾区的中年人群,可能从事科技行业,受过良好教育,拥有可支配收入,并对咖啡的艺术与科学充满热情。优化转化率,以实现 6 个月的订阅注册。

查看更多由 GPT‑5 生成的示例,请访问我们这里(在新窗口中打开)的图库。

编码协作

GPT‑5 是出色的协作者,尤其在 Cursor、Windsurf、GitHub Copilot 和 Codex CLI 等自主编码产品中表现突出。在运行过程中,GPT‑5 能够在工具调用间隙输出执行计划、状态更新和操作摘要。相比我们以往的模型,GPT‑5 在执行复杂任务时更具主动性,无需等待用户确认指令,也不会因任务复杂度高而迟疑。

以下示例展示了 GPT‑5 处理复杂任务时的运行状态(本例中是为一家餐厅创建网站):

当用户请求为其餐厅创建网站时,GPT‑5 会快速制定计划、搭建应用框架、安装依赖项、生成网站内容、运行构建流程以检查编译错误、总结工作成果,并提出潜在的下一步建议。本视频已加速播放约 3 倍以节省您的等待时间;完整创建网站的实际耗时约为三分钟。

智能体任务

除智能体编码外,GPT‑5 在各类智能体任务中的表现都更为出色。GPT‑5 在指令遵循和工具调用两大基准测试中创下新纪录:在Scale MultiChallenge 测试(由 o3‑mini 评估)中达到 69.6% 的准确率,在τ2-bench telecom 测试中工具调用准确率高达 96.7%。通过增强的工具智能,GPT‑5 能更可靠地串联多个操作步骤来完成现实世界任务。

关于 GPT‑5 在智能体任务中的早期反馈

“GPT-5 实现了重大突破。它在我们的内部基准测试中取得了迄今为止单个模型的最佳性能。GPT-5 在各种智能体任务中都表现出色,即使在我们尚未修改任何代码或调整提示词之前。通过新的前导消息机制和更精准的工具控制体系,我们的智能体在稳定性和可控性方面实现了质的飞跃。”
Manus 联合创始人兼首席科学家 Yichao ‘Peak’ Ji

指令遵循

GPT‑5 在遵循指令方面比其所有前代模型更加可靠,在 COLLIE、Scale MultiChallenge 以及我们内部的指令遵循评估中均取得了高分。

COLLIE(在新窗口中打开) 任务中,模型必须生成符合多种约束条件的文本。在 Scale MultiChallenge(在新窗口中打开) 任务中,模型需在多轮对话中正确运用来自先前消息的四种信息类型。我们的评分使用 o3‑mini 作为评分气,其准确性优于 GPT‑4o。在我们的内部 OpenAI API 指令遵循评估中,模型必须遵循从真实开发人员反馈中衍生出的复杂指令。推理模型在高推理强度下运行。

工具调用

我们努力优化了工具调用机制,以满足开发者的实际需求。GPT‑5 在遵循工具指令、处理工具错误以及自主实现串行或并行的多工具调用方面表现更佳。当收到指令时,GPT‑5 还可以在工具调用前及期间输出前置消息,以便在执行较长的智能体任务时向用户更新进度。

两个月前,Sierra.ai 发布了τ2-bench telecom 测试基准,该基准作为高难度工具使用评估体系,重点揭示了语言模型在用户可变更环境状态下的性能显著衰减现象。根据其发布报告(在新窗口中打开),所有参评模型的得分均未超过 49%。而 GPT‑5 的得分为 97%。

τ2-bench(在新窗口中打开) 测试中,模型必须使用工具来完成一项客户服务任务,其中可能存在能够与系统交互并根据系统状态采取行动的用户。推理模型在高推理强度下运行。

GPT‑5 在长背景信息性能方面也展现出显著提升。在 OpenAI-MRCR(一种衡量长背景信息检索能力的指标)中,GPT‑5 的表现优于 o3 和 GPT‑4.1,且随着输入长度的增加,这种优势会显著扩大。

OpenAI-MRCR(在新窗口中打开)(多轮共指解析)中,多个相同的“针”用户请求被插入到由相似请求和响应组成的长“草堆”中,模型被要求重现第 i 个“针”的响应。平均匹配比率衡量模型回复与正确答案之间的平均字符串匹配比率。在 256k 最大输入令牌处的数据点代表 128k 至 256k 输入令牌范围内的平均值,依此类推。这里,256k 代表 256 × 1,024 = 262,114 个令牌。推理模型在高推理强度下运行。

我们还开源了 BrowseComp Long Context(在新窗口中打开),这是一个用于评估长背景信息问答的新基准。在此基准中,模型会收到用户查询、一长串相关搜索结果,并必须基于搜索结果回答问题。我们设计 BrowseComp Long Context 时,旨在使其具有现实性、挑战性,并确保基准答案绝对可靠。对于输入量为 128K 至 256K 令牌的数据,GPT‑5 的正确率为 89%。

在 API 中,所有 GPT‑5 模型最多可接受 272,000 个输入令牌,并生成最多 128,000 个推理及输出令牌,总上下文长度为 400,000 个令牌。

事实性

GPT‑5 比我们之前的模型更值得信赖。在 LongFact 和 FactScore 基准测试的提示下,GPT‑5 的事实错误率比 o3 低约 80%。这使得 GPT‑5 尤其适用于正确性要求高的智能体任务场景,特别是在代码生成、数据处理和决策支持等关键领域。

分数越高越差。LongFact(在新窗口中打开)FActScore(在新窗口中打开) 由开放式事实求证问题组成。我们使用基于大型语言模型 (LLM) 的评分系统,通过浏览功能对这些基准测试中的提示进行事实核查,并测量事实错误陈述的比例。实现和评分细节可在系统卡中找到。推理模型采用了高推理强度。搜索功能未启用。

通常情况下,GPT‑5 经过训练后能够更好地认识到自身的局限性,并更有效地应对突发状况。我们还对 GPT‑5 进行了训练,使其在健康相关问题上更加准确(更多详情请参阅我们的研究博客)。与所有语言模型一样,我们建议您在重要场合使用 GPT‑5 时进行验证。

新功能

最低推理强度

开发人员可通过 API 中的 reasoning_effort 参数控制 GPT‑5 的推理耗时。除了原有的(默认值)和三档参数外,GPT‑5 还支持最低模式,该模式会将 GPT‑5 的推理强度降到到最低,以快速返回答案。

调高 reasoning_effort 参数值可以优化输出质量,而降低参数值可以提升响应速度。并非所有任务都能通过额外的推理获得同等收益,建议根据实际应用场景测试调参,以确定最佳配置方案。

例如,在相对简单的长背景信息检索任务中,提升推理能力(以上级别)带来的增益有限,但在视觉推理基准测试 CharXiv Reasoning(在新窗口中打开) 中却能提升几个百分点。

GPT‑5 的推理强度在不同任务上带来不同收益。对于 CharXiv 推理任务,GPT‑5 被授予访问一个 Python 工具的权限。

Verbosity

为调控 GPT‑5 回答的默认长度,我们新增了 verbosity API 参数,该参数支持(默认值)和三档可选值。如果显式指令与冗余参数发生冲突,则显式指令优先。例如,如果您让 GPT‑5“写一篇五段论文章”,该模型的回复始终应包含五段内容,无论冗长程度如何(不过,各段落的长度可能有所不同)。

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

工具调用前的前置消息

如果收到指令,GPT‑5 将在工具调用前及调用期间输出用户可见的前置消息。与隐藏的推理消息不同,这些可见的消息使 GPT‑5 能够向用户传达计划和进展,帮助最终用户理解其在工具调用背后的方法和意图。

自定义工具

我们正在推出一种新的工具类型,即自定义工具,它允许 GPT‑5 使用纯文本而非 JSON 调用工具。为了限制 GPT‑5 遵循自定义工具格式,开发人员可以提供正则表达式,甚至更详细的背景信息无关文法(在新窗口中打开)

之前,我们为开发人员自定义工具设计的接口要求必须采用 JSON 格式调用,而 JSON 是 Web API 及开发人员群体广泛使用的通用格式。然而,要输出有效的 JSON,模型必须完美地转义所有引号、反斜杠、换行符和其他控制字符。尽管我们的模型经过充分训练能够输出 JSON 格式,但当输入内容较长时(例如数百行代码或一份 5 页报告),其出错概率会显著上升。借助自定义工具,GPT‑5 可以将工具输入以纯文本形式编写,无需对所有需要转义的字符进行转义处理。

在 SWE-bench 中,使用自定义工具而非 JSON 工具进行验证时,GPT‑5 的得分与之前大致相同。

安全性

GPT‑5 在安全性方面取得了重大突破,是一款更加稳健、可靠且实用的新型模型。与我们之前的模型相比,GPT‑5 出现幻觉的可能性显著降低,能够更诚实地向用户传达其行为和能力,并在确保安全边界的前提下,尽可能提供最有用答案。您可以在我们的研究博客中阅读更多内容。

可用性和定价

GPT‑5 现已在 API 平台以三种规格提供:gpt-5gpt-5-minigpt-5-nano。它支持回复 API、聊天完成 API,并作为 Codex CLI 的默认模型。GPT‑5 的定价为每 100 万输入令牌 1.25 美元和每 100 万输出令牌 10 美元,GPT‑5 mini 的定价为每 100 万输入令牌 0.25 美元和每 100 万输出令牌 2 美元,而 GPT‑5 nano 的定价为每 100 万输入令牌 0.05 美元和每 100 万输出令牌 0.40 美元。

这些模型均支持 reasoning_effortverbosity API 参数,以及自定义工具。此外,它们还支持并行工具调用、内置工具(Web 搜索、文件搜索、图像生成等)、核心 API 功能(流式处理、结构化输出等),以及节省成本的功能,如提示缓存和批量 API。

ChatGPT 中使用的 GPT‑5 非推理版本在 API 中以 gpt-5-chat-latest 的名称提供,其定价同样为每 100 万输入令牌 1.25 美元和每 100 万输出令牌 10 美元。

GPT‑5 还将登陆微软旗下多个平台,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 以及 Azure AI Foundry。

详细基准测试

智能
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94.6%91.1%85.2%88.9%92.7%46.4%40.2%-
FrontierMath(with python tool only)26.3%22.1%9.6%15.8%15.4%---
GPQA diamond(no tools)85.7%82.3%71.2%83.3%81.4%66.3%65.0%50.3%
HLE[1](no tools)24.8%16.7%8.7%20.2%14.7%5.4%3.7%-
HMMT 2025(no tools)93.3%87.8%75.6%81.7%85.0%28.9%35.0%-

[1] 与我们在之前的博客文章中报告的数字存在一些差异,因为那些数据是在 HLE 的旧版本上运行的。

多模态
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84.2%81.6%75.6%82.9%81.6%74.8%72.7%55.4%
MMMU-Pro(avg across standard and vision sets)78.4%74.1%62.6%76.4%73.4%60.3%58.9%33.0%
CharXiv reasoning(python enabled)81.1%75.5%62.7%78.6%72.0%56.7%56.8%40.5%
VideoMMMU, max frame 25684.6%82.5%66.8%83.3%79.4%60.9%55.1%30.2%
ERQA65.7%62.9%50.1%64.0%56.5%44.3%42.3%26.5%
编码
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding TasksUS$11万US$7.5万US$4.9万US$8.6万US$6.6万US$3.4万US$3.1万US$9000
SWE-bench Verified[2]74.9%71.0%54.7%69.1%68.1%54.6%23.6%-
Aider polyglot(diff)88.0%71.6%48.4%79.6%58.2%52.9%31.6%6.2%

[2] 我们排除了 500 个问题中 23 个无法在我们的基础设施上运行的问题。被排除的 23 个任务的完整列表为:‘astropy__astropy-7606’、‘astropy__astropy-8707'、‘astropy__astropy-8872’、‘django__django-10097'、‘django__django-7530’、‘matplotlib__matplotlib-20488'、‘matplotlib__matplotlib-20676'、‘matplotlib__matplotlib-20826’、‘matplotlib__matplotlib-23299'、‘matplotlib__matplotlib-24970’、‘matplotlib__matplotlib-25479'、‘matplotlib__matplotlib-26342’、‘psf__requests-6028'、‘pylint-dev__pylint-6528’、‘pylint-dev__pylint-7080’、‘pylint-dev__pylint-7277’、‘pytest-dev__pytest-5262’、‘pytest-dev__pytest-7521’、‘scikit-learn__scikit-learn-12973'、‘sphinx-doc__sphinx-10466’、‘sphinx-doc__sphinx-7462’、‘sphinx-doc__sphinx-8265’,以及 ‘sphinx-doc__sphinx-9367’。

指令遵循
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69.6%62.3%54.9%60.4%57.5%46.2%42.2%31.1%
Internal API instruction following eval(hard)64.0%65.8%56.1%47.4%44.7%49.1%45.1%31.6%
COLLIE99.0%98.5%96.9%98.4%96.1%65.8%54.6%42.5%

[3] 注意:我们发现,MultiChallenge (GPT-4o) 中的默认评分器经常对模型回复进行错误评分。我们发现,将评分器替换为推理模型(如 o3-mini)后,在我们检查的样本上评分准确性显著提升。

函数调用
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62.6%60.0%41.0%64.8%60.2%56.0%51.0%14.0%
Tau2-bench retail81.1%78.3%62.3%80.2%70.5%74.0%66.0%21.5%
Tau2-bench telecom96.7%74.1%35.5%58.2%40.5%34.0%44.0%12.1%
长背景信息
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95.2%84.3%43.2%55.0%56.4%57.2%47.2%36.6%
OpenAI-MRCR: 2 needle 256k86.8%58.8%34.9%--56.2%45.5%22.6%
Graphwalks bfs <128k78.3%73.4%64.0%77.3%62.3%61.7%61.7%25.0%
Graphwalks parents <128k73.3%64.3%43.8%72.9%51.1%58.0%60.5%9.4%
BrowseComp Long Context 128k90.0%89.4%80.4%88.3%80.0%85.9%89.0%89.4%
BrowseComp Long Context 256k88.8%86.0%68.4%--75.5%81.6%19.1%
VideoMME(long, with subtitle category)86.7%78.5%65.7%84.9%79.5%78.7%68.4%55.2%
幻觉评估
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1.0%0.7%1.0%5.2%3.0%0.7%1.1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1.2%1.3%2.8%6.8%8.9%1.1%1.8%-
FActScore hallucination rate(no tools)[lower is better]2.8%3.5%7.3%23.5%38.7%6.7%10.9%-

作者

OpenAI