2026年2月20日

我们尝试解答 First Proof 难题

我们此在分享针对 First Proof 挑战的解题证明稿。这项数学挑战旨在测试 AI 能否在特定专业领域生成可检验的证明。

正在加载…

我们使用一个内部模型尝试解答 First Proof⁠（在新窗口中打开）的全部 10 道题。这项研究级数学挑战旨在测试 AI 是否能输出正确、且可被验证的解题证明稿。与简答题或竞赛数学不同，这些问题要求在专业领域构建端到端论证，如果没有专家审阅，几乎很难判断其是否正确。First Proof 问题的作者都是各自领域的顶尖专家，其中至少有几个问题在作者找到解法之前已悬而未决多年。如果某个学术团队的研究方向与这些学科高度重合，理论上有可能在一周内解决其中多道题目。

我们于 2026 年 2 月 14 日（星期六）太平洋时间凌晨 0 点公开⁠（在新窗口中打开）了这些解题证明稿。根据专家反馈，我们认为至少有五道题（第 4、5、6、9 和 10 题）的解题证明稿很可能是正确的，其余题目的尝试仍在评审中。我们最初认为对问题 2 的解题证明稿很可能正确。根据 First Proof 官方评论及社区进一步分析，我们现已将其判定为不正确。我们感谢各方的积极参与，也期待后续的持续评审工作。完整的解题证明稿集合可在此处⁠（在新窗口中打开）查阅。预印本收录了全部十道题的解题证明稿，并在附录中整理了提示模板和示例，用于模拟我们在这一过程中与模型的人工交互方式。

我们认为前沿探索性研究或许是评估下一代 AI 模型能力最重要的方式。基准测试固然有用，但可能遗漏研究中最具挑战性的部分：维持长链条推理、选择恰当的抽象概念、处理问题陈述中的歧义，以及构建经得起专家推敲的论证。像 First Proof 这样的前沿挑战，有助于我们在那些正确性难以验证、错误模式富含信息的场景中，对这些能力进行压力测试。

“我们目前正在训练一款新模型，重点是提升思维的严谨性，目标是让它能连续思考数小时，同时仍然对自己的结论保持很高的把握。First Proof 问题公布时，这看起来像是一个理想的试验场，于是我在周末尝试了一下。当时它已经能解决两个问题（#9 和 #10）。随着训练推进，它的能力日益增强，根据我们的评估，最终至少又解决了三道题。尤其令我们欣喜的是，它先解决了 #6，两天后又解决了 #4，这些问题来自我们许多人熟悉的领域。亲眼见证一个模型日复一日地变得更聪明，这种感觉真的很奇妙。”

— James R. Lee（OpenAI 研究员，推理方向）

我们在有限的人类监督下运行了该模型。在训练过程中，我们对模型的不同版本进行提示时，有时会建议其重试那些在先前解题证明稿中效果较好的策略。对于部分解题证明稿，我们在收到专家反馈后，要求模型扩展或阐明证明的某些部分，以便于验证推理过程。我们还促成了该模型与 ChatGPT 的协作，用于辅助验证、格式调整和风格优化。对于某些问题，我们展示的是通过人工判断从多次解题证明稿中选出的最佳结果。这是一次快速冲刺实验，整体流程尚未达到我们理想中那种严格受控评估的“干净程度”。我们期待与 First Proof 组织者讨论，为未来迭代建立更严格的实验与评估框架。

这项研究进一步拓展了我们此前在数学与科学前沿推理模型方面取得的成果。2025 年 7 月，我们使用通用推理模型在国际数学奥林匹克竞赛中达到金牌水平⁠（在新窗口中打开）（35/42 分）。2025 年 11 月，我们发布了《利用 GPT‑5 加速科学的早期实验》，这一系列案例研究展示了 GPT‑5 如何帮助研究人员在数学、物理、生物学等领域取得切实进展，同时也总结了我们观察到的局限。就在最近，我们报道了一项物理学合作：GPT‑5.2 提出了一个胶子振幅公式的候选表达式，随后由内部模型正式证明，并已由原作者验证。

我们期待与学术界和更广泛的社区深入探讨如何评估研究级推理能力，包括邀请专家对这些解题证明稿给出反馈，也期待未来能在对公众开放的模型中提供这些新能力。