2026年2月20日

我們的 First Proof 提交文件

我們正在分享 First Proof 的證明嘗試，First Proof 是一項數學挑戰，旨在測試 AI 可否針對特定領域問題產生可核查的證明。

正在載入...

我們在所有 10 個 First Proof⁠（在新視窗中開啟）問題上運行內部模型，這是一項研究級數學挑戰，旨在測試 AI 系統可否產生正確且可檢驗的證明嘗試。有別於短答題或競賽風格的數學，這些問題需要在專門領域中建立端到端的論證，在沒有專家審查的情況下難以確立其正確性。First Proof 問題的作者都是各自領域的頂尖專家，其中至少有幾道問題在作者找到解決方法之前，曾經多年未解決。一個與相關學科領域有顯著重疊的學術部門，或許能夠在一週內解決許多問題。

我們已於太平洋時間 2026 年 2 月 14 日（星期六）分享⁠（在新視窗中開啟）我們的證明嘗試。根據專家意見，我們相信該模型的證明嘗試中至少有五項（問題 4、5、6、9 和 10）很可能是正確的，其他幾項仍在審核中。我們最初相信我們對第二題的嘗試很可能是正確的。根據官方的 First Proof 評論和進一步社群分析，我們現在認為這是不正確的。非常感謝你的參與，並期待持續進行審閱。我們的完整證明嘗試集可在此⁠（在新視窗中開啟）找到。預印本包含所有十個證明嘗試，並新增了一個附錄，內含提示詞模式和範例，旨在模擬我們在過程中與模型的手動互動。

我們相信，新穎的前沿研究可能是評估新一代 AI 模型能力最重要的方法。基準測試很有用，但其可能會忽略研究中一些最困難的部分：維持長串的推理鏈、選擇正確的歸納、處理問題陳述中的模糊性，以及提出能經得起專家審查的論證。以 First Proof 為例的前沿挑戰，有助我們在正確性不易驗證且失敗模式具資訊性的情境中，對這些能力進行壓力測試。

「我們目前正在訓練一個新模型，主要著重於提升其思考的嚴謹性，目標是讓模型能夠連續思考數小時，並對其結論保持高度信心。當 First Proof 問題公佈時，其似乎是個理想的測試平台，所以我在週末試用了一下。它已經能夠解決兩個問題（#9 和 #10）。隨著訓練進行，它變得越發強大，最終我們估計至少再解決了三個問題。當它解決了 #6，然後在兩天後又解決了 #4 時，我們特別高興，因為這些問題來自我們許多人熟悉的領域。看著一個模型每天明顯變得更聰明，真的非常不可思議。」

– James R. Lee（OpenAI 研究員，推理）

我們在有限的人類監督下運行模型。在訓練過程中對模型的不同版本進行提示時，我們有時會建議重試一些在早期嘗試中看似有效的策略。在某些嘗試中，我們在收到專家反饋後，會要求模型擴展或釐清證明的某些部分，以便更容易驗證推理。我們亦促進此模型與 ChatGPT 之間的往來，以進行驗證、格式化和風格調整。對於某些問題，我們展示幾次嘗試中最佳的結果，這些結果由真人判斷挑選。這是一次快速的衝刺，而我們的流程並不如我們所期望在適當控制的評估般完善。我們期待與 First Proof 主辦方討論未來迭代中採用更嚴謹的實驗和評估框架。

這項工作基於數學和科學領域前沿推理模型的早期成果。在 2025 年 7 月，我們以通用推理模型在國際數學奧林匹克競賽中達到金牌級表現⁠（在新視窗中開啟）（35/42 分）。在 2025 年 11 月，我們分享了「利用 GPT‑5 加速科學研究的早期實驗」，此實驗為一系列案例研究，展示 GPT‑5 如何協助研究員在數學、物理、生物及其他領域取得具體進展，並同時說明我們觀察到的局限。最近，我們報告了一項物理合作，其中 GPT‑5.2 提出了一個膠子振幅公式的候選表達式，隨後已由內部模型正式證明，並經作者驗證。

我們期待與社群就如何評估研究級推理進行更深入交流，包括獲得專家對這些嘗試的反饋，我們亦很高興能在未來的公開模型中提供這些新功能。