跳到主要內容
OpenAI

2026年2月20日

研究結論

我們的 First Proof 提交文件

我們正在分享 First Proof 的證明嘗試,First Proof 是一項數學挑戰,旨在測試 AI 可否針對特定領域問題產生可核查的證明。

正在載入...

我們在所有 10 個 First Proof(在新視窗中開啟) 問題上運行內部模型,這是一項研究級數學挑戰,旨在測試 AI 系統可否產生正確且可檢驗的證明嘗試。有別於短答題或競賽風格的數學,這些問題需要在專門領域中建立端到端的論證,在沒有專家審查的情況下難以確立其正確性。First Proof 問題的作者都是各自領域的頂尖專家,其中至少有幾道問題在作者找到解決方法之前,曾經多年未解決。一個與相關學科領域有顯著重疊的學術部門,或許能夠在一週內解決許多問題。

我們已於太平洋時間 2026 年 2 月 14 日(星期六)分享(在新視窗中開啟)我們的證明嘗試。根據專家意見,我們相信該模型的證明嘗試中至少有五項(問題 4、5、6、9 和 10)很可能是正確的,其他幾項仍在審核中。我們最初相信我們對第二題的嘗試很可能是正確的。根據官方的 First Proof 評論和進一步社群分析,我們現在認為這是不正確的。非常感謝你的參與,並期待持續進行審閱。我們的完整證明嘗試集可在此(在新視窗中開啟)找到。預印本包含所有十個證明嘗試,並新增了一個附錄,內含提示詞模式和範例,旨在模擬我們在過程中與模型的手動互動。

我們相信,新穎的前沿研究可能是評估新一代 AI 模型能力最重要的方法。基準測試很有用,但其可能會忽略研究中一些最困難的部分:維持長串的推理鏈、選擇正確的歸納、處理問題陳述中的模糊性,以及提出能經得起專家審查的論證。以 First Proof 為例的前沿挑戰,有助我們在正確性不易驗證且失敗模式具資訊性的情境中,對這些能力進行壓力測試。

「我們目前正在訓練一個新模型,主要著重於提升其思考的嚴謹性,目標是讓模型能夠連續思考數小時,並對其結論保持高度信心。當 First Proof 問題公佈時,其似乎是個理想的測試平台,所以我在週末試用了一下。它已經能夠解決兩個問題(#9 和 #10)。隨著訓練進行,它變得越發強大,最終我們估計至少再解決了三個問題。當它解決了 #6,然後在兩天後又解決了 #4 時,我們特別高興,因為這些問題來自我們許多人熟悉的領域。看著一個模型每天明顯變得更聰明,真的非常不可思議。」

– James R. Lee(OpenAI 研究員,推理)

我們在有限的人類監督下運行模型。在訓練過程中對模型的不同版本進行提示時,我們有時會建議重試一些在早期嘗試中看似有效的策略。在某些嘗試中,我們在收到專家反饋後,會要求模型擴展或釐清證明的某些部分,以便更容易驗證推理。我們亦促進此模型與 ChatGPT 之間的往來,以進行驗證、格式化和風格調整。對於某些問題,我們展示幾次嘗試中最佳的結果,這些結果由真人判斷挑選。這是一次快速的衝刺,而我們的流程並不如我們所期望在適當控制的評估般完善。我們期待與 First Proof 主辦方討論未來迭代中採用更嚴謹的實驗和評估框架。

這項工作基於數學和科學領域前沿推理模型的早期成果。在 2025 年 7 月,我們以通用推理模型在國際數學奧林匹克競賽中達到金牌級表現(在新視窗中開啟)(35/42 分)。在 2025 年 11 月,我們分享了「利用 GPT‑5 加速科學研究的早期實驗」,此實驗為一系列案例研究,展示 GPT‑5 如何協助研究員在數學、物理、生物及其他領域取得具體進展,並同時說明我們觀察到的局限。最近,我們報告了一項物理合作,其中 GPT‑5.2 提出了一個膠子振幅公式的候選表達式,隨後已由內部模型正式證明,並經作者驗證。

我們期待與社群就如何評估研究級推理進行更深入交流,包括獲得專家對這些嘗試的反饋,我們亦很高興能在未來的公開模型中提供這些新功能。

作者

OpenAI