跳至主要內容
OpenAI

2026年2月20日

研究結論

我們的 First Proof 提交內容

我們分享我們為 First Proof 所做的證明嘗試,這是一項數學挑戰賽,測試 AI 是否能針對特定領域的問題提出可檢核的證明。

載入中…

我們在全部 10 個 First Proof(在新視窗中開啟) 問題上執行一個內部模型;這是一項研究級的數學挑戰,旨在測試 AI 系統是否能產生正確且可檢核的證明嘗試。與簡答題或競賽式的數學不同,這些問題需要在專門領域中建立端對端的論證,若沒有專家審查,很難確立其正確性。First Proof 問題的作者都是各自領域的頂尖專家,其中至少有幾個問題在作者找到解答之前,曾多年未獲解決。可以想像,與與這些學科領域有大量重疊的學術部門,可以在一週內解決許多問題。

我們於 2026 年 2 月 14 日 (星期六) 太平洋時間凌晨 12:00 分享(在新視窗中開啟)了我們的證明嘗試。根據專家回饋,我們認為模型的證明嘗試中至少有五個 (問題 4、5、6、9 和 10) 很可能是正確的,幾他幾個仍在審查中。我們最初認為問題 2 的嘗試可能是正確的。根據官方的 First Proof 評論和進一步的社群分析,我們現在認為這並不正確。我們感謝您的參與,並期待持續審查。我們的全套驗證嘗試請見此處(在新視窗中開啟)。這份預印本包含所有十次的證明嘗試,並新增一個附錄,內含提示詞模式和範例,目的是模擬我們在過程中與模型的手動互動。

我們相信,新穎的尖端研究可能是評估下一代 AI 模型能力的最重要方式。基準很有用,但可能會忽略研究中一些最困難的部分:維持長推理鏈、選擇正確的抽象、處理問題陳述中的模糊性,以及提出能經得起專家審查的論點。像 First Proof 這類尖端挑戰,可以幫助我們在正確性難以驗證、失敗模式資訊豐富的環境中,對這些能力進行壓力測試。

我們目前正在訓練一個新的模型,主要重點是提高思考的嚴謹度,目標是讓模型連續思考數小時,並對其結論保持高度信心。公布 First Proof 問題時,這似乎是個完美的測試平台,因此我在週末試了一下。它已經能夠解決其中兩個問題 (#9 和 #10)。隨著它持續訓練,能力愈發強大,最終—依我們估計—至少又解決了三個問題。我們特別高興的是它解決了 #6,兩天後又解決了 #4,因為這些問題都是我們許多人熟悉的領域。看著一個模型日復一日明顯變得更為聰明,真的相當不可思議。

– James R. Lee (OpenAI 推理研究人員)

我們在有限的人工監督下執行模型。在訓練過程中提示模型的不同版本時,我們有時會建議重試一些在先前嘗試中看似有效的策略。對於某些嘗試,我們在收到專家回饋後,要求模型擴充或澄清證明的部分內容,讓推理更容易驗證。我們也促成了此模型與 ChatGPT 之間的來回對話,用於驗證、格式設定和風格。對於某些問題,我們會提出幾次嘗試中的最佳結果,由人類判斷選出。這是一次快速的衝刺,我們的流程不像在妥善控管的評估中那樣井然有序。我們期待與 First Proof 主辦單位進一步討論,為未來的版本建立更嚴謹的實驗設計與評估框架。

這項工作建立在數學和科學尖端推理模型的早期成果之上。2025 年 7 月,我們的通用推理模型在國際數學奧林匹亞競賽中達到金牌級表現(在新視窗中開啟) (35/42 分)。在 2025 年 11 月,我們分享了《使用 GPT‑5 加速科學進展的早期實驗》,這是一系列案例研究,展示 GPT‑5 協助研究人員在數學、物理、生物和其他領域取得具體進展的案例研究,以及我們觀察到的限制。而最近,我們報導了一項物理學合作,其中 GPT‑5.2 提出一個膠子振幅公式的候選表達式,隨後由內部模型正式證明,並經作者驗證。

我們期待與社群就如何評估研究級推理進行更深入的交流,包括專家對這些嘗試的回饋,我們也很高興能在未來的公開模型中提供這些新功能。

作者

OpenAI