2026年2月20日

我們的 First Proof 提交內容

我們分享我們為 First Proof 所做的證明嘗試，這是一項數學挑戰賽，測試 AI 是否能針對特定領域的問題提出可檢核的證明。

載入中…

我們在全部 10 個 First Proof⁠(在新視窗中開啟) 問題上執行一個內部模型；這是一項研究級的數學挑戰，旨在測試 AI 系統是否能產生正確且可檢核的證明嘗試。與簡答題或競賽式的數學不同，這些問題需要在專門領域中建立端對端的論證，若沒有專家審查，很難確立其正確性。First Proof 問題的作者都是各自領域的頂尖專家，其中至少有幾個問題在作者找到解答之前，曾多年未獲解決。可以想像，與與這些學科領域有大量重疊的學術部門，可以在一週內解決許多問題。

我們於 2026 年 2 月 14 日 (星期六) 太平洋時間凌晨 12:00 分享⁠(在新視窗中開啟)了我們的證明嘗試。根據專家回饋，我們認為模型的證明嘗試中至少有五個 (問題 4、5、6、9 和 10) 很可能是正確的，幾他幾個仍在審查中。我們最初認為問題 2 的嘗試可能是正確的。根據官方的 First Proof 評論和進一步的社群分析，我們現在認為這並不正確。我們感謝您的參與，並期待持續審查。我們的全套驗證嘗試請見此處⁠(在新視窗中開啟)。這份預印本包含所有十次的證明嘗試，並新增一個附錄，內含提示詞模式和範例，目的是模擬我們在過程中與模型的手動互動。

我們相信，新穎的尖端研究可能是評估下一代 AI 模型能力的最重要方式。基準很有用，但可能會忽略研究中一些最困難的部分：維持長推理鏈、選擇正確的抽象、處理問題陳述中的模糊性，以及提出能經得起專家審查的論點。像 First Proof 這類尖端挑戰，可以幫助我們在正確性難以驗證、失敗模式資訊豐富的環境中，對這些能力進行壓力測試。

我們目前正在訓練一個新的模型，主要重點是提高思考的嚴謹度，目標是讓模型連續思考數小時，並對其結論保持高度信心。公布 First Proof 問題時，這似乎是個完美的測試平台，因此我在週末試了一下。它已經能夠解決其中兩個問題 (#9 和 #10)。隨著它持續訓練，能力愈發強大，最終—依我們估計—至少又解決了三個問題。我們特別高興的是它解決了 #6，兩天後又解決了 #4，因為這些問題都是我們許多人熟悉的領域。看著一個模型日復一日明顯變得更為聰明，真的相當不可思議。

– James R. Lee (OpenAI 推理研究人員)

我們在有限的人工監督下執行模型。在訓練過程中提示模型的不同版本時，我們有時會建議重試一些在先前嘗試中看似有效的策略。對於某些嘗試，我們在收到專家回饋後，要求模型擴充或澄清證明的部分內容，讓推理更容易驗證。我們也促成了此模型與 ChatGPT 之間的來回對話，用於驗證、格式設定和風格。對於某些問題，我們會提出幾次嘗試中的最佳結果，由人類判斷選出。這是一次快速的衝刺，我們的流程不像在妥善控管的評估中那樣井然有序。我們期待與 First Proof 主辦單位進一步討論，為未來的版本建立更嚴謹的實驗設計與評估框架。

這項工作建立在數學和科學尖端推理模型的早期成果之上。2025 年 7 月，我們的通用推理模型在國際數學奧林匹亞競賽中達到金牌級表現⁠(在新視窗中開啟) (35/42 分)。在 2025 年 11 月，我們分享了《使用 GPT‑5 加速科學進展的早期實驗》，這是一系列案例研究，展示 GPT‑5 協助研究人員在數學、物理、生物和其他領域取得具體進展的案例研究，以及我們觀察到的限制。而最近，我們報導了一項物理學合作，其中 GPT‑5.2 提出一個膠子振幅公式的候選表達式，隨後由內部模型正式證明，並經作者驗證。

我們期待與社群就如何評估研究級推理進行更深入的交流，包括專家對這些嘗試的回饋，我們也很高興能在未來的公開模型中提供這些新功能。