我們期望更強大的 AI 能加速科學研究,為所有人帶來裨益;協助研究人員探索更多想法、更快測試假設,並將發現轉化為實際影響力。
過去一年,我們與數學、物理、生物及電腦科學等領域的科研人員密切合作,以了解 AI 能在哪些方面提供協助,以及其限制所在。上個月,我們發表了一份論文,整理了跨越數學、物理、生物、電腦科學、天文及材料科學的早期案例研究,顯示 GPT‑5 已開始為真實科學發展作出貢獻。隨着 GPT‑5.2 推出,我們看到這些能力變得更加穩定及可靠。
GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是我們迄今最強的科學及數學工作模型。
強大的數學推理能力是確保科學及技術工作可靠性的基礎。它能讓模型遵循多步邏輯、維持數值一致,同時避免細微但可能累積成嚴重影響的錯誤。這些能力涵蓋模擬、統計、預測及建模等分析工作。在 FrontierMath 等基準測試中顯示的進步並非單一技能提升,而是反映了更強的推理能力與抽象能力,並可直接應用於科研流程,如編碼、數據分析及實驗設計。
這些能力同時與向通用智能邁進緊密相關。如果系統能穩定地進行抽象推理、在長思路鏈中維持一致性、並在不同領域之間進行泛化,便展現了 AGI 的核心特質:這並非單一任務中的小技巧,而是可以跨科學、工程與現實決策的廣泛推理能力。
我們深信,GPT‑5.2 Pro 與 GPT‑5.2 Thinking 是目前全球最能有效協助並加速科學研究工作的模型。在 GPQA Diamond 這個研究生級別、防止依靠 Google 搜尋的科學問答基準中,GPT‑5.2 Pro 取得 93.2%,GPT‑5.2 Thinking 則達到 92.4%。
在 GPQA Diamond(在新視窗中開啟) 中,模型回答有關物理、化學和生物的多項選擇題。未啟用任何工具,推理強度設為最大。
在 FrontierMath(第 1–3 級)的專家級數學評估中,GPT‑5.2 Thinking 同樣創下新高,能解答 40.3% 的問題。
在 FrontierMath(在新視窗中開啟) 中,模型解決專家級數學問題。已啟用 Python 工具,推理強度設為最大。
實例分析
這項成果為 AI 如何支援科研提供了重要方向,尤其是在具備公理化理論基礎的領域,如數學與理論電腦科學。在這些領域中,前沿模型能協助研究人員探索證明、測試假設、及找出人類可能需花大量時間才能發現的關聯。
然而,這些系統並非獨立研究人員。專家判斷、驗證與領域知識仍然不可或缺。即使是極強大的模型也可能會出錯,或依賴未明言的假設,但它們亦能提供值得深入研究與打磨的結構化推理與論證。要持續穩健地利用 AI 推動科研,需要建立良好的工作流程,確保在過程中保持驗證、透明度和協作。
作為實例分析,這項成果展示了一種新興的科研模式:像 GPT‑5.2 這樣的模型可作為支援數學推理與加速早期探索的工具,而「正確性、詮釋與情境」的最終責任仍由研究人員負責。如果能謹慎使用,這些系統能簡化理論研究的多個環節,而不會取代科研中由人類作判斷的核心角色。


