我們對強大人工智慧的期望之一,是加速科學研究、惠及所有人,協助研究人員探索更多想法、加快驗證速度,並將發現轉化為實際成效。
過去這一年來,我們與數學、物理、生物學與資訊科學領域的科學家密切合作,了解 AI 能在哪裡發揮作用,以及其中的不足之處。上個月,我們發表了一篇論文,彙整數學、物理、生物學、資訊科學、天文學與材料科學的早期案例研究,顯示 GPT‑5 已開始為實際科學研究帶來貢獻。隨著 GPT‑5.2 推出,相關成果也越來越穩定可靠。
GPT‑5.2 Pro 和 GPT‑5.2 Thinking 是我們迄今最強大的科學與數學模型。
科學與技術研究可信度,奠基於扎實的數學推理。此推理能力讓模型能掌握多步驟邏輯、維持數值一致,避免細微錯誤在真實分析中連環累積,應用情境涵蓋模擬、統計、預測與建模等。在 FrontierMath 等基準測試上的進步,反映的不是單一技巧,而是更強的泛化推理與抽象能力,並能直接應用於科學工作流程,例如寫程式、資料分析與實驗設計。
這些能力也與邁向通用人工智慧的進展密切相關。能夠在抽象推理中保持可靠度、在長思考鏈中維持一致,並在不同領域間泛化的系統,展現出 AGI 的核心特徵。這不是只在個別任務有用的技巧,而是跨越科學、工程與現實決策、可廣泛運用的推理能力。
我們深信,GPT‑5.2 Pro 與 GPT‑5.2 Thinking 是目前全球最能有效協助並加速科學研究工作的模型。在 GPQA Diamond 這個研究生級別、防止依靠 Google 搜尋的科學問答基準測試中,GPT‑5.2 Pro 取得 93.2%,GPT‑5.2 Thinking 則達到 92.4%。
在 GPQA Diamond(在新視窗中開啟) 中,模型回答與物理、化學、生物相關的研究生級選擇題。未啟用任何工具,推理強度設為最大值。
在 FrontierMath(第 1–3 級)的專家級數學評估中,GPT‑5.2 Thinking 同樣創下新紀錄,成功解答了 40.3% 的題目。
在 FrontierMath(在新視窗中開啟) 中,模型解答專家級數學問題。已啟用 Python 工具,推理強度設為最大值。
案例分析
這項結果指出了值得進一步探索的方向,說明 AI 系統如何支援科學研究,特別是在數學與理論計算機科學等具有公理化理論基礎的領域。在這類研究情境中,前沿模型能協助探索證明、驗證假設,並找出原本需要大量人力才能發現的關聯。
然而,系統本身並不具備獨立研究能力,專家判斷、驗證與領域知識不可或缺。即使是能力強大的模型也可能出現錯誤,或自行採用了未經確認的假設。儘管如此,模型依然能產生詳細的結構化論述,值得人類深入研究與打磨。因此,若要在 AI 研究中取得可靠進展,工作流程中必須確實納入驗證、透明度與協作這三大要素。
若將此視為案例分析,這項結果展示了正在成形的新型研究模式。像 GPT‑5.2 這樣的模型,能作為支援數學推理並加速早期探索的工具,而正確性、詮釋方式與釐清脈絡的責任仍由人類研究人員承擔。若能審慎運用這類系統,可協助簡化理論工作的多項環節,而不是取代人類判斷在科學探索中的核心地位。


