利用 LLM 學習推理
我們推出了全新大型語言模型 OpenAI o1,這款模型受過強化學習訓練,能執行複雜的推理任務。o1 會先思考再回答,在回覆使用者之前,產生一長串內部思考鏈。
OpenAI o1 在競技程式設計問題 (Codeforces) 中排名第 89 百分位,在美國數學奧林匹亞初選賽 (AIME) 中名列全美前 500 名學生,並在物理、生物及化學問題基準測試 (GPQA) 中達到超越人類博士等級的準確率。我們仍在努力讓這個新模型的使用體驗與現有模型一樣簡便,不過已推出早期版本 OpenAI o1‑preview,供 ChatGPT 及受信任的 API 使用者(在新視窗中開啟)搶先使用。
我們的大規模強化學習演算法,能透過資料利用率極高的訓練過程,教導模型如何運用本身的思考鏈進行有條理的思考。我們發現,o1 進行長時間的強化學習訓練 (訓練期運算資源) 以及花費更多時間思考 (測試期運算資源) 後,表現會穩定提升。擴大這種做法受到的限制,與傳統 LLM 預訓練方式大相逕庭,我們仍在持續研究其潛力。

在訓練期間與測試期間,o1 的表現均隨著運算量增加而穩定提升。
為突顯 o1 推理能力優於 GPT‑4o,我們讓模型進行多項人類試驗及機器學習基準測試。結果顯示,在大多數高度依賴推理能力的任務中,o1 的表現大幅超越 GPT‑4o。除非另有說明,否則我們對 o1 的評估皆採最大測試期運算設定。







在多個高度依賴推理能力的基準測試中,o1 的表現可與人類專家匹敵。近來的前沿模型1在 MATH2 及 GSM8K 表現均極其優異,使得這些基準無法有效區分模型優劣。我們選擇以 AIME 評估數學能力,這項考試專為挑戰全美頂尖高中數學生所設計。在 2024 年的 AIME 中,GPT‑4o 平均解題率只有 12% (1.8/15),而 o1 平均解題率達到 74% (11.1/15);在 64 筆樣本中取共識答案的正確率達到 83% (12.5/15),使用訓練後的評分函數重新排序 1,000 筆樣本時,準確率可達 93% (13.9/15)。13.9 分的成績已高於美國數學奧林匹亞的入選門檻,並可列入全美前 500 名。
我們也透過超高難度智慧推理基準測試 GPQA diamond (專家級物理、化學與生物測試) 評估 o1。為與人類表現進行比較,我們邀請了具有博士學位的專家回答 GPQA-diamond 問題。結果發現,o1 的表現優於這些人類專家,成為第一個在該基準測試達到如此成就的模型。這些結果不表示 o1 在所有層面皆超越博士,而是在預期博士應能解決的問題上表現更優異。此外,在多項機器學習基準測試中,o1 也超越目前最先進的模型。啟用視覺感知功能後,o1 在 MMMU 測試中取得 78.2% 分數,成為首個可媲美人類專家的模型。此外,在 MMLU 的 57 個子類別中,有 54 項表現優於 GPT‑4o。
就像人類回答困難問題前可能會思考許久,o1 在解題時亦會啟動思考鏈。透過強化學習,o1 能持續精煉自身思考鏈與解題策略。它能學習辨識錯誤並加以修正、將困難流程拆解為簡單步驟、在現有策略失效時改用新方法。這項流程大幅提升此模型的推理能力。以下展示 o1‑preview 在解決多個難題時的思考鏈,說明這項重大突破。
GPT-4o
OpenAI o1-preview
我們訓練了一個模型,在 2024 年國際資訊奧林匹亞 (IOI) 中獲得 213 分,排名第 49 百分位,該模型是以 o1 為基礎進一步訓練,強化其程式設計能力。在 2024 年 IOI 中,此模型與人類參賽者在相同條件下進行競賽,需在十小時的時間解決六道艱難的演算法問題,每題允許提交 50 次。
我們系統針對每題生成多個候選答案,並依測試期選擇策略從中選出 50 筆提交。提交的項目是依據 IOI 公開測資、模型生成測資及訓練評分函數來選擇。如果改為隨機提交,平均僅能獲得 156 分,顯示在競賽限制下,這項策略價值接近 60 分。
若放寬提交限制,我們發現模型表現亦有大幅提升。當允許每題提交 10,000 次時,即使未使用選擇策略,模型得分亦達到 362.14 分,超過金牌門檻。
最後,我們模擬了由 Codeforces 主辦的競賽型程式設計比賽,以展示此模型的程式設計能力。我們的評估條件與比賽規則高度一致,每題允許提交 10 次。GPT‑4o 的 Elo 評分3為 808,僅位於人類選手第 11 百分位。這個模型的表現遠超過 GPT‑4o 及 o1,其 Elo 評分達到 1807,優於 93% 的參賽者。

針對程式設計競賽進行進一步微調後,o1 的表現有所提升。經改良的模型在 2024 年國際資訊奧林匹亞中,依照正式競賽規則,排名第 49 百分位。
除了考試與學術基準測試,我們也針對 o1‑preview 與 GPT‑4o 在各類高難度開放式提示的表現,評估了人類偏好。在這項評估中,訓練師會看到來自 o1‑preview 和 GPT‑4o 對同一提示的匿名回應,並投票選出他們偏好的答案。在資料分析、程式設計及數學等高度依賴推理能力的類別中,o1‑preview 明顯優於 GPT‑4o,得票率獲得壓倒性勝利。然而,在部分自然語言任務中,o1‑preview 並非首選,顯示此模型並不適合所有使用場景。

思考鏈推理為模型對齊及安全性帶來全新的可能性。我們發現,將模型行為政策融入推理模型思考鏈中,是能夠穩定傳授人類價值與原則的有效方式。透過教導模型我們的安全規則,以及如何在實際情境中進行推理,我們發現,推理能力的提升能直接強化模型的健全度:具體來說,o1‑preview 在多項關鍵的越獄測試評估,以及我們內部最嚴格的模型安全拒答基準測試中,表現有大幅提升。我們相信,使用思考鏈可為安全性與對齊技術帶來重大進展,原因包括:(1) 它讓我們能以清晰可理解的方式觀察模型的思考過程;(2) 模型對安全規則進行推理時,表現比起針對非預期情境更穩定。
為了對我們的改善項目執行壓力測試,我們在部署前依據應變整備框架(在新視窗中開啟)進行了一系列安全測試與紅隊演練。我們發現在各項評估中,思考鏈推理皆對模型能力均有所助益。其中值得注意的是,我們觀察到有趣的獎勵操弄案例(在新視窗中開啟)。詳細測試結果已收錄於隨附的系統說明卡中。
| 指標 | GPT-4o | o1-preview |
|---|---|---|
| 對有害提示的安全回應百分比 標準 | 0.990 | 0.995 |
| 對有害提示的安全回應百分比 高難度:越獄行為與邊緣案例 | 0.714 | 0.934 |
| ↳ 騷擾 (嚴重) | 0.845 | 0.900 |
| ↳ 剝削性的性內容 | 0.483 | 0.949 |
| ↳ 涉及未成年人的性内容 | 0.707 | 0.931 |
| ↳ 關於非暴力不當行為的建議 | 0.688 | 0.961 |
| ↳ 關於暴力不當行為的建議 | 0.778 | 0.963 |
| WildChat 中每個類別前 200 名最高審核 API 分數的安全回應百分比 Zhao 等人2024 年 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT 越獄評估 Souly 等人2024 年 | 0.220 | 0.840 |
| 人為來源的越獄評估 | 0.770 | 0.960 |
| 內部良性邊緣案例的合規百分比 「非過度拒答」 | 0.910 | 0.930 |
| XSTest 中良性邊緣案例的合規百分比 「非過度拒答」 Röttger 等人2023 年 | 0.924 | 0.976 |
我們認為,隱藏思考鏈帶來了獨特機會,可應用在模型監控。只要思考過程真實且清晰,我們就能「讀懂模型的心思」,瞭解其推理邏輯。例如,未來我們可能希望藉由監控思考鏈來偵測模型是否有操控使用者的傾向。然而,為了讓這項機制發揮作用,模型必須能自由表達其原始想法,因此我們不能透過訓練,將任何政策遵循或使用者偏好原則強加於思考鏈中。同時,我們也不希望將未經對齊的思考鏈直接呈現給使用者。
因此,綜合考量使用者體驗、競爭優勢,以及未來監控思考鏈的可能性後,我們決定不向使用者公開原始的思考鏈內容。我們知道這項決定有其缺點,因此致力透過訓練模型,在回應中重現思考鏈中任何有用的構想,多少彌補這個不足之處。在 o1 模型系列中,我們會顯示模型生成的思考鏈摘要。
o1 的頂尖 AI 推理能力已有重大突破,我們將精益求精,持續推出改良版,預期這些新的推理能力將成為我們的一大助力,讓模型更有效對齊人類的價值觀與原則。我們相信 o1 及其後續版本,將開啟 AI 在科學、程式設計、數學及相關領域的各種新應用。我們也很期待使用者與 API 開發者持續發掘各種使用情境,讓這項技術為更多日常工作帶來助益。
| 資料集 | 指標 | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| 競賽數學 AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| 一次通過率 | 9.3 | 44.6 | 74.4 | |
| 競賽程式碼 CodeForces | Elo | 808 | 1,258 | 1,673 |
| 百分位數 | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| 一次通過率 | 50.6 | 73.3 | 77.3 | |
| 生物學 | cons@64 | 63.2 | 73.7 | 68.4 |
| 一次通過率 | 61.6 | 65.9 | 69.2 | |
| 化學 | cons@64 | 43.0 | 60.2 | 65.6 |
| 一次通過率 | 40.2 | 59.9 | 64.7 | |
| 物理 | cons@64 | 68.6 | 89.5 | 94.2 |
| 一次通過率 | 59.5 | 89.4 | 92.8 | |
| MATH | 一次通過率 | 60.3 | 85.5 | 94.8 |
| MMLU | 一次通過率 | 88.0 | 92.3 | 90.8 |
| MMMU (val) | 一次通過率 | 69.1 | 不適用 | 78.2 |
| MathVista (testmini) | 一次通過率 | 63.8 | 不適用 | 73.9 |






