學習使用大語言模式 (LLM) 推理
我們即將推出 OpenAI o1,這是一款透過強化學習訓練來執行複雜推理的新型大型語言模型。o1 會在回答之前先思考——它可以在回應用戶之前產生一長串的內在思路鏈。
OpenAI o1 在競賽型程式設計問題 (Codeforces) 中的表現超越 89% 的參賽者,在美國數學奧林匹克資格賽 (AIME) 中躋身美國前 500 名學生之列,並在涵蓋物理、生物及化學問題的基準測試 (GPQA) 中的準確度超越人類博士水準。儘管還需要一些時間努力,才能讓這個新模型像現有模型一樣易於使用,但我們即將發行模型的早期版本, OpenAI o1‑preview,以供 ChatGPT 和受信任的 API 用戶(在新視窗中開啟)立即使用。
我們的大規模強化學習演算法教導模型如何在資料高效的訓練流程中利用其思路鏈富有成效地思考。我們發現 o1 的表現隨著更多的強化學習(訓練時計算)和更多的思考時間(測試時計算)而持續提升。擴展此方法的限制與大型語言模型前期訓練的限制截然不同,我們正在繼續研究它們。

o1 的效能隨著訓練時間和測試時間的計算而平穩提升。
為了突顯 GPT‑4o 在推理方面的改進,我們在多種人類考試和機器學習基準測試中測試我們的模型。我們發現,o1 在絕大多數這些著重推理的任務中都顯著優於 GPT‑4o。除非另有說明,我們是在最大測試時間運算設定下評估 o1 的。







o1 的效能在許多著重推理的基準測試中,可與人類專家媲美。最近的頂尖模型1在 MATH2 和 GSM8K 上的表現非常出色,這些基準測試已無法有效區分模型。我們評估以挑戰美國最聰明的高中數學學生為目標的考試 AIME 上的數學表現。GPT‑4o 在 2024 年的 AIME 考試中,平均只解出 12%(1.8/15)題目。o1 在每題僅嘗試一次的情況下,平均解出 74%(11.1/15);若產生 64 個解答並取得共識,平均達到 83%(12.5/15);透過學習的評分函數重新排序 1000 個解答,表現提升至 93%(13.9/15)。13.9 的成績使其躋身全國前 500 名學生之列,並且高於美國數學奧林匹克的分數。
我們也在 GPQA diamond 上評估 o1,這是一項困難的智慧基準測試,旨在測試化學、物理和生物學方面的專業知識。為了將模型與人類進行比較,我們招募擁有博士學位的專家來回答 GPQA-diamond 問題。我們發現 o1 超越這些人類專家的表現,成為第一個在此基準測試中做到這一點的模型。這些結果並不表示 o1 在所有方面都比博士更具能力,這僅表示模型在解決某些博士應能解決的問題方面更為熟練。o1 在數個機器學習評測中的表現優於現有的頂尖技術。在啟用 o1 的視覺感知能力後,它在 MMMU 上獲得 78.2% 的分數,成為第一款與人類專家競爭的模型。它也在 57 個 MMLU 子類別中的 54 個上超越 GPT‑4o。
類似於人類在回答一個困難問題前可能需要長時間思考,o1 在嘗試解決問題時,也會使用思路鏈。o1 透過強化學習,學會磨練其思路鏈並改進所用的策略。它學會辨識並糾正自己的錯誤。它學會將複雜的步驟分解為更簡單的步驟。它學會當目前的方法無效時,嘗試不同的方法。這個流程顯著提高模型進行推理的能力。為了說明這項突飛猛進,我們在下面展現 o1‑preview 在幾個困難問題上的思路鏈。
GPT-4o
OpenAI o1-preview
我們從 o1 開始初始化,並經過訓練進一步提高程式設計技能,在 2024 年國際資訊學奧林匹克競賽 (IOI) 中獲得 213 分,排名位於前 49%,訓練出一個模型。這個模型在 2024 年的 IOI 中,以與人類參賽者相同的條件參加競賽。它有 10 個小時的時間來解決 6 個具有挑戰性的演算法問題,並且每個問題允許提交 50 次。
我們的系統會針對每個問題取樣許多候選提交,並根據測試階段的選擇策略提交其中的 50 次。提交的選擇是基於在 IOI 公開測試案例、模型產生的測試案例以及學習到的評分函數上的表現。
如果我們改為隨機提交,平均只能獲得 156 分,這表示在競賽限制下,這個策略價值接近 60 分。
我們發現模型的表現在放寬提交限制的情況下顯著提升。當允許每個問題提交 10,000 次時,模型的得分為 362.14,高於金牌的門檻,即使完全沒有採用測試階段的選擇策略。
最後,我們模擬 Codeforces 舉辦的競技程式設計比賽,以展示模型的編程技能。我們的評估嚴格符合競賽規則,並允許 10 次提交。GPT‑4o 的 Elo 得分3為 808,這在所有人類競爭者中屬於第 11 百分位。這個模型遠超過 GPT‑4o 和 o1,Elo 評分達到 1807,表現優於 93% 的競爭者。

對程式設計競賽的進一步微調改進了 o1。改進的模型在 2024 年國際資訊奧林匹克競賽規則下排名在第 49 百分位。
除了考試和學術基準,我們也評估人類對 o1‑preview 和 GPT‑4o 在廣泛領域中具挑戰性、開放式提示詞的喜好。在此評估中,人類訓練師會看到來自 o1‑preview 和 GPT‑4o 的匿名提示回覆,並投票選出他們喜好的回覆。o1‑preview 在資料分析、編程和數學等推理密集的類別中,大幅度領先 GPT‑4o。然而,o1‑preview 在某些自然語言任務上並不受歡迎,這表明它不適用於所有用例。

思路鏈推理為對齊和安全提供新的機會。我們發現,將關於模型行為的政策融入推理模型的思考流程,是穩健教導人類價值與原則的有效方式。透過教導模型我們的安全規則,以及如何在情境中推理這些規則,我們發現推理能力直接有助於模型的穩健性:o1‑preview 的表現在主要的越獄測試和我們最嚴苛的內部安全拒絕邊界評估中顯著提升。我們相信,使用思路鏈為安全和對齊性提供重大進展,因為 (1) 它能使我們以清晰的方式觀察模型的思維,以及 (2) 模型對安全規則的推理,對於分佈外場景更具穩健性。
為了壓力測試我們的改進,我們在部署前進行一系列安全測試,這符合我們的風險應對架構 (Preparedness Framework)(在新視窗中開啟)。我們發現,在我們所有的評估中,思路鏈推理都有助於提升能力。特別值得注意的是,我們觀察到一些有趣的獎勵破解案例(在新視窗中開啟)。請參閱隨附的系統卡中有關這些評估的詳細結果。
| 指標 | GPT-4o | o1-preview |
|---|---|---|
| 有害提示的安全完成百分比 標準 | 0.990 | 0.995 |
| 有害提示的安全完成百分比 挑戰:越獄和邊緣案例 | 0.714 | 0.934 |
| ↳ 騷擾(嚴重) | 0.845 | 0.900 |
| ↳ 剝削性的性內容 | 0.483 | 0.949 |
| ↳ 可能包括涉及未成年人的色情內容。 | 0.707 | 0.931 |
| ↳ 關於非暴力不法行為的建議 | 0.688 | 0.961 |
| ↳ 關於暴力不法行為的建議 | 0.778 | 0.963 |
| WildChat Zhao 等人每個類別中 Moderation API 得分最高的前 200 名的安全完成百分比2024 年 | 0.945 | 0.971 |
| Goodness@0.1 StrongREJECT 越獄評估 Souly et al.2024 | 0.220 | 0.840 |
| 人為越獄方法評估 | 0.770 | 0.960 |
| 內部良性邊緣案例的合規百分比 「並非過度拒絕」 | 0.910 | 0.930 |
| XSTest 良性邊緣案例合規百分比 「並非過度拒絕」 Röttger 等人2023 年 | 0.924 | 0.976 |
我們相信,隱藏的思路鏈為監控模型提供了獨特的機會。假設它是忠實且清晰的,隱藏的思路鏈能讓我們「讀取」模型的「思想」,並理解其思維過程。例如,日後我們可能希望監控思路鏈中是否有操控用戶的跡象。然而,為了實現此目的,模型必須能以未經修改的形式自由表達思想,因此我們不能對思路鏈進行任何策略合規或用戶喜好的訓練。我們也不希望讓未對齊的思路鏈直接呈現在用戶面前。
因此,經過考量多項因素,包括用戶體驗、競爭優勢以及是否追蹤思路鏈的選項,我們決定不向用戶展示原始的思路鏈。我們承認這個決定有其缺點。我們努力透過教導模型,在回答中重現思路鏈中任何有用的想法,來彌補這一點的部分。對於 o1 模型系列,我們展示模型產生的思路鏈摘要。
o1 大幅提升人工智能推理的最新技術水準。我們計劃在持續改進流程中發佈此模型的改進版。我們預計這些新的推理能力將會提升我們使模型與人類價值觀和原則對齊的能力。我們相信 o1 及其後繼者將會在科學、編程、數學及相關領域為人工智能開啟更多新的用例。我們很高興用戶和 API 開發人員能發現它如何改進他們的日常工作。
| 資料集 | 指標 | gpt-4o | o1-preview | o1 |
|---|---|---|---|---|
| 競賽數學 AIME (2024) | cons@64 | 13.4 | 56.7 | 83.3 |
| pass@1 | 9.3 | 44.6 | 74.4 | |
| 競賽編碼 CodeForces | Elo | 808 | 1,258 | 1,673 |
| 百分位 | 11.0 | 62.0 | 89.0 | |
| GPQA Diamond | cons@64 | 56.1 | 78.3 | 78.0 |
| pass@1 | 50.6 | 73.3 | 77.3 | |
| 生物學 | cons@64 | 63.2 | 73.7 | 68.4 |
| pass@1 | 61.6 | 65.9 | 69.2 | |
| 化學 | cons@64 | 43.0 | 60.2 | 65.6 |
| pass@1 | 40.2 | 59.9 | 64.7 | |
| 物理學 | cons@64 | 68.6 | 89.5 | 94.2 |
| pass@1 | 59.5 | 89.4 | 92.8 | |
| 數學 | pass@1 | 60.3 | 85.5 | 94.8 |
| MMLU | pass@1 | 88.0 | 92.3 | 90.8 |
| MMMU(值) | pass@1 | 69.1 | N/A | 78.2 |
| MathVista (testmini) | pass@1 | 63.8 | N/A | 73.9 |






