2024年9月17日更新:o1‑preview 的速率限制現為每週 50 次查詢,o1‑mini 則為每天 50 次查詢。
我們開發了一系列新的 AI 模型,設計理念是讓它們在回覆前用更多時間去思考。相比之前的模型,它們能夠推理複雜任務,並解決更困難的科學、編碼和數學問題。
今天,我們在ChatGPT和我們的API平台上,推出這個系列的首個產品。這是一個預覽版,我們預計將會定期更新和改進。配合此次發布,我們也加入了目前開發中的下一版更新的評估。
我們訓練這些模型在回應前花更多時間思考問題,就像人類會做的那樣。透過訓練,它們學會改良其思考過程、嘗試不同策略並識別錯誤。
在我們的測試中,下一個模型更新在物理、化學和生物學的挑戰性基準測試任務上的表現,接近博士生的水平。我們還發現它在數學和編程方面表現出色。在國際數學奧林匹亞(IMO)的資格考試中,GPT‑4o 只正確解決了 13% 的問題,而推理模型則得分 83%。它們的編程能力在比賽中接受評估,並在Codeforces競賽中達到第89個百分位數。您可以在我們的技術研究文章中,閱讀更多相關內容。
作為一個早期模型,它還沒有許多令 ChatGPT 變得有用的功能,例如上網取得資訊、上傳檔案和圖像等。針對許多常見案例,GPT‑4o在短期內將具備更強的能力。
但對於複雜的推理任務來說,這是一項重要突破,象徵著AI能力達到了新的層次。有鑑於此,我們將計數器重置為 1,並將此系列命名為 OpenAI o1。
在這些新模型開發期間中,我們提出一種新的安全訓練途徑,即運用其推理能力來確保它們符合安全性和對齊性指導原則。它能在情景中推理我們的安全規則,因而更有效地應用這些規則。
我們衡量安全的一種方式,是測試我們的模型在用戶試圖繞過其安全規則(稱為「越獄」)時遵守規則的程度。在其中一次最嚴苛的越獄測試裡,GPT‑4o 獲得 22 分(評分範圍 0-100),而我們的 o1‑preview 模型則獲得 84 分。你可以在我們的系統卡和研究貼文中閱讀更多相關資訊。
為了配合這些模型的新功能,我們加強安全工作、內部治理和與聯邦政府的合作。此舉包括透過我們的防範應對架構(在新視窗中開啟)進行嚴謹的測試和評估、最高水準的紅隊演練,以及董事會層面的審查程序,包括由我們的安全暨保障委員會執行的審查。
為了推進我們對人工智能安全的承諾,我們最近與美國和英國正式簽署協議。人工智能安全機構。我們已開始落實這些協議,包括讓這些機構搶先體驗此模型的研發版本。這是我們合作重要的第一步,有助於為未來模型公開發行之前和之後的研究、評估和測試建立流程。
這些強化的推理能力對於你在科學、編程、數學和類似領域處理複雜問題時可能特別有用。例如,o1 可供醫療保健研究人員用於註釋細胞測序資料,供物理學家用於產生量子光學所需的複雜數學公式,以及供所有領域的開發人員用於建立與執行多步驟工作流程。
o1 系列擅長準確產生和偵錯複雜程式碼。為了向開發人員提供更有效率的解決方案,我們也發行一款更快、更便宜的推理模型 OpenAI o1‑mini,在編程方面特別有效。o1‑mini 是一款較小的模型,比 o1‑preview 便宜 80%,因此成為一款功能強大、經濟實惠的模型,適用於需要推理但不需要廣泛世界知識的應用程式。
ChatGPT Plus 和團隊版用戶從今天起,將可在 ChatGPT 中使用 o1 模型。o1‑preview 和 o1‑mini 都可以在模型選擇器中手動選擇,並且在發佈時,o1‑preview 的每週速率限制為 30 則訊息,o1‑mini 則為 50 則訊息。我們正在致力提升這些限額,並且讓 ChatGPT 能自動為特定的提示詞選擇最適合的模型。

ChatGPT 企業版和教育版用戶從下週起便可開始使用這兩款模型。
符合 API 使用層級 5(在新視窗中開啟) 的開發商,今天就可以開始在 API 中使用這兩款模型開發原型,速率限制為每分鐘 20 次要求 (RPM)。我們正努力在進行額外測試之後提高這些限制。這些模型的 API 目前不包括函式呼叫、串流、對系統訊息的支援以及其他功能。若要開始使用,請查看 API 說明文件(在新視窗中開啟)。
我們也計劃將 o1‑mini 使用權限開放給所有 ChatGPT 免費用戶。
這是這些推理模型在 ChatGPT 和 API 中的早期預覽版本。除了模型更新之外,我們預計將新增瀏覽、檔案和圖像上傳以及其他功能,讓每個人都能更有效地使用。
除了新的 OpenAI o1 系列以外,我們也計劃繼續開發與推出我們的 GPT 系列模型。