跳至主要內容
OpenAI

2024年9月12日

產品

隆重介紹 OpenAI o1‑preview

全新推理模型系列,專為解決困難問題而生。現已推出。

載入中…

2024 年 9 月 17 日更新:現在 o1‑preview 的流量上限為每週 50 次詢問,o1‑mini 則為每日 50 次詢問。

我們開發了一系列新的人工智慧模型,設計上更注重在回覆前進行更深層的思考。它們能推理複雜任務,並解決過去模型在科學、程式設計及數學中難以處理的問題。

今天,我們在 ChatGPT 和 API 中推出了本系列第一個模型,這個版本是預覽版,我們預計將定期更新及優化。我們也同步公布了針對下一個開發中版本的評估結果

如何運作

經過我們的訓練,模型在回應前會先花更多時間思考問題,就像是真人的反應一樣。透過訓練,模型學會調整思考過程、嘗試不同策略以及辨識自己犯的錯誤。 

根據我們的測試,下個更新版模型在物理、化學與生物領域的高難度基準測驗中,表現將能媲美博士生。我們還發現,新版模型也精通數學和程式設計。在國際數學奧林匹亞競賽 (IMO) 的資格測驗中,GPT‑4o 只正確解答 13% 的問題,而這個推理模型的解題率則達到 83%。另外,我們還透過 Codeforces 競賽評估程式設計能力,排名達第 89 百分位。詳情請參閱技術研究文章

由於此模型仍處於初期階段,功能尚未完善,尚未支援瀏覽網路資訊、上傳檔案及圖片等提升 ChatGPT 實用性的功能。在不久的將來,GPT‑4o 將提升許多常見情境的實用性;

但在處理複雜推理任務上,此模型已帶來重大突破,推動 AI 能力邁向新高峰。因此,我們將版本從 1 開始編號,並以 OpenAI o1 為這個系列命名。

安全性

開發這套新模型系列的過程中,我們制定出一套新的安全訓練方法,利用本身的推理能力來確保其遵循安全和對齊指南。由於模型可根據情境推理我們的安全規則,因此可更有效套用這些規則。 

我們衡量安全性的一種方法,是測試在使用者嘗試繞過規則 (稱為「越獄」) 時,模型仍能堅守安全規範的表現。在一項最具挑戰性的越獄測試中,GPT‑4o 獲得 22 分 (滿分 100 分),相比之下,o1‑preview 模型取得了 84 分。詳情請參閱系統說明卡研究結果文章

為了跟上這些模型的新能力,我們加強了安全機制和內部治理措施,並與美國聯邦政府更密切合作,例如透過應變整備框架(在新視窗中開啟)、頂尖紅隊以及董事會層級 (包含安全性與資安委員會) 的審核流程,進行嚴格的測試和評估,

為了推進我們對 AI 安全的承諾,我們近期與美國和英國 AI 安全機構簽訂了正式協議。我們已開始實施相關協議,包含開放這些機構搶先使用這個模型的研究版。這是鞏固我們合作關係的重要第一步,有助於規劃未來模型正式推出前後的研究、評估與測試流程。

目標使用者

處理科學、程式設計、數學和類似領域的複雜問題時,這些增強的推理功能可能特別實用。舉例來說,醫療保健研究者可使用 o1 來標註細胞定序資料,物理學家可用來生成量子光學所需的複雜數學公式,各領域的開發人員則可用來建置和執行多步驟工作流程。 

OpenAI o1-mini

o1 系列擅長準確生成複雜程式碼及偵錯。為了提供開發人員更高效的解決方案,我們也推出了 OpenAI o1‑mini,這款推理模型速度更快且價格更實惠,處理程式設計相關任務的效率特別高。由於 o1‑mini 的規模較小,這款模型的費用比 o1‑preview 低 80%,對於需要推理功能但不需要廣泛世界知識的應用來說,是符合成本效益的強大模型。 

如何使用 OpenAI o1

ChatGPT Plus 和 Team 用戶今天起就能在 ChatGPT 中使用 o1 模型,只要從模型挑選器中手動選擇 o1‑preview 和 o1‑mini 即可,推出時 o1‑preview 和 o1‑mini 的每週流量上限分別為 30 和 50 則訊息。我們正努力提高流量,並讓 ChatGPT 可根據提示自動選擇合適的模型。

圖片呈現亮黃色和藍色交織而成的抽象背景上,新版 ChatGPT 下拉式選單中顯示新的「o1-preview」模型選項。

ChatGPT Enterprise 和 Edu 用戶下週將能開始使用這兩個模型。 

符合 API 使用等級 5(在新視窗中開啟) 資格的開發人員,今天就能在 API 中運用這兩個模型開始建立原型,速率限制為 20 RPM。我們正積極進行其他測試,完成後將提高限制。這些模型的 API 目前不包含函式呼叫、串流、系統訊息支援和其他功能。入門資訊請參閱 API 文件(在新視窗中開啟)

我們也計劃向所有 ChatGPT Free 用戶開放 o1‑mini。 

後續更新

這是 ChatGPT 和 API 中推理模型的早期預覽版。除了模型更新外,我們也計畫加入瀏覽、檔案和圖片上傳等功能,以提升實用性。 

除了全新的 OpenAI o1 系列外,我們也計劃持續開發並推出 GPT 系列模型。