跳至主要內容
OpenAI

2024年7月18日

發布

GPT‑4o mini:推進智慧發展並兼具成本效益

隆重推出最具成本效益的小型模型

載入中…

OpenAI 致力於推廣智慧服務,讓每個人都能輕鬆使用、隨手可得。今天,我們隆重推出 GPT‑4o mini,這是我們最具成本效益的小型模型。GPT‑4o mini 能大幅降低了使用門檻,我們期待它能進一步拓展 AI 在各領域的應用。GPT‑4o mini 在 MMLU 測驗中拿下 82% 的高分,且目前在 LMSYS 排行榜(在新視窗中開啟)的聊天偏好評比中表現超越 GPT‑41。其價格為每百萬輸入 token 15 美分、每百萬輸出 token 60 美分,不僅較先前尖端模型便宜一個數量級,也比 GPT‑3.5 Turbo 低逾 60%。

GPT‑4o mini 成本低廉,延遲又少,可為各種任務類型提供支援,例如用於串聯或並行的多次模型呼叫 (如呼叫多個 API)、向模型傳遞大量上下文 (例如完整程式碼庫或對話記錄),以及透過快速即時的文字回應與客戶互動 (例如客服聊天機器人)。 

目前,GPT‑4o mini 在 API 中可支援文字與視覺功能,未來將陸續支援文字、圖片、影片及音訊的輸入與輸出功能。該模型擁有 128K token 的上下文視窗,每次請求最多可支援 16K 輸出 token,知識範圍涵蓋至 2023 年 10 月。由於採用了與 GPT‑4o 共用的改良型斷詞器 (tokenizer),在非英文文字的處理上比以往更具成本效益。

一款具備卓越文字理解能力與多模態推理能力的小型模型

在學術評測中,GPT‑4o mini 在文字智慧與多模態推理兩方面均超越 GPT‑3.5 Turbo 及其他小型模型,且具備與 GPT‑4o 相同的語言支援廣度。它在函式呼叫方面同樣展現強大效能,可協助開發者打造能擷取外部資料或執行操作的應用程式,並處理冗長上下文的表現優於 GPT‑3.5 Turbo。

GPT‑4o mini 已通過多項重要基準測試\[\[fn:2]]。

推理任務:GPT‑4o mini 在結合文字與視覺的推理任務上表現優於其他小型模型,在文字智慧與推理基準測試 MMLU 中獲得 82.0% 的高分,相較之下,Gemini Flash 得分為 77.9%,Claude Haiku 得分僅為 73.8%。

數學與程式設計能力:GPT‑4o mini 在數學推理與程式設計任務上表現出色,優於目前市面上的小型模型。在測量數學推理能力的 MGSM 測試中,GPT‑4o mini 得分高達 87.0%,而 Gemini Flash 得分則為 75.5%,Claude Haiku 得分僅為 71.7%。GPT‑4o mini 在衡量程式設計表現的 HumanEval 測試中得分高達 87.2%,相較之下,Gemini Flash 得分僅為 71.5%,Claude Haiku 則為 75.9%。  

多模態推理:GPT‑4o mini 在多模態推理評測的 MMMU 中也表現強勁,得分達 59.4%,相較之下,Gemini Flash 得分則為 56.1%,Claude Haiku 得分僅為 50.2%。

模型評估分數

在模型開發過程中,我們與幾位信賴的合作夥伴緊密合作,更深入掌握 GPT‑4o mini 的使用情境與限制。我們與 Ramp(在新視窗中開啟)Superhuman(在新視窗中開啟) 等公司合作,他們發現 GPT‑4o mini 在提取收據檔案中的結構化資料,以及基於郵件對話記錄生成高品質回覆的任務中,表現顯著優於 GPT‑3.5 Turbo。

內建安全性衡量機制

我們從一開始便將安全性納入模型設計,而且在開發流程的每一個階段都持續強化。在預訓練階段,我們會篩選掉(在新視窗中開啟)不希望模型學習或輸出的內容,例如仇恨言論、成人內容、主要蒐集個人資訊的網站以及垃圾資訊等內容。在後訓練階段,我們則運用像是「人類回饋的強化學習」(RLHF) 等技術,使模型行為符合我們的政策,進一步提升其回應的準確性與可靠性。

GPT‑4o mini 內建與 GPT‑4o 相同的安全風險緩解機制,這些機制已根據我們的《應變整備框架》以及自願承諾,透過自動化與人工評估進行審慎的測試與驗證。超過 70 位來自社會心理學、錯誤資訊等領域的外部專家曾參與測試 GPT‑4o,以期從中找出潛在風險,對此我們已進行處理,並計劃在即將發佈的 GPT‑4o 系統說明卡與《應變整備評估報告》中公開相關細節。這些專家評估所提供的見解,有助於我們提升 GPT‑4o 與 GPT‑4o mini 的整體安全性。

在這些經驗的基礎上,我們的團隊也運用研究成果引入新技術,進一步提升 GPT‑4o mini 的安全性。API 中的 GPT‑4o mini 是首款套用我們「指令層級」(在新視窗中開啟)方法的模型,這項技術有助於提升模型抵禦越獄攻擊、提示注入以及系統提示擷取等風險的能力。這項技術不僅提升模型回應的可靠性,也強化了其在大規模應用中的安全性。

我們將持續監控 GPT‑4o mini 的使用情況,並持續辨識新風險以強化模型的安全性。

供應情況與定價

GPT‑4o mini 現已在 Assistants API、Chat Completions API 和 Batch API 中提供,支援文字與視覺模型。開發者需支付每百萬輸入 token 15 美分及每百萬輸出 token 60 美分 (約等於標準書籍的 2500 頁)。我們計劃在接下來幾日內推出 GPT‑4o mini 的微調功能。

從今天起,ChatGPT 的免費版本、Plus 版本及 Team 版本用戶即可使用 GPT‑4o mini 來取代 GPT‑3.5,下週起,GPT‑4o mini 也將向 Enterprise 用戶開放,實踐我們讓 AI 造福每一位使用者的願景。

後續更新

過去幾年,我們見證了 AI 智慧的驚人進步,使用成本也大幅降低。例如,自 2022 年推出效能較弱的 text-davinci-003 以來,GPT‑4o mini 的每 token 成本已下降 99%。我們致力於在強化模型功能的同時,持續降低使用成本。

我們的願景是讓每個應用程式與網站都能與 AI 模型無縫整合。GPT‑4o mini 正引領開發者以更高效、更經濟實惠的方式,打造和擴展強大的 AI 應用程式。落實 AI 的未來已不再遙不可及。AI 技術將日趨穩定,並深度融入我們的日常數位體驗。我們充滿信心,將持續走在潮流前端,推動這場變革不斷向前。

作者

OpenAI

致謝

組長:Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、 Felipe Petroski Such

專案負責人:Mianna Chen

貢獻已記載於 https://openai.com/gpt-4o-contributions/

註腳

  1. 1

    截至 2024 年 7 月 18 日,GPT-4o mini 的初期版本已超越 GPT-4T 01-25。

  2. 2

    GPT-4o mini 的評估數據是透過我們的 simple-evals(在新視窗中開啟) 儲存庫、搭配 API 助理系統訊息提示進行計算。針對其他模型,我們採用其已公布數據中的最大值(若有),以及 HELM(在新視窗中開啟) 排行榜與我們透過 simple-evals 重現的數據。