2024年7月18日

GPT‑4o mini：推進成本效益型人工智能

我們最具成本效益的小型模型登場

正在載入...

OpenAI 始終致力於廣泛普及人工智能技術。今天，我們宣佈推出最具成本效益的小型模型 GPT‑4o mini。透過提供更經濟實惠的人工智能服務，我們預期 GPT‑4o mini 將能顯著地擴展以人工智能建立的應用範圍。GPT‑4o mini 在 MMLU 上獲得高達 82 分，目前在 LMSYS 排行榜⁠（在新視窗中開啟）上的聊天喜好設定方面優於 GPT‑4¹。定價為每百萬輸入詞元 15 美分，每百萬輸出詞元 60 美分，成本比前代尖端模型低十倍，比 GPT‑3.5 Turbo 便宜 60% 以上。

GPT‑4o mini 以低成本和低延遲的特性支援廣泛的任務，例如串聯或並行執行多個模型呼叫（例如：呼叫多個 API）、向模型傳遞大量情境（例如：完整程式碼庫或對話歷史記錄）或透過快速即時文字回覆與客戶互動（例如：客戶支援聊天機器人）的應用程式。

目前，GPT‑4o mini 在 API 中支援文字和視覺處理，未來將進一步擴展至文字、圖像、視訊及音訊的輸入與輸出功能。此模型的情境視窗包含 128K 個詞元，每個要求支援多達 16K 個輸出詞元，並能提供 2023 年 10 月之前的知識。歸功於與 GPT‑4o 共享的改良分詞器，處理非英語文字現在更具成本效益。

擁有卓越文字智慧和多模態推理能力的小型模型

GPT‑4o mini 的文字智慧和多模態推理的學術基準測試表現超越 GPT‑3.5 Turbo 和其他小型模型，並且支援的語言範圍與 GPT‑4o 相同。它也展現出強大的函數呼叫效能，能使開發人員建立可擷取資料或使用外部系統採取行動的應用程式，並且它處理長文字的效能相較於 GPT‑3.5 Turbo 也有所提升。

GPT‑4o mini 已通過多項關鍵基準測試²評估。

推理任務：GPT‑4o mini 在執行文字和視覺推理任務時的表現優於其他小型模型，在文字智慧和推理基準測試 MMLU 的得分為 82.0%，而 Gemini Flash 和 Claude Haiku 的得分則分別為 77.9% 和 73.8%。

數學和編碼能力：GPT‑4o mini 在數學推理和編碼任務中表現出色，效能超越市場上之前的小型模型。GPT‑4o mini 在衡量數學推理能力 MGSM 測試的得分為 87.0%，而 Gemini Flash 和 Claude Haiku 的得分則分別為 75.5% 和 71.7%。GPT‑4o mini 在衡量程式設計效能的 HumanEval 測試得分為 87.2%，而 Gemini Flash 和 Claude Haiku 的得分則分別為 71.5% 和 75.9%。

多模態推理：GPT‑4o mini 在多模態推理評估 MMMU 上也表現出色，得分為 59.4%，而 Gemini Flash 和 Claude Haiku 的得分則分別為 56.1% 和 50.2%。

模型評估分數

我們與一些值得信賴的合作夥伴合作開發模型，以便對 GPT‑4o mini 的用例和限制有更好的了解。我們與 Ramp⁠（在新視窗中開啟）和 Superhuman⁠（在新視窗中開啟）等公司合作，他們發現 GPT‑4o mini 在從接收檔案中擷取結構化資料或在提供對話串使用記錄時產生高品質電郵回覆等任務上的表現明顯優於 GPT‑3.5 Turbo。

內建安全措施

我們從一開始就將安全融入模型中，並且在我們開發流程中的每一步加以強化。在訓練前期，我們會篩選掉⁠（在新視窗中開啟）不希望模型學習或輸出的資訊，例如仇恨言論、成人內容、主要聚合個人資訊的網站以及濫發内容。到了訓練後期，我們利用人類反饋強化學習 (RLHF)⁠ 等技術使模型的行為與我們的策略保持一致，進而提高模型回覆的準確性和可靠性。

GPT‑4o mini 的內建安全緩解措施與 GPT‑4o⁠ 相同，我們根據備援準備架構⁠和自願承諾⁠，使用自動和人工評估方法對 GPT‑4o 進行仔細的評估。有超過 70 位來自社會心理學和誤導資訊等領域的外部專家對 GPT‑4o 進行測試以識別潛在風險，我們已經解決了這些風險，並計劃在即將發佈的 GPT‑4o 系統卡和備援準備計分卡中分享詳細資料。這些專家評估的見解有助於提高 GPT‑4o 和 GPT‑4o mini 的安全。

基於這些經驗，我們的團隊也致力於利用研究中的新技術來提升 GPT‑4o mini 的安全。API 中的 GPT‑4o mini 是第一款套用我們的指令層次結構⁠⁠（在新視窗中開啟）方法的模型，此方法有助於提升模型抵禦越獄、指令注入和系統指令提取的能力。這能使模型提供更可靠的回覆，並有助於在大規模應用程式中更安全地使用它。

我們將會繼續監控 GPT‑4o mini 的使用情況，並且在發現新風險時不斷提升模型的安全。

提供情況及收費

GPT‑4o mini 現在已經可以在助理 API、聊天補全 API 和批次 API 中作為文字和視覺模型使用。開發人員每 100 萬個輸入詞元支付 15 美分，每 100 萬個輸出詞元支付 60 美分（大約相當於普通一本書的 2500 頁内容）。我們計劃在未來幾天內推出 GPT‑4o mini 的微調服務。

ChatGPT Free、Plus 和團隊版用戶自今日起即可使用 GPT‑4o mini 來取代 GPT‑3.5。企業版用戶下週起也可以開始使用，這符合我們讓所有人都能享受人工智能優勢的使命。

下一步是什麽

我們在過去幾年間見證了人工智能的卓越進展和成本的大幅降低。例如，自從 2022 年推出功能較弱的模型 text-davinci-003 以來，GPT‑4o mini 每個詞元的成本已降低 99%。我們致力於持續降低成本並加強模型功能。

我們展望未來，模型將能與每個應用程式和網站完美整合。GPT‑4o mini 正在為開發人員鋪路，讓他們能以更低的成本更有效率地建立與擴展強大的人工智能應用程式。未來的人工智能將變得更加普及且可靠，並融入我們的日常數碼體驗中，我們很高興能繼續引領這個發展潮流。

作者

OpenAI

致謝

負責人：Jacob Menick、Kevin Lu、Shengjia Zhao、Eric Wallace、Hongyu Ren、Haitang Hu、Nick Stathas、Felipe Petroski Such

項目負責人：Mianna Chen

貢獻記錄請見 https://openai.com/gpt-4o-contributions/⁠

腳註

1
截至 2024 年 7 月 18 日，GPT-4o mini 的早期版本表現優於 GPT-4T 01-25。
2
GPT-4o mini 評估資料透過我們的 simple-evals⁠（在新視窗中開啟）⁠ 儲存庫，並採用 API 助理系統訊息提示進行運算。對於競爭對手模型，我們會取其報告結果（如有提供）、HELM⁠⁠（在新視窗中開啟）排行榜以及我們自己透過 simple-evals 自行複測結果中的最高值。