2024年4月4日

隆重推出微調 API 改善項目，擴大自訂模型計畫

我們推出幾項新功能，讓開發人員在微調模型的過程中擁有更高的控制權，並宣布與 OpenAI 合力打造自訂模型的新方式。

載入中…

2026 年 5 月 8 日更新：OpenAI 正逐步停止微調平台服務。新使用者已無法存取該平台，但現有使用者在未來數個月內仍可建立訓練工作。所有微調模型仍可用於推論，直到其基礎模型淘汰⁠(在新視窗中開啟)為止。完整時程請見此處⁠(在新視窗中開啟)。

開發人員可以運用各種技巧⁠(在新視窗中開啟)來提升模型效能，縮短延遲、提高準確性並降低成本。為了協助客戶實現各種 AI 應用場景，我們提供多樣化的工具與選項，無論是要運用檢索增強生成 (RAG) 技術擴充模型知識、透過微調自訂模型的行為，還是打造具備特定領域知識的自訂訓練模型，都能得心應手。我們今天推出了幾項新功能，讓開發人員在微調 API 時擁有更高的控制權，並提供更多方式與我們的 AI 專家和研究團隊合作，打造自訂模型。

全新微調 API 功能

我們在 2023 年 8 月為 GPT‑3.5 推出了自助式微調 API⁠(在新視窗中開啟)。自那時起，數以千計的組織已運用我們的 API 訓練出數十萬個模型。微調功能可讓模型更深入理解內容，並增強模型現有的知識和處理特定任務的能力。此外，比起單一提示能容納的資料量，我們的微調 API 可支援更大量的範例資料，進而生成品質更高的結果，同時降低成本和縮短延遲。微調功能的幾個常見使用情境如下：訓練模型以特定程式語言生成程式碼、以特定格式生成文字摘要，以及根據使用者行為打造個人化內容。

舉例來說，全球工作媒合與徵才平台 Indeed⁠(在新視窗中開啟) 希望簡化徵人流程，因此啟用一項功能，可根據求職者的技能、經驗和偏好篩選出相關職缺，並傳送個人化的推薦。經過他們的微調，GPT‑3.5 Turbo 可生成品質更高且更準確的說明。最終 Indeed 成功將提示的 token 數減少了 80%，有效降低成本並縮短延遲，進而從原先每月傳送不到一百萬則訊息給求職者，成長至每月大約兩千萬則。

我們今天推出的幾項新功能⁠(在新視窗中開啟)，可讓開發人員在執行微調工作時擁有更高的控制權，包括：

根據訓練週期 (epoch) 建立檢查點：在每個訓練週期 (epoch) 期間，系統都會自動產生完整的微調模型檢查點，因此即使出現過度擬合，也無需重新訓練
比較 Playground：比較模型品質和表現專用的全新並排式 Playground UI，可用於人工評估多個模型輸出，或是針對單一提示微調快照
第三方整合：支援第三方平台整合 (本週從 Weights and Biases⁠(在新視窗中開啟) 開始)，讓開發人員能將詳細微調資料同步到整體應用架構中
全方位驗證指標：可針對整個驗證資料集計算損失和準確度等指標，而非僅抽取一個批次的樣本，因此能對模型品質提供更精闢的洞察分析
超參數設定：可從儀表板⁠(在新視窗中開啟) (而非僅透過 API 或 SDK) 設定可用的超參數
微調儀表板改善項目：現在可以設定超參數、查看更詳細的訓練指標，以及重新執行先前設定的工作

擴大自訂模型計畫

輔助式微調

我們在去年 11 月的 DevDay 宣布⁠一項自訂模型計畫，讓客戶與專屬 OpenAI 研究人員合作，專門針對特定領域訓練和改良模型。此後，我們已接受數十個客戶的諮詢，評估其自訂模型需求，並持續改善計畫內容，以盡可能提高成效。

我們今天正式宣布，在自訂模型計畫中納入輔助式微調服務。輔助式微調是與我們技術團隊合作的流程，可大規模運用比微調 API 更進階的多項技術，例如額外的超參數以及各種參數高效微調 (PEFT) 方法。這項服務特別適合需要建立高效訓練資料流程、評估系統，並針對特定情境或任務量身打造參數與方法，以發揮模型最大效能的組織。

舉例來說，擁有超過三千萬用戶的南韓電信業者 SK Telecom⁠(在新視窗中開啟)，希望針對電信領域打造專家級客製化模型，初期以客戶服務為重心。他們與 OpenAI 合作微調 GPT‑4，目標是提升與電信相關韓文對話的表現。經過數週的努力，SKT 和 OpenAI 在客戶服務的表現顯著提升：經過微調的模型相較於 GPT‑4，對話摘要品質改善 35%、意圖辨識準確度提高 33%，而滿意度分數從 3.6 提升至 4.5 (滿分 5 分)。

自訂訓練模型

某些情況下，組織須針對特定目的而從頭訓練模型，讓模型對自家業務、產業或領域有透徹的理解。經完整自訂訓練的模型，會透過創新的中期與後期訓練技術，調整訓練流程中的關鍵步驟，將特定領域的新知識融入模型。能從完整自訂訓練模型中獲益的組織，往往擁有大量專有資料 (數百萬筆範例或數十億 token)，希望用於訓練模型新知識或專屬行為，以應對特定情境。

例如律師專用的 AI 原生工具 Harvey⁠(在新視窗中開啟) 與 OpenAI 合作，針對判例法打造經過自訂訓練的大型語言模型⁠。雖然基礎模型的推理能力很強，卻缺乏判例法歷史的廣泛知識，以及對其他法律工作的理解。Harvey 測試我們的提示工程、RAG 和微調功能後，與團隊合作將相當於一百億 token 的深入背景資訊融入模型。團隊修改了整套模型訓練流程，從特定領域中期訓練、自訂後期訓練流程，到整合律師專家意見，所有步驟均量身打造。經過訓練的模型在事實回應任務的表現提升了 83%，且相較於 GPT‑4，97% 的情況下律師都偏好這個模型的輸出內容。

GPT-4 和 GPT-4 自訂模型的比較。經過訓練的模型在事實回應任務的表現提升了 83%，且相較於 GPT-4，97% 的情況下律師都偏好這個模型的輸出內容。

模型自訂功能的後續規劃

我們確信，未來絕大多數的組織都將針對自家產業、業務或使用情境開發自訂模型。如今，各種技術都能協助打造自訂模型，各種規模的組織都可開發符合自身需求的客製化模型，讓 AI 應用帶來更有意義的具體影響。關鍵在於明確界定使用情境範疇、設計並導入評估系統、選擇合適技術，並做好持續優化的準備，以將模型表現推向新高點。

與 OpenAI 合作之下，多數組織都透過自助式微調 API 迅速斬獲成果。組織若需要更深入微調模型，或將特定領域的新知識融入模型，我們的自訂模型計畫都能提供協助。

歡迎參閱微調 API⁠(在新視窗中開啟) 說明文件，開始微調我們的模型。

檢視全部