2024年4月4日

介紹微調 API 的改進與擴展我們的自訂模型計劃

我們將加入新功能，讓開發人員在微調方面擁有更多主導權，同時宣佈透過 OpenAI 建立自訂模型的全新方法。

正在載入...

2026 年 5 月 8 日更新：OpenAI 正逐步結束微調平台。此微調平台已不再開放予新用戶使用，但現有用戶仍可在未來數個月建立訓練工作。所有經微調的模型將可繼續用於推論，直至基礎模型被淘汰⁠（在新視窗中開啟）為止。詳情請參閱此處⁠（在新視窗中開啟）的完整時間表。

開發人員可以使用多種技術⁠（在新視窗中開啟）來提升模型效能，從而減少延遲、提高準確性並降低成本。無論是透過檢索增強生成 (RAG) 擴展模型知識、透過微調自訂模型行為，還是以全新領域專業知識建立自訂訓練模型，我們都已開發一系列選項，支援客戶應用 AI。今天，我們推出多項新功能，讓開發人員透過 API 進行微調時有更大控制權；同時，我們亦推出更多方式，讓客戶與我們的 AI 專家及研究人員團隊合作，建立自訂模型。

新的微調 API 功能

我們於 2023 年 8 月推出 GPT‑3.5 的自助式微調 API⁠（在新視窗中開啟）。此後，已經有數千個組織使用我們的 API 訓練數十萬個模型。微調有助模型深入理解內容，並針對特定任務增強模型現有的知識和能力。我們的微調 API 亦支援遠多於單一提示所能容納的例子數目，可以提升結果質素之餘，亦有助降低成本和減少延遲。微調的常見使用例子包括訓練模型就特定程式語言生成更優質的程式碼、以特定格式總結文字，或根據用戶行為製作個人化內容。

舉例而言，全球職位配對和招募平台 Indeed⁠（在新視窗中開啟）希望簡化招聘流程。故此，Indeed 推出了一項功能，根據求職者的專業技能、工作經驗和個人喜好，向他們推薦相關的就業機會。他們透過微調 GPT‑3.5 Turbo，使該模型生成更高質素且更加準確的解釋說明。結果，Indeed 成功將提示中的詞元數目減少 80%，並藉此降低成本和減少延遲。這讓他們將每個月傳送給求職者的訊息，從不足一百萬則擴展到大約兩千萬則。

今天，我們將推出新功能⁠（在新視窗中開啟），讓開發人員對微調任務擁有更多主導權，包括：

按訓練週期建立檢查點：在每個訓練週期，自動建立完整的微調模型檢查點，藉此減少後續重新訓練的需要，在過度擬合的情況下尤其適用
比較式 Playground：新的並排 Playground 介面可用於比較模型品質和表現，方便人手評估多個模型或微調快照對單一提示的輸出
第三方整合：支援與第三方平台整合（本週由 Weights and Biases⁠（在新視窗中開啟）開始），讓開發人員可以將詳細的微調資料分享到技術架構的其餘部分
全面的驗證指標：能夠計算整個驗證資料集（而不是採樣批次）的損失和準確度等指標，進而對模型品質提供更全面的深入分析
超參數配置：能夠從主目錄⁠（在新視窗中開啟）（而不僅僅是透過 API 或 SDK）配置可用的超參數
微調主目錄的改進項目：包括配置超參數、查看更詳盡的訓練指標，以及基於先前設定重新執行任務的功能

擴展我們的自訂模型計劃

輔助微調

去年 11 月，我們在 DevDay 大會上宣佈推出⁠自訂模型程式，目的是與一組專責的 OpenAI 研究員攜手合作，為特定領域訓練和優化模型。從那時開始，我們已經與數十家客戶進行會談，評估他們對自訂模型的需求，並持續改善我們的方案，盡可能提升表現。

今天，我們正式宣佈推出輔助微調服務，作為自訂模型計劃的一部分。輔助微調是我們與技術團隊的合作成果，目的是借助微調 API 之外的技術，例如額外的超參數和各種大規模參數高效微調 (PEFT) 方法，建立更完善的自訂模型。對於需要協助建立高效率資料訓練流程、評估體系，以及特製參數和方法，進而改善模型在特定用途或任務的表現之機構而言，輔助微調服務特別實用。

舉例而言，為大韓民國超過 3 千萬用戶提供服務的電訊商 SK Telecom⁠（在新視窗中開啟）希望自訂一個精通電訊範疇，且首要著重客戶服務的模型。該公司與 OpenAI 合作，微調 GPT‑4，以提升該模型在電訊相關的韓文對話表現。SKT 和 OpenAI 只花了數週的時間，便顯著改善了模型在電訊客戶服務任務的表現：與 GPT‑4 比較，微調模型的對話摘要品質提升了 35%，意圖識別準確度提升了 33%，滿意度評分則從 3.6 提升至 4.5（滿分 5 分）。

自訂訓練模型

在部分案例中，組織需要從頭開始訓練為特定目的而設的模型，才能讓模型了解他們的業務、產業或專業領域。透過新穎的中期和後期訓練技術，完全自訂訓練模型會修改訓練期間的關鍵步驟，從而吸收特定領域的新知識。那些成功使用完全自訂訓練模型的組織，通常擁有大量專有資料（從數百萬個樣本到數十億個詞元不等），並往往希望利用這些資料，教導模型新知識或適用於特定使用情況的複雜、獨特行為。

例如，專為律師設計的 AI 法律工具 Harvey⁠（在新視窗中開啟）與 OpenAI 合作，為判例法創作了一個自訂大型語言模型⁠。雖然基礎模型善於推理，但缺乏廣泛的判例歷史知識，以及法律工作所需的其他知識。在測試提示工程、RAG 和微調之後，Harvey 與我們的團隊合作，為模型加入所需的深度情景，資料量相當於 100 億個詞元。從領域專業知識中期訓練，到自訂後期訓練程序和整合專業律師的意見，我們的團隊修改了模型訓練流程中的每個步驟。結果，該自訂模型在事實回應方面的表現提升了 83%；在 97% 的情況下，律師認為自訂模型的輸出結果比 GPT‑4 的更好。