跳至主要內容
OpenAI

2025年11月19日

研究

Eval 如何推動企業 AI 的下一個發展階段

本入門指南說明企業領導者如何透過 Eval 框架將業務目標轉化為一致的成果。

載入中…

全球超過一百萬家企業 正在運用 AI 提升效率、創造實際價值,然而部分組織發現成果並沒有達到原本的期待。導致這項落差的原因是什麼?

OpenAI 在公司內部運用 AI 達成宏大的目標。我們使用的一套關鍵工具是 Eval,用來衡量並提升 AI 系統達到期望的能力。

Eval 類似產品需求文件,能把含糊的目標或抽象概念說清楚、講明白。善用 Eval 能讓客戶端產品或內部工具在擴大規模時依然穩定,減少重大錯誤、降低風險,並替組織建立一條可追蹤的投報提升路徑。

在 OpenAI,模型本身就是產品,因此研究人員會使用嚴格的 前沿 Eval(在新視窗中開啟) 1 來檢視模型在不同領域的表現。前沿 Eval 能讓我們更快推出更好的模型,但仍無法涵蓋模型在特定工作流程或業務情境中會遇到的所有細微差異。因此,內部團隊也建立了數十個情境 Eval,用來評估模型在特定產品或內部流程中的表現。這也是為什麼企業領導者需要學會根據組織需求與實際運作環境,建立專屬的情境 Eval。

這份入門指南適合正準備在組織中導入 Eval 的企業領導者。依照組織的工作流程或產品量身打造的情境 Eval 概念仍在快速發展,目前還沒有固定做法。因此,本文提供一套在多種情境中都能運作的框架。我們預期這個領域會持續演進,未來也會出現更多因應不同業務情境與目標的框架。例如,尖端 AI 消費性產品所需的 Eval 流程,可能會與依標準作業程序運作的內部自動化系統完全不同。我們認為,下方的框架在兩種情境中都能當成參考基礎,並協助你建立符合組織需求的情境 Eval。

Eval 的運作方式:指明 → 衡量 → 改進

標題為「Eval Blog」的圖表,展示模型評估相關的組件與流程,並以彩色方塊與箭頭呈現模型評估的邏輯。

1. 指明:定義「優秀」的標準

從一個有決策權的小型團隊開始,由他們用淺白語句寫下 AI 系統的用途,例如:「在保持品牌一致性的同時,將符合條件的入站電子郵件轉換成產品示範預約。」

這個團隊應由具備技術與領域專業的人員組成(像這個例子中,需要有銷售專家參與)。他們必須能說清楚最重要的成果指標、勾勒整段工作流程,並找出 AI 系統會遇到的每個關鍵決策點。在工作流程的每個步驟,團隊都要清楚定義成功的樣貌,以及有哪些必須避免的情況。這個過程會把多個輸入範例(例如入站電子郵件)與理想的系統輸出逐一配對,形成清楚的參考對照。最終產生的黃金範例集,會成為專家用來判斷「優秀」表現的長期參考標準。

別因為從零開始就倍感壓力,也不需要一次解決所有問題。這個流程本來就要經過反覆調整、多少有點混亂。及早做出原型會有很大的幫助。檢視系統早期版本的 50 至 100 個輸出,可幫助找出系統出現問題的時間點與原因。這項「錯誤分析」會整理出錯誤分類及發生頻率,供後續持續追蹤與改進。

這個過程不只是技術問題,更需要跨部門協作,重點在於把業務目標和想要的流程說清楚。不能把「判斷什麼最符合客戶需求,或產品、銷售、人資等其他團隊需要」這件事,單獨丟給技術團隊處理。因此,領域專家、技術主管和其他關鍵利害關係人都應一起負責。

2. 衡量:在真實情境下測試

下一步是進行衡量。衡量的目的,是明確找出系統何時、怎麼出問題的具體案例。要找到具體案例,需要建立貼近真實情境的測試環境,而不是只靠展示或提示詞 Playground。在測試時重現系統實際會遇到的壓力與極端案例,並依照黃金範例集與錯誤分析評估效能。

評分規準能讓系統輸出的判斷更具體,但也可能太過重視表面項目,反而偏離整體目標。此外,有些特質很難量化,甚至根本無法量化。在某些情況下,傳統的業務指標仍然很重要。而在特定情況下,則需要設計新的指標。建議讓領域專家全程參與,並確保過程從頭到尾符合你的核心目標。

要真正測試系統,應盡量採用真實情境的範例,並加入少見但出錯代價很高的案例。

某些 Eval 可以透過 LLM 評分器 來擴大規模,這類模型能像專家一樣為輸出內容評分,但仍需要有人持續參與。領域專家需要定期檢查 LLM 評分器的準確性,並直接查看系統行為的日誌。

Eval 能幫助你判斷系統何時可以推出,但推出之後還是有很多工作要做。務必持續衡量系統接收真實輸入後的實際輸出品質。如同任何產品,來自終端用戶的回饋(不論內部或外部)很重要,也應納入 Eval 中。

3. 改進:從錯誤中學習

最後一步是建立一套持續改進的流程。解決 Eval 中發現的問題有多種方式:像是調整提示詞、修改資料存取方式,或更新 Eval 本身以更貼近你的目標。發現新的錯誤類型時,記得加入錯誤分析並一併處理。每次迭代都會累積成果;新的標準和更清楚的系統行為期待,能協助你找出更多極端案例,以及過去容易被忽略的問題。

為了支援這樣的迭代,接著要建立資料飛輪。記錄輸入、輸出與結果;定期抽樣這些紀錄,並自動把模糊或成本高的案例轉交專家審查。把這些專家判斷加入 Eval 和錯誤分析,並用來更新提示詞、工具或模型。透過這個循環,你能更清楚界定系統期待、讓系統更符合這些期待,同時找出更多值得追蹤的輸出與結果。大規模使用這套流程後,會累積出龐大、內容有辨識度、並且貼近真實使用情境的資料集,這些資料集難以複製,是組織打造領先產品或流程時的重要資產。

雖然 Eval 能提供系統化的方式,協助改進 AI 系統,但新的問題類型仍可能出現。隨著模型、資料與業務目標不斷演變,Eval 也需要持續維護、擴展並做壓力測試。

對外部使用情境來說,Eval 並不能取代傳統的 A/B 測試或產品實驗。兩者相輔相成:彼此提供方向,也能幫助你看出調整後在真實情況中會帶來什麼變化。

Eval 對企業領導者的意義

每一次重大技術變革都會重塑營運能力與競爭優勢。在大數據時代,OKR 和 KPI 等框架幫助企業聚焦真正重要的指標上,並依此調整前進方向。在 AI 時代,Eval 是延伸傳統衡量方式而生的下一步。

在使用機率型系統時,需要新的衡量方式,也要更仔細思考各種取捨。領導者必須判斷哪些情況需要高度精準,哪些情況可以更有彈性,以及如何在速度和可靠性之間取得平衡。

Eval 不容易落實,和打造優秀的產品一樣,需要嚴謹的做法、長遠的眼光,還要看得懂品質的好壞。如果做得好,Eval 能成為難以複製的獨特優勢。在資訊自由流通、專業知識人人可得的時代,你的優勢取決於系統是否能在你的特定情境中確實做到位。健全的 Eval 會隨著系統的改進,不斷累積優勢和組織的實戰 know-how。

Eval 的核心在於深入理解業務的情境和目標。如果無法清楚定義在你的使用情境中「優秀」代表什麼,就很難真正做到。從這點來看,Eval 反映了 AI 時代的重要觀念:管理能力就是 AI 能力。清楚的目標、直接的回饋、穩健的判斷,以及對價值主張、策略和流程的透徹理解,依然重要,而且可能比過去任何時候都更重要。

隨著更多最佳實務做法與框架問世,我們會持續分享。同時,我們鼓勵各位嘗試使用 Eval,並找出最符合你需求的流程。首先,請確認要解決的問題及相關的領域專家,召集你的小型團隊。如果透過我們的 API 開發,請參考平台說明文件(在新視窗中開啟)

不要只期望 AI 表現「優秀」,要把「優秀」具體定義清楚,加以衡量,並持續朝這個方向改進。

作者

OpenAI

註腳

  1. 1

    如果你願意支持我們打造下一代 AI 模型,我們誠摯邀請你參與 GDPVal,這是我們用來評估模型在真實任務中表現的最新基準。如果你是產業專家,並且有意參與 GDPVal,請在此處表達興趣。目前與 OpenAI 合作的客戶如有意願參與未來階段的 GDPVal,請在此處表達興趣