全球超過一百萬家企業正在運用 AI 提升效率,並創造實際價值,然而部分組織發現成果未能達到原本的預期。造成這項落差的原因是什麼?
OpenAI 在公司內部運用 AI 來達成宏大的目標。我們使用的一套關鍵工具是 Eval,用來衡量並提升 AI 系統達到期望的能力。
Eval 類似產品需求文件,能把含糊的目標或抽象概念說清楚、講明白。善用 Eval 能讓客戶端產品或內部工具在擴展規模時保持穩定,減少重大錯誤、降低風險,並為組織建立可追蹤的投報提升路徑。
在 OpenAI,模型本身就是產品,因此研究人員會使用嚴謹的 前沿 Eval(在新視窗中開啟) 1 來檢視模型在不同領域的表現。前沿 Eval 能讓我們更快推出更好的模型,但仍未能涵蓋模型在特定工作流程或業務情境中會遇到的所有細微差異。因此,內部團隊亦建立了數十個情境 Eval,用來評估模型在特定產品或內部流程中的表現。這亦是為什麼企業領導者需要學會根據組織的需求及實際運作環境,建立專屬的情境 Eval。
這份入門指南適合準備在組織內引入 Eval 的企業領導者。為配合不同組織的工作流程或產品而打造的情境 Eval 仍在快速發展,目前未有固定做法。因此,本文提供一套能在多種情境中運作的通用框架。我們預期這個領域會持續演進,未來會出現更多因應不同業務情境及目標的框架。例如,尖端 AI 消費產品所需的 Eval 流程,可能與依標準作業程序運作的內部自動化系統截然不同。我們相信,下方框架可同時作為兩種情境的最佳實務基礎,並協助你建立符合組織需要的情境 Eval。
由一個具決策權的小型團隊著手,讓他們用淺白語句寫下 AI 系統的用途,例如:「在保持品牌一致性的同時,把符合條件的入站電郵轉換成示範預約」。
這個團隊應由具備技術與領域專長的人員組成(例如這個案例中,需有銷售專家參與)。他們必須能指出最重要的衡量成果、勾勒完整工作流程,並識別 AI 系統會面對的每個關鍵決策點。在工作流程的每個步驟,團隊都需要明確定義成功的樣貌,以及必須避免的情況。這個過程會把多個輸入範例(例如入站電郵)與期望的系統輸出逐一配對,形成清晰的對照參考。最終產生的黃金範例集,會成為專家判斷「優秀」表現的長期權威參考。
別因為從零開始就倍感壓力,也不需要一次把所有問題都解決。這個流程本來就會不斷反覆調整,有時難免有點混亂。提早做出原型會帶來很大幫助。檢視系統早期版本的 50 至 100 筆輸出,可以幫助找出系統出現問題的時間點和原因。這份「錯誤分析」會整理出不同錯誤類型及其發生頻率,方便在後續持續追蹤與改進。
這個過程不只是技術問題,更需要跨部門協作,核心是講清楚業務目標和期望的流程。不能把「判斷什麼最符合客戶需求,或產品、銷售、人資等其他團隊需要」這件事,單獨交給技術團隊處理。領域專家、技術主管及其他關鍵利害關係人應共同參與。
下一步是進行衡量。衡量的目的,是明確找出系統在什麼情況、以何種方式出現問題的具體例子。為此,請建立貼近真實情境的專用測試環境,而不只是依賴展示或提示詞 Playground。在測試時重現系統實際會遇到的壓力和極端情況,並依照黃金範例集及錯誤分析評估效能。
評分規準能讓系統輸出的判斷更具體,但也可能過度著重表面項目,反而偏離整體目標。此外,有些特質很難量化,甚至根本無法量化。在某些情況下,傳統的業務指標仍然十分重要。而在其他情況下,則需要設計全新的指標。請讓領域專家全程參與,確保整個流程與你的核心目標保持一致。
要真正測試系統,應盡量採用真實情境的例子,並加入雖然少見但出錯代價很高的案例
某些 Eval 可透過 LLM 評分器 來擴展規模,這類模型能像專家一樣為輸出內容評分,但仍需要有人持續參與。領域專家需要定期檢查 LLM 評分器的準確性,並直接查看系統行為紀錄。
Eval 能幫助你判斷系統何時可以推出,但推出後仍有許多工作要做。務必持續衡量系統接收真實輸入後的實際輸出品質。如同任何產品,來自終端用戶的回饋(無論內部或外部)都十分重要,也應納入 Eval 中。
最後一步是建立一套持續改進的流程。解決 Eval 中發現的問題有多種方法,例如調整提示詞、修改資料存取方式,或更新 Eval 本身以更貼近你的目標。發現新的錯誤類型時,請加入錯誤分析並一併處理。每次迭代都會累積成果;新的標準和更清楚的系統行為期望,能協助你找出更多極端情況,以及過去容易被忽略的問題。
為了支援迭代,下一步是建立資料飛輪。記錄輸入、輸出與結果;按既定時間抽樣這些紀錄,並自動將模糊或成本高的案例轉交專家審閱。把這些專家判斷加入 Eval 和錯誤分析,並據此更新提示詞、工具或模型。透過這個循環,你能更清晰界定系統的期望、令系統更貼近這些期望,同時找出更多值得追蹤的輸出與結果。大規模採用這套流程後,將累積出龐大、有辨識度、貼近實際使用情境的資料集;這些資料集難以複製,是組織打造領先產品或流程的重要資產。
雖然 Eval 能提供系統化的方法,用以改進 AI 系統,但新的失誤模式仍可能出現。隨著模型、資料與業務目標不斷演變,Eval 亦需要持續維護、擴展並進行壓力測試。
在對外部署時,Eval 並不能取代傳統的 A/B 測試或產品實驗。兩者相輔相成:可為彼此提供方向,並協助你看清調整後在真實情況中帶來的影響。
每一次重大技術轉變都會重塑營運能力與競爭優勢。在大數據時代,OKR 與 KPI 等框架協助企業聚焦真正重要的指標,並據此調整方向。在 AI 時代,Eval 是從傳統衡量方式延伸而來的下一步。
在使用機率型系統時,需要新的衡量方式,亦需要更深入思考各種取捨。領導者必須判斷何時必須追求高度精準、何時可以更有彈性,以及如何在速度與可靠性之間取得平衡。
Eval 不容易落實,和打造優秀產品一樣,需要嚴謹的做法、遠見,以及分辨品質的能力。如果做得好,Eval 能成為難以複製的獨特優勢。在資訊自由流通、專業知識人人可得的年代,你的競爭力取決於系統能否在你的實際情境中真正做到位。健全的 Eval 會隨着系統持續改進,不斷累積優勢和組織經驗。
Eval 的核心在於深入理解業務的情境和目標。如果不能清楚定義在你的使用情境中「優秀」代表什麼,就很難真正達成。從這點來看,Eval 顯示了 AI 時代的一項重要觀念:管理能力就是 AI 能力。清晰的目標、直接的回饋、穩健的判斷,以及對價值主張、策略和流程的透徹理解仍然重要,甚至比以往更關鍵。
隨着更多最佳實務和框架問世,我們會持續分享。同時,我們鼓勵各位嘗試使用 Eval,並找出最符合你需求的流程。首先,請確認要解決的問題及相關領域專家,召集你的小型團隊;若你透過我們的 API 開發,請參考平台說明文件(在新視窗中開啟)。
不要只期望 AI 自然表現「優秀」,而是要把「優秀」具體定義、衡量,並持續朝這方向改進。


