衡量模型在執行現實世界任務時的表現
我們推出的 GDPval 是一項全新的評估方法,用於衡量模型在執行 44 種職業中具有經濟價值的現實世界任務時的表現。
我們的使命是確保通用人工智慧能造福全人類。為了達成我們的使命,針對人工智慧模型在現實世界如何協助大家,我們希望公開透明地傳達這方面的進展。因此,我們推出 GDPval:這項全新的評估方法旨在協助追蹤我們的模型和其他模型在執行具有經濟價值的現實世界任務時的表現。我們將這項評估方法稱為 GDPval,因為我們以國民生產毛額 (GDP) 為關鍵經濟指標,並從對 GDP 貢獻最大的行業中的關鍵職業提取任務。
大家經常推測人工智慧對社會的廣泛影響,但是最能清楚地理解其潛力的方式,就是了解模型目前已經能做到什麼地步。歷史顯示,從網際網路到智慧型手機,任何重大的科技從最初發明到廣泛採用都需要十年以上的時間。像 GDPval 這樣的評估方法有助於將關於未來人工智慧改進的對話建立在證據而非猜測的基礎之上,並且有助於我們追蹤模型經過時間的改進。
之前如具有挑戰性的學術測試和競爭性程式設計挑戰等人工智慧評估,對於突破模型推理能力的邊界至關重要,但它們往往無法滿足許多人在日常工作中處理的那類任務。
為了彌補這個差距,我們一直在開發各類評估方法以衡量日益實際且與經濟相關的能力。這種進展已經從經典的學術基準 (例如 MMLU,涵蓋數十個學科的考試型題目) 發展到應用性更強的評估 (例如 SWE-Bench,軟體工程錯誤修正任務;MLE-Bench,機器學習工程任務,例如模型訓練和分析;以及 Paper-Bench,對研究論文的科學推理與評判),以及最近以市場為基礎的評估 (例如 SWE-Lancer,以實際報酬為基礎的自由職業軟體工程專案) 。
GDPval 是這項發展的下一步。它以各行各業專業人士的真實工作任務為基礎,評估模型表現,讓我們更清楚掌握模型在具備經濟價值的任務所展現的實際能力。在實際的職業任務上評估模型,不僅有助於我們了解它們在實驗室中的表現,更能了解它們如何支援大家的日常工作。
GDPval 是此評估方法的第一個版本,涵蓋對美國 GDP 貢獻最大的 9 個行業中選出的 44 種職業。完整的 GDPval 包含 1,320 項專業任務 (其中 220 項屬於開放原始碼的黃金集),每項任務皆由擁有平均超過 14 年相關領域經驗的資深專業人士精心設計和審核。每項任務皆以實際工作產出為基礎,例如法律意見書、工程藍圖、客戶支援對話或護理方案。
GDPval 的獨特之處在於其真實性和評估任務的多樣性。GDPval 與其他著重於特定領域 (例如 SWE-Lancer) 的經濟價值評估不同,涵蓋許多任務和職業。並且,GDPval 也與那些以學術考試或測驗形式人工建立任務的基準 (例如 Humanity’s Last Exam 或 MMLU) 不同,它關注的任務以提供可交付成果為基礎,可以是今天實際存在的工作或產品,也可以是類似建構的工作產物。
GDPval 任務與傳統基準測試不同,並非簡單的文字提示。它們附帶參考檔案和上下文,且預期可交付成果涵蓋文件、投影片、圖表、試算表和多媒體。這種真實性使 GDPval 能對模型如何支援專業人士做出更真實的測試。
GDPval 只是初步嘗試,尚未反映許多經濟任務的完整細微差別。雖然它涵蓋 44 種職業和數百項知識工作任務,但它僅限於單次評估,因此無法擷取模型需要建立上下文或透過多次草稿逐步改進的情況。未來版本將擴展到更具互動性的工作流程和上下文豐富的任務,以更好地反映現實世界知識工作的複雜性 (請參閱下方「限制」區段以查看更多内容)。
GDPval 涵蓋 9 個行業和 44 種職業的任務,未來版本將繼續擴大涵蓋範圍。初期 9 個行業根據聖路易斯聯邦儲備銀行的資料確定,這些行業對美國 GDP 的貢獻率超過 5%。然後,我們使用 2024 年 5 月美國勞工統計局 (BLS) 職業就業報告(在新視窗中開啟)中的工資和就業資料,在每個行業中選出對總工資和薪酬貢獻最大且主要為知識工作的 5 種職業。為了確定職業是否主要為知識工作,我們使用 O*NET(在新視窗中開啟) (由美國勞工部贊助的美國職業資訊資料庫) 中的任務資料。我們將 O*NET 中各職業的每項任務分類為知識型工作或肢體勞動(即需在現實世界中執行的行動)。如果某種職業的組成任務中有至少 60% 被歸類為不涉及體力工作或肢體勞動,則該項職業總體上符合「主要為知識工作」的資格。我們選擇這個 60% 的門檻作為 GDPval 第一版的起點,著重於人工智慧可能對現實世界生產效率產生最大影響的職業。
這個流程最終納入 44 種職業。
房地產和租賃
禮賓服務人員
物業、房地產及社區管理會經理
房地產銷售經紀人
房地產仲介
櫃檯與租賃事務人員
政府
休閒活動指導員
合規性官員
警察和偵探一線主管
行政服務經理
兒童、家庭及學校社工
製造
機械工程師
工業工程師
採購和採購專員
貨運、收貨及庫存管理員
生產和作業人員第一線主管
專業、科學及技術服務
軟體開發者
律師
會計師和稽核師
電腦和資訊系統經理
專案管理專家
醫療保健和社會援助
註冊護理師
執業護理師
醫療和健康服務經理
辦公室和行政支援人員第一線主管
醫療秘書和行政助理
金融和保險
客戶服務代表
金融和投資分析師
財務經理
個人財務顧問
證券、商品及金融服務銷售代理
零售貿易
藥師
零售銷售人員第一線主管
總經理和營運經理
私人偵探和調查員
批發貿易
銷售經理
訂單處理員
非零售銷售人員第一線主管
批發和製造銷售代表 (不含科技產品)
批發和製造銷售代表 (科技產品)
資訊
音訊和視訊技術人員
製作人和導演
新聞分析師、記者和新聞從業人員
電影和影片剪輯師
編輯者
針對每種職業,我們均與經驗豐富的專業人士合作,建立能反映他們日常工作的代表性任務。這些專業人士擁有平均 14 年的工作經驗,並擁有良好的職業晉升記錄。我們特意招募不同背景的專家,例如來自不同執業領域和不同規模律師事務所的律師,以盡可能擴大代表性。
每項任務都經過多步驟審核流程,以確保它代表實際工作,可由其他專業人士完成且評估標準清晰。平均來說,每個任務經過 5 輪專家審核,包括其他任務編寫者、額外的職業審核員審核以及以模型為基礎的驗證。
最終資料集涵蓋每個職業 30 個經完整審查的任務 (完整版本),以及我們開放原始碼的黃金資料集中每個職業 5 個任務,為評估模型在真實知識型工作中的表現奠定穩固基礎。
GDPval 任務範例
提示 + 任務上下文
經驗豐富的真人交付成品

為了評估模型在 GDPval 任務中的表現,我們依賴專業的「評分員」,資料集中職業相同的一群經驗豐富的專業人士。這些評分員在不知情的情況下 (不知道哪些是人工智慧產生的,哪些是人類產生的) 比較模型產生的可交付成果與任務編寫者產出的可交付成果,並提供評判和排名。然後評分員將人類和人工智慧可交付成果排名,並將每個人工智慧可交付成果分類為「比較好」、「一樣好」或「比較差」。
任務編寫者也為他們的職業制定詳細的評分標準,以便提高評分流程的一致性和透明度。我們也建立了「自動評分員」,這是一個經過訓練的人工智慧系統,可以估計人類專家對特定可交付成果的評判標準。換句話說,自動評分員無需每次都進行整套專家審核,便可快速預測哪種輸出結果較受大家喜愛。我們透過 evals.openai.com 發佈此工具作為實驗性研究服務,但它目前不如專家評分員可靠,因此我們不打算用它來取代專家評分員。
如今最佳尖端模型的成果品質已接近業界專家水準。為了驗證這一點,我們進行了盲測評估,邀請業界專家比較多款頂尖模型(GPT‑4o、o4‑mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4)與人類所產出成果的差異。在 GDPval 黃金集的 220 個任務中,我們記錄了模型輸出被評為優於 (「勝出」) 或與產業專家的可交付成果相當 (「平手」) 的情況,如下方長條圖所示。Claude Opus 4.1 是本資料集中表現最佳的模型,尤其在美觀性 (例如文件格式設定、投影片佈局) 方面表現出色,而 GPT‑5 在準確性 (例如查找特定領域知識) 方面則尤為出色。我們也看到這些任務經過一段時間清楚的進展。從 GPT‑4o (2024 年春季發佈)到 GPT‑5 (2025 年夏季發佈),效能提升了一倍多,呈現出明顯的線性趨勢。
此外,我們發現尖端模型完成 GDPval 任務的速度大約是產業專家的一百倍,而成本僅約為其百分之一。然而,這些數字反映出純模型推理時間和 API 計費費率,因此並未擷取實際工作場所設定中使用我們的模型所需的人類監督、迭代和整合步驟。儘管如此,尤其是在模型性能特別強大的任務子集上,我們預期在嘗試由人類完成之前先將任務交給模型處理,將能節省時間和金錢。
專家評分員將領先模型的可交付成果與人類專家的成果互相比較。如今前沿模型的成果品質已接近行業專家水準。Claude Opus 4.1 輸出成果在將近一半的任務中被評為與人類同等或更優。
從 GPT‑4o 到 GPT‑5,GDPval 任務的表現效能在一年內增加了兩倍多。
我們對一個內部的實驗性 GPT‑5 版本進行增量訓練,以評估是否能提高 GDPval 的表現。我們發現這個流程確實可以提升效能,並且為進一步的潛在改進鋪路。其他對照實驗也支持這一點:增加模型規模、鼓勵更多推理步驟以及提供更豐富的任務上下文,都能帶來可衡量的效益。
您可以在我們的論文中閱讀完整結果。我們也將發佈 GDPval 任務的黃金子集和一項公共評分服務,以便讓其他研究人員在這個基礎上繼續發展。
由於人工智慧能力不斷提升,就業市場很可能出現變化。初步的 GDPval 結果顯示,這些模型已能以更快的速度與更低的成本,完成部分重複性高且定義明確的任務,表現甚至可媲美專家。然而,大多數工作不僅僅是一系列可以寫下來的任務集合。GDPval 強調人工智慧可以處理日常的例行性任務,以便於人們將更多時間投入創造性和判斷性較強的工作中。當人工智慧以這種方式補充勞動力時,它可以轉化為顯著的經濟成長。我們的目標是藉由普及這些工具的存取權、支援勞動者度過變革,以及建立獎勵廣泛貢獻的體系,讓每個人都能搭上人工智慧的「上升電梯」。
GDPval 只是初步嘗試。雖然它涵蓋 44 種職業和數百項任務,但我們仍在持續改進方法以擴大測試範圍,使結果更有意義。目前版本也只做了一次性的評估,因此沒有捕捉到模型需要建立上下文或透過多次草稿逐步改進的情況——例如,在客戶回饋後修改法律意見書,或在發現異常後迭代資料分析。此外,現實世界無法總是利用提示詞和參考檔案來明確地定義任務;例如,律師可能需要處理模稜兩可的問題,並與客戶溝通,才能確定編寫法律意見書是幫助他們的正確方法。我們計劃擴展 GDPval 以涵蓋更多職業、行業和任務類型,提高互動性,並增加更多涉及處理模糊性的任務,其長期目標是更好地衡量多元化知識工作的進展。
- 如果您是行業專家,有興趣為 GDPval 做出貢獻,請在此處表達您的興趣。
- 目前與 OpenAI 合作的客戶如有意願參與未來階段的 GDPval,請在此處表達興趣。
社群參與十分重要——我們很高興能與研究人員、從業人員和組織共同建構 GDPval,他們與我們有著共同的目標,那就是讓 AGI 對人們的工作更有用。


