跳到主要內容
OpenAI

2025年9月25日

發佈研究

衡量我們模型在現實世界任務上的表現

我們將推出 GDPval,這是一種新的評估指標,用來衡量模型在涵蓋 44 種職業的具有經濟價值之現實世界任務上的表現。

我們的使命是確保通用人工智能可造福全人類。作為我們使命的一部分,我們希望能夠透明地傳達人工智能模型如何在真實世界中幫助人們的進展。這就是我們推出 GDPval 的原因:這是一種新的評估方式,用來協助我們追蹤模型及其他系統在具有經濟價值的實際任務上表現如何。我們稱此評估為 GDPval,因為我們從國內生產總值(GDP)這個關鍵經濟指標的概念開始,並從對 GDP 貢獻最大的各產業中的重要職位中選取任務。

人們經常推測 AI 對社會的更廣泛影響,但理解其潛力的最清晰方式是觀察模型已經能夠做到什麼。歷史表明,從互聯網到智能手機等重大技術,從發明到廣泛採用需要十多年的時間。像 GDPval 這樣的評估有助於將關於未來 AI 改進的討論建立在證據而非猜測之上,並能幫助我們追蹤模型隨著時間的推移所取得的進步。

過去的 AI 評估,例如具挑戰性的學術測驗和競爭性編程挑戰,對於推動模型推理能力的界限至關重要,但它們往往無法涵蓋許多人在日常工作中處理的任務類型。

為了彌補這個差距,我們一直在開發評估方法,用以衡量日益逼真且具有經濟相關的能力。這條發展路徑已經從經典的學術基準測試,如 MMLU(涵蓋數十個學科的考試式問題),進展到更實際應用的評估,如SWE-Bench(軟件工程除錯任務)、MLE-Bench(機器學習工程任務,例如模型訓練與分析)和Paper-Bench(針對研究論文的科學推理與批判),以及最近基於市場的評估,例如SWE-Lancer(根據實際報酬的自由軟件工程項目)。

GDPval 是這條路徑上的下一個步驟。它衡量模型在直接取自不同職業和領域經驗豐富專業人士的真實世界知識工作任務上的表現,為模型在具備經濟價值任務上的表現提供了更清晰的全貌。針對真實的職業任務來評估模型,有助於我們了解它們在實驗室中的表現,以及它們如何能支援人們的日常工作。 

GDPval 的衡量內容

GDPval 是此評估的第一個版本,涵蓋了從對美國 GDP 貢獻最大的前 9 大產業中選出的 44 種職業。GDP.GDPval 全系列包含 1,320 個專業任務(其中 220 個屬於被標記為可信程度最高的「金標」級別且開源的子集),所有任務皆經過具備平均 14 年以上專業背景的資深專家精心設計與審核。每個任務都以真實的工作產出為基礎,例如訴訟摘要、工程藍圖、客戶支援對話,或護理計劃。

GDPval 的獨特之處在於其所評估任務的真實性和多樣性。與其他專注於特定領域(例如 SWE-Lancer)並與經濟價值掛鉤的評估不同,GDPval 涵蓋了許多任務和職業。有別於涉及以學術考試或測驗形式人為建立任務的基準測試(例如 Humanity’s Last Exam 或 MMLU),GDPval 專注於以交付成果為基礎的任務,這些交付成果或是現今實際存在的工作或產品,或是以類似方式建構的工作成果。 

與傳統基準測試不同,GDPval 任務並非單純的文字提示詞。它們附帶參考檔案和情境,且預期的交付成果涵蓋文件、投影片、圖表、試算表和多媒體。這種真實性讓 GDPval 更能實際測試模型可以如何支援專業人士。

GDPval 是一個初步的步驟,尚未完全反映許多經濟任務的細微差別。儘管它涵蓋 44 種職業和數百項知識工作任務,但它僅限於單次評估,因此未能涵蓋模型需要建構情景或經由多次修正才逐步改善的情況。未來的版本將會擴展到更具互動性的工作流程和情境豐富的任務,以更好地反映真實世界知識工作的複雜性(詳情請參見下方的「限制」部分)。

我們如何選擇職業

GDPval 涵蓋了 9 個產業和 44 種職業中的任務,未來的版本將繼續擴大涵蓋範圍。最初的 9 個產業是根據它們對美國 GDP 的貢獻超過 5% 來選擇的。此資料源自聖路易斯聯邦準備銀行。然後,我們利用2024年5月美國勞工統計局(BLS)的職業就業報告(在新視窗中開啟)中的薪酬和就業資料,在每個產業中選出了 5 種對總薪酬和報酬貢獻最大的職業,且這些職業主要為知識型工作職業。為了判斷這些職業是否主要為知識型工作,我們使用了來自 O*NET(在新視窗中開啟) 的任務資料。這是一個由美國勞工部贊助的美國職業資訊資料庫。我們將 O*NET 中每種職業的每項任務分類為知識型工作或體力型工作或體力勞動(需要在現實的物理世界中進行操作)。如果一項職業中至少 60% 的組成任務被歸類為不涉及體力型工作或體力勞動,則該職業整體上符合「主要為知識型工作」的資格。我們選擇 60% 這個門檻作為 GDPval 第首個版本的起點,專注於那些 AI 可能對現實世界生產力影響最大的職業。 

這個過程最後篩選出 44 個職業。

地產、租賃及出租業

  • 接待員

  • 物業、地產及社區協會經理

  • 地產銷售經紀

  • 地產經紀

  • 櫃檯及租賃事務員

政府

  • 娛樂休閒工作者

  • 法規遵循專員

  • 警察和偵探的一線主管

  • 行政服務經理

  • 兒童、家庭和學校社工

製造業

  • 機械工程師

  • 工業工程師

  • 買家與採購代理

  • 運輸、收發和庫存管理員

  • 生產與作業員工的一線主管

專業、科學和技術服務

  • 軟件開發人員

  • 律師

  • 會計師與核數師

  • 電腦與資訊系統經理

  • 項目管理專家

醫療保健和社會協助

  • 註冊護士

  • 護士

  • 醫療和健康服務經理

  • 辦公室和行政支援人員基層主管

  • 醫務秘書和行政助理

金融和保險

  • 客戶服務代表

  • 金融和投資分析師

  • 財務經理

  • 個人理財顧問

  • 證券、商品和金融服務銷售代理

零售貿易

  • 藥劑師

  • 零售銷售工人的基層主管

  • 總經理與營運經理

  • 私家偵探與調查員

批發貿易

  • 銷售經理

  • 訂單處理員

  • 非零售銷售工人的基層主管

  • 批發與製造業銷售代表(技術與科學產品除外)

  • 批發與製造業銷售代表(技術與科學產品)

資訊行業

  • 音訊與視訊技術人員

  • 製片人與導演

  • 新聞分析師、記者與新聞工作者

  • 電影與視訊剪接師

  • 編輯

GDPVal 橫跨 9 個產業的 44 種知識工作職務,從軟件開發商、律師到註冊護士和機械工程師。選擇這些職務是基於它們的經濟重要性,並且代表了 AI 可以在日常工作中為專業人士提供實質幫助的工作類型。

我們如何建構資料集

對於每個職業,我們與經驗豐富的專業人士合作,建立了代表他們日常工作的任務。這些專業人士平均擁有 14 年的工作經驗,且有良好的晉升記錄。我們刻意招募了各領域的專家,例如來自不同專業領域的律師以及不同規模的律師事務所,以確保達到最大程度的代表性。

每一項任務都透過多步驟的檢核程序,以確保其代表真實工作、而且可由其他專業人士完成,並且在評估過程中清楚易懂。平均而言,每個任務都經歷了 5 輪專家審核,包括其他任務撰寫者的檢查、額外職業審查員的審核,以及模型驗證。 

最終的資料集包括每個職業 30 個經過全面審查的任務(完整集),以及我們的「金標」級別開源子集中每個職業的 5 個任務,為評估模型在實際知識工作中的表現提供了穩固的基礎。

GDPval 任務範例

提示詞及任務情境

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

富經驗的人類交付成果

電纜捲盤設計的分解圖
GDPval 中的每個任務皆由經驗豐富的專業人士設計,並反映其職業中的實際知識性工作。該提示詞是一個由領域專家創建的真實工作任務,而最終成果是該專家自身的解決方案。

我們如何為模型表現評分

為了評估模型在 GDPval 任務上的表現,我們依賴於專業的「評分員」,他們是來自資料集所代表的相同職業、經驗豐富的專業人士。這些評分員盲目地比較模型產生的成果與任務撰寫者所製作的成果(他們不知道哪個由 AI 產出、哪個由人類產出),並提供評論和排名。接著,評分員會對人類和 AI 產出的成果進行排名,並將每個 AI 成果分類為「優於」、「與之相當」或「差於」另一個成果。

任務撰寫者也為他們的職業建立了詳細的評分標準,這為評分過程增加了穩定性和透明度。我們也建立了一個「自動評分系統」,這是一個 AI 系統,經過訓練以評估人類專家會如何判斷特定的交付成果。換句話說,自動評分系統可以快速預測人們可能會偏好哪個輸出,而不是每次都進行完整的專家審查。我們正透過 evals.openai.com 發佈此工具作為實驗性的研究服務,但它尚未像專家評分員一樣可靠,因此我們不會用它來取代專家。 

初步成果

我們發現現今最先進的模型已能產生接近業界專家產出的工作品質。為了測試這一點,我們進行了盲測評估,由業界專家將幾個領先模型的交付成果 (GPT‑4o、o4‑mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro 和 Grok 4) 與人類產出的工作進行比較。在 GDPval 金標開源子集中的 220 項任務中,我們記錄了模型輸出被評為優於(「勝出」)或與業界專家的交付成果相當(「平手」)的情況,如下方的長條圖所示。Claude Opus 4.1 是這批模型中表現最佳的,特別在美學方面表現出色(例如文件格式、投影片佈局),而 GPT‑5 則特別在準確性方面表現優異(例如尋找特定領域知識)。我們也看到這些任務的性能隨著時間推移有顯著進步。從 GPT‑4o(於 2024 年春季發布)到 GPT‑5(於 2025 年夏季發布),性能提升了一倍以上,遵循著清晰的線性趨勢。

此外,我們發現最先進模型完成 GDPval 任務的速度比業界專家快約 100 倍,成本也便宜約 100 倍。然而,這些數據僅反映模型推論時間與 API 計費標準,因此並未涵蓋在實際工作環境中使用我們模型所需的人為監督、反覆修正以及整合步驟。儘管如此,特別是在模型表現特別強大的任務子集上,我們預計在請人類處理之前先交由模型處理任務,將能節省時間和金錢。

專家評級者將頂尖模型與人類專家交付的成果進行比較。現今的最先進模型產出的工作品質已經接近業界專家的水準。Claude Opus 4.1 在略低於半數的任務中,產出的成果被評為與人類一樣好或更加好。

從 GPT‑4o 到 GPT‑5,GDPval 任務的表現在一年內提升了三倍以上。 

最後,我們逐步訓練了一個內部的實驗版本 GPT‑5,以評估我們是否可以提高其在 GDPval 上的性能。我們發現這個過程確實改善了性能,為進一步的潛在提升創造了一條途徑。其他對照實驗也支持這一點:增加模型大小、鼓勵更多推理步驟以及提供更豐富的任務背景資訊,都帶來了可衡量的增益。

您可以在我們的論文中閱讀完整的結果。我們也將發布 GDPval 任務的一個金標開源子集和一個公開評分服務,以便其他研究人員可以在此基礎上繼續進行研究。

未來的工作與 AI 

隨著 AI 變得更具能力,它很可能會對就業市場造成改變。GDPval 的初步結果顯示,模型在處理一些重複性、明確規範的任務時,其速度和成本已經能夠勝過專家。然而,大多數工作不只是一堆可以被寫下來的任務集合。GDPval 強調 AI 可以處理哪些常規性任務,讓人們能花更多時間在工作中需要創意和判斷的部分。當 AI 以這種方式輔助員工時,可以轉化為顯著的經濟成長。我們希望透過讓這些工具普及化,讓所有人都能在 AI 的「上行電梯」上前進,幫助勞動者順利適應變革,並建造一個獎勵廣泛貢獻的系統。 

限制和下一步

GDPval 只是第一步。儘管它涵蓋了 44 種職業和數百項任務,我們仍持續改良我們的方法,以擴大測試的範圍並使結果更具意義。目前的評估版本同樣是單次操作,因此它無法反映模型在需要建立情景或經由多次修正提升結果的情況,例如收到客戶反饋後修改訴訟摘要,或在發現異常後對資料分析進行反覆調整等。此外,在現實世界中,任務並非總是以明確的提示詞和參考檔案來定義;例如,律師可能必須處理模糊不清的狀況,並與客戶溝通後才能確定撰寫訴訟摘要是幫助他們的正確方法。我們計劃擴充 GDPval,納入更多職業、產業和任務類型,增加互動性,以及更多涉及處理模糊不清狀況的任務,長遠目標是更好地衡量各種知識工作的進展。

參與其中

社群參與至關重要,我們很期待能與研究人員、從業人員以及認同我們「讓 AGI 在工作中對人們更有用」這個目標的組織,一起建構 GDPval。