衡量模型在现实世界任务中的表现
我们推出 GDPval——一项全新评估指标,用于衡量模型在 44 个职业领域中具有经济价值的现实任务上的表现。
我们的使命是确保通用人工智能造福全人类。为此,我们致力于透明地展示 AI 模型如何在现实世界中惠及人类。因此我们推出 GDPval:这项新评估体系旨在追踪我们及他方模型在具有经济价值的现实任务中的表现。我们将其命名为 GDPval,源于以国内生产总值 (GDP) 为核心经济指标的理念,并从对 GDP 贡献最大的行业关键职业中提取任务。
人们常对 AI 对社会的广泛影响进行推测,但理解其潜力的最清晰途径是观察模型现已具备的能力。历史表明,从互联网到智能手机等重大技术,从发明到广泛应用都经历了十余年时间。GDPval 等评估体系有助于将关于未来 AI 进步的讨论建立在证据而非猜测之上,并能帮助我们追踪模型随时间的改进。
以往的 AI 评估如学术测验和编程竞赛虽推动了模型推理能力的边界,却往往未能涵盖多数人日常工作中处理的任务类型。
为弥合这一差距,我们正开发衡量日益现实且具有经济意义能力的评估体系。这一发展历程已从经典学术基准测试(如涵盖数十个学科的考试式问题集MMLU)延伸至更具应用性的评估体系,例如:SWE-Bench(软件工程缺陷修复任务)、MLE-Bench(机器学习工程任务,如模型训练与分析),以及 Paper-Bench(科研论文的科学推理与批判),而近期更延伸至市场化评估体系,例如 SWE-Lancer(基于真实报酬的自由职业软件工程项目)。
GDPval 正是这一进阶路径的最新成果。它通过直接取材于各行业资深专业人士的实际知识工作任务来衡量模型性能,清晰展现模型在经济价值任务中的表现。基于真实职业任务的评估不仅能揭示模型在实验室环境中的表现,更能洞察其如何助力人们完成日常工作。
作为该评估体系的首版,GDPval 涵盖美国 GDP 前九大产业中精选的 44个 职业领域。完整数据集包含 1,320 项专业任务(黄金开源集含 220 项),每项任务均由来自相关领域的资深专家精心设计并审核,这些专家平均拥有超过 14 年的从业经验。每项任务均基于真实工作成果,例如法律文书、工程蓝图、客户支持对话或护理计划。
GDPval 在任务真实性和多样性方面独具特色。不同于聚焦特定领域的经济价值评估(如 SWE-Lancer),GDPval 覆盖广泛的任务类型和职业领域。与采用学术考试模式合成任务的基准测试(如人类终极测试或 MMLU)不同,GDPval 专注于基于实际交付成果的任务——这些成果要么是现存的真实工作产品,要么是结构相似的模拟工作成果。
与传统基准不同,GDPval 任务并非简单文本提示。而是附带参考文件和背景信息,预期交付物涵盖文档、幻灯片、图表、电子表格及多媒体。这种现实性使 GDPval 更能真实检验模型如何辅助专业人士。
当前版本仅是初步尝试,尚未充分体现众多经济任务的复杂性。虽然涵盖 44 个职业领域和数百项知识工作任务,但当前版本仅限于单次评估,无法捕捉模型需要构建背景信息或通过多次修订改进的场景。未来版本将扩展至更交互的工作流程和背景信息丰富的任务,以更好地反映现实世界知识工作的复杂性(详见下文“局限性”部分)。
GDPval 涵盖 9 大行业及 44 种职业的任务,未来版本将持续扩展覆盖范围。初始选定的 9 大行业基于圣路易斯联邦储备银行数据,筛选出对美国 GDP 贡献率超过 5% 的行业。随后,我们依据美国劳工统计局 (BLS) 2024 年 5 月职业就业报告中的薪资与就业数据(在新窗口中打开),在每个行业内筛选出 5 个对总薪酬贡献最大且以知识型工作为主的职业。为判定职业是否以知识工作为主导,我们采用了美国劳工部赞助的职业信息数据库 O*NET(在新窗口中打开) 中的任务数据。我们对 O*NET 中每个职业的各项任务进行分类,区分其属于知识工作或体力劳动/手工劳动(需在物理世界中进行操作)。若某职业至少 60% 的组成任务被归类为不涉及体力劳动或手工劳动,则该职业整体符合“以知识工作为主”的标准。我们选择 60% 作为 GDPval 初版评估的起点,重点关注 AI 对现实生产力影响最大的职业领域。
该流程最终筛选出 44 个职业纳入评估范围。
房地产、租赁与租赁管理
礼宾服务员
物业、房地产及社区协会经理
房地产销售代理
房地产经纪人
柜台及租赁服务员
政府部门
休闲娱乐工作者
合规专员
警察与侦探一线主管
行政服务经理
儿童、家庭及学校社工
制造业
机械工程师
工业工程师
采购员与采购代理
发货、收货与库存文员
生产与操作工人一线主管
专业、科学与技术服务
软件开发人员
律师
会计师与审计师
计算机与信息系统经理
项目管理专家
医疗保健与社会援助
注册护士
执业护士
医疗与健康服务管理人员
办公室及行政支持人员一线主管
医疗秘书与行政助理
金融与保险
客户服务代表
金融与投资分析师
财务经理
个人理财顾问
证券、商品及金融服务销售代理
零售贸易
药剂师
零售销售人员一线主管
综合与运营经理
私家侦探与调查员
批发贸易
销售经理
订单文员
非零售销售人员一线主管
批发与制造业销售代表(不含技术及科学产品)
批发与制造业技术及科学产品销售代表
信息行业
音视频技术员
制片人与导演
新闻分析师、记者与新闻工作者
影视剪辑师
编辑
针对每种职业,我们与经验丰富的专业人士合作,设计出能反映其日常工作的代表性任务。这些专业人士平均拥有 14 年从业经验,且晋升记录良好。我们刻意招募了广泛领域的专家——例如来自不同执业领域和不同规模律所的律师——以最大限度提升代表性。
每项任务均经过多轮审核流程,确保其真实反映实际工作、可由其他专业人士完成且便于评估。平均每项任务经历 5 轮专家审核,包括其他任务撰写者的核查、额外职业评审员的确认以及基于模型的验证。
最终数据集包含每种职业 30 项经全面审核的任务(完整数据集),其中开源黄金数据集收录每种职业 5 项任务,为评估模型在真实知识工作场景中的表现奠定坚实基础。
GDPval 任务示例
提示 + 任务背景信息
经验丰富的人力交付成果

为评估模型在 GDPval 任务中的表现,我们依托专家“评分员”——由数据集中相同职业领域经验丰富的专业人士组成。这些评分员在不知晓 AI 与人类生成内容的情况下,对模型产出与任务撰写者成果进行盲测比较,并给出评语与排名。评分员随后对人类与 AI 产出进行排序,并将每份 AI 产出分类为“优于”、“与之相当”或“逊于”其他产出。
任务撰写者还为各自职业制定了详细评分标准,这为评分过程增添了一致性与透明度。我们同时开发了“自动评分系统”——该 AI 系统经过训练,可预测人类专家对特定产出的评判结果。换言之,该系统无需每次启动完整专家审核,即可快速预测人类更倾向的输出结果。我们通过 evals.openai.com 以实验性研究服务形式发布此工具,但其可靠性尚不及专家评分员,故不作为替代方案使用。
我们发现当前顶尖前沿模型已逼近行业专家的工作质量。为验证此结论,我们开展了盲测评估:邀请行业专家将多款领先模型(GPT‑4o、o4‑mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro 及 Grok 4)的交付成果与人类作品进行对比。在 GDPval 黄金数据集的 220 项任务中,我们记录了模型输出被评定为优于(“胜出”)或与行业专家成果持平(“平局”)的情况,如下图柱状图所示。Claude Opus 4.1 在该数据集中表现最佳,尤其在美学层面(如文档排版、幻灯片布局)表现突出;而 GPT‑5 则在准确性方面(如检索领域知识)表现卓越。我们还观察到这些任务随时间推移的显著进步。从 GPT‑4o(2024 年春季发布)到 GPT‑5(2025 年夏季发布),性能呈明显线性趋势增长,提升幅度超过两倍。
此外,我们发现前沿模型完成 GDPval 任务的速度约为行业专家的 100 倍,成本也仅为其百分之一。但需注意,上述数据仅反映纯模型推理时间与 API 计费率,未涵盖实际工作场景中使用模型所需的人工监督、迭代和集成环节。即便如此,在模型表现尤为突出的子任务领域,我们仍预期先由模型处理任务再交由人工验证,将显著节省时间和成本。
专家评分员将领先模型的交付成果与人类专家进行对比。当前前沿模型已逼近行业专家的工作质量。Claude Opus 4.1 在近半数任务中产出质量达到或超越人类水平。
从 GPT‑4o 到 GPT‑5,其在 GDPval 任务上的表现一年内提升逾三倍。
最后,我们对内部实验版的 GPT‑5 进行了增量训练,以评估能否提升其在 GDPval 数据集上的表现。结果表明该过程确实提升了性能,为进一步优化开辟了路径。其他受控实验也印证了这一结论:增加模型规模、鼓励更多推理步骤以及提供更丰富的任务背景信息,均带来了可量化的提升。
完整研究成果详见我们的论文。我们同时发布 GDPval 任务的黄金子集及公开评分服务,供其他研究者在此基础上开展工作。
随着 AI 能力增强,就业市场将面临变革。GDPval 的早期结果表明,模型已能比专家更快速、更低成本地完成某些重复性强且规范明确的任务。然而多数工作远不止于可书面化的任务集合。GDPval 揭示了 AI 可承担常规任务的领域,从而让人类工作者能将更多精力投入需要创造力和判断力的工作环节。当 AI 以这种方式与人类协同工作时,将能转化为显著的经济增长。我们的目标是通过普及这些工具的使用、支持工作者适应变革、构建奖励广泛贡献的系统,让所有人搭乘人 AI 的“上升电梯”。
GDPval 尚处初级阶段。尽管已覆盖 44 类职业与数百项任务,我们仍在持续优化方法论以扩大测试范围并提升结果价值。当前版本采用单次评估模式,未能涵盖模型需构建背景信息或通过多次迭代优化的场景——例如根据客户反馈修订法律文书,或在发现异常后迭代数据分析。此外,现实世界中的任务往往缺乏明确的提示和参考文件;例如,律师可能需要在面对模糊情况时与客户沟通,才能确定撰写法律文书是帮助客户的最佳方案。我们计划扩展 GDPval 的职业、行业及任务类型覆盖范围,增强交互性,增加处理模糊情境的任务类型,长期目标是更精准地衡量各类知识工作的进展。
社区参与至关重要——我们期待与志同道合的研究者、实践者及机构携手构建 GDPval,共同推动 AGI 在工作场景中的实用价值。


