実際のタスクに対するモデルのパフォーマンスを測定する
OpenAI から登場する新たな評価手法 GDPval は、44の職種を対象に、経済的価値のある実世界のタスクに対するモデルのパフォーマンスを測定します。
私たちの使命は、汎用人工知能が全人類に利益をもたらすようにすることです。その使命の一環として、AI モデルが実世界でどのように人々の役に立つのかについて、現在の進展状況を明確にお伝えしたいと考えています。これこそが GDPval を導入する理由であり、GDPval は、当社のモデルおよびその他のモデルが経済的な価値のある実世界のタスクをどの程度うまくこなせるのかを突き止めるのに役立ちます。この評価手法を GDPval と呼ぶのは、この名称が、当社が主要な経済指標である国内総生産(GDP)の概念から始め、GDP に最も貢献する産業の主要な職種からタスクを抽出したことに由来しています。
人はよく、社会に対する AI の広範にわたる影響に関して考えますが、AI の潜在能力を最も明確に理解する方法は、モデルがすでにできることは何であるかに目を向けることです。歴史が示すとおり、主要なテクノロジー(インターネットからスマートフォンまで)が発明されてから普及するまでには10年以上かかります。GDPval のような評価手法を利用することで、推測ではなく裏付けのある情報に基づいて将来的な AI の向上に関する会話を行うことができます。また、長期にわたるモデルの改善の追跡も可能にします。
高度な学術的テストやコード作成競技の課題のような従来の AI 評価手法は、モデルの推論機能の限界を破るためには極めて重要ですが、多くの人々が毎日の仕事で扱うようなタスクには十分とは言えないことがよくあります。
こうしたギャップを埋めるために、当社は実用性と経済的価値が着実に高まっている能力を測定する評価手法を開発し続けています。こうした進展は、MMLU(数十種類の課題にわたる試験形式の質問)のように伝統的な学術的ベンチマークから、SWE-Bench(ソフトウェアエンジニアリングのバグ修正タスク)、MLE-Bench(モデルの学習や分析などの機械学習エンジニアリングタスク)、Paper-Bench(研究論文での科学的な推論と評論)のような応用的な評価、さらに最近では、SWE-Lancer(実際の支払いに基づくフリーランスのソフトウェアエンジニアリングプロジェクト)のような市場ベースの評価へと移行しています。
GDPval はこうした進展の次の段階です。GDPval は、さまざまな職種と業種の経験豊富な専門家による実世界の知識作業から直接抽出したタスクに対して、モデルのパフォーマンスを測定します。これにより、経済的価値のあるタスクに対してモデルがどの程度のパフォーマンスを示すかについて、さらに明確なイメージが得られます。実務さながらのタスクに対してモデルを評価することにより、モデルの理論上のパフォーマンスだけでなく、日常的な仕事での人に対するサポートのあり方についても理解が深まります。
GDPval の最初の評価バージョンでは、米国の GDP に貢献する上位9つの産業分野から選定した44の職種を対象としています。GDPval の完全版は1,320件の専門タスク(そのうち220件のタスクがオープンソースのゴールド基準のデータセット)、で構成されており、各タスクは当該分野で平均14年以上の経験を持つ専門家によって入念に作成・吟味されています。すべてのタスクが実世界の成果物に基づいています(法的意見書、設計図、カスタマーサポートの会話、看護計画など)。
GDPval は評価対象のタスクの現実性と多様性の両面で他と一線を画しています。特定の領域に特化した経済的価値に関連する他の評価手法(SWE-Lancer など)と異なり、GDPval は多くのタスクと職種を対象とします。学術的試験やテストの形式で人工的に作られたタスクを含むベンチマーク(Humanity’s Last Exam(人類最後の試験)や MMLU など)と異なり、GDPval は、実際に存在する業務成果物またはそれに似せて作成された成果物に基づくタスクに重点を置いています。
従来のベンチマークと異なり、GDPval のタスクは単純なテキスト形式のプロンプトではありません。参照ファイルやコンテキストが与えられ、期待される成果物はドキュメント、スライド、図表、スプレッドシート、マルチメディアに及びます。このような現実に即したやり方により、GDPval はモデルによる専門家へのサポートのあり方について現実性の高いテストを実施します。
GDPval は初期段階のステップであり、多くの経済的タスクの微妙な差異を完全にを反映しているわけではありません。44職種と何百もの知識労働タスクを対象としていますが、 one-shot の評価に限定されています。そのため、モデルがコンテキストを構築する必要があるケースや、複数の下書きを利用して改善する必要があるケースには対応していません。今後のバージョンでは、実世界の知識労働の複雑さにうまく対応できるように、さらにインタラクティブなワークフローやコンテキストリッチなタスクに機能を拡張していく予定です(詳しくは後述する制約に関するセクションをご覧ください)。
GDPval は9つの産業の44職種にわたるタスクを対象としていますが、今後のバージョンで継続的に拡大していく予定です。初期の9つの産業は、米セントルイス連邦準備銀行のデータを基準に、米国の GDP の5%以上に貢献している産業に基づいて選定されました。その後、当社は2024年5月に米国労働省労働統計局(BLS)が発表した雇用統計(新しいウィンドウで開く)に掲載されている賃金と雇用のデータを使用して、各産業から総賃金と報酬に最も貢献している職種を5つ選定しました。その大多数は知識労働の職種です。職種が主に知識労働かどうかを判断するために、当社は米国労働省が提供する職業情報データベース「O*NET(新しいウィンドウで開く)」のタスクデータを使用しました。O*NET にある各職種の各タスクが知識労働であるか肉体労働/手作業(物理世界での行動が必要)であるかに従って分類しました。ある職種の構成タスクの60%以上が肉体労働または手作業を伴わないものとして分類された場合、その職種は全体として「大多数が知識労働」であると判定されました。AI が実際の生産性に最も大きな影響を与え得る職種に注目して、この60%のしきい値を GDPval の最初のバージョンの出発点として選びました。
このプロセスによって合計で44職種を対象に含めました。
不動産および賃貸
コンシェルジュ
財産、不動産、管理組合の管理者
不動産販売代理店
不動産ブローカー
カウンター担当者および賃貸担当者
公務
レクリエーション担当者
コンプライアンス責任者
警察官および刑事の現場監督者
管理サービスマネージャー
子供、家族、学校のソーシャルワーカー
製造
機械エンジニア
産業エンジニア
バイヤーおよび購買エージェント
出荷、受取、在庫担当者
製造作業者およびオペレーション担当者の現場監督者
専門的な科学技術サービス
ソフトウェア開発者
弁護士
会計士および監査人
コンピューターおよび情報システムのマネージャー
プロジェクト管理の専門家
ヘルスケアおよび社会福祉
登録看護師
臨床看護師
医療・保健サービス管理者
オフィスおよび管理サポート担当者の現場監督者
医療秘書および管理アシスタント
金融および保険
カスタマーサービス担当者
金融および投資アナリスト
財務管理者
個人向けファイナンシャルアドバイザー
証券・商品・金融サービスの営業担当者
小売業
薬剤師
小売店販売員の現場監督者
ゼネラルマネージャーおよびオペレーションマネージャー
私立探偵および調査員
卸売業
営業マネージャー
受注担当者
非小売店販売員の現場監督者
販売代理店、卸売業、製造業(科学技術製品を除く)
販売代理店、卸売業、製造業、科学技術製品
情報
オーディオおよびビデオの技術者
プロデューサーおよびディレクター
ニュースアナリスト、レポーター、ジャーナリスト
映画およびビデオの編集者
編集者
各職種について、経験豊富な専門家と協力して専門家の日々の実務を反映した代表的なタスクを作成しました。これらの専門家の平均経験年数は14年で、素晴らしい実績を残しています。代表性を最大限に高めるために、取り扱い領域がさまざまに異なる弁護士や、規模の異なる企業など、意図的に幅広い分野の専門家を採用しました。
各タスクは多段階のレビュープロセスを経ています。これは、実際の作業の代表性、別の専門家による作業の実現可能性、評価の明確さを確保するためです。平均して、各タスクは専門家によるレビューを5回受けています。その中には、他のタスク作成者、追加の職業レビューア、モデルベース検証によるチェックも含まれます。
結果として生成されたデータセットには、すべてのレビューを受けたタスクが職種あたり30件(フルセット)と、オープンソースのゴールドデータセット内の職種ごとに5つのタスクが含まれ、実世界の知識労働に対するモデルのパフォーマンスを評価するための堅牢な基盤が得られます。
GDPval タスクの例
プロンプトとタスクのコンテキスト
人間による成果物を見つけた

GDPval タスクに対するモデルのパフォーマンスの評価は、専門家の「採点者」(データセット内に含まれる職種と同じ分野の経験豊富な専門家のグループ)に依頼しました。この採点者は、モデルが生成した成果物とタスク作成者が作成した成果物をブラインド比較し(どちらが AI の成果物で、どちらが人間の成果物かは知らされない)、批評とランキングを提供します。さらに、採点者は人間の成果物と AI の成果物をランク付けし、AI の成果物を「優れている」、「同等」、「劣っている」のいずれかに分類します。
タスク作成者は、職種に対応する詳細な評価基準も作成しました。これによって採点プロセスに一貫性と透明性がもたらされました。当社は「自動採点ツール」も作成しました。これは、人間の専門家が特定の成果物をどのように判定するのかを推定するよう学習させた AI システムです。言い換えると、専門家による完全なレビューを毎回実施する代わりに、自動採点ツールを使用することで、どの出力が好まれる傾向にあるのかをすばやく予測できます。このツールは、実験的なリサーチサービスとして evals.openai.com でリリースしています。ただし、まだ専門家の採点者ほどの信頼性はないため、専門家に代わるものとして使用することはできません。
現在の最先端モデルは、産業の専門家が作成した業務成果物の品質にすでに近付きつつあることが明らかになりました。これをテストするため、ブラインド評価を実施し、その中で産業の専門家が複数の主要モデル(GPT‑4o、o4‑mini、OpenAI o3、GPT‑5、Claude Opus 4.1、Gemini 2.5 Pro、Grok 4)の成果物を人間の生成した業務成果物と比較しました。また、下に表示する棒グラフに示されるように、GDPval のゴールドセットにある220のタスク全体にわたって、モデルの出力が産業の専門家の成果物よりも優れている(勝ち)または同等(引き分け)と評価された回数を記録しました。セット内で最高のパフォーマンスを発揮したモデルは Claude Opus 4.1であり、美的品質(ドキュメントの書式設定、スライドレイアウトなど)の面で特に優れていました。また、精度(領域固有の知識など)が際立っていたのは GPT‑5です。さらに、これらのタスクについては、時間の経過とともに明確な進捗が確認されました。GPT‑4o(2024年春リリース)から GPT‑5(2025年夏リリース)にかけてパフォーマンスが2倍以上になっており、明確な線形傾向に従っています。
加えて、フロンティアモデルは GDPval のタスクを産業の専門家よりも約100倍高速かつ100倍安価に完了できることが明らかになりました。ただし、この数字が示しているのは純粋なモデル推論時間と API 課金レートであり、当社のモデルを使用するために実際の職場環境で必要となる、人間による監視、反復改善、統合のステップは反映されていません。なお、モデルが際立って強力であるタスクのサブセットでは特に、人間が試す前にモデルにタスクを与えることで時間とコストの節約が期待されます。
専門家の採点者が、主要モデルの成果物を人間の専門家の成果物と比較しました。現在の最先端モデルは、産業の専門家が作成した業務成果物の品質にすでに近付きつつあります。Claude Opus 4.1の生成した出力は、半分のタスクに満たない段階で人間と同等または人間よりも良いという評価を得ました。
GPT‑4o から GPT‑5 になって、GDPval タスクに対するパフォーマンスは1年で3倍に上がりました。
最後に、GDPval のパフォーマンスを向上できるかどうかを評価するために GPT‑5の内部の実験的なバージョンを徐々に学習させました。このプロセスによって、パフォーマンスが向上し、さらなる潜在的向上の道筋が生まれました。このことは、他の統制された実験によって裏付けられています。モデルサイズの増加、推論ステップの増加に向けた刺激、および詳細なタスクコンテキストの提供が、測定可能な成果につながりました。
全結果については、当社の論文をお読みください。また、他の研究者がこの研究をベースにできるように、GDPval タスクのゴールドサブセットと公開版の格付けサービスもリリースしています。
AI の能力が向上するにつれて、雇用市場に変化が生じる可能性が上がります。初期の GDPval の結果から、モデルは反復的で明確に定義されたタスクをすでに専門家よりも高速かつ低コストでこなすことができることがわかりました。ただし、ほとんどの仕事は明確に記述できるタスクの単なる集まりではありません。GDPval によって浮かび上がったことは、単純作業は AI によって処理できるため、人間は創造的かつ主観的な判断が求められる仕事により多くの時間を費やせるということです。AI がこのような形で作業者の業務を補完するようになると、著しい経済成長が生み出される可能性があります。当社の目標は、すべての人を AI の「上りのエレベーター」に乗せることです。そのために、これらのツールを誰もが使えるように開放し、それによって、変化の中で作業者をサポートし、幅広い貢献に報いる体系を構築しています。
GDPval はまだ始まったばかりです。GDPval は44の職種と数百のタスクを対象としていますが、テストの範囲を拡大し、結果をさらに有意義なものにするために、当社は継続的にアプローチを改良しています。現在のバージョンの評価は one-shot 型でもあるため、モデルがコンテキストを構築する必要があるケースや、複数の下書きを利用して改善する必要があるケースには対応していません。たとえば、依頼人からのフィードバック後の法的意見書の修正や、異常検出後のデータ分析の反復がこれにあたります。さらに、実世界では、タスクは必ずしもプロンプトや参照ファイルで明確に定義されているわけではありません。たとえば、ある弁護士が法的意見書の作成が支援のためのアプローチとして適切であるかどうかを判断する前に、曖昧な状況をくぐり抜けて、依頼人に説明する必要がある場合などです。当社は多様な知識労働での進捗の測定を向上させるという長期目標に従い、GDPval を拡張してさらに多くの職種、産業、タスクの種類を対象に含めることを計画しています。さらに、双方向性を強化するとともに、曖昧さに対処する必要のあるタスクを増やします。
- 産業の専門家であり、GDPval への貢献に関心がある場合は、こちらからご連絡ください。
- OpenAI をご利用中のお客様で、GDPval の今後のラウンドへの貢献をご希望される場合は、こちらからご連絡ください。
コミュニティへのご参加は当社にとって極めて貴重です。目標である「働く人にとって AGI をさらに有用なものにする」を分かち合う研究者、開業医、組織とともに、GDPval の構築に取り組めることを心待ちにしています。


