メインコンテンツにスキップ
OpenAI

Pacific Northwest National Laboratory と OpenAI、連邦政府の許認可プロセスの迅速化に向けて提携

インフラ許認可の期間短縮につながる可能性を示す新ベンチマーク

読み込んでいます...

重要インフラに対する連邦政府の許認可の進め方を近代化することは、米国経済をより速く、安全で、競争力の高いものにするために不可欠です。エネルギー事業や先端製造から、交通・水インフラに至るまで、許認可は有望なアイデアがどれだけ早く現実の投資になるかを左右します。しかし現在では、環境・技術面の審査に数年を要することも多く、イノベーションのスピードを落とし、コストを増大させ、地域社会にもたらされるはずの便益を遅らせています。

こうした背景から、OpenAI は米国エネルギー省の Pacific Northwest National Laboratory(PNNL)およびその PermitAITM(新しいウィンドウで開く) チームと提携し、コーディングエージェントが連邦政府の許認可業務を責任ある形で加速できるかどうかを評価しました。エネルギー省政策局が支援するイニシアチブである PermitAI と OpenAI は、国家環境政策法(NEPA)の審査プロセスに精通した 19 名の専門家と協力し、環境影響評価書の作成など NEPA のワークフローに関連するタスクにおいて AI モデルがどの程度の性能を発揮できるかを測るベンチマーク(DraftNEPABench)を設計しました。

18 の連邦機関にわたる NEPA 文書の各セクションを対象とした代表的な起案タスクのセットを通じて、19 名の専門家は、汎用的なコーディングエージェントが NEPA 文書の起案作業を 1 サブセクションあたり最大 1〜5 時間短縮できる可能性があると評価しました。これは起案時間をおおよそ最大 15% 削減できることを意味しており、AI が複雑な政府ワークフローを支援するうえで重要な前進を示しています。

実務の許認可業務を想定したベンチマーク設計

連邦政府の許認可は、複雑で大量の文書を扱うプロセスです。審査では、何百ページにも及ぶ技術報告書を読み込み、複数の情報源を突き合わせ、規制要件を満たす詳細な分析文書を作成する必要があります。

この共同研究では、OpenAI と PNNL は、汎用的なコーディングエージェント(新しいウィンドウで開く)(このケースでは Codex CLI)を活用することで、ファイルシステムを扱う調査、技術分析、レポート作成タスクにおいて、GPT‑5 のようなリーズニングモデルの性能を引き出す有効な手段となるかを検証しました。モデルに通常はコーディングタスクで使われるコマンドラインインターフェースへのアクセスを与えることで、手作業で作り込んだヒューリスティックよりも汎用的な戦略でタスクを解くことができます。これらのエージェントには、次のことが求められます。

  • 何百ページにも及ぶ技術・規制文書を読み込み、正確に要約・統合すること
  • 複数の環境・工学・規制関連の情報源にまたがって事実を検証すること
  • 厳密に定められた法的・技術的要件を満たす構造化されたレポートを起案すること

この取り組みが重要な理由

米国がこのインテリジェンス時代(新しいウィンドウで開く) において経済成長を続けるには、安全かつ責任あるかたちで、そして迅速にインフラを整備できなければなりません。AI システムが物理世界に与える影響が大きくなるなかで、土木工学、環境分析、規制分析といった分野における AI の能力を理解することが重要です。時間の経過とともに、高度なモデルは法律や規制を正確に理解し、新しくより安全な技術の発明、自然資源の保護、人々のニーズへの対応を支援していく必要があります。

過去 50 年以上にわたり、連邦機関は橋、発電所、送電線、製造施設などのプロジェクトについて、その環境影響を審査し、文書化することを求められてきました。このベンチマークは、現在の AI モデルが、こうしたワークフローの加速において人間を責任ある形でどこまで支援できるかを明らかにするものです。

自律性に伴うリスクを抑えることに加えて、この取り組みは専門家と AI のより優れたインターフェース設計の前進にもつながります。静的な PDF を超えて、コーディングエージェントは自らの作業からウェブベースのレポートやインタラクティブな可視化を動的に生成できるため、人間のレビュアーが内容を検証しやすくなります。

AI を活用することで、各機関は提案の審査・修正・承認をより効率的に行えるようになり、公務員は時間のかかる作業を担う AI エージェントのチームから支援を受けることで、判断、監督、複雑な意思決定により多くの時間を割けるようになります。この取り組みは、公共サービスへの OpenAI の幅広いコミットメントと、公務員がより高い成果を上げ、十分な支援を受けられるようにするという OpenAI for Government の目標とも一致しています。

制約事項

このベンチマークは、関連するコンテキストが利用可能で、タスクが明確に定義されている起案作業におけるモデルの能力を評価するものであり、実際の許認可判断に伴うあいまいさや裁量のすべてを対象としているわけではありません。モデルが人間のレビュアーをどこで支援できるかを明確にするため、正確性と参照の適切な利用を重視しています。失敗事例を検証したところ、一部の「エラー」は、実際には古い参照文献や不十分な評価基準に起因していることが分かり、それに応じて評価ルーブリックを更新する必要がありました。より一般的には、元の資料が不完全、不整合、あるいは古い場合、明示的な指示がなければモデルがこうした不一致を指摘しない可能性があります。実際の運用では、専門家によるフィードバックと反復が行われることが多く、こうした自己完結型のベンチマークタスクで報告されている水準を超えて性能が向上することが期待されます。

今後について

OpenAI は、連邦機関の許認可プロセスの効率化を目的とした PermitAI(新しいウィンドウで開く) のアプリケーション向けソリューションのさらなる開発と改善を、PNNL とともに進めています。時間の経過とともに、連邦政府が審査するインフラプロジェクトの平均承認期間は、数か月から数週間へと短縮され、プロジェクト開発の加速、米国の競争力強化、そして長期的な経済成長の後押しにつながると見込んでいます。