實現聯邦政府關鍵基建項目審批程序現代化,是令美國經濟更加快速安全及具競爭力的重要環節。有前景的構想能否迅速轉化為實際投資,取決於包括能源項目、先進製造業、交通運輸及供水系統在內的審批程序。不過,現時環境及技術審查往往需時數年,不但拖慢創新步伐、推高成本,亦阻礙這些項目為社區帶來效益。
因此,OpenAI 與美國能源部轄下的 Pacific Northwest National Laboratory (PNNL) 及其 PermitAITM(在新視窗中開啟) 團隊合作,評估編碼代理能否在負責任的前提下,加快聯邦許可審批作業。由能源部政策辦公室資助的 PermitAI 計畫與 OpenAI 攜手合作,聯同 19 位熟悉《美國國家環境政策法》(NEPA) 審核程序的專家,設計一項名為 DraftNEPABench 的基準測試,用以評估 AI 模型在 NEPA 工作流程相關任務(例如起草環境影響報告書)中的表現。
在一系列涵蓋 18 個聯邦機構的 NEPA 文件章節代表性起草任務中,19 位專家發現,通用編碼代理有望將每個小節的 NEPA 文件起草時間縮短 1 至 5 小時,相當於減少多達約 15% 的起草時間,標誌著 AI 在支援複雜政府工作流程方面踏出重要一步。
聯邦許可審批是一項複雜並涉及大量文件的政府程序。審核人員往往需要閱讀數百頁技術報告、交叉核實多個來源的資料,並起草須符合監管要求的詳細分析。
透過此次合作,OpenAI 與 PNNL 共同探討(在新視窗中開啟)將通用編碼代理(此處為 Codex CLI)應用於推理模型(例如 GPT‑5),以處理涉及檔案系統的研究、技術分析及撰寫報告任務的效能。透過讓模型存取通常用於編碼任務的命令列介面,此等代理可以採用較人手設計啟發式方法更通用的策略來解決問題。這些代理需要:
- 閱讀並準確綜合涵蓋數百頁技術及監管內容的文件
- 核實來自多個環境、工程及監管來源的事實
- 起草符合高度具體法律及技術標準的結構化報告
美國若要在這個智能時代(在新視窗中開啟)持續發展經濟,就必須能夠安全、負責任及快速地進行建設。隨著 AI 系統對現實世界的影響日益加深,我們必須瞭解其在土木工程、環境及監管分析等領域的能力。隨著時間推移,先進模型需要在協助發明更安全的新技術、保護自然資源及滿足人類需求的同時,準確理解法律法規。
50 多年來,相關程序一直要求聯邦機構審查並記錄橋樑、發電廠、輸電線路及製造設施等項目的環境影響。此基準測試有助識別現今 AI 模型如何以負責任的方式,協助人類加快這些工作流程。
除了降低自主系統風險之外,這項工作亦可推動為專家與 AI 設計更佳介面。不再局限於靜態 PDF,編碼代理可以根據其工作動態生成網頁式報告和互動式直觀圖表,令審核人員更容易查核結果。
各機構可以利用 AI 技術,更有效率地審閱、修訂及批准申請,而公務員亦可借助一組 AI 代理處理耗時作業,將精力專注於判斷、監督及複雜決策。這項工作符合 OpenAI 對公共服務的廣泛承諾,以及 OpenAI for Government 致力為公務員提供支援工具,提升其效能的目標。
此基準測試僅評估模型在相關背景資料齊備、任務定義清晰的起草作業中的能力,並未涵蓋實際許可決策涉及的全部不確定情況及酌情權。基準測試著重準確性及正確引用參考資料,以釐清模型可在哪些方面協助審核人員。在檢視失敗案例時,我們發現部分「錯誤」其實源自過時的參考資料及薄弱的評估標準,因此我們亦相應更新評分規則。廣泛而言,若來源資料不完整、不一致或已過時,除非有明確指示,模型未必會標示出這些差異。實際部署時更可能會加入專家反饋及反覆改進,預期表現會優於這些封閉式基準測試任務中所報告的結果。
OpenAI 現正支持 PNNL 進一步開發和完善 PermitAI(在新視窗中開啟) 的應用方案,旨在協助聯邦機構簡化審批程序。假以時日,我們預期聯邦審核基建項目的平均需時會由數月縮短至數週,有助加速項目開發,增強美國競爭力,並支持長遠經濟增長。


