Phòng thí nghiệm quốc gia Tây Bắc Thái Bình Dương và OpenAI hợp tác để đẩy nhanh việc cấp phép liên bang
Điểm chuẩn mới cho thấy tiềm năng giảm thời gian cho phép cơ sở hạ tầng
Hiện đại hóa cách chính phủ liên bang cấp phép cho các cơ sở hạ tầng trọng yếu là điều thiết yếu để xây dựng một nền kinh tế Hoa Kỳ nhanh hơn, an toàn hơn và cạnh tranh hơn. Từ các dự án năng lượng và sản xuất tiên tiến đến hệ thống giao thông và cấp nước, việc cấp phép quyết định tốc độ biến những ý tưởng đầy triển vọng thành các khoản đầu tư thực tế. Tuy nhiên, hiện nay, các đánh giá về môi trường và kỹ thuật thường mất nhiều năm, điều này làm chậm quá trình đổi mới, tăng chi phí và trì hoãn việc mang lại lợi ích cho cộng đồng thông qua các dự án này.
Đó là lý do tại sao OpenAI đã hợp tác với Phòng thí nghiệm Quốc gia Tây Bắc Thái Bình Dương của Bộ Năng lượng Hoa Kỳ (PNNL) và nhóm PermitAITM(mở trong cửa sổ mới) của nó để đánh giá xem các tác nhân mã hóa có thể giúp đẩy nhanh công việc cấp phép liên bang một cách có trách nhiệm hay không. PermitAI, một sáng kiến được tài trợ bởi Văn phòng Chính sách của Bộ Năng lượng và OpenAI đã làm việc cùng với 19 chuyên gia chủ đề về quy trình xem xét Đạo luật Chính sách Môi trường Quốc gia để thiết kế một chuẩn mực (được gọi là DraftNepaBench) để đánh giá mức độ hoạt động của các mô hình AI đối với các nhiệm vụ liên quan đến quy trình làm việc của NEPA như soạn thảo các tuyên bố tác động môi trường.
Thông qua một loạt các nhiệm vụ soạn thảo đại diện bao gồm các phần tài liệu NEPA từ 18 cơ quan liên bang, 19 chuyên gia nhận thấy rằng các tác nhân mã hóa tổng quát có khả năng tăng tốc công việc soạn thảo tài liệu NEPA từ 1 đến 5 giờ mỗi tiểu phần - giảm khoảng 15% thời gian soạn thảo - báo hiệu một bước tiến có ý nghĩa trong cách AI có thể hỗ trợ các quy trình công việc phức tạp của chính phủ.
Việc cấp phép liên bang là một quá trình phức tạp và nặng tài liệu trong chính phủ. Các bài đánh giá thường yêu cầu đọc hàng trăm trang báo cáo kỹ thuật, kiểm tra chÉO thông tin trên nhiều nguồn và soạn thảo các phân tích chi tiết phải đáp ứng các yêu cầu quy định.
Thông qua sự hợp tác này, OpenAI và PNNL đã khám phá sức mạnh(mở trong cửa sổ mới) của việc khái quát hóa các tác nhân mã hóa (trong trường hợp này là Codex CLI) như một cách hiệu quả để trích xuất hiệu suất từ các mô hình suy luận như GPT‑5 cho các tác vụ nghiên cứu, phân tích kỹ thuật và viết báo cáo liên quan đến hệ thống tệp. Bằng cách cung cấp cho các mô hình quyền truy cập vào giao diện dòng lệnh (thường được sử dụng cho các tác vụ lập trình), chúng có thể sử dụng các chiến lược tổng quát hơn để giải quyết một nhiệm vụ so với các thuật toán phỏng đoán được xây dựng thủ công. Các nhân viên này được yêu cầu phải:
- Đọc và tổng hợp chính xác các tài liệu trải dài hàng trăm trang nội dung kỹ thuật và quy định
- Xác minh sự thật trên nhiều nguồn môi trường, kỹ thuật và quy định
- Dự thảo báo cáo có cấu trúc đáp ứng các tiêu chí pháp lý và kỹ thuật được xác định rõ ràng
Để Hoa Kỳ tiếp tục phát triển nền kinh tế trong Kỷ nguyên Trí tuệ(mở trong cửa sổ mới) này, nước này phải có khả năng xây dựng một cách an toàn, có trách nhiệm và nhanh chóng. Khi các hệ thống trí tuệ nhân tạo ngày càng tác động mạnh mẽ đến thế giới vật chất, chúng ta cần hiểu rõ khả năng của chúng trong các lĩnh vực như kỹ thuật dân dụng, môi trường và phân tích quy định. Theo thời gian, các mô hình tiên tiến sẽ cần phải hiểu chính xác các luật và quy định để giúp phát minh ra các công nghệ mới và an toàn hơn, bảo vệ tài nguyên thiên nhiên và đáp ứng nhu cầu của con người.
Trong hơn 50 năm, quy trình này đã yêu cầu các cơ quan liên bang xem xét và ghi chép các tác động đến môi trường của các dự án như cầu, nhà máy điện, đường dây truyền tải và cơ sở sản xuất. Điểm chuẩn này giúp xác định nơi các mô hình AI ngày nay có thể hỗ trợ con người một cách có trách nhiệm trong việc đẩy nhanh quy trình công việc này.
Ngoài việc giảm rủi ro tự chủ, công việc này có thể thúc đẩy thiết kế giao diện tốt hơn cho các chuyên gia và AI. Vượt ra ngoài các tệp PDF tĩnh, các tác nhân mã hóa có thể tự động tạo báo cáo dựa trên web và trực quan hóa tương tác từ công việc của họ, giúp người đánh giá dễ dàng xác thực hơn.
Với AI, các cơ quan sẽ có thể xem xét, tinh chỉnh và phê duyệt các đề xuất hiệu quả hơn và nhân viên chính phủ sẽ đạt được lợi thế từ các nhóm nhân viên AI xử lý các phần tốn thời gian trong công việc của họ để họ có thể tập trung vào phán đoán, giám sát và ra quyết định phức tạp. Công việc này phù hợp với cam kết rộng hơn của OpenAI đối với dịch vụ công và OpenAI cho mục tiêu của Chính phủ nhằm trang bị cho công chức các công chức các công cụ giúp họ hiệu quả hơn và được hỗ trợ hơn.
Tiêu chuẩn này đánh giá khả năng của mô hình trên các nhiệm vụ soạn thảo được xác định rõ ràng, trong đó có sẵn bối cảnh liên quan, chứ không phải toàn bộ sự mơ hồ và tùy ý của các quyết định cấp phép trong thực tế. Nó nhấn mạnh tính chính xác và việc sử dụng tài liệu tham khảo đúng đắn để làm rõ những trường hợp mà mô hình có thể hỗ trợ người đánh giá. Khi xem xét các trường hợp thất bại, chúng tôi nhận thấy một số “lỗi” thực sự được thúc đẩy bởi các tài liệu tham khảo lỗi thời và tiêu chí đánh giá yếu và chúng tôi phải cập nhật các tiêu chí cho phù hợp. Nói một cách tổng quát hơn, nếu nguồn tài liệu không đầy đủ, không nhất quán hoặc lỗi thời, các mô hình có thể không phát hiện ra những điểm không nhất quán này nếu không có hướng dẫn rõ ràng. Việc triển khai trong thế giới thực có nhiều khả năng liên quan đến phản hồi và lặp lại của chuyên gia, điều này dự kiến sẽ cải thiện hiệu suất vượt ra ngoài những gì được báo cáo trong các tác vụ điểm chuẩn khép kín này.
OpenAI đang hỗ trợ PNNL phát triển hơn nữa và tinh chỉnh các giải pháp cho các ứng dụng của PermitAI(mở trong cửa sổ mới), được thiết kế để giúp các cơ quan liên bang hợp lý hóa các quy trình cấp phép. Theo thời gian, chúng tôi dự kiến thời gian trung bình để phê duyệt các dự án cơ sở hạ tầng được liên bang xem xét giảm từ vài tháng xuống còn vài tuần, thúc đẩy phát triển dự án và tăng cường khả năng cạnh tranh của Hoa Kỳ và hỗ trợ tăng trưởng kinh tế dài hạn.


