Pacific Northwest National Laboratory y OpenAI se alían para acelerar las autorizaciones federales
Un nuevo benchmark muestra el potencial para reducir los plazos de autorización de infraestructuras
Modernizar la forma en que el Gobierno federal autoriza infraestructuras críticas es esencial para construir una economía de EE. UU. más rápida, segura y competitiva. Desde proyectos energéticos y fabricación avanzada hasta sistemas de transporte y agua, las autorizaciones determinan la rapidez con la que las ideas prometedoras se convierten en inversiones reales. Sin embargo, hoy en día las evaluaciones ambientales y técnicas suelen tardar años, lo que frena la innovación, aumenta los costes y retrasa los beneficios que estos proyectos aportan a las comunidades.
Por eso OpenAI se ha asociado con el Pacific Northwest National Laboratory (PNNL) del Departamento de Energía de EE. UU. y con su equipo PermitAITM(se abre en una ventana nueva) para evaluar si los agentes de programación pueden ayudar a acelerar de forma responsable el trabajo de autorización federal. PermitAI, una iniciativa financiada por la Oficina de Política del Departamento de Energía, y OpenAI trabajaron junto con 19 expertos en el proceso de revisión de la Ley Nacional de Política Ambiental (NEPA, por sus siglas en inglés) para diseñar un benchmark (llamado DraftNEPABench) que evalúa el rendimiento de los modelos de IA en tareas relacionadas con los flujos de trabajo de NEPA, como la redacción de declaraciones de impacto ambiental.
En un conjunto representativo de tareas de redacción que abarca secciones de documentos NEPA de 18 agencias federales, 19 expertos concluyeron que los agentes de programación generalistas tienen el potencial de acelerar el trabajo de redacción de documentos NEPA entre 1 y 5 horas por subsección —hasta aproximadamente un 15 % de reducción del tiempo de redacción—, lo que supone un avance significativo en cómo la IA puede apoyar flujos de trabajo gubernamentales complejos.
La autorización federal es un proceso complejo y muy centrado en la documentación. Las revisiones suelen requerir la lectura de cientos de páginas de informes técnicos, la verificación cruzada de información en múltiples fuentes y la redacción de análisis detallados que deben cumplir requisitos normativos.
A través de esta colaboración, OpenAI y PNNL exploraron el potencial(se abre en una ventana nueva) de generalizar agentes de programación (en este caso, Codex CLI) como una forma eficaz de extraer rendimiento de modelos de razonamiento como GPT‑5 para tareas de investigación, análisis técnico y redacción de informes que implican un sistema de archivos. Al dar a los modelos acceso a una interfaz de línea de comandos (normalmente utilizada para tareas de programación), pueden emplear estrategias más generales para resolver una tarea que las heurísticas diseñadas a mano. Estos agentes deben:
- Leer y sintetizar con precisión documentos de cientos de páginas de contenido técnico y normativo
- Verificar hechos en múltiples fuentes ambientales, de ingeniería y normativas
- Redactar informes estructurados que cumplan criterios legales y técnicos muy específicos
Para que Estados Unidos siga haciendo crecer su economía en esta era de la inteligencia(se abre en una ventana nueva), debe ser capaz de construir de forma segura, responsable y rápida. A medida que los sistemas de IA influyen cada vez más en el mundo físico, es necesario comprender sus capacidades en ámbitos como la ingeniería civil, el análisis ambiental y regulatorio. Con el tiempo, los modelos avanzados tendrán que entender con precisión leyes y normativas a medida que ayuden a inventar tecnologías nuevas y más seguras, proteger los recursos naturales y satisfacer las necesidades humanas.
Desde hace más de 50 años, el proceso exige que las agencias federales revisen y documenten los impactos ambientales de proyectos como puentes, centrales eléctricas, líneas de transmisión e instalaciones de fabricación. Este benchmark ayuda a identificar en qué áreas los modelos de IA actuales pueden ayudar de forma responsable a las personas a acelerar estos flujos de trabajo.
Además de reducir los riesgos de la autonomía, este trabajo puede impulsar el diseño de mejores interfaces entre expertos y sistemas de IA. Más allá de los PDF estáticos, los agentes de programación pueden generar de forma dinámica informes web e ilustraciones interactivas a partir de su trabajo, lo que facilita la validación por parte de las personas revisoras.
Con la IA, las agencias podrán revisar, perfeccionar y aprobar propuestas con mayor eficiencia, y el personal público contará con el apoyo de equipos de agentes de IA que se encargarán de las partes más laboriosas de su trabajo para que puedan centrarse en el criterio, la supervisión y la toma de decisiones complejas. Este trabajo está alineado con el compromiso más amplio de OpenAI con el servicio público y con el objetivo de OpenAI for Government de dotar a las personas que trabajan en la administración de herramientas que las hagan más eficaces y respaldadas.
Este benchmark evalúa la capacidad de los modelos en tareas de redacción bien definidas en las que el contexto relevante está disponible, y no toda la ambigüedad y discrecionalidad de las decisiones de autorización en el mundo real. Se hace hincapié en la precisión y el uso correcto de las referencias para aclarar en qué aspectos los modelos podrían ayudar a las personas revisoras. Al analizar los casos de fallo, vimos que algunos «errores» se debían en realidad a referencias obsoletas y a criterios de evaluación poco sólidos, por lo que fue necesario actualizar las rúbricas en consecuencia. En términos más generales, si las fuentes son incompletas, incoherentes o están desactualizadas, es posible que los modelos no señalen estas discrepancias sin instrucciones explícitas. Es más probable que las implementaciones en el mundo real incluyan comentarios de personas expertas e iteraciones, lo que previsiblemente mejorará el rendimiento más allá de lo que se recoge en estas tareas de benchmark autocontenidas.
OpenAI está apoyando a PNNL para seguir desarrollando y perfeccionando soluciones para las aplicaciones de PermitAI(se abre en una ventana nueva), diseñadas para ayudar a las agencias federales a agilizar los procesos de autorización. Con el tiempo, esperamos que el plazo medio de aprobación de proyectos de infraestructuras sometidos a revisión federal pase de meses a semanas, lo que acelerará el desarrollo de proyectos, reforzará la competitividad de EE. UU. y apoyará el crecimiento económico a largo plazo.


