Presentamos GPT‑5.2‑Codex
El modelo de codificación con agentes más avanzado para la ingeniería de software profesional y la ciberseguridad defensiva.
Hoy lanzamos GPT‑5.2‑Codex, el modelo de codificación con agentes más avanzado hasta ahora para la ingeniería de software compleja que aborda problemas del mundo real. GPT‑5.2‑Codex es una versión de GPT‑5.2 optimizada para la programación de agentes en Codex. Incorpora mejoras en el trabajo a largo plazo mediante la compactación de contexto, mayor rendimiento en cambios de código de gran escala, como refactorizaciones y migraciones, mejor desempeño en entornos Windows y capacidades de ciberseguridad significativamente más robustas.
A medida que nuestros modelos continúan avanzando en los límites de la inteligencia, estas mejoras también impulsan avances significativos en dominios especializados como la ciberseguridad. Por ejemplo, la semana pasada, un investigador de seguridad usó GPT‑5.1‑Codex‑Max con Codex CLI para encontrar y divulgar(se abre en una nueva ventana) de forma responsable una vulnerabilidad en React que podría llevar a la exposición del código fuente.
GPT‑5.2‑Codex ofrece capacidades de ciberseguridad más avanzadas que cualquier modelo que hayamos lanzado hasta ahora. Estos avances ayudan a fortalecer la ciberseguridad a gran escala, pero también presentan nuevos riesgos de doble uso que requieren un despliegue cuidadoso. Aunque GPT‑5.2‑Codex no alcanza un nivel alto (High) de capacidad cibernética, según nuestro Marco de Preparación, diseñamos nuestro enfoque de implementación con la vista puesta en el crecimiento futuro de estas capacidades.
Hoy lanzamos GPT‑5.2‑Codex en todos los entornos de Codex para los usuarios de pago de ChatGPT. También estamos trabajando para habilitar de forma segura el acceso a GPT‑5.2‑Codex para los usuarios de la API en las próximas semanas. En paralelo, estamos implementando un acceso, solo por invitación, confiable, a las próximas capacidades y a modelos más permisivos para profesionales y organizaciones verificadas que se enfocan en el trabajo de ciberseguridad defensiva. Creemos que este enfoque permite ampliar el acceso sin comprometer la seguridad.
GPT‑5.2‑Codex se basa en las fortalezas de GPT‑5.2 en el trabajo profesional de conocimiento y en las capacidades de codificación con agentes y uso de terminal de vanguardia de GPT‑5.1‑Codex‑Max. Con mejor comprensión de contextos largos, llamadas de herramientas más confiables, mayor precisión factual y compactación nativa, GPT‑5.2‑Codex actúa como un socio más confiable para tareas de programación de larga duración y mantiene un uso eficiente de tokens en su razonamiento.
GPT‑5.2‑Codex alcanza un rendimiento de vanguardia en SWE-Bench Pro y Terminal-Bench 2.0, pruebas de referencia diseñadas para evaluar el desempeño de agentes en una amplia variedad de tareas en entornos de terminal realistas. Además, es mucho más eficaz y confiable en la codificación autónoma en entornos nativos de Windows, aprovechando las capacidades introducidas en GPT‑5.1‑Codex‑Max.
Con estas mejoras, Codex trabaja con mayor eficacia en repositorios grandes durante sesiones prolongadas y mantiene el contexto completo. Completa con mayor confiabilidad tareas complejas como refactorizaciones extensas, migraciones de código y desarrollo de funcionalidades y continúa con las iteraciones sin perder el rumbo, incluso cuando los planes cambian o algún intento falla.
En SWE-Bench Pro, a un modelo se le proporciona un repositorio de código y debe generar un parche para resolver una tarea de ingeniería de software realista. Terminal-Bench 2.0 es una prueba de referencia para evaluar agentes de IA en entornos de terminal reales. Las tareas incluyen compilar código, entrenar modelos y configurar servidores.
Un rendimiento visual más potente permite que GPT‑5.2‑Codex interprete con mayor precisión capturas de pantalla, diagramas técnicos, gráficos y superficies de interfaz de usuario compartidos durante las sesiones de codificación.
Codex puede tomar maquetas de diseño y convertirlas rápidamente en prototipos funcionales. Además, puedes trabajar junto a Codex para llevar esos prototipos a producción.
Maqueta de diseño

Prototipo generado por GPT‑5.2‑Codex
Al comparar en gráficas el rendimiento en una de nuestras principales evaluaciones de ciberseguridad a lo largo del tiempo, observamos un aumento pronunciado en la capacidad: comienza con GPT‑5‑Codex, da un gran salto con GPT‑5.1‑Codex‑Max y vuelve a aumentar, por tercera vez, con GPT‑5.2‑Codex. Esperamos que los próximos modelos de IA continúen esta trayectoria. En preparación, planificamos y evaluamos cada nuevo modelo como si pudiera alcanzar niveles altos (High) de capacidad en ciberseguridad, según lo medido por nuestro Marco de preparación(se abre en una nueva ventana). Aunque GPT‑5.2‑Codex aún no alcanza un nivel “High” de capacidad cibernética, nos estamos preparando para futuros modelos que crucen ese umbral. Debido a las capacidades mejoradas en ciberseguridad, incorporamos salvaguardas adicionales en el modelo y en el producto, que se detallan en la tarjeta del sistema.
La evaluación Professional Capture-the-Flag (CTF) mide con qué frecuencia el modelo puede resolver desafíos avanzados y de múltiples pasos del mundo real, que requieren habilidades de ciberseguridad a nivel profesional, en un entorno Linux.
La sociedad moderna funciona con software y su fiabilidad depende de una ciberseguridad sólida: mantener en línea los sistemas críticos en la banca, la salud, las comunicaciones y los servicios esenciales, proteger los datos sensibles y garantizar que las personas puedan confiar en el software del que dependen a diario. Las vulnerabilidades pueden existir mucho antes de que alguien las detecte, y encontrarlas, validarlas y corregirlas a menudo depende de una comunidad de ingenieros e investigadores de seguridad independientes con las herramientas adecuadas.
El 11 de diciembre de 2025, el equipo de React reveló tres vulnerabilidades de seguridad que afectan a las aplicaciones construidas con componentes de servidor de React. Lo que hizo notable esta divulgación no fueron solo las vulnerabilidades en sí mismas, sino la manera en que fueron descubiertas.
Andrew MacPherson, ingeniero principal de seguridad en Privy (una empresa de Stripe), utilizaba GPT‑5.1‑Codex‑Max con Codex CLI y otros agentes de codificación para reproducir y estudiar una vulnerabilidad crítica e independiente de React divulgada la semana anterior, conocida como React2Shell(se abre en una nueva ventana) (CVE-2025-55182(se abre en una nueva ventana)). Su objetivo era evaluar qué tan eficazmente el modelo podía asistir en la investigación de vulnerabilidades del mundo real.
Al inicio, probó varios análisis zero-shot y le pidió al modelo que examinara el parche e identificara la vulnerabilidad que corregía. Como ese enfoque no dio resultados, pasó a una estrategia de mayor volumen y más iterativa. Cuando tampoco funcionó, guió a Codex por flujos de trabajo estándar de seguridad defensiva: configuró un entorno de pruebas local, analizó posibles entornos de ataque y utilizó fuzzing para sondear el sistema con entradas malformadas. Al intentar reproducir el problema original de React2Shell, Codex mostró comportamientos inesperados que justificaron una investigación más profunda. En el transcurso de una sola semana, este proceso llevó al descubrimiento de vulnerabilidades previamente desconocidas, que se divulgaron de manera responsable al equipo de React.
Esto demuestra cómo los sistemas avanzados de IA pueden acelerar significativamente el trabajo de seguridad defensiva en software de uso común en el mundo real. Al mismo tiempo, las capacidades que ayudan a los defensores a moverse más rápido también pueden ser mal utilizadas por sujetos malintencionados.
A medida que los sistemas con agentes se vuelven más capaces en tareas relevantes para la ciberseguridad, estamos convirtiendo esto en una prioridad central, asegurando que estos avances se implementen de manera responsable. Cada mejora en capacidad se combina con salvaguardas más sólidas, controles de acceso más estrictos y una colaboración continua con la comunidad de seguridad.
Los equipos de seguridad pueden enfrentar restricciones al emular actores de amenazas, analizar malware para apoyar la remediación o realizar pruebas de esfuerzo en infraestructura crítica. Estamos desarrollando un piloto de acceso confiable para eliminar esa fricción para personas y organizaciones que califican, y así habilitar a defensores de confianza para usar capacidades de IA de vanguardia en ciberseguridad para acelerar la ciberdefensa.
En un principio, el programa piloto será solo por invitación para los profesionales de seguridad que estén verificados y que tengan un historial de divulgación responsable de vulnerabilidades, para las organizaciones con un caso de uso claro en ciberseguridad. Las participantes que califiquen tendrán acceso a nuestros modelos más capaces para casos de uso defensivos, lo que habilita el trabajo legítimo de doble uso.
Si eres un profesional de seguridad o formas parte de una organización que realiza trabajos de seguridad ética, como la investigación de vulnerabilidades o el red-teaming autorizado, te invitamos a expresar tu interés en unirte y compartir tus comentarios sobre lo que te gustaría ver del programa aquí(se abre en una nueva ventana).
GPT‑5.2‑Codex representa un avance en cómo la IA avanzada puede apoyar la ingeniería de software en el mundo real y los dominios especializados como la ciberseguridad, ayudando a desarrolladores y defensores a abordar trabajos complejos y de largo plazo, mientras fortalece las herramientas disponibles para la investigación responsable de seguridad.
Al lanzar GPT‑5.2‑Codex de manera gradual, combinando el lanzamiento con salvaguardas y colaborando estrechamente con la comunidad de seguridad, nuestro objetivo es maximizar el impacto defensivo y reducir al mínimo el riesgo de uso indebido. Lo que aprendamos de este lanzamiento nos servirá de guía para ampliar el acceso con el tiempo, a medida que el software y las capacidades cibernéticas sigan evolucionando.


