Ir al contenido principal
OpenAI

19 de noviembre de 2025

ProductoLanzamiento

Crear más con GPT‑5.1‑Codex‑Max

Cargando…

Introducción

Presentamos GPT‑5.1‑Codex‑Max, nuestro nuevo modelo avanzado para programación autónoma por agentes, ya disponible en Codex.  Basado en una actualización de nuestro modelo fundamental de razonamiento, está entrenado para abordar tareas autónomas en ingeniería de software, matemáticas, investigación y mucho más. Ofrece mayor rapidez, inteligencia y eficacia en el uso de tókenes en todas las fases del ciclo de desarrollo, y supone un nuevo paso para convertirse en un asistente de programación fiable.

GPT‑5.1‑Codex‑Max está diseñado para trabajos extensos y detallados. Es nuestro primer modelo entrenado de forma nativa para operar en múltiples ventanas de contexto mediante un proceso denominado compaction (compactación de texto), lo que permite trabajar de manera coherente con millones de tókenes en una misma tarea. Gracias a esto, se pueden realizar refactorizaciones a escala de proyecto, sesiones de depuración profundas y bucles de agentes de varias horas.

GPT‑5.1‑Codex‑Max ya está disponible en Codex para la CLI, la extensión para IDE, la nube y la revisión de código, con acceso a la API próximamente.

Capacidades de codificación avanzadas

GPT‑5.1‑Codex‑Max se ha entrenado en tareas reales de ingeniería de software, como la creación de PR, la revisión de código, la codificación frontend y sesiones de preguntas y respuestas, y supera a nuestros modelos anteriores en numerosas evaluaciones avanzadas de codificación. Estas mejoras en las pruebas comparativas se reflejan en el uso real: es el primer modelo que hemos entrenado para operar en entornos Windows y ahora incluye tareas específicas para optimizar su colaboración en la CLI de Codex.

* Todas las evaluaciones se realizaron con la compactación habilitada y un esfuerzo de razonamiento extra alto
* Terminal-Bench 2.0 se ejecutó con la CLI de Codex en el
Laude Institute Harbor harness(se abre en una ventana nueva)

Velocidad y costes

GPT‑5.1‑Codex‑Max muestras mejoras significativas en la eficiencia de tókenes gracias a un razonamiento más efectivo. En SWE-bench Verified, con un esfuerzo «medio», supera a GPT‑5.1‑Codex con el mismo esfuerzo, empleando un 30 % menos de tókenes de razonamiento. Para tareas que no son sensibles a la latencia, también estamos introduciendo un nuevo esfuerzo de razonamiento extra alto (xhigh), que piensa durante un período de tiempo aún más largo para obtener una mejor respuesta. Seguimos recomendando el término medio como opción diaria para la mayoría de las tareas.

Esperamos que las mejoras en la eficiencia de los tókenes representen ahorros reales para los desarrolladores.

Por ejemplo, GPT‑5.1‑Codex‑Max puede producir diseños frontend de alta calidad con funcionalidades y estética similares, pero a un coste mucho menor que GPT‑5.1‑Codex.

Prompt: Genera una aplicación de navegador autónoma que renderice un sandbox interactivo de CartPole con gráficos en canvas, un controlador pequeño basado en policy-gradient, métricas y un visualizador de red en SVG.

Funciones

  • Debe ser capaz de entrenar realmente una política para mejorar el modelo en CartPole.
  • Mostrar un visualizador de las activaciones y pesos cuando el modelo está entrenando o en inferencia.
  • Mostrar los pasos del episodio y las recompensas de este episodio.
  • Indicar el tiempo de supervivencia actual y el mejor tiempo de supervivencia en pasos.

Guardar en index.html

Tareas de larga ejecución

La compactación permite a GPT‑5.1‑Codex‑Max completar tareas que antes habrían fallado por los límites de la ventana de contexto, como refactorizaciones complejas o bucles de agente de larga ejecución, al recortar su historial mientras conserva el contexto más importante a lo largo del tiempo. En las aplicaciones de Codex, GPT‑5.1‑Codex‑Max compacta automáticamente su sesión cuando se aproxima al límite de la ventana de contexto, obteniendo así una ventana de contexto renovada. Este proceso se repite hasta que la tarea se completa.

La capacidad de mantener un trabajo coherente durante periodos prolongados es una competencia fundamental en el camino hacia sistemas de IA más generales y fiables. GPT‑5.1‑Codex‑Max puede trabajar de manera autónoma durante varias horas seguidas. En nuestras evaluaciones internas, hemos observado que GPT‑5.1‑Codex‑Max puede abordar tareas durante más de 24 horas, iterar persistentemente sobre su implementación, corregir errores en las pruebas y, en última instancia, entregar un resultado exitoso.

En este ejemplo, GPT‑5.1‑Codex‑Max está refactorizando de forma autónoma el repositorio de código abierto Codex CLI.

A medida que la duración de la sesión se aproxima a la ventana de contexto del modelo, este compacta automáticamente la sesión para liberar espacio y poder continuar con la tarea sin perder el progreso.

El vídeo ha sido recortado y acelerado para mayor claridad.

Desarrollar agentes de IA seguros y fiables

GPT‑5.1‑Codex‑Max obtiene un rendimiento significativamente superior en evaluaciones que requieren un razonamiento sostenido a largo plazo. Gracias a su capacidad para trabajar de forma coherente a través de múltiples ventanas de contexto mediante compactación, el modelo ofrece mejores resultados en retos de áreas como codificación a largo plazo y ciberseguridad, como muestran los resultados de su rendimiento en evaluaciones internas y externas recogidos en las tarjeta del sistema de GPT‑5.1‑Codex‑Max.

GPT‑5.1‑Codex‑Max no alcanza el nivel alto de capacidad en ciberseguridad según nuestro Marco de preparación, pero sigue siendo el modelo de ciberseguridad más avanzado que hemos desplegado hasta la fecha, y las capacidades de ciberseguridad autónomas por agentes siguen evolucionando rápidamente. Por ello, estamos tomando medidas para prepararnos para alcanzar el nivel de Alto en este ámbito, reforzando nuestras medidas de protección en ciberseguridad y trabajando para que los defensores puedan aprovechar estas mejoras a través de programas como Aardvark.

Cuando lanzamos GPT‑5‑Codex, implementamos un sistema de monitorización específico de ciberseguridad para detectar y frenar actividades maliciosas. Aunque no hemos observado un aumento significativo de abusos a gran escala, estamos preparando medidas de mitigación adicionales para las capacidades avanzadas. Nuestros equipos ya han interrumpido operaciones cibernéticas que intentaban hacer un uso indebido de nuestros modelos; al mismo tiempo, la actividad sospechosa se revisa mediante nuestros sistemas de monitorización de políticas.

Codex está diseñado para funcionar por defecto en un entorno seguro: las escrituras de archivos se limitan a su área de trabajo y el acceso a la red permanece desactivado a menos que un desarrollador lo habilite. Recomendamos mantener Codex en este modo de acceso restringido, ya que activar internet o la búsqueda web puede generar riesgos de inyección de prompts provenientes de contenido no fiable.

A medida que Codex se vuelve más capaz de realizar tareas de larga ejecución, es cada vez más importante que los desarrolladores revisen el trabajo del agente antes de aplicar cambios o desplegar en producción. Para ayudar en esto, Codex genera los registros de la consola, registra las llamadas a las herramientas y los resultados de las pruebas. Aunque sus revisiones de código reducen el riesgo de introducir en producción errores generados por el modelo o por humanos, Codex debe considerarse un revisor adicional y no un sustituto de las revisiones humanas.

Las capacidades de ciberseguridad pueden emplearse tanto para defensa como para ataque, por lo que adoptamos un enfoque de despliegue iterativo: aprendemos del uso en el mundo real, actualizamos las medidas de protección y mantenemos herramientas defensivas clave, como el escaneo automatizado de vulnerabilidades y la asistencia en su corrección.

Disponibilidad

GPT‑5.1‑Codex‑Max está disponible en Codex con los planes ChatGPT Plus, Pro, Business, Edu y Enterprise. Para obtener información sobre cómo funcionan los límites de uso de tu plan, consulta nuestra documentación(se abre en una ventana nueva).

Para los desarrolladores que utilizan Codex CLI con clave API, planeamos ofrecer GPT‑5.1‑Codex‑Max a través de la API próximamente.

A partir de hoy, GPT‑5.1‑Codex‑Max reemplazará a GPT‑5.1‑Codex como modelo predeterminado en las interfaces de Codex. A diferencia de GPT‑5.1, que es un modelo de propósito general, recomendamos usar GPT‑5.1‑Codex‑Max y la familia de modelos Codex únicamente para tareas de programación autónoma por agentes en entornos Codex o similares.

Conclusiones

GPT‑5.1‑Codex‑Max demuestra lo avanzados que están los modelos para mantener tareas de codificación a largo plazo, gestionar flujos complejos y generar implementaciones de alta calidad con muchos menos tókenes. Gracias a las mejoras continuas en nuestra CLI, la extensión para IDE, la integración en la nube y las herramientas de revisión de código, la productividad de ingeniería ha aumentado notablemente: el 95 % de los ingenieros de OpenAI utilizan Codex semanalmente y envían un 70 % más de solicitudes para integrar cambios desde que lo adoptaron. A medida que ampliamos lo que los agentes son capaces de hacer, nos entusiasma ver qué construirás con ellos.

Anexo: evaluaciones de modelos

GPT‑5.1‑Codex (alto)

GPT‑5.1‑Codex‑Max (extra alto)

SWE-bench Verified (n=500)

73,7 %

77,9 %

SWE-Lancer IC SWE

66,3 %

79,9 %

Terminal-Bench 2.0

52,8 %

58,1 %

Autor

OpenAI