Presentamos GPT‑5.3‑Codex‑Spark
Un modelo ultrarrápido para la codificación en tiempo real en Codex.
Hoy presentamos la versión preliminar de investigación de GPT‑5.3‑Codex‑Spark, una variante más ligera de GPT‑5.3‑Codex y nuestro primer modelo diseñado para programación en tiempo real. Codex-Spark marca el primer gran momento en nuestra asociación con Cerebras, que anunciamos en enero. Codex-Spark está optimizado para ofrecer una respuesta casi instantánea cuando se utiliza en hardware de latencia ultrabaja, procesando más de mil tokens por segundo y manteniendo una alta capacidad para tareas de programación en el mundo real.
Compartimos Codex-Spark como versión preliminar de investigación para los usuarios de ChatGPT Pro, de modo que los desarrolladores puedan empezar a experimentar pronto, mientras trabajamos con Cerebras para aumentar la capacidad del centro de datos, mejorar la experiencia de usuario de extremo a extremo y desplegar nuestros modelos de vanguardia más grandes.
Nuestros modelos de vanguardia más recientes han demostrado fortalezas particulares en la realización de tareas de larga duración, operando de manera autónoma durante horas, días o incluso semanas sin intervención. Codex-Spark es nuestro primer modelo diseñado específicamente para trabajar con Codex en tiempo real, lo que permite hacer ediciones puntuales, reestructurar la lógica o perfeccionar interfaces y ver los resultados de inmediato. Con Codex-Spark, Codex ahora admite tanto tareas largas y complejas como acciones instantáneas. Nos interesa observar cómo los desarrolladores lo utilizan e incorporar sus sugerencias mientras ampliamos su acceso.
Cuando se lance Codex-Spark, tendrá una ventana de contexto de 128 000 tokens y funcionará solo con texto. Durante la versión preliminar de investigación, Codex-Spark tendrá sus propios límites de uso y su utilización no contará para los límites estándar. No obstante, cuando la demanda sea alta, podrías experimentar un acceso limitado o esperar temporalmente en cola mientras garantizamos un servicio estable para todos los usuarios.
Codex‑Spark está optimizado para el trabajo interactivo, donde la latencia es tan importante como la inteligencia. Puedes colaborar con el modelo en tiempo real, interrumpirlo o redirigirlo mientras trabaja, e iterar rápidamente con respuestas casi instantáneas. Al estar optimizado para la velocidad, Codex-Spark mantiene su estilo de trabajo ligero: realiza ediciones mínimas y precisas y no ejecuta pruebas automáticamente a menos que tú se lo indiques.
Codex-Spark es un modelo pequeño pero muy capaz, optimizado para una inferencia rápida. En SWE‑Bench Pro y Terminal‑Bench 2.0, dos puntos de referencia que evalúan la capacidad agéntica en ingeniería de software, GPT‑5.3‑Codex‑Spark muestra un rendimiento sólido al completar las tareas en una fracción del tiempo en comparación con GPT‑5.3‑Codex.
La duración se estima como la suma de: (1) el tiempo de generación de la salida (tokens de salida ÷ velocidad de muestreo), (2) el tiempo de preprocesamiento de entrada —también llamado prefill— (tokens de preprocesamiento ÷ velocidad de preprocesamiento), (3) el tiempo total de ejecución de la herramienta y (4) la sobrecarga total de la red.
Al entrenar Codex-Spark, vimos que la velocidad del modelo era solo una parte de la ecuación para la colaboración en tiempo real: también era crucial reducir la latencia en todo el flujo de solicitud y respuesta. Por eso implementamos mejoras de latencia de extremo a extremo en nuestro entorno de pruebas, que ahora benefician a todos los modelos. Internamente, optimizamos cómo fluyen las respuestas entre cliente y servidor, reescribimos partes clave de la infraestructura de inferencia y ajustamos la inicialización de sesiones, para que el primer token visible aparezca más rápido y Codex siga siendo reactivo mientras iteras. Con la introducción de una conexión WebSocket persistente y optimizaciones específicas en la API de Responses, redujimos la sobrecarga por viaje cliente/servidor en un 80 %, la sobrecarga por token en un 30 % y el tiempo hasta el primer token en un 50 %. La ruta de WebSocket está habilitada de forma predeterminada para Codex-Spark y pronto será la opción estándar para todos los modelos.
Codex-Spark se ejecuta en el Wafer Scale Engine 3(se abre en una nueva ventana)de Cerebras, un acelerador de IA diseñado específicamente para inferencia de alta velocidad, que le brinda a Codex una capa de servicio prioritaria en latencia. Nos asociamos con Cerebras para añadir este camino de baja latencia a la misma infraestructura de producción que utiliza el resto de nuestra flota, de modo que funcione sin interrupciones en todo Codex y nos deje listos para futuros modelos.
"Lo que más nos emociona de GPT-5.3-Codex-Spark es trabajar junto a OpenAI y la comunidad de desarrolladores para ver todo lo que la inferencia rápida puede lograr: nuevos patrones de interacción, casos de uso y una experiencia de modelo completamente distinta. Esta versión preliminar es solo el inicio".
Las GPU siguen siendo fundamentales en nuestros flujos de entrenamiento e inferencia y proporcionan los tokens más rentables para un uso generalizado. Cerebras complementa esta base al sobresalir en flujos de trabajo que requieren latencia extremadamente baja, optimizando el ciclo de extremo a extremo para que Codex se sienta más ágil mientras iteras. Las GPUs y Cerebras pueden combinarse para tareas individuales y alcanzar el mejor rendimiento.
Codex-Spark se lanza hoy como versión preliminar de investigación para los usuarios de ChatGPT Pro en las últimas versiones de la aplicación Codex, la CLI y la extensión de VS Code. Debido a que funciona en hardware especializado de baja latencia, su uso está sujeto a un límite de tasa independiente, que podrá ajustarse según la demanda durante la fase de vista previa de investigación.Además, ponemos Codex-Spark a disposición en la API para un pequeño grupo de socios de diseño, con el fin de comprender cómo los desarrolladores quieren integrar Codex-Spark en sus productos. Ampliaremos el acceso en las próximas semanas, mientras seguimos ajustando la integración bajo condiciones de trabajo reales.
Codex-Spark maneja actualmente solo texto y cuenta con una ventana de contexto de 128 000 tokens, siendo el primero de una familia de modelos ultrarrápidos. A medida que aprendamos más con la comunidad de desarrolladores sobre los escenarios en los que los modelos rápidos destacan en programación, iremos introduciendo nuevas capacidades, incluyendo modelos de mayor tamaño, ventanas de contexto más extensas y entrada multimodal.
Codex-Spark incluye el mismo entrenamiento de seguridad que nuestros modelos principales, incluyendo el específico para ciberseguridad. Evaluamos Codex-Spark como parte de nuestro proceso estándar de implementación, que comprende pruebas de referencia para capacidades cibernéticas y otras, y determinamos que no existe una posibilidad plausible de que alcance nuestro umbral del Marco de Preparación para alta capacidad en ciberseguridad o biología.
Codex-Spark es el primer paso hacia un Codex con dos modos complementarios: razonamiento y ejecución a largo plazo, y colaboración en tiempo real para iteraciones rápidas. Con el tiempo, los modos se integrarán: Codex podrá mantener un ciclo interactivo cerrado mientras delega tareas de mayor duración a subagentes en segundo plano, o distribuir tareas entre varios modelos en paralelo cuando busques amplitud y rapidez, de modo que no tengas que elegir un solo modo desde el inicio.
A medida que los modelos se vuelven más capaces, la velocidad de interacción se convierte en un claro cuello de botella. La inferencia ultrarrápida cierra ese ciclo, haciendo que Codex resulte más natural de usar y ampliando lo que es posible para cualquiera que quiera transformar una idea en software operativo.


