Apresentamos o GPT‑5.3‑Codex‑Spark
Um modelo ultra-rápido para programação em tempo real no Codex.
Hoje, lançamos uma pré-visualização de investigação do GPT‑5.3‑Codex‑Spark, uma versão mais pequena do GPT‑5.3‑Codex e o nosso primeiro modelo concebido para programação em tempo real. O Codex-Spark assinala o primeiro marco da nossa parceria com a Cerebras, anunciada em janeiro. O Codex-Spark está otimizado para parecer quase instantâneo quando é disponibilizado em hardware de latência ultra-baixa — entregando mais de 1000 tokens por segundo, mantendo-se altamente capaz para tarefas de programação do mundo real.
Estamos a disponibilizar o Codex-Spark na Cerebras, em pré-visualização de investigação, a utilizadores do ChatGPT Pro para que os developers possam começar a experimentar desde já, enquanto trabalhamos com a Cerebras para aumentar a capacidade dos centros de dados, reforçar a experiência de ponta a ponta e disponibilizar os nossos modelos de fronteira de maior dimensão.
Os nossos modelos de fronteira mais recentes mostraram particular força na capacidade de executar tarefas de longa duração, trabalhando autonomamente durante horas, dias ou semanas sem intervenção. O Codex-Spark é o nosso primeiro modelo concebido especificamente para trabalhar com o Codex em tempo real — fazendo edições direcionadas, reestruturando a lógica ou refinando interfaces, com resultados imediatos. Com o Codex-Spark, a família Codex passa a suportar tanto tarefas ambiciosas e de longa duração como trabalho feito no momento. Esperamos aprender com a forma como os developers o utilizam e incorporar o feedback à medida que continuamos a expandir o acesso.
No lançamento, o Codex-Spark tem uma janela de contexto de 128k e é apenas texto. Durante a pré-visualização de investigação, o Codex-Spark terá os seus próprios limites de utilização e a utilização não contará para os limites de utilização padrão. No entanto, quando a procura for elevada, poderá haver acesso limitado ou filas temporárias, à medida que equilibramos a fiabilidade para todos os utilizadores.
O Codex-Spark está otimizado para trabalho interativo, onde a latência importa tanto quanto a inteligência. É possível colaborar com o modelo em tempo real — interrompê-lo ou redirecioná-lo enquanto está a trabalhar e iterar rapidamente com respostas quase instantâneas. Por estar afinado para a velocidade, o Codex-Spark mantém, por defeito, um estilo de trabalho leve: faz edições mínimas e direcionadas e não executa testes automaticamente, a menos que o solicite.
O Codex-Spark é um modelo pequeno, altamente capaz, otimizado para inferência rápida. No SWE-Bench Pro e no Terminal-Bench 2.0, dois benchmarks que avaliam capacidades de engenharia de software agêntica, o GPT‑5.3‑Codex‑Spark demonstra um desempenho sólido, concluindo as tarefas numa fração do tempo em comparação com o GPT‑5.3‑Codex.
A duração é estimada como a soma de (1) tempo de geração de saída (tokens de saída ÷ velocidade de amostragem), (2) tempo de prefill (tokens de prefill ÷ velocidade de prefill), (3) tempo total de execução de ferramentas e (4) sobrecarga total de rede.
À medida que treinávamos o Codex-Spark, tornou-se claro que a velocidade do modelo era apenas parte da equação para a colaboração em tempo real — também era necessário reduzir a latência em todo o pipeline de pedido-resposta. Implementámos melhorias de latência de ponta a ponta na nossa infraestrutura, que beneficiam todos os modelos. Em segundo plano, simplificámos a forma como as respostas são transmitidas do cliente para o servidor e de volta, reescrevemos componentes-chave do nosso stack de inferência e reformulámos a inicialização das sessões para que o primeiro token visível apareça mais cedo e o Codex se mantenha responsivo à medida que itera. Com a introdução de uma ligação WebSocket persistente e otimizações direcionadas na Responses API, reduzimos a sobrecarga por ida e volta cliente/servidor em 80 %, a sobrecarga por token em 30 % e o tempo até ao primeiro token em 50 %. O percurso WebSocket está ativado por defeito no Codex-Spark e, em breve, passará a ser a opção por defeito para todos os modelos.
O Codex-Spark corre no Wafer Scale Engine 3(abre numa nova janela) da Cerebras — um acelerador de IA concebido de raiz para inferência de alta velocidade, que dá ao Codex uma camada de disponibilização centrada na latência. Trabalhámos com a Cerebras para adicionar este percurso de baixa latência ao mesmo stack de disponibilização em produção do resto da nossa frota, para que funcione de forma integrada em todo o Codex e nos prepare para suportar modelos futuros.
«O que mais nos entusiasma no GPT-5.3-Codex-Spark é colaborar com a OpenAI e com a comunidade de developers para descobrir o que a inferência rápida torna possível — novos padrões de interação, novos casos de utilização e uma experiência de modelo fundamentalmente diferente. Esta pré-visualização é apenas o início.»
As GPUs continuam a ser fundamentais nos nossos pipelines de treino e inferência e oferecem os tokens com melhor relação custo-eficácia para uso generalizado. A Cerebras complementa essa base ao destacar-se em fluxos de trabalho que exigem latência extremamente baixa, encurtando o ciclo de ponta a ponta para que o Codex se sinta mais responsivo à medida que itera. As GPUs e a Cerebras podem ser combinadas numa única carga de trabalho para alcançar o melhor desempenho.
O Codex-Spark começa hoje a ser disponibilizado, em pré-visualização de investigação, a utilizadores do ChatGPT Pro, nas versões mais recentes da app do Codex, da CLI e da extensão do VS Code. Por correr em hardware especializado de baixa latência, a utilização é regida por um limite de utilização separado, que pode ser ajustado com base na procura durante a pré-visualização de investigação. Além disso, estamos a disponibilizar o Codex-Spark na API a um pequeno conjunto de parceiros de design, para perceber como os developers querem integrar o Codex-Spark nos seus produtos. Vamos expandir o acesso nas próximas semanas, à medida que continuamos a afinar a integração em cargas de trabalho reais.
Atualmente, o Codex-Spark é apenas texto, com uma janela de contexto de 128k, e é o primeiro de uma família de modelos ultra-rápidos. À medida que aprendemos, com a comunidade de developers, onde os modelos rápidos brilham na programação, vamos introduzir ainda mais capacidades — incluindo modelos maiores, comprimentos de contexto mais longos e entrada multimodal.
O Codex-Spark inclui a mesma formação de segurança que os nossos modelos principais, incluindo formação relevante para cibersegurança. Avaliámos o Codex-Spark como parte do nosso processo padrão de disponibilização, que inclui avaliações de base para cibersegurança e outras capacidades, e concluímos que não tem uma hipótese plausível de atingir o limiar do nosso Preparedness Framework para elevada capacidade em cibersegurança ou biologia.
O Codex-Spark é o primeiro passo rumo a um Codex com dois modos complementares: raciocínio e execução de longo horizonte, e colaboração em tempo real para iteração rápida. Com o tempo, estes modos vão convergir — o Codex pode mantê-lo num loop interativo mais fechado enquanto delega trabalho mais demorado a subagentes em segundo plano, ou distribuir tarefas por vários modelos em paralelo quando se quer abrangência e velocidade, para que não seja necessário escolher um único modo logo à partida.
À medida que os modelos se tornam mais capazes, a velocidade de interação torna-se um gargalo claro. A inferência ultra-rápida encurta esse ciclo, tornando o Codex mais natural de usar e expandindo o que é possível para qualquer pessoa que queira transformar uma ideia em software funcional.


