Apresentamos o GPT‑5.3‑Codex‑Spark
Um modelo ultrarrápido para programação em tempo real no Codex.
Hoje, estamos lançando uma prévia experimental (research preview) do GPT‑5.3‑Codex‑Spark, uma versão menor do GPT‑5.3‑Codex e nosso primeiro modelo criado para programação em tempo real. O Codex-Spark marca o primeiro marco da nossa parceria com a Cerebras, que anunciamos em janeiro. O Codex-Spark foi otimizado para parecer quase instantâneo quando roda em hardware de latência ultrabaixa — entregando mais de 1.000 tokens por segundo e mantendo alta capacidade para tarefas reais de programação.
Estamos disponibilizando o Codex-Spark na Cerebras como uma prévia experimental (research preview) para usuários do ChatGPT Pro, para que os desenvolvedores possam começar a experimentar cedo enquanto trabalhamos com a Cerebras para ampliar a capacidade dos data centers, fortalecer a experiência do usuário de ponta a ponta e implantar nossos modelos de fronteira maiores.
Nossos modelos de fronteira mais recentes têm mostrado uma força particular na capacidade de executar tarefas de longa duração, trabalhando de forma autônoma por horas, dias ou semanas sem intervenção. O Codex-Spark é nosso primeiro modelo criado especificamente para trabalhar com o Codex em tempo real — fazendo edições pontuais, ajustando a lógica ou refinando interfaces e vendo resultados imediatamente. Com o Codex-Spark, o Codex agora dá suporte tanto a tarefas ambiciosas de longa duração quanto a fazer o trabalho acontecer no momento. Esperamos aprender com a forma como os desenvolvedores o usam e incorporar feedback conforme seguimos ampliando o acesso.
No lançamento, o Codex-Spark tem uma janela de contexto de 128k e é somente texto. Durante a prévia experimental (research preview), o Codex-Spark terá seus próprios limites de uso, e esse uso não contará para os limites padrão. No entanto, quando a demanda estiver alta, você pode ver acesso limitado ou filas temporárias enquanto equilibramos a confiabilidade entre usuários.
O Codex-Spark é otimizado para trabalho interativo, em que a latência importa tanto quanto a inteligência. Você pode colaborar com o modelo em tempo real, interrompendo ou redirecionando-o enquanto ele trabalha, e iterar rapidamente com respostas quase instantâneas. Como ele foi ajustado para velocidade, o Codex-Spark mantém um estilo de trabalho padrão mais leve: faz edições mínimas e pontuais e não executa testes automaticamente, a menos que você peça.
O Codex-Spark é um modelo pequeno altamente capaz, otimizado para inferência rápida. No SWE-Bench Pro e no Terminal-Bench 2.0, dois benchmarks que avaliam a capacidade agêntica de engenharia de software, o GPT‑5.3‑Codex‑Spark demonstra um desempenho sólido e conclui as tarefas em uma fração do tempo em comparação com o GPT‑5.3‑Codex.
A duração é estimada como a soma de (1) tempo de geração da saída (tokens de saída ÷ velocidade de amostragem), (2) tempo de prefill (tokens de prefill ÷ velocidade de prefill), (3) tempo total de execução de ferramentas e (4) sobrecarga total de rede.
Enquanto treinávamos o Codex-Spark, ficou claro que a velocidade do modelo era só parte da equação para colaboração em tempo real — também precisávamos reduzir a latência em toda a esteira de requisição e resposta. Implementamos melhorias de latência de ponta a ponta na nossa infraestrutura, que vão beneficiar todos os modelos. Por trás dos panos, simplificamos como as respostas são transmitidas do cliente para o servidor e de volta, reescrevemos partes-chave da nossa pilha de inferência e reformulamos como as sessões são inicializadas para que o primeiro token visível apareça mais cedo e o Codex continue responsivo conforme você itera. Com a introdução de uma conexão WebSocket persistente e otimizações pontuais na Responses API, reduzimos a sobrecarga por ida e volta cliente/servidor em 80%, a sobrecarga por token em 30% e o tempo até o primeiro token em 50%. O caminho via WebSocket está ativado por padrão para o Codex-Spark e em breve passará a ser o padrão para todos os modelos.
O Codex-Spark roda no Wafer Scale Engine 3(abre em uma nova janela) da Cerebras — um acelerador de IA criado sob medida para inferência em alta velocidade, oferecendo ao Codex uma camada de serving que prioriza latência. Fizemos parceria com a Cerebras para adicionar esse caminho de baixa latência à mesma pilha de serving em produção do restante da nossa frota, para que ele funcione sem atrito no Codex e nos prepare para dar suporte a modelos futuros.
“O que mais nos empolga no GPT-5.3-Codex-Spark é fazer parceria com a OpenAI e a comunidade de desenvolvedores para descobrir o que a inferência rápida torna possível — novos padrões de interação, novos casos de uso e uma experiência de modelo fundamentalmente diferente. Esta prévia é só o começo.”
As GPUs continuam sendo a base dos nossos pipelines de treinamento e inferência e entregam os tokens com melhor custo-benefício para uso em larga escala. A Cerebras complementa essa base ao se destacar em fluxos de trabalho que exigem latência extremamente baixa, encurtando o loop de ponta a ponta para que o Codex pareça mais responsivo conforme você itera. GPUs e Cerebras podem ser combinadas em uma mesma carga de trabalho para alcançar o melhor desempenho.
O Codex-Spark começa a ser lançado hoje como uma prévia experimental (research preview) para usuários do ChatGPT Pro nas versões mais recentes do aplicativo do Codex, do CLI e da extensão do VS Code. Como ele roda em hardware especializado de baixa latência, o uso é regido por um limite de uso separado, que pode se ajustar conforme a demanda durante a prévia experimental (research preview). Além disso, estamos disponibilizando o Codex-Spark na API para um pequeno grupo de parceiros de design, para entender como os desenvolvedores querem integrar o Codex-Spark aos seus produtos. Vamos ampliar o acesso nas próximas semanas, conforme seguimos ajustando nossa integração em cargas de trabalho reais.
Atualmente, o Codex-Spark é somente texto, com janela de contexto de 128k, e é o primeiro de uma família de modelos ultrarrápidos. À medida que aprendermos com a comunidade de desenvolvedores onde modelos rápidos brilham na programação, vamos adicionar ainda mais capacidades — incluindo modelos maiores, contextos mais longos e entrada multimodal.
O Codex-Spark inclui o mesmo treinamento de segurança dos nossos modelos principais, incluindo treinamento relevante para cibersegurança. Avaliamos o Codex-Spark como parte do nosso processo padrão de implantação — que inclui avaliações de base de cibersegurança e outras capacidades — e concluímos que ele não tem uma chance plausível de atingir nosso limiar do Preparedness Framework para capacidade de nível High em cibersegurança ou biologia.
O Codex-Spark é o primeiro passo rumo a um Codex com dois modos complementares: raciocínio e execução de horizonte mais longo e colaboração em tempo real para iteração rápida. Com o tempo, esses modos vão se misturar — o Codex pode manter você em um loop interativo bem próximo enquanto delega trabalhos de longa duração a subagentes em segundo plano, ou distribuir tarefas para vários modelos em paralelo quando você quiser amplitude e velocidade, para que não precise escolher um único modo logo de cara.
À medida que os modelos ficam mais capazes, a velocidade de interação vira um gargalo claro. A inferência ultrarrápida encurta esse loop, deixando o Codex mais natural de usar e expandindo o que é possível para qualquer pessoa que queira transformar uma ideia em software funcionando.


