Apresentamos o GPT‑5.3‑Codex
Expandindo o Codex para todo o espectro do trabalho profissional no computador.
Estamos apresentando um novo modelo que destrava ainda mais do que o Codex pode fazer: GPT‑5.3‑Codex, o modelo agêntico de programação mais capaz até hoje. O modelo reúne o desempenho de programação de fronteira do GPT‑5.2‑Codex e as capacidades de raciocínio e conhecimento profissional do GPT‑5.2 em um único modelo — que também é 25% mais rápido. Isso permite que ele assuma tarefas de longa duração que envolvem pesquisa, uso de ferramentas e execução complexa. Como um colega de equipe, você pode orientar e interagir com o GPT‑5.3‑Codex enquanto ele trabalha, sem perder o contexto.
O GPT‑5.3‑Codex é nosso primeiro modelo que foi fundamental na própria criação. O time do Codex usou versões iniciais para depurar o próprio treinamento, gerenciar a própria implantação e diagnosticar resultados de testes e avaliações — e ficamos impressionados com o quanto o Codex conseguiu acelerar o próprio desenvolvimento.
Com o GPT‑5.3‑Codex, o Codex deixa de ser um agente que consegue escrever e revisar código para se tornar um agente que faz quase tudo o que desenvolvedores e profissionais conseguem fazer no computador.
O GPT‑5.3‑Codex estabelece um novo recorde na indústria no SWE-Bench Pro e no Terminal-Bench e mostra forte desempenho no OSWorld e no GDPval — quatro benchmarks que usamos para medir capacidades de programação, agênticas e do mundo real.
O GPT‑5.3‑Codex alcança desempenho de ponta no SWE-Bench Pro, uma avaliação rigorosa de engenharia de software no mundo real. Enquanto o SWE‑bench Verified testa apenas Python, o SWE‑Bench Pro abrange quatro linguagens e é mais resistente à contaminação, além de ser mais desafiador, diverso e relevante para a indústria. Ele também supera com folga o desempenho anterior de ponta no Terminal-Bench 2.0, que mede as habilidades de terminal que um agente de programação como o Codex precisa. Vale destacar que o GPT‑5.3‑Codex faz isso com menos tokens do que qualquer modelo anterior, permitindo que as pessoas construam mais.
A combinação de capacidades de programação de fronteira, melhorias estéticas e compactação resulta em um modelo capaz de entregar trabalhos impressionantes, criando jogos e apps complexos e altamente funcionais do zero ao longo de dias. Para testar as capacidades de desenvolvimento web e as capacidades agênticas de longa duração do modelo, pedimos ao GPT‑5.3‑Codex que criasse dois jogos: a versão 2 do jogo de corrida do lançamento do aplicativo do Codex e um jogo de mergulho. Usando a skill develop web game e prompts de acompanhamento genéricos, pré-selecionados, como "corrija o bug" ou "melhore o jogo", o GPT‑5.3‑Codex iterou nos jogos de forma autônoma ao longo de milhões de tokens. Assista aos trailers e jogue você mesmo para ver do que o Codex é capaz.
Um jogo de corrida completo, com diferentes pilotos, oito mapas e até itens para usar com a barra de espaço. Jogue você mesmo aqui(abre em uma nova janela)!
Um jogo de mergulho em que você explora vários recifes, coleta tudo para completar seu catálogo de peixes e, ao mesmo tempo, gerencia oxigênio, pressão e perigos. Jogue você mesmo aqui(abre em uma nova janela)!
O GPT‑5.3‑Codex também entende melhor sua intenção quando você pede para ele criar sites do dia a dia, em comparação com o GPT‑5.2‑Codex. Prompts simples ou pouco específicos agora resultam, por padrão, em sites com mais funcionalidades e escolhas sensatas, dando a você um ponto de partida mais forte para tirar suas ideias do papel.
Por exemplo, pedimos ao GPT‑5.3‑Codex e ao GPT‑5.2‑Codex que criassem duas landing pages abaixo. O GPT‑5.3‑Codex mostrou automaticamente o plano anual como um preço mensal com desconto, deixando o desconto claro e intencional, em vez de multiplicar o total anual. Ele também criou um carrossel de depoimentos com transição automática e três citações distintas de usuários (em vez de apenas uma), resultando em uma página que, por padrão, parece mais completa e pronta para produção.
Prompt: Crie uma landing page para a Quiet KPI, um resumo semanal de métricas feito para founders. A estética deve ser um SaaS suave, com cards com efeito de vidro, degradê de lavanda para azul e blur discreto. Seções: hero com captura de e-mail, grade de cards com exemplos de relatórios, linha de integrações, carrossel de depoimentos, alternância de preços mensal/anual, FAQ e rodapé.- Tipografia Satoshi ou uma sans geométrica semelhante.- Botões com cantos arredondados, raio de 14 px e estados de foco bem marcados.- Adicione uma revelação discreta conforme o scroll.
Engenheiros de software, designers, gerentes de produto e cientistas de dados fazem muito mais do que gerar código. O GPT‑5.3‑Codex foi criado para dar suporte a todo o trabalho do ciclo de vida do software — depuração, deploy, monitoramento, escrita de PRDs, edição de textos, pesquisa com usuários, testes, métricas e muito mais. Suas capacidades agênticas vão além do software, ajudando você a construir o que quiser — seja preparar apresentações ou analisar dados em planilhas.
Com skills personalizadas semelhantes às usadas nos nossos resultados anteriores do GDPval, o GPT‑5.3‑Codex também mostra forte desempenho em trabalho de conhecimento profissional, medido pelo GDPval, igualando o GPT‑5.2. GDPval é uma avaliação lançada pela OpenAI em 2025 que mede o desempenho de um modelo em tarefas bem especificadas de trabalho intelectual em 44 ocupações. Essas tarefas incluem coisas como criar apresentações, planilhas e outros entregáveis de trabalho.
Abaixo estão alguns exemplos do trabalho produzido pelo agente.
Prompt + contexto da tarefa
GPT-5.3-Codex output

OSWorld é um benchmark de uso do computador com agentes em que o agente precisa concluir tarefas de produtividade em um ambiente visual de desktop. O GPT‑5.3‑Codex demonstra capacidades de uso do computador muito mais fortes do que os modelos GPT anteriores.
No OSWorld-Verified, os modelos usam visão para concluir tarefas diversas no computador. Humanos pontuam ~72%.
Juntos, esses resultados em programação, frontend, uso do computador e tarefas do mundo real mostram que o GPT‑5.3‑Codex não é apenas melhor em tarefas individuais, mas representa uma mudança de patamar rumo a um único agente de propósito geral que consegue raciocinar, construir e executar em todo o espectro do trabalho técnico no mundo real.
À medida que as capacidades dos modelos ficam mais poderosas, a lacuna passa do que os agentes são capazes de fazer para o quão fácil é para as pessoas interagir com, direcionar e supervisionar muitos deles trabalhando em paralelo. O aplicativo do Codex torna muito mais fácil gerenciar e direcionar agentes e, agora, com o GPT‑5.3‑Codex ele ficou mais interativo. Com o novo modelo, o Codex traz atualizações frequentes para que você acompanhe decisões importantes e o progresso enquanto ele trabalha. Em vez de esperar por uma saída final, você pode interagir em tempo real — fazer perguntas, discutir abordagens e guiar o caminho até a solução. O GPT‑5.3‑Codex explica o que está fazendo, responde ao seu feedback e mantém você por dentro do início ao fim.
Ative o direcionamento enquanto o modelo trabalha no aplicativo em Configurações > Geral > Comportamento de acompanhamento.
As melhorias rápidas recentes do Codex se apoiam no fruto de projetos de pesquisa de meses ou anos em toda a OpenAI. Esses projetos de pesquisa estão sendo acelerados pelo Codex, e muitos pesquisadores e engenheiros na OpenAI descrevem que o trabalho hoje é fundamentalmente diferente do que era apenas dois meses atrás. Mesmo versões iniciais do GPT‑5.3‑Codex demonstraram capacidades excepcionais, permitindo que nossa equipe trabalhasse com essas versões anteriores para melhorar o treinamento e apoiar a implantação das versões seguintes.
O Codex é útil para uma gama muito ampla de tarefas, o que torna difícil enumerar por completo todas as formas em que ele ajuda nossas equipes. Como alguns exemplos, a equipe de pesquisa usou o Codex para monitorar e depurar o treinamento desta versão. Ele acelerou a pesquisa para além de depurar problemas de infraestrutura: ajudou a rastrear padrões ao longo do treinamento, forneceu uma análise aprofundada da qualidade das interações, propôs correções e criou aplicativos ricos para que pesquisadores humanos entendessem com precisão como o comportamento do modelo diferia em relação a modelos anteriores.
A equipe de engenharia usou o Codex para otimizar e adaptar o harness do GPT‑5.3‑Codex. Quando começamos a ver casos-limite estranhos afetando usuários, membros da equipe usaram o Codex para identificar bugs de renderização de contexto e encontrar a causa raiz de baixas taxas de acerto de cache. O GPT‑5.3‑Codex continua ajudando a equipe durante o lançamento ao escalar dinamicamente clusters de GPU para se ajustar a picos de tráfego e manter a latência estável.
Durante os testes alfa, um pesquisador quis entender quanto trabalho adicional o GPT‑5.3‑Codex fazia a cada interação e a diferença associada de produtividade. O GPT‑5.3‑Codex criou vários classificadores simples com regex para estimar a frequência de pedidos de esclarecimento, respostas positivas e negativas dos usuários e o progresso na tarefa; depois, executou isso em escala em todos os logs de sessão e produziu um relatório com sua conclusão. Quem estava construindo com o Codex ficou mais satisfeito, porque o agente entendia melhor a intenção e avançava mais a cada interação, com menos perguntas de esclarecimento.
Como o GPT‑5.3‑Codex é tão diferente de seus antecessores, os dados dos testes alfa exibiram muitos resultados incomuns e contraintuitivos. Um cientista de dados da equipe trabalhou com o GPT‑5.3‑Codex para criar novos pipelines de dados e visualizar os resultados de forma muito mais rica do que nossas ferramentas padrão de dashboards permitiam. Os resultados foram coanalisados com o Codex, que resumiu de forma concisa os principais insights em milhares de pontos de dados em menos de três minutos.
Individualmente, todas essas tarefas são exemplos interessantes de como o Codex pode ajudar pesquisadores e pessoas que constroem produtos. Juntas, elas mostraram que essas novas capacidades aceleraram de forma poderosa nossas equipes de pesquisa, engenharia e produto.
Nos últimos meses, vimos ganhos significativos no desempenho do modelo em tarefas de cibersegurança, beneficiando tanto desenvolvedores quanto profissionais de segurança. Em paralelo, estamos preparando salvaguardas cibernéticas reforçadas para apoiar o uso defensivo e uma resiliência maior do ecossistema.
O GPT‑5.3‑Codex é o primeiro modelo que classificamos como tendo nível “High” de capacidade para tarefas relacionadas à cibersegurança sob nosso Preparedness Framework, e o primeiro que treinamos diretamente para identificar vulnerabilidades de software. Embora não tenhamos evidência definitiva de que ele consiga automatizar ataques cibernéticos de ponta a ponta, estamos adotando uma abordagem preventiva e implantando nossa pilha de segurança em cibersegurança mais abrangente até hoje. Nossas mitigações incluem treinamento de segurança, monitoramento automatizado, acesso confiável para capacidades avançadas e pipelines de aplicação que incluem inteligência de ameaças.
Como a cibersegurança é inerentemente de uso duplo, estamos adotando uma abordagem iterativa e baseada em evidências que acelera a capacidade dos defensores de encontrar e corrigir vulnerabilidades, ao mesmo tempo em que desacelera o uso indevido. Como parte disso, estamos lançando o Trusted Access for Cyber, um programa-piloto para acelerar a pesquisa em defesa cibernética.
Estamos investindo em salvaguardas para o ecossistema, como ampliar o beta privado do Aardvark, nosso agente de pesquisa em segurança, como a primeira oferta da nossa suíte de produtos e ferramentas Codex Security, e fazer parcerias com mantenedores de código aberto para oferecer varredura gratuita de base de código para projetos amplamente usados, como o Next.js — em que um pesquisador de segurança usou o Codex para encontrar vulnerabilidades divulgadas(abre em uma nova janela) na semana passada.
Com base no nosso Cybersecurity Grant Program de US$ 1 milhão lançado em 2023, também estamos comprometendo US$ 10 milhões em créditos de API para acelerar a defesa cibernética com nossos modelos mais capazes, especialmente para software de código aberto e sistemas de infraestrutura crítica. Organizações engajadas em pesquisa de segurança de boa-fé podem solicitar créditos de API e suporte por meio do nosso Cybersecurity Grant Program.
O GPT‑5.3‑Codex está disponível nos planos pagos do ChatGPT, em qualquer lugar em que você usa o Codex: no aplicativo, no CLI, na extensão de IDE e na web. Estamos trabalhando para habilitar o acesso via API com segurança em breve.
Com esta atualização, também estamos executando o GPT‑5.3‑Codex 25% mais rápido para usuários do Codex, graças a melhorias na nossa infraestrutura e na pilha de inferência — com interações mais rápidas e resultados mais ágeis.
O GPT‑5.3‑Codex foi cocriado para, treinado com e operado em sistemas NVIDIA GB200 NVL72. Agradecemos à NVIDIA pela parceria.
Com o GPT‑5.3‑Codex, o Codex vai além de escrever código e passa a usá-lo como ferramenta para operar um computador e concluir trabalho de ponta a ponta. Ao avançar a fronteira do que um agente de programação consegue fazer, também destravamos uma classe mais ampla de trabalho intelectual — de criar e fazer deploy de software a pesquisar, analisar e executar tarefas complexas. O que começou como um foco em ser o melhor agente de programação virou a base de um colaborador mais geral no computador, ampliando tanto quem consegue construir quanto o que é possível com o Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
GPT‑5.2 (xhigh) | SWE-Bench Pro (Public) | 56.4% | 55,6% |
Terminal-Bench 2.0 | 77.3% | 64.0% | 62,2% |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (wins or ties) | 70,90% | - | 70.9% (high) |
Cybersecurity Capture The Flag Challenges | 77,6% | 67,4% | 67,7% |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


