Apresentamos o GPT‑5.3‑Codex
A expandir o Codex a todo o espectro de trabalho profissional num computador.
Estamos a apresentar um novo modelo que desbloqueia ainda mais do que o Codex consegue fazer: GPT‑5.3‑Codex, o modelo de programação agêntico mais capaz até à data. O modelo faz avançar tanto o desempenho de programação de vanguarda do GPT‑5.2‑Codex como as capacidades de raciocínio e conhecimento profissional do GPT‑5.2, num único modelo que também é 25% mais rápido. Isto permite-lhe assumir tarefas de longa duração que envolvem investigação, utilização de ferramentas e execução complexa. Tal como com um colega, é possível orientar e interagir com o GPT‑5.3‑Codex enquanto trabalha, sem perder contexto.
O GPT‑5.3‑Codex é o nosso primeiro modelo que foi determinante na sua própria criação. A equipa do Codex usou versões iniciais para depurar o próprio treino, gerir a própria implementação e diagnosticar resultados de testes e avaliações — e ficámos impressionados com o quanto o Codex conseguiu acelerar o seu próprio desenvolvimento.
Com o GPT‑5.3‑Codex, o Codex passa de um agente que consegue escrever e rever código para um agente que consegue fazer praticamente tudo o que os programadores e profissionais conseguem fazer num computador.
O GPT‑5.3‑Codex estabelece um novo máximo do setor no SWE-Bench Pro e no Terminal-Bench e mostra um forte desempenho no OSWorld e no GDPval, quatro benchmarks que usamos para medir capacidades de programação, agênticas e do mundo real.
O GPT‑5.3‑Codex atinge um desempenho de estado da arte no SWE-Bench Pro, uma avaliação rigorosa de engenharia de software no mundo real. Enquanto o SWE-bench Verified testa apenas Python, o SWE-Bench Pro abrange quatro linguagens e é mais resistente à contaminação, mais exigente, mais diverso e mais relevante para a indústria. Além disso, supera largamente o anterior desempenho de estado da arte no Terminal-Bench 2.0, que mede as competências de terminal de que um agente de programação como o Codex precisa. Notavelmente, o GPT‑5.3‑Codex faz isto com menos tokens do que qualquer modelo anterior, permitindo aos utilizadores criar mais.
Ao combinar capacidades de programação de vanguarda, melhorias na estética e a compaction, obtém-se um modelo capaz de trabalho impressionante, criando jogos e aplicações complexos e altamente funcionais de raiz ao longo de dias. Para testar as capacidades de desenvolvimento web e agênticas de longa duração do modelo, pedimos ao GPT‑5.3‑Codex que nos criasse dois jogos: a segunda versão do jogo de corridas do lançamento da aplicação Codex e um jogo de mergulho. Ao usar a skill develop web game e prompts de seguimento genéricos pré-selecionados, como «fix the bug» ou «improve the game», o GPT‑5.3‑Codex foi iterando sobre os jogos de forma autónoma ao longo de milhões de tokens. Veja os trailers e jogue os jogos para perceber o que o Codex consegue fazer.
Um jogo de corridas, com diferentes pilotos, oito mapas e até itens para usar com a barra de espaço. Jogue aqui(abre numa nova janela)!
Um jogo de mergulho em que se exploram vários recifes, se colecionam todos para completar o codex de peixes, enquanto se gere oxigénio, pressão e perigos. Jogue aqui(abre numa nova janela)!
O GPT‑5.3‑Codex também compreende melhor a intenção quando lhe pedem para criar websites do dia a dia, em comparação com o GPT‑5.2‑Codex. Prompts simples ou pouco especificados passam agora, por defeito, para sites com mais funcionalidades e predefinições sensatas, dando uma base inicial mais sólida para dar vida às ideias.
Por exemplo, pedimos ao GPT‑5.3‑Codex e ao GPT‑5.2‑Codex que criassem duas landing pages abaixo. O GPT‑5.3‑Codex mostrou automaticamente o plano anual como um preço mensal com desconto, tornando o desconto claro e intencional, em vez de multiplicar o total anual. Também criou um carrossel de testemunhos com transição automática, com três citações de utilizadores distintas em vez de uma, resultando numa página que, por defeito, parece mais completa e pronta para produção.
Prompt: Cria uma landing page para Quiet KPI, um resumo semanal de métricas para fundadores. A estética é de estilo SaaS suave, cartões com efeito vidro, gradiente de lilás para azul, desfoque subtil. Secções, hero com captura de email, grelha de cartões de relatório de exemplo, linha de integrações, carrossel de testemunhos, alternância de preços mensal/anual, FAQ, rodapé.- Tipo de letra Satoshi ou um sans geométrico semelhante.- Botões com cantos suaves, raio de 14px, estados de foco fortes.- Adiciona um reveal discreto baseado no scroll.
Engenheiros de software, designers, gestores de produto e cientistas de dados fazem muito mais do que gerar código. O GPT‑5.3‑Codex foi concebido para apoiar todo o trabalho no ciclo de vida do software—depurar, fazer deploy, monitorizar, escrever PRDs, editar copy, fazer pesquisa com utilizadores, testar, analisar métricas e muito mais. As suas capacidades agênticas vão além do software, ajudando a criar tudo o que for necessário—seja a criar apresentações de slides, seja a analisar dados em folhas de cálculo.
Com skills personalizadas semelhantes às usadas nos nossos resultados anteriores do GDPval, o GPT‑5.3‑Codex também apresenta um forte desempenho em trabalho intelectual profissional, medido pelo GDPval, igualando o GPT‑5.2. O GDPval é uma avaliação que a OpenAI lançou em 2025 e que mede o desempenho de um modelo em tarefas de trabalho intelectual bem especificadas, em 44 profissões. Estas tarefas incluem coisas como criar apresentações, folhas de cálculo e outros entregáveis.
Abaixo seguem alguns exemplos do trabalho produzido pelo agente.
Prompt + contexto da tarefa
GPT-5.3-Codex output

O OSWorld é um benchmark de utilização agêntica do computador em que o agente tem de concluir tarefas de produtividade num ambiente visual de computador (desktop). O GPT‑5.3‑Codex demonstra capacidades de utilização do computador muito superiores às de modelos GPT anteriores.
No OSWorld-Verified, os modelos usam visão para concluir diversas tarefas num computador. Os humanos obtêm ~72%.
Em conjunto, estes resultados em programação, frontend, utilização do computador e tarefas do mundo real mostram que o GPT‑5.3‑Codex não é apenas melhor em tarefas individuais, mas representa um salto rumo a um único agente de propósito geral, capaz de raciocinar, criar e executar em todo o espectro do trabalho técnico no mundo real.
À medida que as capacidades dos modelos se tornam mais poderosas, o fosso passa do que os agentes são capazes de fazer para a facilidade com que as pessoas conseguem interagir com, orientar e supervisionar muitos deles a trabalhar em paralelo. A aplicação Codex torna muito mais fácil gerir e orientar agentes, e agora, com o GPT‑5.3‑Codex é mais interativa. Com o novo modelo, o Codex fornece atualizações frequentes para se manter a par das principais decisões e do progresso enquanto trabalha. Em vez de esperar por um resultado final, é possível interagir em tempo real—fazer perguntas, discutir abordagens e orientar para a solução. O GPT‑5.3‑Codex explica o que está a fazer, responde ao feedback e mantém o progresso transparente do início ao fim.
Ative a orientação enquanto o modelo trabalha na aplicação em Definições > Geral > Comportamento de seguimento.
As melhorias rápidas e recentes do Codex assentam nos resultados de projetos de investigação que se prolongaram por meses ou anos em toda a OpenAI. O Codex está a acelerar estes projetos de investigação, e muitos investigadores e engenheiros da OpenAI descrevem hoje o seu trabalho como sendo fundamentalmente diferente do que era há apenas dois meses. Mesmo as versões iniciais do GPT‑5.3‑Codex demonstraram capacidades excecionais, permitindo à nossa equipa trabalhar com essas versões para melhorar o treino e apoiar a implementação de versões posteriores.
O Codex é útil numa gama muito vasta de tarefas, o que torna difícil enumerar totalmente as formas como ajuda as nossas equipas. Por exemplo, a equipa de investigação usou o Codex para monitorizar e depurar a execução de treino desta versão. Acelerou a investigação para além da depuração de problemas de infraestrutura: ajudou a acompanhar padrões ao longo do treino, forneceu uma análise profunda da qualidade de interação, propôs correções e criou aplicações ricas para que investigadores humanos pudessem compreender com precisão como o comportamento do modelo diferia face a modelos anteriores.
A equipa de engenharia usou o Codex para otimizar e adaptar o harness do GPT‑5.3‑Codex. Quando começámos a ver casos-limite estranhos a afetar utilizadores, membros da equipa usaram o Codex para identificar bugs na renderização de contexto e chegar à causa raiz de taxas baixas de acerto na cache. O GPT‑5.3‑Codex continua a ajudar a equipa ao longo do lançamento, escalando dinamicamente clusters de GPU para se adaptar a picos de tráfego e mantendo a latência estável.
Durante os testes alfa, um investigador quis perceber quanto trabalho adicional o GPT‑5.3‑Codex realizava por turno e qual a diferença de produtividade associada. O GPT‑5.3‑Codex propôs vários classificadores simples em regex para estimar a frequência de pedidos de esclarecimento, respostas positivas e negativas dos utilizadores e o progresso na tarefa; depois, executou-os à escala sobre todos os logs de sessão e produziu um relatório com as suas conclusões. As pessoas que desenvolvem com o Codex ficaram mais satisfeitas, porque o agente compreendia melhor a intenção e avançava mais por turno, com menos perguntas de esclarecimento.
Por o GPT‑5.3‑Codex ser tão diferente dos seus antecessores, os dados dos testes alfa exibiram vários resultados invulgares e contraintuitivos. Um cientista de dados da equipa trabalhou com o GPT‑5.3‑Codex para criar novos pipelines de dados e visualizar os resultados de forma muito mais rica do que as nossas ferramentas padrão de dashboards permitiam. Os resultados foram coanalisados com o Codex, que resumiu de forma concisa as principais conclusões sobre milhares de pontos de dados em menos de três minutos.
Individualmente, todas estas tarefas são exemplos interessantes de como o Codex pode ajudar investigadores e equipas de produto. Em conjunto, concluímos que estas novas capacidades resultaram numa forte aceleração das nossas equipas de investigação, engenharia e produto.
Nos últimos meses, temos observado ganhos significativos no desempenho dos modelos em tarefas de cibersegurança, beneficiando tanto programadores como profissionais de segurança. Em paralelo, temos vindo a preparar salvaguardas cibernéticas reforçadas para apoiar a utilização defensiva e uma maior resiliência do ecossistema.
O GPT‑5.3‑Codex é o primeiro modelo que classificamos como High capability para tarefas relacionadas com cibersegurança ao abrigo do nosso Preparedness Framework, e o primeiro que treinámos diretamente para identificar vulnerabilidades de software. Embora não tenhamos provas definitivas de que consiga automatizar ciberataques de ponta a ponta, estamos a adotar uma abordagem de precaução e a implementar a nossa stack de segurança cibernética mais abrangente até à data. As nossas mitigações incluem treino de segurança, monitorização automatizada, acesso de confiança para capacidades avançadas e pipelines de aplicação, incluindo inteligência sobre ameaças.
Como a cibersegurança é inerentemente de dupla utilização, estamos a adotar uma abordagem iterativa e baseada em evidência que acelera a capacidade dos defensores de encontrar e corrigir vulnerabilidades, ao mesmo tempo que abranda o uso indevido. Como parte disto, estamos a lançar o Trusted Access for Cyber, um programa-piloto para acelerar a investigação em ciberdefesa.
Estamos a investir em salvaguardas do ecossistema, como alargar a beta privada do Aardvark, o nosso agente de investigação de segurança, como a primeira oferta da nossa suite de produtos e ferramentas Codex Security, e a estabelecer parcerias com maintainers de open source para disponibilizar análise gratuita de bases de código a projetos amplamente utilizados, como o Next.js—onde um investigador de segurança usou o Codex para encontrar vulnerabilidades divulgadas(abre numa nova janela) na semana passada.
Com base no nosso Cybersecurity Grant Program de $1M lançado em 2023, estamos também a comprometer $10M em créditos de API para acelerar a ciberdefesa com os nossos modelos mais capazes, especialmente para software open source e sistemas de infraestruturas críticas. As organizações envolvidas em investigação de segurança de boa-fé podem candidatar-se a créditos de API e apoio através do nosso Cybersecurity Grant Program.
O GPT‑5.3‑Codex está disponível nos planos pagos do ChatGPT, em todo o lado onde se pode usar o Codex: na aplicação, na CLI, na extensão para IDE e na web. Estamos a trabalhar para ativar o acesso à API em breve, de forma segura.
Com esta atualização, também estamos agora a executar o GPT‑5.3‑Codex 25% mais rápido para os utilizadores do Codex, graças a melhorias na nossa infraestrutura e stack de inferência, o que resulta em interações mais rápidas e resultados mais rápidos.
O GPT‑5.3‑Codex foi co-desenhado para, treinado com e executado em sistemas NVIDIA GB200 NVL72. Agradecemos à NVIDIA a parceria.
Com o GPT‑5.3‑Codex, o Codex está a ir além de escrever código para o usar como uma ferramenta para operar um computador e concluir trabalho de ponta a ponta. Ao expandirmos a fronteira do que um agente de programação pode fazer, estamos também a desbloquear uma classe mais ampla de trabalho intelectual—desde criar e fazer deploy de software até pesquisar, analisar e executar tarefas complexas. O que começou como um foco em ser o melhor agente de programação tornou-se a base para um colaborador mais geral no computador, expandindo tanto quem pode construir como o que é possível com o Codex.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56.8% | 56.4% | 55,6% |
Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
OSWorld-Verified | 64.7% | 38.2% | 37.9% |
GDPval (wins or ties) | 70,9% | - | 70.9% (high) |
Cybersecurity Capture The Flag Challenges | 77.6% | 67.4% | 67.7% |
SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |


