Apresentamos o GPT‑5.2‑Codex
O modelo de programação agêntica mais avançado para engenharia de software profissional e cibersegurança defensiva.
Hoje estamos a lançar o GPT‑5.2‑Codex, o modelo de programação agêntica mais avançado até hoje para engenharia de software complexa e do mundo real. O GPT‑5.2‑Codex é uma versão do GPT‑5.2 ainda mais otimizada para programação agêntica no Codex, incluindo melhorias em trabalho de longo horizonte através de compaction de contexto, melhor desempenho em alterações de grande escala no código, como refatorações e migrações, melhor desempenho em ambientes Windows e capacidades de cibersegurança significativamente mais fortes.
À medida que os nossos modelos continuam a avançar na fronteira da inteligência, temos observado que estas melhorias também se traduzem em saltos de capacidade em domínios especializados, como a cibersegurança. Por exemplo, ainda na semana passada, um investigador de segurança que utilizava o GPT‑5.1‑Codex‑Max com o Codex CLI encontrou e divulgou(abre numa nova janela) de forma responsável uma vulnerabilidade no React que poderia levar à exposição de código-fonte.
O GPT‑5.2‑Codex tem capacidades de cibersegurança mais robustas do que qualquer modelo que tenhamos lançado até à data. Estes avanços podem ajudar a reforçar a cibersegurança à escala, mas também levantam novos riscos de dupla utilização que exigem uma implementação cuidadosa. Embora o GPT‑5.2‑Codex não atinja um nível «High» de capacidade cibernética ao abrigo do nosso Preparedness Framework, estamos a conceber a nossa abordagem de implementação a pensar no crescimento futuro das capacidades.
Estamos a lançar o GPT‑5.2‑Codex hoje em todos os pontos de acesso do Codex para utilizadores do ChatGPT com planos pagos e a trabalhar para, nas próximas semanas, permitir em segurança o acesso ao GPT‑5.2‑Codex para utilizadores da API. Em paralelo, estamos a testar um acesso de confiança apenas por convite a capacidades futuras e modelos mais permissivos para profissionais e organizações verificados, focados em trabalho de cibersegurança defensiva. Acreditamos que esta abordagem de implementação irá equilibrar acessibilidade e segurança.
O GPT‑5.2‑Codex baseia-se nos pontos fortes do GPT‑5.2 no trabalho de conhecimento profissional e nas capacidades do GPT‑5.1‑Codex‑Max em programação agêntica de fronteira e utilização do terminal. O GPT‑5.2‑Codex está agora melhor na compreensão de contextos longos, na chamada fiável de ferramentas, na melhoria da factualidade e na compaction nativa, o que o torna um parceiro mais fiável para tarefas de programação de longa duração, mantendo-se eficiente em tokens no seu raciocínio.
O GPT‑5.2‑Codex atinge desempenho de referência no SWE-Bench Pro e no Terminal-Bench 2.0, benchmarks concebidos para testar o desempenho agêntico numa grande variedade de tarefas, em ambientes de terminal realistas. É também muito mais eficaz e fiável na programação agêntica em ambientes nativos do Windows, com base nas capacidades introduzidas no GPT‑5.1‑Codex‑Max.
Com estas melhorias, o Codex está mais capaz de trabalhar em repositórios grandes durante sessões prolongadas, com o contexto completo intacto. Consegue concluir de forma mais fiável tarefas complexas, como grandes refactors, migrações de código e desenvolvimento de funcionalidades — continuando a iterar sem perder o fio à meada, mesmo quando os planos mudam ou as tentativas falham.
No SWE-Bench Pro, é fornecido ao modelo um repositório de código e este tem de gerar um patch para resolver uma tarefa realista de engenharia de software. O Terminal-Bench 2.0 é um benchmark para testar agentes de IA em ambientes de terminal reais. As tarefas incluem compilar código, treinar modelos e configurar servidores.
Um desempenho de visão mais forte permite ao GPT‑5.2‑Codex interpretar com maior precisão capturas de ecrã, diagramas técnicos, gráficos e superfícies de UI partilhadas durante sessões de programação.
O Codex pode pegar em maquetas de design e traduzi-las rapidamente em protótipos funcionais, e pode trabalhar com o Codex para levar estes protótipos para produção.
Maqueta de design

Protótipo gerado pelo GPT‑5.2‑Codex
Ao traçar o desempenho, ao longo do tempo, numa das nossas avaliações principais de cibersegurança, vemos um salto acentuado de capacidade a começar com o GPT‑5‑Codex, outro grande salto com o GPT‑5.1‑Codex‑Max e agora um terceiro salto com o GPT‑5.2‑Codex. Esperamos que os próximos modelos de IA continuem esta trajetória. Em preparação, estamos a planear e a avaliar como se cada novo modelo pudesse atingir níveis «High» de capacidade em cibersegurança, conforme medido pelo nosso Preparedness Framework(abre numa nova janela). Embora o GPT‑5.2‑Codex ainda não tenha atingido um nível «High» de capacidade cibernética, estamos a preparar-nos para futuros modelos que ultrapassem esse limiar. Devido ao aumento das capacidades cibernéticas, adicionámos salvaguardas adicionais no modelo e no produto, que estão descritas no system card.
A avaliação Professional Capture-the-Flag (CTF) mede com que frequência o modelo consegue resolver desafios avançados, do mundo real e em várias etapas (que exigem competências profissionais de cibersegurança) num ambiente Linux.
A sociedade moderna depende de software e a sua fiabilidade assenta numa cibersegurança forte — manter sistemas críticos na banca, na saúde, nas comunicações e em serviços essenciais online, proteger dados sensíveis e garantir que as pessoas podem confiar no software de que dependem todos os dias. As vulnerabilidades podem existir muito antes de alguém ter conhecimento delas, e encontrá-las, validá-las e corrigi-las depende muitas vezes de uma comunidade de engenheiros e investigadores de segurança independentes com as ferramentas certas.
A 11 de dezembro de 2025, a equipa do React publicou três vulnerabilidades de segurança que afetam aplicações construídas com React Server Components. O que tornou esta divulgação notável não foram apenas as próprias vulnerabilidades, mas também a forma como foram descobertas.
Andrew MacPherson, engenheiro principal de segurança na Privy (uma empresa Stripe), estava a utilizar o GPT‑5.1‑Codex‑Max com o Codex CLI e outros agentes de programação para reproduzir e estudar uma vulnerabilidade crítica diferente do React divulgada na semana anterior, conhecida como React2Shell(abre numa nova janela) (CVE-2025-55182(abre numa nova janela)). O objetivo era avaliar até que ponto o modelo podia ajudar na investigação de vulnerabilidades no mundo real.
Começou por tentar várias análises zero-shot, pedindo ao modelo que examinasse o patch e identificasse a vulnerabilidade que este corrigia. Quando isso não deu resultados, mudou para uma abordagem de prompting iterativa e de maior volume. Quando essas abordagens não resultaram, orientou o Codex através de fluxos de trabalho padrão de segurança defensiva — configurando um ambiente de teste local, analisando possíveis superfícies de ataque e recorrendo a fuzzing para testar o sistema com inputs malformados. Ao tentar reproduzir o problema original do React2Shell, o Codex revelou comportamentos inesperados que justificavam uma investigação mais aprofundada. Ao longo de uma única semana, este processo levou à descoberta de vulnerabilidades até então desconhecidas, que foram divulgadas de forma responsável à equipa do React.
Isto demonstra como sistemas avançados de IA podem acelerar de forma significativa o trabalho de segurança defensiva em software amplamente utilizado no mundo real. Ao mesmo tempo, capacidades que ajudam os defensores a avançar mais depressa também podem ser utilizadas indevidamente por agentes maliciosos.
À medida que os sistemas agênticos se tornam mais capazes em tarefas relevantes para a cibersegurança, tornamos prioritário garantir que estes avanços são implementados de forma responsável — associando cada ganho de capacidade a salvaguardas mais fortes, controlos de acesso mais rigorosos e colaboração contínua com a comunidade de segurança.
As equipas de segurança podem deparar-se com restrições ao tentar emular agentes de ameaça, analisar malware para apoiar a remediação ou realizar stress tests a infraestruturas críticas. Estamos a desenvolver um piloto de acesso de confiança para eliminar essa fricção para utilizadores e organizações elegíveis e permitir que defensores de confiança usem capacidades cibernéticas de IA de fronteira para acelerar a ciberdefesa.
Inicialmente, o programa-piloto será apenas por convite para profissionais de segurança verificados, com histórico de divulgação responsável de vulnerabilidades, e para organizações com um caso de utilização profissional claro em cibersegurança. Os participantes elegíveis terão acesso aos nossos modelos mais capazes para casos de utilização defensiva, viabilizando trabalho legítimo de dupla utilização.
Se for um profissional de segurança ou fizer parte de uma organização que realiza trabalho de segurança ético, como investigação de vulnerabilidades ou red-teaming autorizado, pode manifestar interesse em participar e partilhar feedback sobre o que gostaria de ver no programa aqui(abre numa nova janela).
O GPT‑5.2‑Codex representa um passo em frente na forma como a IA avançada pode apoiar a engenharia de software no mundo real e domínios especializados como a cibersegurança — ajudando programadores e defensores a enfrentar trabalho complexo de longo horizonte e reforçando as ferramentas disponíveis para investigação de segurança responsável.
Ao disponibilizarmos o GPT‑5.2‑Codex de forma gradual, combinando a implementação com salvaguardas e trabalhando em estreita colaboração com a comunidade de segurança, procuramos maximizar o impacto defensivo, reduzindo o risco de utilização indevida. O que aprendermos com este lançamento irá informar diretamente a forma como expandimos o acesso ao longo do tempo, à medida que as fronteiras do software e da cibersegurança continuam a avançar.


