Estamos a apresentar o GPT‑5.1‑Codex‑Max, o nosso novo modelo de programação agêntica de ponta, já disponível no Codex. O GPT‑5.1‑Codex‑Max assenta numa atualização do nosso modelo fundamental de raciocínio, treinado em tarefas agênticas em engenharia de software, matemática, investigação e muito mais. O GPT‑5.1‑Codex‑Max é mais rápido, mais inteligente e mais eficiente na utilização de tokens em todas as fases do ciclo de desenvolvimento — e representa um novo passo para se tornar um parceiro de programação fiável.
O GPT‑5.1‑Codex‑Max foi concebido para trabalho prolongado e detalhado. É o nosso primeiro modelo treinado de forma nativa para operar em várias janelas de contexto através de um processo designado por compaction, trabalhando de forma coerente sobre milhões de tokens numa única tarefa. Isto desbloqueia refatorações à escala de projeto, sessões de depuração profundas e loops de agente com várias horas de duração.
O GPT‑5.1‑Codex‑Max está disponível no Codex a partir de hoje para utilização na CLI, na extensão de IDE, na cloud e em code review, e o acesso via API ficará disponível em breve.
O GPT‑5.1‑Codex‑Max foi treinado em tarefas reais de engenharia de software, como criação de PRs, code review, desenvolvimento frontend e Q&A, e supera os nossos modelos anteriores em muitas avaliações de programação de fronteira. Os ganhos do modelo em benchmarks vêm acompanhados de melhorias na utilização real: o GPT‑5.1‑Codex‑Max é o primeiro modelo que treinámos para operar em ambientes Windows e o seu treino passa agora a incluir tarefas concebidas para o tornar um colaborador ainda melhor na Codex CLI.
* Todas as avaliações foram executadas com compaction ativada no nível de esforço de raciocínio Extra High
* O Terminal-Bench2.0 foi executado com a Codex CLI no harness Laude Institute Harbor(abre numa nova janela)
O GPT‑5.1‑Codex‑Max apresenta melhorias significativas na eficiência na utilização de tokens graças a um raciocínio mais eficaz. No SWE-bench Verified, o GPT‑5.1‑Codex‑Max com esforço de raciocínio «medium» atinge um desempenho superior ao do GPT‑5.1‑Codex com o mesmo esforço de raciocínio, utilizando menos 30 % de tokens de pensamento. Para tarefas que não sejam sensíveis à latência, estamos também a introduzir um novo nível de esforço de raciocínio Extra High («xhigh»), que pensa durante ainda mais tempo para obter uma resposta melhor. Continuamos a recomendar o nível «medium» como opção padrão para a maioria das tarefas.
Esperamos que estas melhorias na eficiência na utilização de tokens se traduzam em poupanças reais para os programadores.
Por exemplo, o GPT‑5.1‑Codex‑Max consegue produzir designs frontend de alta qualidade, com funcionalidade e estética semelhantes, mas a um custo muito inferior ao do GPT‑5.1‑Codex.
Prompt: Gerar uma aplicação de browser única e autónoma que apresente uma sandbox interativa de CartPole RL com gráficos em canvas, um pequeno controlador de policy gradient, métricas e um visualizador de rede em SVG.
Funcionalidades
Tem de conseguir treinar efetivamente uma policy para tornar o modelo melhor em cart poleVisualizador das ativações/pesos quando o modelo está em treino ou em inferênciaPassos no episódio, recompensa este episódioÚltimo tempo de sobrevivência e melhor tempo de sobrevivência em passos
Guardar em index.html
A compaction permite ao GPT‑5.1‑Codex‑Max concluir tarefas que anteriormente falhariam devido aos limites da janela de contexto — como refatorações complexas e loops de agente de longa duração — ao podar o seu histórico e, ao mesmo tempo, preservar o contexto mais importante ao longo de horizontes longos. Nas aplicações Codex, o GPT‑5.1‑Codex‑Max compacta automaticamente a sessão quando se aproxima do limite da janela de contexto, passando a trabalhar com uma nova janela de contexto. Repete este processo até a tarefa ficar concluída.
A capacidade de manter trabalho coerente ao longo de horizontes longos é uma capacidade fundamental no caminho para sistemas de IA mais gerais e fiáveis. O GPT‑5.1‑Codex‑Max pode trabalhar de forma autónoma durante horas seguidas. Nas nossas avaliações internas, observámos o GPT‑5.1‑Codex‑Max a trabalhar em tarefas durante mais de 24 horas. Itera de forma persistente sobre a implementação, corrige falhas em testes e, em última análise, entrega um resultado bem-sucedido.
Neste exemplo, o GPT‑5.1‑Codex‑Max está a refatorar autonomamente o repositório open source da Codex CLI.
À medida que a duração da sessão se aproxima da janela de contexto do modelo, este compacta automaticamente a sessão para libertar espaço e continuar a tarefa sem perder progresso.
O vídeo foi cortado e acelerado para maior clareza.
O GPT‑5.1‑Codex‑Max tem um desempenho significativamente melhor em avaliações que exigem raciocínio sustentado e de longo prazo. Como consegue trabalhar de forma coerente em várias janelas de contexto através de compaction, o modelo oferece resultados superiores em desafios em áreas como programação de longo prazo e cibersegurança. Analisámos os resultados do desempenho deste modelo em avaliações internas e externas no cartão do sistema.
O GPT‑5.1‑Codex‑Max não atinge o nível High em Cybersecurity ao abrigo do nosso Preparedness Framework, mas é o modelo de cibersegurança mais capaz que disponibilizámos até à data e as capacidades agênticas de cibersegurança estão a evoluir rapidamente. Por isso, estamos a tomar medidas para nos prepararmos para uma capacidade High em Cybersecurity, a reforçar as nossas salvaguardas no domínio cibernético e a trabalhar para garantir que os defensores podem beneficiar destas capacidades melhoradas através de programas como o Aardvark.
Quando lançámos o GPT‑5‑Codex, implementámos monitorização específica de cibersegurança dedicada a detetar e interromper atividades maliciosas. Embora não tenhamos observado um aumento significativo de abusos em escala, estamos a preparar medidas de mitigação adicionais para capacidades avançadas. As nossas equipas já interromperam operações de ciberataque que tentavam utilizar indevidamente os nossos modelos, e a atividade suspeita é encaminhada para revisão através dos nossos sistemas de monitorização de políticas.
O Codex foi concebido para ser executado, por predefinição, numa sandbox segura: as escritas em ficheiro são limitadas ao respetivo workspace e o acesso à rede é desativado, exceto se um developer o ativar. Recomendamos manter o Codex neste modo de acesso restrito, uma vez que ativar a internet ou a pesquisa na Web pode introduzir riscos de prompt injection a partir de conteúdo não fiável.
À medida que o Codex se torna mais capaz em tarefas de longa duração, torna-se cada vez mais importante que os developers revejam o trabalho do agente antes de fazer alterações ou de realizar deploy em produção. Para ajudar neste processo, o Codex gera registos de terminal e referencia as suas chamadas de ferramentas e resultados de testes. Embora as suas code reviews reduzam o risco de colocar em produção bugs introduzidos pelo modelo ou por humanos, o Codex deve ser tratado como um revisor adicional e não como um substituto das revisões humanas.
As capacidades de cibersegurança podem ser utilizadas tanto para defesa como para ataque, por isso adotamos uma abordagem iterativa de disponibilização: aprendendo com a utilização no mundo real, atualizando as salvaguardas e preservando ferramentas defensivas importantes, como a análise automática de vulnerabilidades e a assistência à sua correção.
O GPT‑5.1‑Codex‑Max está disponível no Codex com os planos ChatGPT Plus, Pro, Business, Edu e Enterprise. Para saber mais sobre o funcionamento dos limites de utilização em cada plano, consulte a nossa documentação(abre numa nova janela).
Para developers que utilizam a Codex CLI através de uma API key, planeamos disponibilizar o GPT‑5.1‑Codex‑Max na API em breve.
A partir de hoje, o GPT‑5.1‑Codex‑Max irá substituir o GPT‑5.1‑Codex como modelo predefinido nas interfaces do Codex. Ao contrário do GPT‑5.1, que é um modelo de uso geral, recomendamos utilizar o GPT‑5.1‑Codex‑Max e a família de modelos Codex apenas para tarefas de programação agêntica no Codex ou em ambientes semelhantes ao Codex.
O GPT‑5.1‑Codex‑Max mostra até que ponto os modelos evoluíram na capacidade de sustentar tarefas de programação de longo horizonte, gerir workflows complexos e produzir implementações de elevada qualidade com muito menos tokens. Observámos que a combinação do modelo com atualizações contínuas da nossa CLI, extensão de IDE, integração com a cloud e ferramentas de code review resulta numa produtividade de engenharia extraordinária: internamente, 95 % dos engenheiros da OpenAI utilizam o Codex semanalmente e estes engenheiros fazem aproximadamente mais 70 % de pull requests desde que adotaram o Codex. À medida que avançamos na fronteira do que os agentes conseguem fazer, estamos entusiasmados para ver o que as equipas vão construir com eles.
GPT‑5.1‑Codex (high) | GPT‑5.1‑Codex‑Max (xhigh) | |
SWE-bench Verified (n=500) | 73,7 % | 77,90% |
SWE-Lancer IC SWE | 66,3 % | 79,9 % |
Terminal-Bench 2.0 | 52,8 % | 58,1 % |


