Pular para o conteúdo principal
OpenAI

19 de novembro de 2025

ProdutoLançamento

Criando ainda mais com o GPT‑5.1‑Codex‑Max

Carregando…

Introdução

Estamos apresentando o GPT‑5.1‑Codex‑Max, nosso novo modelo agêntico de codificação de ponta, disponível hoje no Codex.  O GPT‑5.1‑Codex‑Max é baseado em uma atualização do nosso modelo de raciocínio fundamental, treinado em tarefas agênticas que envolvem engenharia de software, matemática, pesquisa e mais. O GPT‑5.1‑Codex‑Max é mais rápido, mais inteligente e mais eficiente em tokens em todas as etapas do ciclo de desenvolvimento — e representa um novo passo em direção a se tornar um parceiro confiável de codificação.

O GPT‑5.1‑Codex‑Max foi projetado para trabalhos longos e detalhados. É o nosso primeiro modelo treinado nativamente para operar em múltiplas janelas de contexto por meio de um processo chamado compaction, trabalhando de forma coerente em milhões de tokens em uma única tarefa. Isso possibilita refatorações em escala de projeto, sessões de depuração profundas e loops de agente que duram várias horas.

O GPT‑5.1‑Codex‑Max já está disponível no Codex para uso na CLI, na extensão de IDE, na nuvem e em revisão de código, e o acesso via API chegará em breve.

Recursos de codificação de ponta

O GPT‑5.1‑Codex‑Max foi treinado em tarefas reais de engenharia de software, como criação de PRs, revisão de código, desenvolvimento de frontend e Q&A, e supera nossos modelos anteriores em muitas avaliações de codificação de ponta. Os ganhos do modelo em benchmarks também vêm acompanhados de melhorias no uso real: o GPT‑5.1‑Codex‑Max é o primeiro modelo que treinamos para operar em ambientes Windows, e o treinamento agora inclui tarefas pensadas para torná-lo um colaborador melhor na Codex CLI.

* Todos os testes foram executados com compaction ativado no esforço de raciocínio Extra High
* O Terminal-Bench2.0 foi executado com a Codex CLI no
harness Laude Institute Harbor(abre em uma nova janela)

Velocidade e custo

O GPT‑5.1‑Codex‑Max apresenta melhorias significativas em eficiência de tokens graças a um raciocínio mais eficaz. No SWE-bench Verified, o GPT‑5.1‑Codex‑Max com esforço de raciocínio 'medium' atinge desempenho superior ao do GPT‑5.1‑Codex com o mesmo nível de esforço de raciocínio, usando 30% menos tokens de pensamento. Para tarefas que não são sensíveis à latência, também estamos apresentando um novo nível de esforço de raciocínio Extra High ('xhigh'), que pensa por ainda mais tempo para chegar a uma resposta melhor. Ainda assim, recomendamos 'medium' como padrão para a maioria das tarefas do dia a dia.

Esperamos que as melhorias em eficiência de tokens se convertam em economia real para desenvolvedores.

Por exemplo, o GPT‑5.1‑Codex‑Max consegue produzir designs de frontend de alta qualidade, com funcionalidade e estética semelhantes, mas a um custo muito menor que o do GPT‑5.1‑Codex.

Prompt: Gere um único aplicativo de navegador auto-contido que renderize um sandbox interativo de CartPole em RL com gráficos em canvas, um pequeno controlador de policy gradient, métricas e um visualizador de rede em SVG.

Recursos

  • Precisa ser capaz de realmente treinar uma política para deixar o modelo melhor em CartPole
  • Visualizador das ativações/pesos enquanto o modelo está treinando ou em inferência
  • Passos no episódio, recompensa este episódio
  • Último tempo de sobrevivência e melhor tempo de sobrevivência em número de passos

Salvar em index.html

Tarefas de longa duração

A compaction permite que o GPT‑5.1‑Codex‑Max conclua tarefas que antes falhariam devido a limites de janela de contexto — como refatorações complexas e loops de agente de longa duração — podando o histórico enquanto preserva o contexto mais importante ao longo de horizontes extensos. Em aplicações do Codex, o GPT‑5.1‑Codex‑Max compacta automaticamente sua sessão quando se aproxima do limite da janela de contexto, ganhando uma nova janela de contexto. Ele repete esse processo até que a tarefa seja concluída.

A capacidade de sustentar um trabalho coerente por longos períodos é uma habilidade fundamental no caminho para sistemas de IA mais gerais e confiáveis. GPT‑5.1‑Codex‑Max pode trabalhar de forma independente por várias horas seguidas. Em nossas avaliações internas, observamos o GPT‑5.1‑Codex‑Max trabalhando em tarefas por mais de 24 horas. Ele itera persistentemente sobre sua implementação, corrige falhas de testes e, ao final, entrega um resultado bem-sucedido.

Neste exemplo, o GPT‑5.1‑Codex‑Max está refatorando, de forma autônoma, o repositório open source da Codex CLI.

À medida que a duração da sessão se aproxima do limite de janela de contexto do modelo, ele compacta automaticamente a sessão para liberar espaço e continuar a tarefa sem perder o progresso.

O vídeo foi cortado e acelerado para dar mais clareza.

Criando agentes de IA seguros e confiáveis

O GPT‑5.1‑Codex‑Max tem desempenho significativamente melhor em avaliações que exigem raciocínio sustentado e de longo horizonte. Como consegue trabalhar de forma coerente em múltiplas janelas de contexto usando compaction, o modelo oferece resultados melhores em desafios de áreas como codificação de longo horizonte e cibersegurança. Analisamos os resultados do desempenho deste modelo em avaliações de primeira e de terceira parte no cartão do sistema.

O GPT‑5.1‑Codex‑Max ainda não atinge o nível High em Cibersegurança segundo o nosso Preparedness Framework, mas é o modelo de cibersegurança mais capaz que já colocamos em produção, e as capacidades agênticas de cibersegurança estão evoluindo rapidamente. Por isso, estamos tomando medidas para nos preparar para o nível High em Cibersegurança, reforçando nossas proteções no domínio cibernético e trabalhando para garantir que os defensores possam se beneficiar dessas capacidades aprimoradas por meio de programas como o Aardvark.

Quando lançamos o GPT‑5‑Codex, implementamos monitoramento dedicado específico de cibersegurança para detectar e interromper atividades maliciosas. Embora não tenhamos observado um aumento significativo em abusos em escala, estamos preparando mitigadores adicionais para capacidades mais avançadas. Nossas equipes já interromperam operações cibernéticas que tentavam usar indevidamente nossos modelos, e atividades suspeitas são encaminhadas para revisão por meio de nossos sistemas de monitoramento de políticas.

O Codex é projetado para ser executado em um sandbox seguro por padrão: gravações em arquivos são limitadas ao seu workspace e o acesso à rede fica desativado, a menos que um desenvolvedor o habilite. Recomendamos manter o Codex nesse modo de acesso restrito, já que habilitar internet ou busca na web pode introduzir riscos de prompt injection a partir de conteúdo não confiável.

À medida que o Codex se torna mais capaz em tarefas de longa duração, torna-se cada vez mais importante que desenvolvedores revisem o trabalho do agente antes de fazer alterações ou fazer deploy em produção. Para ajudar nisso, o Codex gera logs de terminal e cita suas chamadas de ferramentas e resultados de testes. Embora suas revisões de código reduzam o risco de levar para produção bugs gerados pelo modelo ou por humanos, o Codex deve ser tratado como um revisor adicional — e não como um substituto para revisões humanas.

As capacidades de cibersegurança podem ser usadas tanto para defesa quanto para ataque, por isso adotamos uma abordagem iterativa de deployment: aprendendo com o uso real, atualizando proteções e preservando ferramentas defensivas importantes, como varredura automatizada de vulnerabilidades e assistência na correção.

Disponibilidade

O GPT‑5.1‑Codex‑Max está disponível no Codex para os planos ChatGPT Plus, Pro, Business, Edu e Enterprise. Para saber mais sobre como funcionam os limites de uso no seu plano, consulte nossa documentação(abre em uma nova janela).

Para desenvolvedores que usam a Codex CLI com chave de API, planejamos disponibilizar o GPT‑5.1‑Codex‑Max em breve na API.

A partir de hoje, o GPT‑5.1‑Codex‑Max passará a substituir o GPT‑5.1‑Codex como modelo padrão nas interfaces do Codex. Diferentemente do GPT‑5.1, que é um modelo de uso geral, recomendamos usar o GPT‑5.1‑Codex‑Max e a família de modelos Codex apenas para tarefas de codificação agênticas no Codex ou em ambientes semelhantes ao Codex.

Conclusão

O GPT‑5.1‑Codex‑Max mostra o quanto os modelos evoluíram em sustentar tarefas de codificação de longo horizonte, gerenciar fluxos de trabalho complexos e produzir implementações de alta qualidade usando muito menos tokens. Vimos que a combinação desse modelo com atualizações constantes da nossa CLI, extensão de IDE, integração em nuvem e ferramentas de revisão de código resulta em uma produtividade de engenharia turbinada: internamente, 95% dos engenheiros da OpenAI usam o Codex toda semana, e esses engenheiros enviam cerca de 70% mais pull requests desde que adotaram o Codex. À medida que expandimos a fronteira do que agentes são capazes de fazer, estamos animados para ver o que você vai construir com eles.

Apêndice: Avaliações de modelo

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73.7%

77,9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

Autoria

OpenAI