Apresentamos o GPT‑5.1 para desenvolvedores
Hoje estamos lançando o GPT‑5.1 na plataforma de API, o próximo modelo da série GPT‑5 que equilibra inteligência e velocidade para uma ampla variedade de tarefas agênticas e de código. O GPT‑5.1 adapta dinamicamente quanto tempo passa "pensando" com base na complexidade da tarefa, tornando o modelo significativamente mais rápido e mais eficiente em tokens em tarefas simples do dia a dia. O modelo também inclui um modo "sem raciocínio" para responder mais rápido em tarefas que não exigem reflexão profunda, mantendo a inteligência de ponta do GPT‑5.1.
Para tornar o GPT‑5.1 ainda mais eficiente, estamos lançando um cache de prompt estendido com retenção de até 24 horas, garantindo respostas mais rápidas para perguntas de acompanhamento a um custo menor. Nossos clientes de Priority Processing(abre em uma nova janela) também perceberão um desempenho visivelmente mais rápido com o GPT‑5.1 em comparação ao GPT‑5.
Em código, trabalhamos de perto com startups como Cursor, Cognition, Augment Code, Factory e Warp para melhorar a personalidade de codificação, a capacidade de direcionamento e a qualidade de código do GPT‑5.1. De modo geral, o GPT‑5.1 parece mais intuitivo de usar para programação e mais comunicativo com atualizações voltadas ao usuário enquanto conclui tarefas.
Por fim, estamos introduzindo duas novas ferramentas com o GPT‑5.1: uma ferramenta apply_patch projetada para editar código de forma mais confiável e uma ferramenta shell que permite ao modelo executar comandos de shell.
O GPT‑5.1 é o próximo avanço da série GPT‑5 e planejamos continuar investindo em modelos mais inteligentes e capazes para ajudar desenvolvedores a criar fluxos de trabalho agênticos confiáveis.
Para tornar o GPT‑5.1 mais rápido, reformulamos a forma como o treinamos para pensar. Em tarefas simples, o GPT‑5.1 usa menos tokens pensando, possibilitando experiências de produto mais ágeis e contas de tokens menores. Em tarefas difíceis que exigem reflexão adicional, o GPT‑5.1 permanece persistente, explorando opções e verificando seu próprio trabalho para maximizar a confiabilidade.
A Balyasny Asset Management(abre em uma nova janela) afirmou que o GPT‑5.1 "superou tanto o GPT‑4.1 quanto o GPT‑5 em nossa suíte completa de avaliação dinâmica, funcionando de 2 a 3 vezes mais rápido que o GPT‑5." Eles também disseram que, em suas tarefas de raciocínio muito dependentes de ferramentas, o GPT‑5.1 "consistentemente usou cerca de metade dos tokens em comparação com os principais concorrentes, com qualidade similar ou melhor." Da mesma forma, a BPO Pace(abre em uma nova janela), de seguros em IA, também testou o modelo e afirmou que seus agentes rodam "50% mais rápido no GPT‑5.1, superando a precisão do GPT‑5 e de outros modelos líderes em nossas avaliações."
O GPT‑5.1 varia seu tempo de pensamento de forma mais dinâmica do que o GPT‑5. Em uma distribuição representativa de tarefas do ChatGPT, o GPT‑5.1 é muito mais rápido nas tarefas mais simples, mesmo com esforço de raciocínio alto.
Como exemplo, ao pedir "mostre um comando npm para listar pacotes instalados globalmente", o GPT‑5.1 responde em 2 segundos em vez de 10 segundos.
O GPT-5 (médio) leva aproximadamente 250 tokens (cerca de 10 segundos)
O GPT-5.1 (médio) leva aproximadamente 50 tokens (cerca de 2 segundos)
Os desenvolvedores agora podem usar o GPT‑5.1 sem raciocínio configurando reasoning_effort como 'none'. Isso faz com que o modelo se comporte como um modelo sem raciocínio para casos de uso sensíveis à latência, mantendo a alta inteligência do GPT‑5.1 e o bônus adicional de chamadas de ferramentas performáticas. Em relação ao GPT‑5 com raciocínio 'mínimo', o GPT‑5.1 sem raciocínio é melhor em chamadas paralelas de ferramentas (o que por si só aumenta a velocidade de conclusão da tarefa), tarefas de codificação, seguir instruções e usar ferramentas de busca—e oferece suporte a busca na web(abre em uma nova janela) em nossa plataforma de API. A Sierra (abre em uma nova janela)compartilhou que o GPT‑5.1 no modo "sem raciocínio" apresentou "20% de melhoria no desempenho de chamadas de ferramentas de baixa latência em comparação ao GPT‑5 com raciocínio minimal" em suas avaliações reais.
Com a introdução de 'none' como valor em reasoning_effort, desenvolvedores agora têm ainda mais flexibilidade e controle sobre o equilíbrio entre velocidade, custo e inteligência para seus casos de uso. O GPT‑5.1 define 'none' como padrão, o que é ideal para cargas de trabalho sensíveis à latência. Recomendamos que desenvolvedores escolham 'baixo' ou 'médio' para tarefas de maior complexidade e 'alto' quando inteligência e confiabilidade importarem mais que a velocidade.
O cache estendido melhora a eficiência de raciocínio permitindo que prompts permaneçam ativos no cache por até 24 horas, em vez dos poucos minutos suportados atualmente. Com uma janela de retenção maior, mais solicitações de acompanhamento podem aproveitar o contexto em cache—resultando em menor latência, custo reduzido e desempenho mais fluido em interações de longa duração, como chats com múltiplas voltas, sessões de codificação ou fluxos de recuperação de conhecimento.
Os preços do cache de prompt permanecem inalterados, com tokens de entrada em cache 90% mais baratos que tokens não armazenados, e sem cobrança adicional para gravações ou armazenamento do cache. Para usar o cache estendido com o GPT‑5.1, adicione o parâmetro "prompt_cache_retention='24h'" na API Responses ou Chat Completions. Veja a documentação de cache de prompts(abre em uma nova janela) para mais detalhes.
O GPT‑5.1 aprimora as capacidades de codificação do GPT‑5 com uma personalidade de codificação mais direcionável, menos excesso de reflexão, melhor qualidade de código, melhores mensagens de atualização focadas no usuário (preambles) durante sequências de chamadas de ferramentas e designs de frontend mais funcionais—especialmente com baixo esforço de raciocínio.
Em tarefas simples de programação, como edições rápidas de código, o GPT‑5.1 é mais eficaz, o que torna mais fácil iterar rapidamente entre idas e voltas. As velocidades mais altas do GPT‑5.1 em tarefas simples não prejudicam o desempenho em tarefas complexas. No SWE-bench Verified, o GPT‑5.1 trabalha ainda mais tempo que o GPT‑5 e atinge 76,3%.
No SWE-bench Verified, um modelo recebe um repositório de código e a descrição de um problema, e deve gerar um patch para resolvê-lo. Os rótulos indicam o esforço de raciocínio. A precisão é calculada pela média dos 500 problemas. Todos os modelos usaram um harness com a ferramenta apply_patch baseada em JSON.
Recebemos feedback inicial sobre o GPT‑5.1 de algumas empresas focadas em desenvolvimento de código. Aqui estão as impressões delas:
- O Augment Code(abre em uma nova janela) descreveu o GPT‑5.1 como "mais deliberado, com menos ações desperdiçadas, raciocínio mais eficiente e melhor foco na tarefa" e relatou "mudanças mais precisas, pull requests mais suaves e iteração mais rápida em projetos com múltiplos arquivos."
- O Cline(abre em uma nova janela) compartilhou que, em suas avaliações, "o GPT‑5.1 atingiu o "estado da arte" (SOTA) em nosso benchmark de edição por diff, com melhoria de 7%, demonstrando confiabilidade excepcional para tarefas complexas de codificação."
- O CodeRabbit(abre em uma nova janela) chamou o GPT‑5.1 de seu "modelo principal de escolha para revisões de PR."
- A Cognition(abre em uma nova janela) disse que o GPT‑5.1 é "perceptivelmente melhor em entender o que você está pedindo e em trabalhar com você para concluir a tarefa."
- A Factory(abre em uma nova janela) afirmou que "o GPT‑5.1 entrega respostas perceptivelmente mais rápidas e ajusta a profundidade do raciocínio conforme a tarefa, reduzindo o excesso de reflexão e melhorando a experiência geral do desenvolvedor."
- O Warp(abre em uma nova janela) está tornando o GPT‑5.1 o padrão para novos usuários, dizendo que ele "se baseia nos impressionantes ganhos de inteligência introduzidos pela série GPT‑5, sendo ao mesmo tempo um modelo muito mais responsivo."
"GPT 5.1 não é apenas outro LLM — é genuinamente agêntico, o modelo mais naturalmente autônomo que já testei. Ele escreve como você, programa como você, segue instruções complexas sem esforço e se destaca em tarefas de front-end, encaixando-se perfeitamente na sua base de código existente. Você pode realmente desbloquear todo o seu potencial na Responses API e estamos empolgados em oferecê-lo no nosso IDE."
Estamos apresentando duas novas ferramentas com o GPT‑5.1 para ajudar desenvolvedores a tirar o máximo do modelo na Responses API: uma ferramenta apply_patch de formato livre para tornar edições de código ainda mais confiáveis, sem necessidade de escape em JSON, e uma ferramenta shell que permite ao modelo escrever comandos para serem executados na sua máquina local.
A ferramenta apply_patch de formato livre permite que o GPT‑5.1 crie, atualize e exclua arquivos em uma base de código usando diffs estruturados. Em vez de apenas sugerir edições, o modelo emite operações de patch que uma aplicação aplica e retorna o resultado, habilitando fluxos de trabalho iterativos e em múltiplas etapas para edição de código.
Para usar a ferramenta apply_patch na Responses API, inclua-a na matriz de ferramentas com "tools": [{"type": "apply_patch"}] e inclua o conteúdo dos arquivos na sua entrada ou forneça ao modelo ferramentas para interagir com o seu sistema de arquivos. O modelo vai gerar itens apply_patch_call para criar, atualizar ou excluir arquivos que contêm diffs que você aplica no seu sistema de arquivos. Para mais informações sobre como integrar a ferramenta apply_patch, consulte nossa documentação para desenvolvedores(abre em uma nova janela).
A ferramenta shell permite que o modelo interaja com um computador local por meio de uma interface de linha de comando controlada. O modelo propõe comandos de shell; a integração do desenvolvedor os executa e retorna as saídas. Isso cria um loop simples de planejar e executar que permite aos modelos inspecionar o sistema, rodar utilitários e coletar dados até conseguirem concluir a tarefa.
Para usar a ferramenta shell na Responses API, desenvolvedores podem incluí-la no array tools com "tools": [{"type": "shell"}]. A API vai gerar itens "shell_call" que incluem os comandos de shell a serem executados. Os desenvolvedores executam os comandos no ambiente local e repassam os resultados da execução no item "shell_call_output" na próxima requisição à API. Saiba mais na nossa documentação para desenvolvedores(abre em uma nova janela).
O GPT‑5.1 e o gpt-5.1-chat-latest estão disponíveis para desenvolvedores em todos os planos pagos da API. Os preços e limites de uso(abre em uma nova janela) são os mesmos do GPT‑5. Também estamos lançando o gpt-5.1-codex e o gpt-5.1-codex-mini na API. Enquanto o GPT‑5.1 se destaca na maioria das tarefas de codificação, os modelos gpt-5.1-codex são otimizados para tarefas de codificação agênticas e de longa duração em Codex ou em ambientes do tipo Codex.
Desenvolvedores já podem começar a criar usando nossa documentação para desenvolvedores(abre em uma nova janela) do GPT‑5.1 e o guia de prompting de modelos(abre em uma nova janela). Atualmente, não planejamos descontinuar o GPT‑5 na API e avisaremos os desenvolvedores com antecedência caso decidamos fazer isso.
Estamos comprometidos em implementar iterativamente os modelos mais capazes e confiáveis para trabalho agêntico e de codificação real—modelos que pensam de forma eficiente, iteram rapidamente e lidam com tarefas complexas enquanto mantêm os desenvolvedores em fluxo. Com raciocínio adaptativo, desempenho mais forte em codificação, atualizações mais claras voltadas ao usuário e novas ferramentas como apply_patch e shell, o GPT‑5.1 foi projetado para ajudar você a construir com menos atrito. E continuamos a investir pesado nessa frente: você pode esperar modelos agênticos e de codificação ainda mais capazes nas próximas semanas e meses.
Avaliação | GPT‑5.1 (alto) | GPT‑5 (alto) |
SWE-bench Verified | 76,3% | 72,8% |
GPQA Diamond | 88,1% | 85,7% |
AIME 2025 | 94,0% | 94,6% |
FrontierMath | 26,7% | 26,3% |
MMMU | 85,4% | 84,2% |
Tau2-bench Airline | 67,0% | 62,6% |
Tau2-bench Telecom* | 95,6% | 96,7% |
Tau2-bench Retail | 77,9% | 81,1% |
BrowseComp Long Context 128k | 90,0% | 90,0% |
* Para o Tau2-bench Telecom, fornecemos ao GPT‑5.1 um prompt curto e genericamente útil para melhorar seu desempenho.


