7 de agosto de 2025

Apresentando o GPT‑5 para desenvolvedores

O melhor modelo para tarefas agênticas e de programação.

Carregando…

Introdução

Hoje, estamos lançando o GPT‑5 na nossa plataforma de API: nosso melhor modelo até agora para tarefas agênticas e de programação.

O GPT‑5 é o que há de mais avançado em benchmarks de programação, com uma pontuação de 74,9% no SWE-bench Verified e 88% no Aider Polyglot. Treinamos o GPT‑5 para ser um verdadeiro colaborador em tarefas de programação. Ele se destaca na produção de código de alta qualidade e no tratamento de tarefas como correção de bugs, edição de código e resposta a perguntas sobre bases de código complexas. O modelo é controlável e colaborativo, podendo seguir instruções muito detalhadas com alta precisão e fornecer explicações antecipadas sobre suas ações antes e entre chamadas de ferramentas. O modelo também se destaca na programação de front-end, superando o OpenAI o3 no desenvolvimento web de front-end em 70% dos casos em testes internos.

Treinamos o GPT‑5 em tarefas reais de programação, com a colaboração de testadores preliminares em startups e empresas. A Cursor afirma que o GPT‑5 é “o modelo mais inteligente que já usaram” e “notavelmente inteligente, fácil de controlar e até tem uma personalidade que [eles] nunca viram em outros modelos”. A Windsurf revelou que o GPT‑5 é o líder nas avaliações da empresa e “tem metade da taxa de erros de chamada de ferramentas em comparação com outros modelos de ponta”. A Vercel diz que “é o melhor modelo de IA front-end, com altíssimo desempenho tanto no senso estético quanto na qualidade do código, posicionando-o em uma categoria à parte”.

O GPT‑5 também se destaca em tarefas agênticas de longa duração, alcançando resultados de ponta no τ²-bench telecom (96,7%), um benchmark de chamadas de ferramentas lançado há apenas dois meses. A inteligência aprimorada das ferramentas do GPT‑5 permite que ele encadeie dezenas de chamadas de ferramentas de maneira confiável, tanto em sequência quanto em paralelo, sem perder o rumo, tornando-o muito melhor na execução de tarefas complexas do mundo real, do início ao fim. Ele também segue as instruções da ferramenta com mais precisão, é melhor no tratamento de erros da ferramenta e se destaca na recuperação de conteúdo de contexto longo. A Manus diz que o GPT‑5 “alcançou o melhor desempenho que já vimos em um único modelo em nossos benchmarks internos”. A Notion diz que “as respostas rápidas [do modelo], especialmente no modo de baixa reflexão, fazem do GPT‑5 o modelo ideal para resolver tarefas complexas de uma única vez”. A Inditex comentou que “o que realmente diferencia [o GPT‑5] é a profundidade de sua reflexão: respostas cheias de nuances e com várias camadas que refletem uma compreensão real do assunto”.

Estamos introduzindo novos recursos em nossa API para oferecer aos desenvolvedores mais controle sobre as respostas do modelo. O GPT‑5 oferece suporte a um novo parâmetro verbosity (valores: low, medium, high) para ajudar a controlar se as respostas são curtas e diretas ou longas e abrangentes. O parâmetro reasoning_effort do GPT‑5 agora pode assumir um valor mínimo para obter respostas mais rápidas, sem reflexão aprofundada. Também acrescentamos um novo tipo de ferramenta (ferramentas personalizadas) para permitir que o GPT‑5 chame ferramentas com texto simples em vez de JSON. As ferramentas personalizadas permitem restrições por gramáticas livre de contexto fornecidas pelo desenvolvedor.

Estamos lançando o GPT‑5 em três tamanhos na API (gpt-5, gpt-5-mini e gpt-5-nano) para oferecer aos desenvolvedores mais flexibilidade ao equilibrar desempenho, custo e latência. Enquanto o GPT‑5 no ChatGPT é um sistema de modelos de raciocínio, não raciocínio e roteador, o GPT‑5 na plataforma de API é o modelo de raciocínio que proporciona o máximo desempenho no ChatGPT. Cabe destacar que o GPT‑5 com raciocínio mínimo é um modelo diferente do modelo sem raciocínio do ChatGPT, sendo mais adequado para desenvolvedores. O modelo sem reflexão usado no ChatGPT está disponível como gpt-5-chat-latest.

Para ler sobre o GPT‑5 no ChatGPT e saber mais sobre outras melhorias do ChatGPT, confira nosso blog de investigação. Para saber mais sobre como as empresas estão entusiasmadas com o uso do GPT‑5, confira nosso blog empresarial⁠.

Programação

O GPT‑5 é o modelo de programação mais robusto que já lançamos. Ele supera o o3 em benchmarks de programação e casos de uso reais, tendo sido aperfeiçoado para se destacar em produtos de programação agêntica, como o Cursor, o Windsurf, o GitHub Copilot e a Codex CLI. O GPT‑5 impressionou nossos testadores alfa, estabelecendo recordes em muitas de suas avaliações internas privadas.

Feedback inicial sobre o GPT‑5 para tarefas de programação reais

“O GPT-5 é o modelo de programação mais inteligente que já usamos. Nossa equipe constatou que o GPT-5 é extremamente inteligente, fácil de controlar e até mesmo possui uma personalidade que não vimos em nenhum outro modelo. Ele não só detecta bugs complexos e profundamente ocultos, como também pode executar agentes em interações longas de várias etapas em segundo plano para realizar tarefas complexas até ao fim, o tipo de problema que fazia outros modelos travar. Ele se tornou nossa ferramenta diária para tudo, desde o escopo e planejamento de PRs até a conclusão de compilações completas.”

Michael Truell, cofundador e CEO da Cursor

No SWE-bench Verified, uma avaliação baseada em tarefas reais de engenharia de software, o GPT‑5 obteve uma pontuação de 74,9%, acima dos 69,1% do o3. Vale ressaltar que o GPT‑5 alcança sua alta pontuação com maior eficiência e velocidade: em relação ao o3 em esforço de reflexão elevado, o GPT‑5 usa 22% menos tokens de saída e 45% menos chamadas de ferramentas.

No SWE-bench Verified⁠, um modelo recebe um repositório de códigos e uma descrição do problema e deve gerar um patch para resolver o problema. As legendas indicam o esforço de reflexão. Nossas pontuações omitem 23 dos 500 problemas cujas soluções não foram aprovadas de maneira confiável em nossa infraestrutura. O GPT‑5 recebeu um prompt curto que enfatizava a verificação completa das soluções; o mesmo prompt não beneficiou o o3.

No Aider Polyglot, uma avaliação da edição de código, o GPT‑5 estabelece um novo recorde de 88%, uma redução de um terço na taxa de erros em comparação com o o3.

No Aider polygot⁠(abre em uma nova janela) (diff), um modelo recebe um exercício de programação do Exercism e deve escrever sua solução como uma modificação no código. Os modelos de raciocínio foram executados com alto esforço de reflexão.

Também constatamos que o GPT‑5 é excelente para aprofundar-se em bases de código para responder a perguntas sobre como várias partes funcionam ou interagem entre si. Em uma base de código tão complicada quanto a pilha de aprendizagem por reforço da OpenAI, estamos descobrindo que o GPT‑5 pode nos ajudar a refletir e a responder a perguntas sobre nosso código, acelerando o trabalho diário.

Engenharia de front-end

Ao produzir código front-end para aplicativos Web, o GPT‑5 é mais estético, ambicioso e preciso. Em comparações lado a lado com o o3, o GPT‑5 foi o preferido pelos nossos testadores em 70% das ocasiões.

Aqui estão alguns exemplos divertidos e cuidadosamente selecionados do que o GPT‑5 pode fazer com um único prompt:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Confira mais exemplos do GPT‑5 na nossa galeria aqui⁠(abre em uma nova janela).

Colaboração em programação

O GPT‑5 é um colaborador mais eficiente, especialmente em produtos de programação agêntica como o Cursor, o Windsurf, o GitHub Copilot e a Codex CLI. Enquanto trabalha, o GPT‑5 é capaz de gerar planos, atualizações e recapitulações entre chamadas de ferramentas. Em comparação com nossos modelos anteriores, o GPT‑5 é mais proativo na conclusão de tarefas ambiciosas, sem pausar para aguardar sua aprovação ou recuar diante de tarefas muito complexas.

Aqui está um exemplo do comportamento do GPT‑5 ao lidar com uma tarefa complexa (neste caso, criar um site para um restaurante):

Depois que o usuário solicita um site para seu restaurante, o GPT‑5 compartilha um plano rápido, estrutura o aplicativo, instala dependências, cria o conteúdo do site, executa uma compilação para verificar se há erros e resume seu trabalho, sugerindo possíveis próximos passos. Este vídeo foi acelerado em cerca de 3 vezes para poupar tempo: a duração total da criação do site foi de aproximadamente três minutos.

Tarefas agênticas

Além da programação agêntica, o GPT‑5 é melhor em tarefas agênticas em geral. O GPT‑5 estabelece novos recordes em benchmarks de execução de instruções (69,6% no MultiChallenge, conforme a classificação do o3‑mini) e chamadas de ferramentas (96,7% no τ²-bench telecom). A inteligência aprimorada de ferramentas permite que o GPT‑5 encadeie ações de maneira mais confiável para realizar tarefas do mundo real.

Feedback inicial sobre o GPT‑5 para tarefas agênticas

“O GPT-5 é um grande avanço. Ele alcançou o melhor desempenho que já vimos em um único modelo em nossos benchmarks internos. O GPT-5 se destacou em várias tarefas agênticas, mesmo antes ajustarmos uma única linha de código ou personalizarmos um prompt. Os novos preâmbulos e o controle mais preciso sobre o uso das ferramentas permitiram um salto significativo na estabilidade e orientabilidade dos nossos agentes.”

Yichao “Peak” Ji, cofundador e cientista-chefe da Manus

Capacidade de seguir instruções

O GPT‑5 segue instruções de forma mais confiável que todos os antecessores, com pontuação alta no COLLIE, no Scale MultiChallenge e na nossa avaliação interna de cumprimento de instruções.

No COLLIE⁠(abre em uma nova janela), os modelos precisam escrever textos com diversas restrições. No Scale MultiChallenge⁠(abre em uma nova janela), os modelos são desafiados com conversas em várias etapas para usar corretamente quatro tipos de informações usadas em mensagens anteriores. Nossa pontuação usa as avaliações do o3‑mini, que foi mais preciso que o GPT‑4o. Em nossa avaliação interna da capacidade de seguir instruções para a API OpenAI, os modelos precisam seguir instruções complexas baseadas em feedback real de desenvolvedores. Os modelos de raciocínio foram executados com alto esforço de reflexão.

Chamadas de ferramentas

Nós nos empenhamos para melhorar as chamadas de ferramentas de maneiras relevantes para os desenvolvedores. O GPT‑5 é mais eficaz em seguir instruções de ferramentas, lidar com erros de ferramentas e fazer proativamente várias chamadas de ferramentas em sequência ou em paralelo. Ao receber instruções, o GPT‑5 também pode gerar mensagens de preâmbulo antes e entre as chamadas de ferramentas para atualizar os usuários sobre o andamento de tarefas agênticas mais longas.

Há dois meses, o τ²-bench telecom foi publicado pela Sierra.ai como um benchmark desafiador para o uso de ferramentas, destacando como o desempenho do modelo de linguagem cai significativamente ao interagir com um estado do ambiente que pode ser alterado pelos usuários. Em sua publicação⁠(abre em uma nova janela), nenhum modelo obteve uma pontuação superior a 49%. A pontuação do GPT‑5 é de 97%.

No τ2-bench⁠(abre em uma nova janela), um modelo deve usar ferramentas para realizar uma tarefa de atendimento ao cliente, na qual pode haver um usuário capaz de se comunicar e agir em relação à situação fornecida. Os modelos de raciocínio foram executados com alto esforço de reflexão.

O GPT‑5 também apresenta melhorias significativas no desempenho em contextos longos. No OpenAI-MRCR, uma medida de recuperação de informações de contexto longo, o GPT‑5 supera o o3 e o GPT‑4.1, com uma margem que aumenta substancialmente em comprimentos de entrada mais longos.

No OpenAI-MRCR⁠(abre em uma nova janela) (resolução de co-referência em várias rodadas), várias solicitações idênticas do usuário são inseridas em longos “palheiros” de solicitações e respostas semelhantes, e é solicitado ao modelo que reproduza a resposta à i-ésima solicitação. A proporção média de correspondência mede a proporção média de correspondência entre a resposta do modelo e a resposta correta. Os pontos em 256 mil tokens de entrada máxima representam médias entre 128 mil e 256 mil tokens de entrada, e assim por diante. Aqui, 256 mil representa 256 * 1.024 = 262.114 tokens. Os modelos de raciocínio foram executados com alto esforço de reflexão.

Também estamos disponibilizando em código aberto o BrowseComp Long Context⁠(abre em uma nova janela), um novo benchmark para avaliar perguntas e respostas de contexto longo. Nesse benchmark, o modelo recebe uma consulta do usuário, uma longa lista de resultados de pesquisa relevantes e deve responder à pergunta com base nos resultados da pesquisa. Projetamos o BrowseComp Long Context para ser realista, difícil e ter respostas corretas, confiáveis e bem fundamentadas. Em entradas com 128 mil a 256 mil tokens, o GPT‑5 fornece a resposta correta 89% das vezes.

Na API, todos os modelos GPT‑5 podem aceitar no máximo 272.000 tokens de entrada e emitir no máximo 128.000 tokens de reflexão e saída, totalizando um comprimento de contexto de 400.000 tokens.

Factualidade

O GPT‑5 é mais confiável do que nossos modelos anteriores. Nos prompts dos benchmarks LongFact e FactScore, o GPT‑5 comete cerca de 80% menos erros factuais do que o o3. Isso o torna mais adequado para casos de uso agênticos, nos quais a precisão é importante, especialmente em código, dados e tomada de decisões.

Pontuações mais altas são piores. O LongFact⁠(abre em uma nova janela) e o FActScore⁠(abre em uma nova janela) consistem em perguntas abertas que buscam fatos. Usamos um avaliador baseado em LLM com navegação para verificar as respostas nos prompts desses benchmarks e medir a fração de afirmações factualmente incorretas. Os detalhes sobre a implementação e a classificação podem ser encontrados no cartão do sistema⁠. Os modelos de raciocínio usaram o esforço de reflexão alto. A busca não estava habilitada.

De modo geral, o GPT‑5 foi treinado para ter mais consciência das suas próprias limitações e ser mais capaz de lidar com situações inesperadas. Também treinamos o GPT‑5 para ser muito mais preciso em questões de saúde (leia mais em nosso blog de investigação). Como em todos os modelos de linguagem, recomendamos que você verifique o trabalho do GPT‑5 quando estiver lidando com questões importantes.

Novos recursos

Mínimo esforço de reflexão

Os desenvolvedores podem controlar o tempo de reflexão do GPT‑5 por meio do parâmetro reasoning_effort na API. Além dos valores anteriores — low, medium (padrão) e high — o GPT‑5 também oferece suporte para minimal, que minimiza a reflexão do GPT‑5 para retornar uma resposta rapidamente.

Valores mais altos de reasoning_effort maximizam a qualidade, enquanto valores mais baixos maximizam a velocidade. Como nem todas as tarefas se beneficiam igualmente de reflexões adicionais, recomendamos que você experimente para ver o que funciona melhor para os casos de uso que mais lhe interessam.

Por exemplo, a reflexão acima de low acrescenta pouco à recuperação de contexto longo relativamente simples, mas acrescenta alguns pontos percentuais ao CharXiv Reasoning⁠(abre em uma nova janela), um benchmark de reflexão visual.

O esforço de reflexão do GPT‑5 produz benefícios diferentes em tarefas diferentes. Para o CharXiv Reasoning, o GPT‑5 teve acesso a uma ferramenta python.

Verbosidade

Para ajudar a orientar o comprimento padrão das respostas do GPT‑5, introduzimos um novo parâmetro de API, verbosity, que pode assumir os valores low, medium (padrão) e high. Se instruções explícitas entrarem em conflito com os parâmetros “verbosity”, as instruções explícitas prevalecerão. Por exemplo, se você pedir ao GPT‑5 para “escrever uma redação de 5 parágrafos”, a resposta do modelo deve ser sempre 5 parágrafos, independentemente do nível de verbosidade (no entanto, os parágrafos propriamente ditos podem ser mais longos ou mais curtos).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Mensagens de preâmbulo antes de chamadas de ferramentas

Se instruído, o GPT‑5 exibirá mensagens de preâmbulo visíveis ao usuário antes e entre as chamadas de ferramentas. Ao contrário das mensagens ocultas de reflexão, essas mensagens visíveis permitem que o GPT‑5 comunique planos e progressos aos usuários finais, ajudando-os a compreender sua abordagem e intenção por detrás das chamadas de ferramentas.

Ferramentas personalizadas

Estamos introduzindo um novo tipo de ferramenta (ferramentas personalizadas) que permite ao GPT‑5 chamar uma ferramenta com texto simples em vez de JSON. Para limitar o GPT‑5 a seguir formatos de ferramentas personalizados, os desenvolvedores podem fornecer uma expressão regular ou até mesmo uma gramática livre de contexto⁠(abre em uma nova janela) mais bem especificada.

Anteriormente, nossa interface para ferramentas definidas pelo desenvolvedor exigia que elas fossem chamadas com JSON, um formato comum usado por APIs da Web e desenvolvedores em geral. No entanto, para produzir um JSON válido, o modelo precisa fazer o escape perfeito de todas as aspas, barras invertidas, novas linhas e outros caracteres de controle. Embora nossos modelos sejam bem treinados para produzir resultados em JSON, em entradas longas, como centenas de linhas de código ou um relatório de 5 páginas, as chances de ocorrer um erro aumentam. Com ferramentas personalizadas, o GPT‑5 consegue escrever entradas de ferramentas como texto simples, sem precisar fazer escape em todos os caracteres que exigem escape.

No SWE-bench Verified usando ferramentas personalizadas em vez de ferramentas JSON, o GPT‑5 obtém uma pontuação semelhante.

Segurança

O GPT‑5 expande os limites da segurança e é um modelo mais robusto, confiável e útil. O GPT‑5 é significativamente menos propenso a alucinar do que os nossos modelos anteriores, comunica com mais honestidade as suas ações e capacidades ao usuário e fornece a resposta mais útil possível, mantendo-se dentro dos limites de segurança. Leia mais em nosso blog de investigação.

Disponibilidade e preços

O GPT‑5 já está disponível na plataforma API em três tamanhos: gpt-5, gpt-5-mini e gpt-5-nano. Está disponível na API Responses, na API Chat Completions e é o padrão na Codex CLI. O GPT‑5 custa US$ 1,25/milhão de tokens de entrada e US$ 10/milhão de tokens de saída. O GPT‑5 mini custa US$ 0,25/milhão de tokens de entrada e US$ 2/milhão de tokens de saída. O GPT‑5 nano custa US$ 0,05/milhão de tokens de entrada e US$ 0,40/milhão de tokens de saída.

Esses modelos oferecem suporte aos parâmetros de API reasoning_effort e verbosity, bem como ferramentas personalizadas. Eles também oferecem suporte a chamadas paralelas de ferramentas, ferramentas integradas (busca na web, busca de arquivos, geração de imagens e muito mais), recursos essenciais de API (streaming, saídas estruturadas e muito mais) e recursos econômicos, como cache de prompts e a API Batch.

A versão sem reflexão do GPT‑5 usada no ChatGPT está disponível na API como gpt-5-chat-latest, também ao custo de US$ 1,25/milhão de tokens de entrada e US$ 10/milhão de tokens de saída.

O GPT‑5 também será lançado nas plataformas Microsoft, inclusive no Microsoft 365 Copilot, Copilot, GitHub Copilot e Azure AI Foundry.

Confira a documentação⁠(abre em uma nova janela), os detalhes de preços⁠(abre em uma nova janela) e o guia de prompts⁠(abre em uma nova janela) do GPT‑5 para começar.

Benchmarks detalhados

Inteligência

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	94,6%	91,1%	85,2%	88,9%	92,7%	46,4%	40,2%	-
FrontierMath(with python tool only)	26,3%	22,1%	9,6%	15,8%	15,4%	-	-	-
GPQA diamond(no tools)	85,7%	82,3%	71,2%	83,3%	81,4%	66,3%	65,0%	50,3%
HLE^[1](no tools)	24,8%	16,7%	8,7%	20,2%	14,7%	5,4%	3,7%	-
HMMT 2025(no tools)	93,3%	87,8%	75,6%	81,7%	85,0%	28,9%	35,0%	-

[1] Há uma pequena discrepância nos números indicados em nossa postagem anterior, pois as avaliações foram executadas com uma versão anterior do HLE.

Multimodal

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	84,2%	81,6%	75,6%	82,9%	81,6%	74,8%	72,7%	55,4%
MMMU-Pro(avg across standard and vision sets)	78,4%	74,1%	62,6%	76,4%	73,4%	60,3%	58,9%	33,0%
CharXiv reasoning(python enabled)	81,1%	75,5%	62,7%	78,6%	72,0%	56,7%	56,8%	40,5%
VideoMMMU, max frame 256	84,6%	82,5%	66,8%	83,3%	79,4%	60,9%	55,1%	30,2%
ERQA	65,7%	62,9%	50,1%	64,0%	56,5%	44,3%	42,3%	26,5%

Programação

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	US$ 112 mil	US$ 75 mil	US$ 49 mil	US$ 86 mil	US$ 66 mil	US$ 34 mil	US$ 31 mil	US$ 9 mil
SWE-bench Verified^[2]	74,9%	71,0%	54,7%	69,1%	68,1%	54,6%	23,6%	-
Aider polyglot(diff)	88,0%	71,6%	48,4%	79,6%	58,2%	52,9%	31,6%	6,2%

[2] Omitimos 23 de 500 problemas, que não puderam ser executados em nossa infraestrutura. Lista das 23 tarefas omitidas: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.

Capacidade de seguir instruções

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	69,6%	62,3%	54,9%	60,4%	57,5%	46,2%	42,2%	31,1%
Internal API instruction following eval(hard)	64,0%	65,8%	56,1%	47,4%	44,7%	49,1%	45,1%	31,6%
COLLIE	99,0%	98,5%	96,9%	98,4%	96,1%	65,8%	54,6%	42,5%

[3] Observação: constatamos que o avaliador padrão do MultiChallenge (GPT-4o) erra com frequência a pontuação das respostas do modelo. A troca desse avaliador por um modelo de raciocínio, como o o3-mini, melhora consideravelmente a precisão das classificações nas amostras inspecionadas.

Chamada de função

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	62,6%	60,0%	41,0%	64,8%	60,2%	56,0%	51,0%	14,0%
Tau²-bench retail	81,1%	78,3%	62,3%	80,2%	70,5%	74,0%	66,0%	21,5%
Tau²-bench telecom	96,7%	74,1%	35,5%	58,2%	40,5%	34,0%	44,0%	12,1%

Contexto longo

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	95,2%	84,3%	43,2%	55,0%	56,4%	57,2%	47,2%	36,6%
OpenAI-MRCR: 2 needle 256k	86,8%	58,8%	34,9%	-	-	56,2%	45,5%	22,6%
Graphwalks bfs <128k	78,3%	73,4%	64,0%	77,3%	62,3%	61,7%	61,7%	25,0%
Graphwalks parents <128k	73,3%	64,3%	43,8%	72,9%	51,1%	58,0%	60,5%	9,4%
BrowseComp Long Context 128k	90,0%	89,4%	80,4%	88,3%	80,0%	85,9%	89,0%	89,4%
BrowseComp Long Context 256k	88,8%	86,0%	68,4%	-	-	75,5%	81,6%	19,1%
VideoMME(long, with subtitle category)	86,7%	78,5%	65,7%	84,9%	79,5%	78,7%	68,4%	55,2%

Alucinações

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	1,0%	0,7%	1,0%	5,2%	3,0%	0,7%	1,1%	-
LongFact-Objects hallucination rate(no tools)[lower is better]	1,2%	1,3%	2,8%	6,8%	8,9%	1,1%	1,8%	-
FActScore hallucination rate(no tools)[lower is better]	2,8%	3,5%	7,3%	23,5%	38,7%	6,7%	10,9%	-

2025

Autoria

OpenAI

Continuar lendo

Ver tudo

Launching Health in ChatGPT

Produto23 de jul. de 2026

Apresentamos o OpenAI Presence

Produto22 de jul. de 2026

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

O GPT-5.6 agora é o modelo preferido no Microsoft 365 Copilot

Produto9 de jul. de 2026