Apresentando o GPT‑5 para desenvolvedores
O melhor modelo para tarefas agênticas e de programação.
Hoje, estamos lançando o GPT‑5 na nossa plataforma de API: nosso melhor modelo até agora para tarefas agênticas e de programação.
O GPT‑5 é o que há de mais avançado em benchmarks de programação, com uma pontuação de 74,9% no SWE-bench Verified e 88% no Aider Polyglot. Treinamos o GPT‑5 para ser um verdadeiro colaborador em tarefas de programação. Ele se destaca na produção de código de alta qualidade e no tratamento de tarefas como correção de bugs, edição de código e resposta a perguntas sobre bases de código complexas. O modelo é controlável e colaborativo, podendo seguir instruções muito detalhadas com alta precisão e fornecer explicações antecipadas sobre suas ações antes e entre chamadas de ferramentas. O modelo também se destaca na programação de front-end, superando o OpenAI o3 no desenvolvimento web de front-end em 70% dos casos em testes internos.
Treinamos o GPT‑5 em tarefas reais de programação, com a colaboração de testadores preliminares em startups e empresas. A Cursor afirma que o GPT‑5 é “o modelo mais inteligente que já usaram” e “notavelmente inteligente, fácil de controlar e até tem uma personalidade que [eles] nunca viram em outros modelos”. A Windsurf revelou que o GPT‑5 é o líder nas avaliações da empresa e “tem metade da taxa de erros de chamada de ferramentas em comparação com outros modelos de ponta”. A Vercel diz que “é o melhor modelo de IA front-end, com altíssimo desempenho tanto no senso estético quanto na qualidade do código, posicionando-o em uma categoria à parte”.
O GPT‑5 também se destaca em tarefas agênticas de longa duração, alcançando resultados de ponta no τ2-bench telecom (96,7%), um benchmark de chamadas de ferramentas lançado há apenas dois meses. A inteligência aprimorada das ferramentas do GPT‑5 permite que ele encadeie dezenas de chamadas de ferramentas de maneira confiável, tanto em sequência quanto em paralelo, sem perder o rumo, tornando-o muito melhor na execução de tarefas complexas do mundo real, do início ao fim. Ele também segue as instruções da ferramenta com mais precisão, é melhor no tratamento de erros da ferramenta e se destaca na recuperação de conteúdo de contexto longo. A Manus diz que o GPT‑5 “alcançou o melhor desempenho que já vimos em um único modelo em nossos benchmarks internos”. A Notion diz que “as respostas rápidas [do modelo], especialmente no modo de baixa reflexão, fazem do GPT‑5 o modelo ideal para resolver tarefas complexas de uma única vez”. A Inditex comentou que “o que realmente diferencia [o GPT‑5] é a profundidade de sua reflexão: respostas cheias de nuances e com várias camadas que refletem uma compreensão real do assunto”.
Estamos introduzindo novos recursos em nossa API para oferecer aos desenvolvedores mais controle sobre as respostas do modelo. O GPT‑5 oferece suporte a um novo parâmetro verbosity (valores: low, medium, high) para ajudar a controlar se as respostas são curtas e diretas ou longas e abrangentes. O parâmetro reasoning_effort do GPT‑5 agora pode assumir um valor mínimo para obter respostas mais rápidas, sem reflexão aprofundada. Também acrescentamos um novo tipo de ferramenta (ferramentas personalizadas) para permitir que o GPT‑5 chame ferramentas com texto simples em vez de JSON. As ferramentas personalizadas permitem restrições por gramáticas livre de contexto fornecidas pelo desenvolvedor.
Estamos lançando o GPT‑5 em três tamanhos na API (gpt-5, gpt-5-mini e gpt-5-nano) para oferecer aos desenvolvedores mais flexibilidade ao equilibrar desempenho, custo e latência. Enquanto o GPT‑5 no ChatGPT é um sistema de modelos de raciocínio, não raciocínio e roteador, o GPT‑5 na plataforma de API é o modelo de raciocínio que proporciona o máximo desempenho no ChatGPT. Cabe destacar que o GPT‑5 com raciocínio mínimo é um modelo diferente do modelo sem raciocínio do ChatGPT, sendo mais adequado para desenvolvedores. O modelo sem reflexão usado no ChatGPT está disponível como gpt-5-chat-latest.
Para ler sobre o GPT‑5 no ChatGPT e saber mais sobre outras melhorias do ChatGPT, confira nosso blog de investigação. Para saber mais sobre como as empresas estão entusiasmadas com o uso do GPT‑5, confira nosso blog empresarial.
O GPT‑5 é o modelo de programação mais robusto que já lançamos. Ele supera o o3 em benchmarks de programação e casos de uso reais, tendo sido aperfeiçoado para se destacar em produtos de programação agêntica, como o Cursor, o Windsurf, o GitHub Copilot e a Codex CLI. O GPT‑5 impressionou nossos testadores alfa, estabelecendo recordes em muitas de suas avaliações internas privadas.
Feedback inicial sobre o GPT‑5 para tarefas de programação reais
“O GPT-5 é o modelo de programação mais inteligente que já usamos. Nossa equipe constatou que o GPT-5 é extremamente inteligente, fácil de controlar e até mesmo possui uma personalidade que não vimos em nenhum outro modelo. Ele não só detecta bugs complexos e profundamente ocultos, como também pode executar agentes em interações longas de várias etapas em segundo plano para realizar tarefas complexas até ao fim, o tipo de problema que fazia outros modelos travar. Ele se tornou nossa ferramenta diária para tudo, desde o escopo e planejamento de PRs até a conclusão de compilações completas.”
No SWE-bench Verified, uma avaliação baseada em tarefas reais de engenharia de software, o GPT‑5 obteve uma pontuação de 74,9%, acima dos 69,1% do o3. Vale ressaltar que o GPT‑5 alcança sua alta pontuação com maior eficiência e velocidade: em relação ao o3 em esforço de reflexão elevado, o GPT‑5 usa 22% menos tokens de saída e 45% menos chamadas de ferramentas.
No SWE-bench Verified, um modelo recebe um repositório de códigos e uma descrição do problema e deve gerar um patch para resolver o problema. As legendas indicam o esforço de reflexão. Nossas pontuações omitem 23 dos 500 problemas cujas soluções não foram aprovadas de maneira confiável em nossa infraestrutura. O GPT‑5 recebeu um prompt curto que enfatizava a verificação completa das soluções; o mesmo prompt não beneficiou o o3.
No Aider Polyglot, uma avaliação da edição de código, o GPT‑5 estabelece um novo recorde de 88%, uma redução de um terço na taxa de erros em comparação com o o3.
No Aider polygot(abre em uma nova janela) (diff), um modelo recebe um exercício de programação do Exercism e deve escrever sua solução como uma modificação no código. Os modelos de raciocínio foram executados com alto esforço de reflexão.
Também constatamos que o GPT‑5 é excelente para aprofundar-se em bases de código para responder a perguntas sobre como várias partes funcionam ou interagem entre si. Em uma base de código tão complicada quanto a pilha de aprendizagem por reforço da OpenAI, estamos descobrindo que o GPT‑5 pode nos ajudar a refletir e a responder a perguntas sobre nosso código, acelerando o trabalho diário.
Ao produzir código front-end para aplicativos Web, o GPT‑5 é mais estético, ambicioso e preciso. Em comparações lado a lado com o o3, o GPT‑5 foi o preferido pelos nossos testadores em 70% das ocasiões.
Aqui estão alguns exemplos divertidos e cuidadosamente selecionados do que o GPT‑5 pode fazer com um único prompt:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Confira mais exemplos do GPT‑5 na nossa galeria aqui(abre em uma nova janela).
O GPT‑5 é um colaborador mais eficiente, especialmente em produtos de programação agêntica como o Cursor, o Windsurf, o GitHub Copilot e a Codex CLI. Enquanto trabalha, o GPT‑5 é capaz de gerar planos, atualizações e recapitulações entre chamadas de ferramentas. Em comparação com nossos modelos anteriores, o GPT‑5 é mais proativo na conclusão de tarefas ambiciosas, sem pausar para aguardar sua aprovação ou recuar diante de tarefas muito complexas.
Aqui está um exemplo do comportamento do GPT‑5 ao lidar com uma tarefa complexa (neste caso, criar um site para um restaurante):
Depois que o usuário solicita um site para seu restaurante, o GPT‑5 compartilha um plano rápido, estrutura o aplicativo, instala dependências, cria o conteúdo do site, executa uma compilação para verificar se há erros e resume seu trabalho, sugerindo possíveis próximos passos. Este vídeo foi acelerado em cerca de 3 vezes para poupar tempo: a duração total da criação do site foi de aproximadamente três minutos.
Além da programação agêntica, o GPT‑5 é melhor em tarefas agênticas em geral. O GPT‑5 estabelece novos recordes em benchmarks de execução de instruções (69,6% no MultiChallenge, conforme a classificação do o3‑mini) e chamadas de ferramentas (96,7% no τ2-bench telecom). A inteligência aprimorada de ferramentas permite que o GPT‑5 encadeie ações de maneira mais confiável para realizar tarefas do mundo real.
Feedback inicial sobre o GPT‑5 para tarefas agênticas
“O GPT-5 é um grande avanço. Ele alcançou o melhor desempenho que já vimos em um único modelo em nossos benchmarks internos. O GPT-5 se destacou em várias tarefas agênticas, mesmo antes ajustarmos uma única linha de código ou personalizarmos um prompt. Os novos preâmbulos e o controle mais preciso sobre o uso das ferramentas permitiram um salto significativo na estabilidade e orientabilidade dos nossos agentes.”
O GPT‑5 segue instruções de forma mais confiável que todos os antecessores, com pontuação alta no COLLIE, no Scale MultiChallenge e na nossa avaliação interna de cumprimento de instruções.
No COLLIE(abre em uma nova janela), os modelos precisam escrever textos com diversas restrições. No Scale MultiChallenge(abre em uma nova janela), os modelos são desafiados com conversas em várias etapas para usar corretamente quatro tipos de informações usadas em mensagens anteriores. Nossa pontuação usa as avaliações do o3‑mini, que foi mais preciso que o GPT‑4o. Em nossa avaliação interna da capacidade de seguir instruções para a API OpenAI, os modelos precisam seguir instruções complexas baseadas em feedback real de desenvolvedores. Os modelos de raciocínio foram executados com alto esforço de reflexão.
Nós nos empenhamos para melhorar as chamadas de ferramentas de maneiras relevantes para os desenvolvedores. O GPT‑5 é mais eficaz em seguir instruções de ferramentas, lidar com erros de ferramentas e fazer proativamente várias chamadas de ferramentas em sequência ou em paralelo. Ao receber instruções, o GPT‑5 também pode gerar mensagens de preâmbulo antes e entre as chamadas de ferramentas para atualizar os usuários sobre o andamento de tarefas agênticas mais longas.
Há dois meses, o τ2-bench telecom foi publicado pela Sierra.ai como um benchmark desafiador para o uso de ferramentas, destacando como o desempenho do modelo de linguagem cai significativamente ao interagir com um estado do ambiente que pode ser alterado pelos usuários. Em sua publicação(abre em uma nova janela), nenhum modelo obteve uma pontuação superior a 49%. A pontuação do GPT‑5 é de 97%.
No τ2-bench(abre em uma nova janela), um modelo deve usar ferramentas para realizar uma tarefa de atendimento ao cliente, na qual pode haver um usuário capaz de se comunicar e agir em relação à situação fornecida. Os modelos de raciocínio foram executados com alto esforço de reflexão.
O GPT‑5 também apresenta melhorias significativas no desempenho em contextos longos. No OpenAI-MRCR, uma medida de recuperação de informações de contexto longo, o GPT‑5 supera o o3 e o GPT‑4.1, com uma margem que aumenta substancialmente em comprimentos de entrada mais longos.
No OpenAI-MRCR(abre em uma nova janela) (resolução de co-referência em várias rodadas), várias solicitações idênticas do usuário são inseridas em longos “palheiros” de solicitações e respostas semelhantes, e é solicitado ao modelo que reproduza a resposta à i-ésima solicitação. A proporção média de correspondência mede a proporção média de correspondência entre a resposta do modelo e a resposta correta. Os pontos em 256 mil tokens de entrada máxima representam médias entre 128 mil e 256 mil tokens de entrada, e assim por diante. Aqui, 256 mil representa 256 * 1.024 = 262.114 tokens. Os modelos de raciocínio foram executados com alto esforço de reflexão.
Também estamos disponibilizando em código aberto o BrowseComp Long Context(abre em uma nova janela), um novo benchmark para avaliar perguntas e respostas de contexto longo. Nesse benchmark, o modelo recebe uma consulta do usuário, uma longa lista de resultados de pesquisa relevantes e deve responder à pergunta com base nos resultados da pesquisa. Projetamos o BrowseComp Long Context para ser realista, difícil e ter respostas corretas, confiáveis e bem fundamentadas. Em entradas com 128 mil a 256 mil tokens, o GPT‑5 fornece a resposta correta 89% das vezes.
Na API, todos os modelos GPT‑5 podem aceitar no máximo 272.000 tokens de entrada e emitir no máximo 128.000 tokens de reflexão e saída, totalizando um comprimento de contexto de 400.000 tokens.
O GPT‑5 é mais confiável do que nossos modelos anteriores. Nos prompts dos benchmarks LongFact e FactScore, o GPT‑5 comete cerca de 80% menos erros factuais do que o o3. Isso o torna mais adequado para casos de uso agênticos, nos quais a precisão é importante, especialmente em código, dados e tomada de decisões.
Pontuações mais altas são piores. O LongFact(abre em uma nova janela) e o FActScore(abre em uma nova janela) consistem em perguntas abertas que buscam fatos. Usamos um avaliador baseado em LLM com navegação para verificar as respostas nos prompts desses benchmarks e medir a fração de afirmações factualmente incorretas. Os detalhes sobre a implementação e a classificação podem ser encontrados no cartão do sistema. Os modelos de raciocínio usaram o esforço de reflexão alto. A busca não estava habilitada.
De modo geral, o GPT‑5 foi treinado para ter mais consciência das suas próprias limitações e ser mais capaz de lidar com situações inesperadas. Também treinamos o GPT‑5 para ser muito mais preciso em questões de saúde (leia mais em nosso blog de investigação). Como em todos os modelos de linguagem, recomendamos que você verifique o trabalho do GPT‑5 quando estiver lidando com questões importantes.
Os desenvolvedores podem controlar o tempo de reflexão do GPT‑5 por meio do parâmetro reasoning_effort na API. Além dos valores anteriores — low, medium (padrão) e high — o GPT‑5 também oferece suporte para minimal, que minimiza a reflexão do GPT‑5 para retornar uma resposta rapidamente.
Valores mais altos de reasoning_effort maximizam a qualidade, enquanto valores mais baixos maximizam a velocidade. Como nem todas as tarefas se beneficiam igualmente de reflexões adicionais, recomendamos que você experimente para ver o que funciona melhor para os casos de uso que mais lhe interessam.
Por exemplo, a reflexão acima de low acrescenta pouco à recuperação de contexto longo relativamente simples, mas acrescenta alguns pontos percentuais ao CharXiv Reasoning(abre em uma nova janela), um benchmark de reflexão visual.
O esforço de reflexão do GPT‑5 produz benefícios diferentes em tarefas diferentes. Para o CharXiv Reasoning, o GPT‑5 teve acesso a uma ferramenta python.
Para ajudar a orientar o comprimento padrão das respostas do GPT‑5, introduzimos um novo parâmetro de API, verbosity, que pode assumir os valores low, medium (padrão) e high. Se instruções explícitas entrarem em conflito com os parâmetros “verbosity”, as instruções explícitas prevalecerão. Por exemplo, se você pedir ao GPT‑5 para “escrever uma redação de 5 parágrafos”, a resposta do modelo deve ser sempre 5 parágrafos, independentemente do nível de verbosidade (no entanto, os parágrafos propriamente ditos podem ser mais longos ou mais curtos).
Verbosity=low
Verbosity=medium
Verbosity=high
Se instruído, o GPT‑5 exibirá mensagens de preâmbulo visíveis ao usuário antes e entre as chamadas de ferramentas. Ao contrário das mensagens ocultas de reflexão, essas mensagens visíveis permitem que o GPT‑5 comunique planos e progressos aos usuários finais, ajudando-os a compreender sua abordagem e intenção por detrás das chamadas de ferramentas.
Estamos introduzindo um novo tipo de ferramenta (ferramentas personalizadas) que permite ao GPT‑5 chamar uma ferramenta com texto simples em vez de JSON. Para limitar o GPT‑5 a seguir formatos de ferramentas personalizados, os desenvolvedores podem fornecer uma expressão regular ou até mesmo uma gramática livre de contexto(abre em uma nova janela) mais bem especificada.
Anteriormente, nossa interface para ferramentas definidas pelo desenvolvedor exigia que elas fossem chamadas com JSON, um formato comum usado por APIs da Web e desenvolvedores em geral. No entanto, para produzir um JSON válido, o modelo precisa fazer o escape perfeito de todas as aspas, barras invertidas, novas linhas e outros caracteres de controle. Embora nossos modelos sejam bem treinados para produzir resultados em JSON, em entradas longas, como centenas de linhas de código ou um relatório de 5 páginas, as chances de ocorrer um erro aumentam. Com ferramentas personalizadas, o GPT‑5 consegue escrever entradas de ferramentas como texto simples, sem precisar fazer escape em todos os caracteres que exigem escape.
No SWE-bench Verified usando ferramentas personalizadas em vez de ferramentas JSON, o GPT‑5 obtém uma pontuação semelhante.
O GPT‑5 expande os limites da segurança e é um modelo mais robusto, confiável e útil. O GPT‑5 é significativamente menos propenso a alucinar do que os nossos modelos anteriores, comunica com mais honestidade as suas ações e capacidades ao usuário e fornece a resposta mais útil possível, mantendo-se dentro dos limites de segurança. Leia mais em nosso blog de investigação.
O GPT‑5 já está disponível na plataforma API em três tamanhos: gpt-5, gpt-5-mini e gpt-5-nano. Está disponível na API Responses, na API Chat Completions e é o padrão na Codex CLI. O GPT‑5 custa US$ 1,25/milhão de tokens de entrada e US$ 10/milhão de tokens de saída. O GPT‑5 mini custa US$ 0,25/milhão de tokens de entrada e US$ 2/milhão de tokens de saída. O GPT‑5 nano custa US$ 0,05/milhão de tokens de entrada e US$ 0,40/milhão de tokens de saída.
Esses modelos oferecem suporte aos parâmetros de API reasoning_effort e verbosity, bem como ferramentas personalizadas. Eles também oferecem suporte a chamadas paralelas de ferramentas, ferramentas integradas (busca na web, busca de arquivos, geração de imagens e muito mais), recursos essenciais de API (streaming, saídas estruturadas e muito mais) e recursos econômicos, como cache de prompts e a API Batch.
A versão sem reflexão do GPT‑5 usada no ChatGPT está disponível na API como gpt-5-chat-latest, também ao custo de US$ 1,25/milhão de tokens de entrada e US$ 10/milhão de tokens de saída.
O GPT‑5 também será lançado nas plataformas Microsoft, inclusive no Microsoft 365 Copilot, Copilot, GitHub Copilot e Azure AI Foundry.
Confira a documentação(abre em uma nova janela), os detalhes de preços(abre em uma nova janela) e o guia de prompts(abre em uma nova janela) do GPT‑5 para começar.
Inteligência
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Há uma pequena discrepância nos números indicados em nossa postagem anterior, pois as avaliações foram executadas com uma versão anterior do HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Programação
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$ 112 mil | US$ 75 mil | US$ 49 mil | US$ 86 mil | US$ 66 mil | US$ 34 mil | US$ 31 mil | US$ 9 mil |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Omitimos 23 de 500 problemas, que não puderam ser executados em nossa infraestrutura. Lista das 23 tarefas omitidas: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.
Capacidade de seguir instruções
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Observação: constatamos que o avaliador padrão do MultiChallenge (GPT-4o) erra com frequência a pontuação das respostas do modelo. A troca desse avaliador por um modelo de raciocínio, como o o3-mini, melhora consideravelmente a precisão das classificações nas amostras inspecionadas.
Chamada de função
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Contexto longo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Alucinações
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


