Apresentamos o GPT‑5 para programadores
O melhor modelo para tarefas agênticas e de programação.
Hoje, estamos a lançar o GPT‑5 na nossa plataforma API: o nosso melhor modelo até à data para tarefas agênticas e de programação.
O GPT‑5 é o que há de mais avançado em benchmarks de programação importantes, obtendo 74,9% no SWE-bench Verified e 88% no Aider Polyglot. Treinámos o GPT‑5 para ser um verdadeiro colaborador em tarefas de programação. Destaca-se na produção de código de alta qualidade e na execução de tarefas como a correção de bugs, a edição de código e o esclarecimento de dúvidas sobre bases de código complexas. O modelo é direcionável e colaborativo, podendo seguir instruções muito detalhadas com elevada precisão e fornecer explicações antecipadas sobre as suas ações antes e entre chamadas da ferramenta. O modelo também se destaca na programação front-end, superando o OpenAI o3 no desenvolvimento web front-end em 70% dos testes internos.
Treinámos o GPT‑5 em tarefas reais de programação, em colaboração com os primeiros utilizadores de startups e empresas. A Cursor afirmou que o GPT‑5 é o modelo mais inteligente que já utilizaram, acrescentando que este é excecionalmente inteligente, fácil de controlar e até possui uma personalidade que não encontraram noutros modelos. A Windsurf partilhou que o GPT‑5 é o líder nas avaliações da empresa e apresenta metade da taxa de erro de chamada de ferramentas em comparação com outros modelos de ponta. A Vercel disse que este é o melhor modelo de IA front-end, atingindo o máximo desempenho tanto em termos de estética como de qualidade de código, o que o coloca numa categoria própria.
O GPT‑5 também se destaca em tarefas agênticas de longa duração, alcançando resultados de ponta no τ2-bench telecom (96,7%), um benchmark de chamadas de ferramentas lançado há apenas dois meses. A inteligência melhorada do GPT‑5 permite-lhe encadear de forma fiável dezenas de chamadas de ferramentas, tanto em sequência como em paralelo, sem se perder, tornando-o muito melhor na execução de tarefas complexas do mundo real, do início ao fim. Além disso, segue as instruções da ferramenta com mais precisão, lida melhor com os erros da ferramenta e destaca-se na recuperação de conteúdo de contexto longo. A Manus declarou que o GPT‑5 alcançou o melhor desempenho algum vez registado num único modelo nos seus testes de desempenho internos. A Notion afirmou que as respostas rápidas do modelo, especialmente no modo de baixo raciocínio, fazem do GPT‑5 um modelo ideal quando é necessário resolver tarefas complexas de uma só vez. A Inditex comentou que o que realmente distingue o GPT‑5 é a profundidade do seu raciocínio: respostas cheias de nuances e com várias camadas que refletem uma compreensão real do assunto.
Estamos a introduzir novas funcionalidades na nossa API para dar aos programadores mais controlo sobre as respostas do modelo. O GPT‑5 suporta um novo parâmetro verbosity (valores: low, medium, high) para ajudar a controlar se as respostas são curtas e diretas ou longas e abrangentes. O parâmetro reasoning_effort do GPT‑5 pode agora assumir um valor mínimo para obter respostas mais rápidas, sem raciocínio aprofundado. Também adicionámos um novo tipo de ferramenta (ferramentas personalizadas) para permitir que o GPT‑5 chame ferramentas com texto simples em vez de JSON. As ferramentas personalizadas permitem restringir o uso de gramáticas livres de contexto fornecidas pelo programador.
Estamos a lançar o GPT‑5 em três tamanhos na API (gpt-5, gpt-5-mini e gpt-5-nano) para dar aos programadores mais flexibilidade para equilibrar desempenho, custo e latência. Embora o GPT‑5 no ChatGPT seja um sistema de modelos de raciocínio, não raciocínio e encaminhamento, o GPT‑5 na plataforma de API é o modelo de raciocínio que proporciona o máximo desempenho no ChatGPT. De salientar que o GPT‑5 com raciocínio mínimo é um modelo diferente do modelo sem raciocínio do ChatGPT, sendo mais adequado para programadores. O modelo sem raciocínio utilizado no ChatGPT está disponível como gpt-5-chat-latest.
Para ler sobre o GPT‑5 no ChatGPT e saber mais sobre outras melhorias do ChatGPT, consulte o nosso blogue de investigação. Para saber mais sobre como as empresas estão entusiasmadas com a utilização do GPT‑5, leia o nosso blogue empresarial.
O GPT‑5 é o modelo de programação mais robusto que já lançámos. Supera o o3 em testes de desempenho de programação e casos de utilização do mundo real, tendo sido otimizado para se destacar em produtos de programação agêntica, como o Cursor, o Windsurf, o GitHub Copilot e o Codex CLI. O GPT‑5 impressionou os nossos testers alfa, estabelecendo recordes em muitas das suas avaliações internas privadas.
Feedback inicial sobre o GPT‑5 para tarefas de programação reais
“O GPT-5 é o modelo de programação mais inteligente que já usámos. A nossa equipa concluiu que o GPT-5 é extremamente inteligente, fácil de controlar e até possui uma personalidade que não encontraram noutros modelos. Não só deteta bugs complexos e profundamente ocultos, como também pode executar agentes em segundo plano durante interações longas de várias etapas para completar tarefas complexas, o tipo de problema que costumava bloquear outros modelos. Tornou-se a nossa ferramenta de uso diário para tudo, desde definir o âmbito e planear pedidos de incorporação até concluir compilações de ponta a ponta.”
No SWE-bench Verified, uma avaliação baseada em tarefas reais de engenharia de software, o GPT‑5 obteve uma pontuação de 74,9%, acima dos 69,1% do o3. Importa destacar que o GPT‑5 atinge a sua pontuação mais elevada com maior eficiência e velocidade: em comparação com o o3 a um nível de raciocínio elevado, o GPT‑5 utiliza menos 22% de tokens de saída e menos 45% de chamadas de ferramentas.
No SWE-bench Verified, um modelo recebe um repositório de código e uma descrição do problema, devendo gerar um patch para resolver a questão. As legendas indicam o esforço de raciocínio. As nossas pontuações omitem 23 dos 500 problemas cujas soluções não foram aprovadas de forma fiável na nossa infraestrutura. O GPT‑5 recebeu um prompt curto que enfatizava a verificação minuciosa das soluções; a mesma instrução não beneficiou o o3.
No Aider Polyglot, uma avaliação de edição de código, o GPT‑5 estabeleceu um novo recorde de 88%, uma redução de um terço na taxa de erros em comparação com o o3.
No Aider Polygot(abre numa nova janela) (diff), um modelo recebe um exercício de programação do Exercism e deve escrever a sua solução como uma modificação do código. Os modelos de raciocínio foram executados com um esforço de raciocínio elevado.
Verificámos também que o GPT‑5 é excelente na análise profunda de bases de código para responder a perguntas sobre como várias partes funcionam ou interagem entre si. Numa base de código tão complexa quanto a pilha de aprendizagem por reforço da OpenAI, estamos a descobrir que o GPT‑5 pode ajudar-nos a raciocinar e a responder a perguntas sobre o nosso código, acelerando o trabalho diário.
Ao produzir código front-end para aplicações web, o GPT‑5 é mais estético, ambicioso e preciso. Nas comparações lado a lado com o o3, o GPT‑5 foi o preferido pelos nossos testers em 70% dos casos.
Eis alguns exemplos divertidos e selecionados a dedo do que o GPT‑5 pode fazer com um único prompt:
Prompt: cria uma landing page bonita e realista para um serviço que oferece aos entusiastas de café uma subscrição de 200 USD por mês, que inclui aluguer de equipamento e coaching para a torrefação de café e para a criação do espresso perfeito. O público-alvo são pessoas de meia-idade da região da Bay Area, que provavelmente trabalham em tecnologia, são instruídas, têm rendimento disponível e são apaixonadas pela arte e ciência do café. Otimiza a página para conversão numa subscrição de 6 meses.
Veja mais exemplos do GPT‑5 na nossa galeria aqui(abre numa nova janela).
O GPT‑5 é um colaborador mais eficaz, especialmente em produtos de programação agêntica como o Cursor, o Windsurf, o GitHub Copilot e o Codex CLI. Enquanto trabalha, o GPT‑5 pode gerar planos, atualizações e resumos entre chamadas de ferramentas. Em comparação com os nossos modelos anteriores, o GPT‑5 é mais proativo na conclusão de tarefas ambiciosas, sem necessitar da sua autorização ou hesitar perante tarefas muito complexas.
Aqui está um exemplo do comportamento do GPT‑5 ao lidar com uma tarefa complexa (neste caso, a criação de um site para um restaurante):
Após o utilizador solicitar um site para o seu restaurante, o GPT‑5 partilha um plano rápido, cria a estrutura básica da aplicação, instala as dependências, gera o conteúdo do site, executa uma compilação para verificar erros, resume o seu trabalho e sugere possíveis próximos passos. Este vídeo foi acelerado em cerca de 3 vezes para poupar tempo; a duração total da criação do site foi de aproximadamente três minutos.
Além da programação agêntica, o GPT‑5 é geralmente melhor em tarefas agênticas. O GPT‑5 estabelece novos recordes em benchmarks de seguimento de instruções (69,6% no Scale MultiChallenge, avaliado pelo o3‑mini) e chamadas de ferramentas (96,7% no τ2-bench telecom). A inteligência melhorada das ferramentas permite que o GPT‑5 encadeie ações de forma mais fiável para realizar tarefas do mundo real.
Feedback inicial sobre o GPT‑5 para tarefas agênticas
“O GPT-5 representa um grande avanço. Alcançou o melhor desempenho que já vimos num único modelo nos nossos testes de desempenho internos. O GPT-5 destacou-se em várias tarefas agênticas, mesmo antes de ajustarmos uma única linha de código ou adaptarmos um prompt. Os novos preâmbulos e o controlo mais preciso sobre a utilização das ferramentas possibilitaram um salto significativo na estabilidade e capacidade de orientação dos nossos agentes.”
O GPT‑5 segue instruções de forma mais fiável do que qualquer um dos seus antecessores, obtendo pontuações elevadas no COLLIE, no Scale MultiChallenge e na nossa avaliação interna de cumprimento de instruções.
No COLLIE(abre numa nova janela), os modelos devem escrever textos que cumpram várias restrições. No Scale MultiChallenge(abre numa nova janela), os modelos são desafiados em conversas com múltiplas etapas a utilizar corretamente quatro tipos de informação provenientes de mensagens anteriores. As nossas pontuações foram obtidas utilizando o o3‑mini como avaliador, que se revelou mais preciso do que o GPT‑4o. Na nossa avaliação interna de seguimento de instruções da API OpenAI, os modelos devem seguir instruções complexas derivadas de feedback real de programadores. Os modelos de raciocínio foram executados com um esforço de raciocínio elevado.
Trabalhámos arduamente para melhorar a chamada de ferramentas de formas que sejam relevantes para os programadores. O GPT‑5 é melhor a seguir instruções de ferramentas, a lidar com erros das ferramentas e a fazer várias chamadas de ferramentas de forma proativa, em sequência ou em paralelo. Ao receber instruções, o GPT‑5 também pode gerar mensagens de preâmbulo antes e entre chamadas de ferramentas para atualizar os utilizadores sobre o progresso durante tarefas mais longas.
Há dois meses, o τ2-bench telecom foi publicado pela Sierra.ai como um teste de desempenho desafiante de utilização de ferramentas, destacando como o desempenho do modelo de linguagem cai significativamente ao interagir com um estado de ambiente que pode ser alterado pelos utilizadores. Na sua publicação(abre numa nova janela), nenhum modelo obteve uma pontuação superior a 49%. A pontuação do GPT‑5 é de 97%.
No τ2-bench(abre numa nova janela), um modelo deve usar ferramentas para realizar uma tarefa de atendimento ao cliente, na qual pode existir um utilizador capaz de comunicar e agir em relação à situação fornecida. Os modelos de raciocínio foram executados com um esforço de raciocínio elevado.
O GPT‑5 demonstra também melhorias significativas no desempenho em contextos longos. No OpenAI-MRCR, uma métrica de recuperação de informação de contexto longo, o GPT‑5 supera o o3 e o GPT‑4.1 por uma margem que aumenta substancialmente em comprimentos de entrada mais longos.
No OpenAI-MRCR(abre numa nova janela) (resolução de co-referência em várias rondas), vários pedidos de utilizador idênticos, denominados "agulhas", são inseridos em longos "palheiros" de pedidos e respostas semelhantes, e é solicitado ao modelo que reproduza a resposta à i-ésima agulha. A razão média de correspondência mede a proporção média de correspondência entre a resposta do modelo e a resposta correta. Os pontos em 256 mil tokens de entrada máxima representam médias entre 128 mil e 256 mil tokens de entrada, e assim sucessivamente. Aqui, 256 mil representa 256 * 1.024 = 262.114 tokens. Os modelos de raciocínio foram executados com um esforço de raciocínio elevado.
Estamos também a disponibilizar como open source o BrowseComp Long Context(abre numa nova janela), um novo benchmark de avaliação para perguntas e respostas de contexto longo. Neste teste de desempenho, o modelo recebe uma consulta do utilizador, uma longa lista de resultados de pesquisa relevantes e deve responder à questão com base nesses resultados. Desenhámos o BrowseComp Long Context para ser realista, desafiante e ter respostas corretas, fiáveis e bem fundamentadas. Nas entradas com 128 mil a 256 mil tokens, o GPT‑5 fornece a resposta correta em 89% das vezes.
Na API, todos os modelos GPT‑5 podem aceitar um máximo de 272 mil tokens de entrada e emitir um máximo de 128 mil tokens de raciocínio e saída, totalizando um comprimento de contexto de 400 mil tokens.
O GPT‑5 é mais confiável do que os nossos modelos anteriores. Nos prompts dos benchmarks LongFact e FactScore, o GPT‑5 comete cerca de 80% menos erros factuais do que o o3. Isto torna-o mais adequado para casos de utilização agênticos, nos quais a precisão é importante, especialmente em código, dados e tomada de decisões.
Pontuações mais altas são piores. O LongFact(abre numa nova janela) e FActScore(abre numa nova janela) consistem em perguntas abertas para a pesquisa de factos. Utilizámos um sistema de avaliação baseado em LLM com capacidade de navegação para verificar factualmente as respostas aos prompts destes benchmarks e medir a percentagem de afirmações incorretas. Os detalhes de implementação e avaliação podem ser encontrados na ficha do sistema. Os modelos de raciocínio utilizaram um esforço de raciocínio elevado. A funcionalidade de pesquisa não estava ativada.
De um modo geral, o GPT‑5 foi treinado para ter uma maior consciência das suas próprias limitações e ser mais capaz de lidar com imprevistos. Também treinámos o GPT‑5 para ser muito mais preciso em questões de saúde (leia mais no nosso blogue de investigação). Tal como acontece com todos os modelos de linguagem, recomendamos que verifique o trabalho do GPT‑5 quando estiver a lidar com situações importantes.
Os programadores podem controlar o tempo de raciocínio do GPT‑5 através do parâmetro reasoning_effort na API. Além dos valores anteriores —low, medium (padrão) e high—, o GPT‑5 também oferece suporte para minimal, que minimiza o raciocínio do GPT‑5 para devolver uma resposta rapidamente.
Valores mais elevados de reasoning_effort maximizam a qualidade, enquanto valores mais baixos maximizam a velocidade. Como nem todas as tarefas beneficiam igualmente de um raciocínio adicional, recomendamos que experimente para ver o que funciona melhor para os casos de utilização que lhe interessam.
Por exemplo, o raciocínio acima de low acrescenta pouco à recuperação de contexto longo relativamente simples, mas acrescenta alguns pontos percentuais consideráveis ao CharXiv Reasoning(abre numa nova janela), um benchmark de raciocínio visual.
O esforço de raciocínio do GPT‑5 produz benefícios diferentes em tarefas diferentes. Para o CharXiv Reasoning, o GPT‑5 teve acesso a uma ferramenta Python.
Para ajudar a controlar o tamanho padrão das respostas do GPT‑5, introduzimos um novo parâmetro API, verbosity, que pode assumir os valores low, medium (padrão) e high. Se as instruções explícitas entrarem em conflito com os parâmetros de verbosidade, prevalecem as instruções explícitas. Por exemplo, se pedir ao GPT‑5 para "escrever uma composição de 5 parágrafos", a resposta do modelo deverá ser sempre de 5 parágrafos, independentemente do nível de detalhe (no entanto, os parágrafos propriamente ditos podem ser mais longos ou mais curtos).
Verbosidade = baixa
Verbosidade = média
Verbosidade = alta
Se instruído, o GPT‑5 exibirá mensagens de preâmbulo visíveis para o utilizador antes e entre as chamadas de ferramentas. Ao contrário das mensagens ocultas de raciocínio, estas mensagens visíveis permitem que o GPT‑5 comunique planos e progressos aos utilizadores, ajudando-os a compreender a sua abordagem e intenção por detrás das chamadas de ferramentas.
Estamos a introduzir um novo tipo de ferramenta (ferramentas personalizadas) que permite ao GPT‑5 chamar uma ferramenta com texto simples em vez de JSON. Para limitar o GPT‑5 a seguir formatos de ferramentas personalizados, os programadores podem fornecer uma expressão regular ou mesmo uma gramática livre de contexto(abre numa nova janela) mais especificada.
Anteriormente, a nossa interface para ferramentas definidas pelo programador exigia que fossem chamadas com JSON, um formato comum utilizado pelas APIs da web e pelos programadores em geral. No entanto, gerar JSON válido exige que o modelo escape perfeitamente todas as aspas, barras invertidas, novas linhas e outros caracteres de controlo. Embora os nossos modelos estejam bem treinados para gerar resultados em JSON, em entradas longas, como centenas de linhas de código ou um relatório de cinco páginas, a probabilidade de ocorrer um erro aumenta. Com as ferramentas personalizadas, o GPT‑5 pode escrever entradas de ferramentas como texto simples, sem ter de escapar todos os caracteres que normalmente exigem escape.
No SWE-bench Verificado, ao usar ferramentas personalizadas em vez de ferramentas JSON, o GPT‑5 obteve uma pontuação semelhante.
O GPT‑5 representa um avanço na área da segurança e é um modelo mais robusto, fiável e útil. O GPT‑5 tem significativamente menos probabilidade de gerar informações falsas (“alucinações”) do que os nossos modelos anteriores, comunica de forma mais honesta as suas ações e capacidades ao utilizador e fornece a resposta mais útil possível, mantendo-se dentro dos limites de segurança Leia mais no nosso blogue de investigação.
O GPT‑5 já está disponível na plataforma API em três tamanhos: gpt-5, gpt-5-mini e gpt-5-nano. Está disponível na API Responses, na API Chat Completions e é o padrão no Codex CLI. O GPT‑5 custa 1,25 dólares (USD) por 1 milhão de tokens de entrada e 10 USD por 1 milhão de tokens de saída. O GPT‑5 mini custa 0,25 USD por 1 milhão de tokens de entrada e 2 USD por 1 milhão de tokens de saída.Já o GPT‑5 nano custa 0,05 USD por 1 milhão de tokens de entrada e 0,40 USD por 1 milhão de tokens de saída.
Estes modelos são compatíveis com os parâmetros da API reasoning_effort e verbosity , bem como com ferramentas personalizadas. Também suportam chamadas paralelas de ferramentas, ferramentas integradas (pesquisa na web, pesquisa de ficheiros, geração de imagens e mais), recursos essenciais da API (streaming, saídas estruturadas e mais) e funcionalidades de redução de custos, como cache de prompts e API em lote.
A versão sem raciocínio do GPT‑5 utilizada no ChatGPT está disponível na API como gpt-5-chat-latest, também com um preço de 1,25 USD por 1 milhão de tokens de entrada e 10 USD por 1 milhão de tokens de saída.
O GPT‑5 está também a ser lançado em diversas plataformas da Microsoft, incluindo o Microsoft 365 Copilot, o Copilot, o GitHub Copilot e o Azure AI Foundry.
Explore a documentação(abre numa nova janela) do GPT‑5, as informações sobre preços(abre numa nova janela) e o guia de utilização de prompts(abre numa nova janela) para começar.
Inteligência
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Existe uma pequena discrepância nos números reportados na publicação anterior do blogue, uma vez que estes testes foram executados com uma versão anterior do HLE.
Multimodal
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Programação
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 mil US$ | 75 mil US$ | 49 mil US$ | 86 mil US$ | 66 mil US$ | 34 mil US$ | 31 mil US$ | 9 mil US$ |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Omitimos 23 de 500 problemas que não puderam ser executados na nossa infraestrutura. A lista completa das 23 tarefas omitidas é: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' e 'sphinx-doc__sphinx-9367'.
Capacidade de seguir instruções
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Nota: verificámos que o avaliador padrão no MultiChallenge (GPT-4o) avalia frequentemente de forma incorreta as respostas dos modelos. Constatámos que substituir o avaliador por um modelo de raciocínio, como o o3-mini, melhora significativamente a precisão da avaliação nos exemplos analisados.
Chamada de função
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Contexto longo
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Distorções
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


