Hoje estamos lançando o GPT‑5.4 no ChatGPT (como GPT‑5.4 Thinking), na API e no Codex. É nosso modelo de fronteira mais capaz e eficiente para trabalho profissional. Também estamos lançando o GPT‑5.4 Pro no ChatGPT e na API para quem deseja desempenho máximo em tarefas complexas.
O GPT‑5.4 reúne o melhor dos nossos avanços recentes em raciocínio, programação e fluxos de trabalho com agentes em um único modelo de fronteira. Ele incorpora as capacidades líderes do setor do GPT‑5.3‑Codex em programação, ao mesmo tempo em que melhora a forma como o modelo trabalha com ferramentas, ambientes de software e tarefas profissionais envolvendo planilhas, apresentações e documentos. O resultado é um modelo que realiza com precisão, eficácia e eficiência trabalhos reais complexos — entregando o que você pediu com menos idas e vindas.
No ChatGPT, o GPT‑5.4 Thinking agora pode fornecer, logo de início, um plano do seu raciocínio, para que você possa ajustar o caminho no meio da resposta, enquanto ele trabalha, e chegar a um resultado final mais alinhado ao que você precisa, sem interações adicionais. O GPT‑5.4 Thinking também melhora a pesquisa aprofundada na web, especialmente para consultas altamente específicas, ao mesmo tempo em que mantém melhor o contexto para perguntas que exigem um raciocínio mais longo. Juntas, essas melhorias significam respostas de maior qualidade que chegam mais rápido e permanecem relevantes para a tarefa em questão.
No Codex e na API, o GPT‑5.4 é o primeiro modelo de propósito geral que lançamos com capacidades nativas e de ponta de uso do computador, permitindo que agentes operem computadores e realizem fluxos de trabalho complexos em aplicativos. Ele oferece suporte a até 1M tokens de contexto, permitindo que agentes planejem, executem e verifiquem tarefas ao longo de horizontes longos. O GPT‑5.4 também melhora a forma como os modelos trabalham em grandes ecossistemas de ferramentas e conectores com busca de ferramentas, ajudando agentes a encontrar e usar as ferramentas certas com mais eficiência sem sacrificar inteligência. Por fim, o GPT‑5.4 é nosso modelo de raciocínio mais eficiente em tokens até agora, usando significativamente menos tokens para resolver problemas quando comparado ao GPT‑5.2—o que se traduz em menor uso de tokens e maior velocidade.
Junto com avanços em raciocínio geral, programação e trabalho profissional de conhecimento, o GPT‑5.4 permite agentes mais confiáveis, fluxos de trabalho de desenvolvimento mais rápidos e resultados de maior qualidade no ChatGPT, na API e no Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (wins or ties) | 83.00% | 70,90% | 70,90% |
SWE-Bench Pro (Public) | 57.70% | SWE-Bench Pro (Public) | 55,6% |
OSWorld-Verified | 75.00% | 74.00%* | 47,3% |
Toolathlon | 54.6% | 51,90% | 46,30% |
BrowseComp | 82.70% | 77.3% | 65,80% |
*Antes reportado como 64,7%. O GPT‑5.3‑Codex alcança 74,0% com um parâmetro de API introduzido recentemente que preserva a resolução original da imagem.
Com base nas capacidades de raciocínio geral do GPT‑5.2, o GPT‑5.4 entrega resultados ainda mais consistentes e refinados em tarefas do mundo real que importam para profissionais.
No GDPval, que testa a capacidade de agentes de produzir trabalho de conhecimento bem especificado em 44 ocupações, o GPT‑5.4 atinge um novo estado da arte, igualando ou superando profissionais do setor em 83,0% das comparações, em comparação com 71,0% do GPT‑5.2.
No GDPval, os modelos tentam realizar trabalhos de conhecimento bem especificados que abrangem 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA. As tarefas pedem entregáveis reais de trabalho, como apresentações de vendas, planilhas contábeis, escalas de pronto-atendimento, diagramas de manufatura ou vídeos curtos. O esforço de raciocínio foi definido como xhigh para o GPT‑5.4 e heavy para o GPT‑5.2 (um nível ligeiramente inferior no ChatGPT).
"O GPT-5.4 é o melhor modelo que já testamos. Agora, ele está no topo do ranking do nosso benchmark APEX-Agents, que mede o desempenho do modelo para trabalhos de serviços profissionais. Ele se destaca na criação de entregáveis de longo horizonte, como decks de slides, modelos financeiros e análises jurídicas, entregando alto desempenho enquanto roda mais rápido e com menor custo do que modelos de fronteira concorrentes."
Demos foco especial a melhorar a capacidade do GPT‑5.4 de criar e editar planilhas, apresentações e documentos. Em um benchmark interno de tarefas de modelagem em planilhas que um analista júnior de banco de investimento poderia fazer, o GPT‑5.4 alcança uma pontuação média de 87,5%, em comparação com 68,4% do GPT‑5.2. Em um conjunto de prompts de avaliação de apresentações, avaliadores humanos preferiram as apresentações do GPT‑5.4 em 68,0% das vezes em relação às do GPT‑5.2, devido a uma estética mais forte, maior variedade visual e uso mais eficaz de geração de imagens.

Os documentos foram gerados com o esforço de raciocínio definido como xhigh
Você pode experimentar essas capacidades no ChatGPT usando o GPT‑5.4 Thinking ou Pro. Se você é um cliente Enterprise, recomendamos usar nossos plug-ins recém-lançados do ChatGPT para Excel e Google Sheets(abre em uma nova janela), lançados hoje. Também atualizamos nossas skills de planilhas(abre em uma nova janela) e apresentações(abre em uma nova janela) disponíveis no Codex e na API.
Para tornar o GPT‑5.4 melhor em trabalho do mundo real, continuamos avançando na redução de alucinações e erros. O GPT‑5.4 é nosso modelo mais factual até agora: em um conjunto de prompts desidentificados em que usuários sinalizaram erros factuais, as afirmações individuais têm 33% menos probabilidade de serem falsas e suas respostas completas têm 18% menos probabilidade de conter qualquer erro, em relação ao GPT‑5.2.
"O GPT-5.4 define um novo padrão para trabalho jurídico com muitos documentos. Na nossa avaliação BigLaw Bench, ele obteve 91%. Em comparação com outros modelos, o GPT-5.4 atualmente é melhor em estruturar análises transacionais complexas, manter a precisão ao longo de contratos extensos e entregar o nível de detalhe que profissionais do direito exigem."
O GPT‑5.4 é nosso primeiro modelo de propósito geral com capacidades nativas de uso do computador e marca um grande avanço tanto para desenvolvedores quanto para agentes. É o melhor modelo disponível atualmente para desenvolvedores que criam agentes que concluem tarefas reais em sites e sistemas de software.
Projetamos o GPT‑5.4 para ter bom desempenho em uma ampla variedade de cargas de trabalho de uso do computador. Ele é excelente em escrever código para operar computadores por meio de bibliotecas como Playwright, bem como em emitir comandos de mouse e teclado em resposta a capturas de tela. Seu comportamento é orientável via mensagens do desenvolvedor, o que significa que desenvolvedores podem ajustar o comportamento para atender a casos de uso específicos. Os desenvolvedores podem até configurar o comportamento de segurança do modelo para atender a diferentes níveis de tolerância a risco, especificando políticas de confirmação personalizadas.
O desempenho e a flexibilidade do modelo se refletem em benchmarks que testam o uso do computador em diferentes configurações. No OSWorld-Verified, que mede a capacidade de um modelo de navegar em um ambiente de desktop por meio de capturas de tela e ações de teclado/mouse, o GPT‑5.4 alcança uma taxa de sucesso de 75,0% de estado da arte, superando em muito os 47,3%, e ultrapassando o desempenho humano de 72,4%.1
No WebArena-Verified, que testa o uso do navegador, o GPT‑5.4 alcança uma taxa de sucesso líder de 67,3% ao usar interação guiada tanto por DOM quanto por captura de tela, em comparação com os 65,4% do GPT‑5.2. No Online-Mind2Web, que também testa o uso do navegador, o GPT‑5.4 alcança uma taxa de sucesso de 92,8% usando apenas observações baseadas em captura de tela, melhorando em relação ao Agent Mode do ChatGPT Atlas, que alcança uma taxa de sucesso de 70,9%.
Um tool yield ocorre quando o assistente interrompe a execução para aguardar respostas de ferramentas. Se 3 ferramentas forem chamadas em paralelo, seguidas por mais 3 ferramentas também em paralelo, o número de yields será 2. Tool yields são um indicador melhor de latência do que chamadas de ferramenta, pois refletem os benefícios da paralelização.
O GPT‑5.4 interpreta capturas de tela de uma interface de navegador e interage com elementos de UI por meio de cliques baseados em coordenadas para enviar e-mails e agendar um evento no calendário.
O uso do computador aprimorado do GPT‑5.4 se baseia nas capacidades aprimoradas de percepção visual geral do modelo. No MMMU-Pro, um teste de entendimento visual e raciocínio de um modelo, o GPT‑5.4 alcança uma taxa de sucesso de 81,2% sem uso de ferramentas, uma melhoria em relação aos 79.5%. A percepção visual aprimorada também se traduz em melhores capacidades de interpretação de documentos. No OmniDocBench, o GPT‑5.4 sem esforço de raciocínio alcança um erro médio (medido pela distância de edição normalizada entre a previsão do modelo e o ground truth) de 0.109, melhorando em relação aos 0.140 do GPT‑5.2.
O MMMUPro foi executado com o esforço de raciocínio definido como xhigh. O OmniDocBench foi executado com o esforço de raciocínio definido como none, para refletir um desempenho de baixo custo e baixa latência.
Também estamos aprimorando o entendimento visual para imagens densas e de alta resolução em que fidelidade total é importante. A partir do GPT‑5.4, estamos introduzindo um nível de detalhe de entrada(abre em uma nova janela) de imagem original que oferece suporte à percepção com fidelidade total de até 10,24M de pixels totais ou dimensão máxima de 6000 pixels, o que for menor; o nível alto de detalhe de entrada de imagem agora oferece suporte a até 2,56M de pixels totais ou dimensão máxima de 2048 pixels. Em testes iniciais com usuários da API, observamos ganhos significativos em capacidade de localização, entendimento de imagens e precisão de cliques ao usar os níveis de detalhe original ou high.
"Em nossas avaliações que medem desempenho de uso do computador em ~30K portais de HOA e imposto sobre a propriedade, o GPT-5.4 alcançou 95% de sucesso na primeira tentativa e 100% em até três tentativas, em comparação com ~73–79% com modelos CUA anteriores. Ele também concluiu sessões ~3x mais rápido, usando ~70% menos tokens, melhorando de forma material a confiabilidade e a eficiência de custos em escala."
Na API, desenvolvedores podem acessar essas capacidades usando a ferramenta de computador atualizada. Consulte nossa documentação atualizada(abre em uma nova janela) para práticas recomendadas.
O GPT‑5.4 combina as forças de programação do GPT‑5.3‑Codex com capacidades líderes em trabalho de conhecimento e uso do computador, que fazem mais diferença em tarefas de maior duração, nas quais o modelo pode usar ferramentas, iterar e levar o trabalho mais longe com menos intervenção manual. Ele iguala ou supera o GPT‑5.3‑Codex no SWE-Bench Pro, com menor latência em diferentes níveis de esforço de raciocínio.
Estimamos a latência analisando o comportamento dos nossos modelos em produção e simulando isso offline. A estimativa de latência considera a duração das chamadas de ferramenta (tempo de execução de código), tokens amostrados e tokens de entrada. A latência no mundo real pode variar substancialmente e depende de muitos fatores que não são capturados em nossa simulação. O esforço de raciocínio foi testado de none a xhigh.
Quando ativado, o modo /fast no Codex entrega até 1,5x mais velocidade de geração de tokens com o GPT‑5.4. É o mesmo modelo e a mesma inteligência, só que mais rápido. Isso significa que usuários podem avançar em tarefas de programação, iteração e depuração mantendo o ritmo. Desenvolvedores podem acessar o GPT‑5.4 nas mesmas velocidades rápidas via API usando processamento prioritário(abre em uma nova janela).
Em avaliação e testes internos, descobrimos que o GPT‑5.4 se destaca em tarefas complexas de frontend, com resultados visivelmente mais estéticos e mais funcionais do que qualquer modelo que lançamos antes.
Como demonstração das capacidades aprimoradas de uso do computador e programação do modelo funcionando em conjunto, também estamos lançando uma skill experimental do Codex chamada "Playwright (Interactive)(abre em uma nova janela)". Isso permite que o Codex depure visualmente apps web e Electron; ele pode até ser usado para testar um app que está construindo, enquanto o constrói.
Jogo de simulação de parque temático feito com o GPT‑5.4 a partir de um único prompt pouco especificado, usando Playwright Interactive para playtesting no navegador e geração de imagens para o conjunto de assets isométricos. A simulação inclui posicionamento de caminhos baseado em tiles, construção de atrações e cenários, pathfinding de visitantes, filas e ciclos de atrações, enquanto métricas do parque como dinheiro, número de visitantes, felicidade, limpeza e avaliação sobem ou descem com base no desempenho do layout e em como os visitantes reagem a ele. O Playwright foi usado para automatizar playtests no navegador ao construir e expandir o parque, posicionar e remover caminhos e atrações, verificar a navegação da câmera e confirmar que visitantes, filas, estados das atrações e métricas de UI eram atualizados corretamente ao longo de várias rodadas de jogo.
Prompt: Use $playwright-interactive e $imagegen. Crie um jogo de simulação de parque temático isométrico interativo que eu possa construir e navegar no navegador. Use imagegen para definir a visão geral do visual e gerar os assets do jogo, incluindo atrações, caminhos, terreno, árvores, água, barracas de comida, decorações, construções, ícones e ilustrações de UI. O mundo deve parecer coeso, polido e visualmente rico, com uma direção de arte premium que funcione bem em uma perspectiva isométrica. Deixe-me posicionar e remover caminhos, adicionar atrações, posicionar cenários e me mover pelo parque com fluidez enquanto monitoro a atividade dos visitantes, o status das atrações e o crescimento do parque. Inclua movimentação de visitantes crível, sistemas simples de gestão do parque como dinheiro, limpeza, filas e felicidade, e faça a experiência parecer divertida, clara e completa em vez de um protótipo tosco. Priorize charme, legibilidade e um game feel forte em vez de realismo.
Ao fazer playtesting, não deixe de construir e expandir um parque ao longo de várias rodadas de jogo, verificar se o posicionamento e a navegação funcionam com fluidez, confirmar que os visitantes reagem ao layout do parque e às atrações e garantir que o visual, a UI e as interações pareçam estáveis e coesos.
"Nossos engenheiros acham o GPT-5.4 mais natural e assertivo do que os modelos anteriores. Ele resolve problemas ambíguos sem duvidar de si mesmo e é proativo em paralelizar o trabalho para manter o andamento."
Com o GPT‑5.4, melhoramos significativamente a forma como os modelos trabalham com ferramentas externas. Agora, agentes podem operar em ecossistemas maiores de ferramentas, escolher as ferramentas certas com mais confiabilidade e concluir fluxos de trabalho em várias etapas com menor custo e latência.
Na API, o GPT‑5.4 introduz a busca de ferramentas(abre em uma nova janela), que permite que modelos trabalhem com eficiência quando recebem muitas ferramentas.
Antes, quando um modelo recebia ferramentas, todas as definições de ferramentas eram incluídas no prompt desde o início. Para sistemas com muitas ferramentas, isso podia adicionar milhares — ou até dezenas de milhares — de tokens a cada solicitação, aumentando o custo, tornando as respostas mais lentas e lotando o contexto com informações que o modelo talvez nunca usasse.
Com a busca de ferramentas, em vez disso o GPT‑5.4 recebe uma lista leve de ferramentas disponíveis junto com uma capacidade de busca de ferramentas. Quando o modelo precisa usar uma ferramenta, ele pode buscar a definição dessa ferramenta e anexá-la à conversa naquele momento.
Essa abordagem reduz drasticamente o número de tokens necessários para fluxos de trabalho com muitas ferramentas e preserva o cache, tornando as solicitações mais rápidas e mais baratas. Ela também permite que agentes trabalhem com confiabilidade com ecossistemas de ferramentas muito maiores. Para servidores MCP que podem conter dezenas de milhares de tokens de definições de ferramentas, os ganhos de eficiência podem ser substanciais.
Para demonstrar os ganhos de eficiência, avaliamos 250 tarefas do benchmark MCP Atlas(abre em uma nova janela) da Scale com todos os 36 servidores MCP ativados em dois modos: (1) expondo cada função MCP diretamente no contexto do modelo e (2) colocando todos os servidores MCP atrás da busca de ferramentas. A configuração com busca de ferramentas reduziu o uso total de tokens em 47% mantendo a mesma precisão.
As contagens de tokens de exemplo vêm da média de 250 tarefas no dataset público MCP-Atlas.
O GPT‑5.4 também melhora as chamadas de ferramenta, tornando-as mais precisas e eficientes ao decidir quando e como usar ferramentas durante o raciocínio, especialmente na API. Em comparação com o GPT‑5.2, ele atinge maior precisão em menos turnos no Toolathlon, um benchmark que testa o quão bem agentes de IA conseguem usar ferramentas e APIs do mundo real para concluir tarefas em várias etapas. Por exemplo, um agente precisa ler e-mails, extrair anexos de trabalhos, fazer upload deles, corrigi-los e registrar os resultados em uma planilha.
Um tool yield ocorre quando o assistente interrompe a execução para aguardar respostas de ferramentas. Se 3 ferramentas forem chamadas em paralelo, seguidas por mais 3 ferramentas também em paralelo, o número de yields será 2. Tool yields são um indicador melhor de latência do que chamadas de ferramenta, pois refletem os benefícios da paralelização.
Para casos de uso sensíveis à latência, em que se prefere esforço de raciocínio None, o GPT‑5.4 melhora ainda mais em relação a seus predecessores.
No τ2-bench(abre em uma nova janela), um modelo precisa usar ferramentas para concluir uma tarefa de atendimento ao cliente, na qual pode haver um usuário simulado que consegue se comunicar e realizar ações no estado do mundo. O esforço de raciocínio foi definido como None.
O GPT‑5.4 é melhor em busca na web com agentes. No BrowseComp, uma medida de quão bem agentes de IA conseguem navegar persistentemente na web para encontrar informações difíceis de localizar, o GPT‑5.4 sobe 17%abs em relação ao GPT‑5.2, e o GPT‑5.4 Pro estabelece um novo estado da arte de 89,3%.
Na prática, isso significa que o GPT‑5.4 Thinking é mais forte para responder perguntas que exigem reunir informações de muitas fontes na web. Ele pode buscar com mais persistência ao longo de várias rodadas para identificar as fontes mais relevantes, especialmente para perguntas do tipo "agulha no palheiro", e sintetizá-las em uma resposta clara e bem fundamentada.
No BrowseComp, usamos uma blocklist de busca que exclui sites que contêm respostas do benchmark da avaliação para evitar contaminação e garantir uma medição justa de desempenho. O GPT‑5.4 foi medido em uma data posterior ao GPT‑5.2, portanto as pontuações refletem mudanças no modelo, no nosso sistema de busca e no estado da internet. O GPT‑5.4 foi testado com uma blocklist mais longa e atualizada. Os modelos usam a ferramenta de busca do ChatGPT, que pode ter pequenas diferenças em relação à busca da API.
"O GPT-5.4 xhigh é o novo estado da arte para uso de ferramentas em várias etapas. A Zapier executa alguns dos benchmarks de uso de ferramentas mais rigorosos do setor, testando modelos em centenas de fluxos de trabalho avançados do mundo real. O GPT-5.4 concluiu o trabalho onde modelos anteriores desistiram — o modelo mais persistente até agora."
Da mesma forma que o Codex descreve sua abordagem quando começa a trabalhar, o GPT‑5.4 Thinking no ChatGPT agora vai delinear seu trabalho com um preâmbulo para consultas mais longas e complexas. Você também pode adicionar instruções ou ajustar sua direção no meio da resposta. Isso torna mais fácil orientar o modelo até o resultado exato que você quer, sem recomeçar ou exigir vários turnos adicionais. Este recurso já está disponível no chatgpt.com(abre em uma nova janela) e no app Android e, em breve, chegará ao app iOS.
O modelo também pode pensar por mais tempo em tarefas difíceis, mantendo maior consciência das etapas anteriores da conversa. Isso permite lidar com fluxos de trabalho mais longos e prompts mais complexos, mantendo as respostas coerentes e relevantes do início ao fim.
Este vídeo foi acelerado para fins ilustrativos.
Nos últimos meses, continuamos melhorando as proteções que introduzimos com o GPT‑5.3‑Codex enquanto preparamos o GPT‑5.4 para implantação. Assim como o GPT‑5.3‑Codex, estamos tratando o GPT‑5.4 como capacidade cibernética High no nosso Preparedness Framework e o estamos implantando com as proteções correspondentes, conforme documentado no system card. Isso inclui uma pilha expandida de segurança cibernética, incluindo sistemas de monitoramento, controles de acesso confiáveis e bloqueio assíncrono para solicitações de maior risco de clientes em superfícies de Zero Data Retention (ZDR), além de investimento contínuo no ecossistema de segurança mais amplo.
Como as capacidades de cibersegurança são inerentemente de uso duplo, mantemos uma abordagem precaucionária na implantação enquanto seguimos calibrando nossas políticas e classificadores. Para determinados clientes em superfícies de ZDR, o bloqueio no nível de solicitação continua fazendo parte da nossa pilha de mitigação de risco cibernético; como os classificadores ainda estão melhorando, alguns falsos positivos podem ocorrer enquanto seguimos refinando essas proteções. Essas atualizações têm como objetivo melhorar como as proteções operam na prática, incluindo reduzir recusas desnecessárias e respostas excessivamente cheias de ressalvas, preservando ao mesmo tempo fortes proteções contra uso indevido.
Demos continuidade à nossa pesquisa de segurança sobre a monitorabilidade do Chain-of-Thought (CoT) para entender melhor como os modelos raciocinam e ajudar a detectar possíveis comportamentos indevidos. Como parte desse trabalho, apresentamos uma nova avaliação open-source, controlabilidade de CoT, medindo se os modelos conseguem deliberadamente ofuscar seu raciocínio para evitar monitoramento. Descobrimos que a capacidade do GPT‑5.4 Thinking de controlar seu CoT é baixa, o que é uma propriedade positiva para a segurança, sugerindo que o modelo não tem a capacidade de esconder seu raciocínio e que o monitoramento de CoT continua sendo uma ferramenta de segurança eficaz.
O GPT‑5.4 está sendo disponibilizado gradualmente hoje no ChatGPT e no Codex. Na API, o GPT‑5.4 já está disponível como gpt-5.4. O GPT‑5.4 Pro também está disponível na API como gpt-5.4-pro para desenvolvedores que precisam de desempenho máximo nas tarefas mais complexas.
No ChatGPT, o GPT‑5.4 Thinking está disponível a partir de hoje para usuários do ChatGPT Plus, Team e Pro, substituindo o GPT‑5.2 Thinking. O GPT‑5.2 Thinking continuará disponível por três meses para usuários com planos pagos no seletor de modelos, na seção Modelos Legados; depois, será descontinuado em 5 de junho de 2026. Quem está nos planos Enterprise e Edu pode ativar o acesso antecipado nas configurações de administrador. O GPT‑5.4 Pro está disponível nos planos Pro e Enterprise. Janelas de contexto(abre em uma nova janela) no ChatGPT para o GPT‑5.4 Thinking permanecem inalteradas em relação ao GPT‑5.2 Thinking.
O GPT‑5.4 é nosso primeiro modelo de raciocínio principal que incorpora as capacidades de codificação de fronteira do GPT‑5.3‑codex e está sendo lançado no ChatGPT, na API e no Codex. Estamos chamando de GPT‑5.4 para refletir esse salto e para simplificar a escolha entre modelos ao usar o Codex. Ao longo do tempo, você pode esperar que nossos modelos Instant e nossos modelos Thinking evoluam em velocidades diferentes.
O GPT‑5.4 no Codex inclui suporte experimental à janela de contexto de 1M. Desenvolvedores podem testar isso configurando model_context_window e model_auto_compact_token_limit. Requisições que excedem a janela de contexto padrão de 272K contam para os limites de uso a 2x a taxa normal.
Na API, o GPT‑5.4 tem um preço por token mais alto do que o GPT‑5.2 para refletir suas capacidades aprimoradas, enquanto sua maior eficiência de tokens ajuda a reduzir o número total de tokens necessários para muitas tarefas. Os preços Batch e Flex estão disponíveis pela metade da taxa padrão da API, enquanto o processamento prioritário está disponível pelo dobro da taxa padrão da API.
Modelo da API | Preço de entrada | Preço de entrada em cache | Preço de saída |
gpt-5.2 | $1.75 / M tokens | $0.175 / M tokens | $14 / M tokens |
gpt-5.4 | $2.50 / M tokens | $0.25 / M tokens | $15 / M tokens |
GPT‑5.2 Pro | $21 / M tokens | - | $168 / M tokens |
gpt-5.4-pro | $30 / M tokens | - | $180 / M tokens |
Profissional
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83.00% | 82.0% | 70,90% | 70,90% | 74.1% |
FinanceAgent v1.1 | 56.0% | 61,5% | 54.0% | 59,5% | — |
Tarefas de modelagem para banco de investimento (interno) | 87,3% | 83.6% | 79.3% | 68.4% | 71,7% |
OfficeQA | 68,1% | — | 65.1% | 63.1% | — |
Programação
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57.70% | — | SWE-Bench Pro (Public) | 55,6% | — |
Terminal-Bench 2.0 | 75,1% | — | 77.3% | 62,2% | — |
Uso do computador e visão
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75.00% | — | 74.0% | 47,3% | — |
MMMU Pro (sem ferramentas) | 81,2% | — | — | 79,5% | — |
MMMU Pro (com ferramentas) | 82.1% | — | — | 80,4% | — |
Uso de ferramentas
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82.70% | 89.3% | 77.3% | 65,80% | 77,9% |
MCP Atlas | 67.2% | — | — | 60.6% | — |
Toolathlon | 54.6% | — | 51,90% | 45.7% | — |
Tau2-bench Telecom | 98,9% | — | — | 98,7% | — |
Acadêmico
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Frontier Science Research | 33.0% | 36,7% | — | 25,2% | — |
FrontierMath Tier 1–3 | 47,6% | — | — | 40.7% | — |
FrontierMath Tier 4 | 27.1% | 38.0% | — | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94.4% | 92.6% | 92,4% | 93,2% |
Humanity's Last Exam (sem ferramentas) | 39,8% | 42,7% | — | 34,5% | 36.6% |
Humanity's Last Exam (com ferramentas) | 52,1% | 58,7% | — | 45,5% | 50.0% |
Contexto Longo
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93.0% | — | — | 94,0% | — |
Graphwalks BFS 256K–1M | 21.4% | — | — | — | — |
Graphwalks parents 0–128K (accuracy) | 89,8% | — | — | 89.0% | — |
Graphwalks parents 256K–1M (accuracy) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97.3% | — | — | 98.2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91.4% | — | — | 89,3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97.2% | — | — | 95,3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90.5% | — | — | 92.0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86.0% | — | — | 85.6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79.3% | — | — | 77.0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36.6% | — | — | — | — |
Raciocínio abstrato
Aval. | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93.7% | 94.5% | — | 86,2% | 90,5% |
ARC-AGI-2 (Verified) | 73.3% | 83.3% | — | 52,9% | 54.2% (alto) |
Avaliações sem raciocínio
Aval. | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (distância de edição normalizada) | 0.109 | 0,140 | — |
Tau2-bench Telecom | 64.3% | 57,2% | 43,6% |
As avaliações foram executadas com o esforço de raciocínio definido como xhigh, exceto quando indicado o contrário. Os benchmarks foram conduzidos em um ambiente de pesquisa, que em alguns casos pode produzir saídas ligeiramente diferentes do ChatGPT em produção.
Autoria
Notas de rodapé
1 Desempenho humano relatado em OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(abre em uma nova janela).


