5 de março de 2026

Apresentamos o GPT‑5.4

Concebido para trabalho profissional

A carregar…

Hoje, estamos a lançar o GPT‑5.4 no ChatGPT (como GPT‑5.4 Thinking), na API e no Codex. É o nosso modelo de fronteira mais capaz e eficiente para trabalho profissional. Também estamos a lançar o GPT‑5.4 Pro no ChatGPT e na API, para quem quer o máximo desempenho em tarefas complexas.

O GPT‑5.4 reúne o melhor dos nossos avanços recentes em raciocínio, programação e fluxos de trabalho agênticos num único modelo de fronteira. Combina as capacidades de programação líderes no setor do GPT‑5.3‑Codex⁠, ao mesmo tempo que melhora a forma como o modelo trabalha com ferramentas, ambientes de software e tarefas profissionais que envolvem folhas de cálculo, apresentações e documentos. O resultado é um modelo que realiza trabalho real complexo com precisão, eficácia e eficiência — a entregar o que foi solicitado com menos idas e vindas.

No ChatGPT, o GPT‑5.4 Thinking pode agora apresentar, à partida, um plano do seu raciocínio, permitindo ajustar o rumo a meio da resposta enquanto está a trabalhar, e chegar a um resultado final mais alinhado com o que precisa, sem interações adicionais. O GPT‑5.4 Thinking também melhora a pesquisa aprofundada na Web, sobretudo para consultas muito específicas, ao mesmo tempo que mantém melhor o contexto em perguntas que exigem reflexão mais prolongada. Em conjunto, estas melhorias significam respostas de maior qualidade, que chegam mais depressa e se mantêm relevantes para a tarefa em mãos.

No Codex e na API, o GPT‑5.4 é o primeiro modelo de propósito geral que lançámos com capacidades nativas de utilização do computador, de ponta, permitindo que agentes operem computadores e executem fluxos de trabalho complexos entre aplicações. Suporta até 1M tokens de contexto, permitindo que agentes planeiem, executem e verifiquem tarefas em horizontes longos. O GPT‑5.4 também melhora a forma como os modelos operam em grandes ecossistemas de ferramentas e conetores, com pesquisa de ferramentas, ajudando os agentes a encontrar e usar as ferramentas certas de forma mais eficiente, sem perder inteligência. Por fim, o GPT‑5.4 é o nosso modelo de raciocínio mais eficiente em tokens até à data, usando significativamente menos tokens para resolver problemas quando comparado com o GPT‑5.2—o que se traduz em menor consumo de tokens e maior rapidez.

Em conjunto com avanços no raciocínio geral, na programação e no trabalho de conhecimento profissional, o GPT‑5.4 permite agentes mais fiáveis, fluxos de trabalho mais rápidos para programadores e resultados de maior qualidade no ChatGPT, na API e no Codex.

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (wins or ties)	83.00%	70,9%	70,9%
SWE-Bench Pro (Public)	57.70%	56.8%	55,6%
OSWorld-Verified	75.00%	74,00%*	47,3%
Toolathlon	54,6%	51,90%	46,30%
BrowseComp	82,70%	77.3%	65,80%

*Anteriormente reportado como 64.7%. O GPT‑5.3‑Codex atinge 74.0% com um novo parâmetro da API que preserva a resolução original da imagem.

Trabalho de conhecimento

Com base nas capacidades de raciocínio geral do GPT‑5.2, o GPT‑5.4 oferece resultados ainda mais consistentes e refinados em tarefas do mundo real que importam aos profissionais.

No GDPval⁠, que testa a capacidade de agentes para produzir trabalho de conhecimento bem especificado em 44 profissões, o GPT‑5.4 estabelece um novo estado da arte, igualando ou superando profissionais do setor em 83.0% das comparações, face a 71.0% no GPT‑5.2.

No GDPval, os modelos tentam realizar trabalho de conhecimento bem especificado, abrangendo 44 profissões dos 9 principais setores que contribuem para o PIB dos EUA. As tarefas pedem entregáveis reais, como apresentações de vendas, folhas de cálculo de contabilidade, horários de atendimento urgente, diagramas de fabrico ou vídeos curtos. O esforço de raciocínio foi definido como xhigh para o GPT‑5.4 e heavy para o GPT‑5.2 (um nível ligeiramente inferior no ChatGPT).

“GPT-5.4 é o melhor modelo que alguma vez experimentámos. Está agora no topo da tabela de classificação no nosso benchmark APEX-Agents, que mede o desempenho do modelo para trabalho em serviços profissionais. Destaca-se na criação de resultados de longo prazo, como apresentações de slides, modelos financeiros e análises jurídicas, oferecendo um desempenho de topo, ao mesmo tempo que funciona mais rapidamente e a um custo mais baixo do que modelos de fronteira concorrentes.”

— Brendan Foody, CEO da Mercor

Demos particular atenção a melhorar a capacidade do GPT‑5.4 de criar e editar folhas de cálculo, apresentações e documentos. Num benchmark interno de tarefas de modelação em folhas de cálculo que um analista júnior de banca de investimento poderia executar, o GPT‑5.4 atinge uma pontuação média de 87,5%, face a 68,4% no GPT‑5.2. Num conjunto de prompts de avaliação de apresentações, avaliadores humanos preferiram as apresentações do GPT‑5.4 em 68,0% das vezes, em detrimento das do GPT‑5.2, devido a uma estética mais forte, maior variedade visual e uma utilização mais eficaz da geração de imagens.

Exemplo lado a lado de saídas de folhas de cálculo do GPT-5.2 vs GPT-5.4

Os documentos foram gerados com o esforço de raciocínio definido como xhigh

É possível experimentar estas capacidades no ChatGPT com o GPT‑5.4 Thinking ou o Pro. Para clientes Enterprise, recomendamos os plug-ins do ChatGPT para Excel e Google Sheets⁠(abre numa nova janela), acabados de lançar. Também atualizámos as nossas capacidades de folhas de cálculo⁠(abre numa nova janela) e de apresentações⁠(abre numa nova janela) disponíveis no Codex e na API.

Para tornar o GPT‑5.4 melhor em trabalho do mundo real, continuámos a reduzir alucinações e erros. O GPT‑5.4 é, até agora, o nosso modelo mais factual: num conjunto de prompts desidentificados em que os utilizadores assinalaram erros factuais, as afirmações individuais do GPT‑5.4 são 33% menos propensas a serem falsas e as suas respostas completas são 18% menos propensas a conter quaisquer erros, face ao GPT‑5.2.

«O GPT-5.4 estabelece um novo padrão para trabalho jurídico com muitos documentos.» Na nossa avaliação BigLaw Bench, obteve 91%. Em comparação com outros modelos, o GPT-5.4 é atualmente melhor a estruturar análises transacionais complexas, a manter a precisão ao longo de contratos extensos e a fornecer o elevado nível de detalhe de que os profissionais do direito necessitam.»

— Niko Grupen, Diretor de Investigação Aplicada na Harvey

Utilização do computador e visão

O GPT‑5.4 é o nosso primeiro modelo de propósito geral com capacidades nativas de utilização do computador e representa um grande passo em frente, tanto para programadores como para agentes. É o melhor modelo atualmente disponível para programadores que estão a criar agentes capazes de concluir tarefas reais em sites e sistemas de software.

Concebemos o GPT‑5.4 para oferecer elevado desempenho numa vasta gama de cargas de trabalho de utilização do computador. É excelente a escrever código para operar computadores através de bibliotecas como o Playwright, bem como a emitir comandos de rato e teclado em resposta a capturas de ecrã. O comportamento pode ser orientado através de mensagens do programador, permitindo ajustar a atuação a casos de uso específicos. É até possível configurar o comportamento de segurança do modelo para diferentes níveis de tolerância ao risco, definindo políticas de confirmação personalizadas.

O desempenho e a flexibilidade do modelo refletem-se em benchmarks que testam a utilização do computador em diferentes contextos. No OSWorld-Verified, que mede a capacidade de um modelo para navegar num ambiente de desktop através de capturas de ecrã e ações de teclado e rato, o GPT‑5.4 atinge um novo estado da arte de 75,0% de taxa de sucesso, muito acima do GPT‑5.2, que atinge 47,3%, e supera o desempenho humano, que é de 72,4%.¹

No WebArena-Verified, um benchmark de capacidade de navegação em sites, o GPT‑5.4 alcança um novo estado da arte com uma taxa de sucesso de 67,3% ao usar interação orientada tanto por DOM como por capturas de ecrã, face aos 65,4% do GPT‑5.2. No Online-Mind2Web, que também testa a utilização do browser, o GPT‑5.4 alcança uma taxa de sucesso de 92,8% ao usar apenas observações baseadas em capturas de ecrã, superando o Agent Mode do ChatGPT Atlas, que alcança uma taxa de sucesso de 70,9%.

Um yield de ferramenta ocorre quando um assistente cede a execução para aguardar respostas de ferramentas. Se 3 ferramentas forem chamadas em paralelo e, de seguida, mais 3 ferramentas forem chamadas em paralelo, o número de yields será 2. Os yields de ferramentas são um melhor indicador de latência do que as chamadas de ferramentas, porque refletem os benefícios da paralelização.

O GPT‑5.4 interpreta capturas de ecrã de uma interface do navegador e interage com elementos da IU através de cliques baseados em coordenadas para enviar e-mails e agendar um evento no calendário.

A melhoria na utilização do computador no GPT‑5.4 assenta na melhoria das capacidades gerais de perceção visual do modelo. No MMMU-Pro, um teste da compreensão visual e do raciocínio de um modelo, o GPT‑5.4 atinge uma taxa de sucesso de 81,2% sem ferramentas, acima do GPT‑5.2, com 79,5%. A melhoria da perceção visual traduz-se também em melhores capacidades de análise de documentos. No OmniDocBench, o GPT‑5.4 sem esforço de raciocínio atinge um erro médio (medido pela distância de edição normalizada entre a previsão do modelo e o ground truth) de 0,109, melhorando face aos 0,140 do GPT‑5.2.

O MMMUPro foi executado com o esforço de raciocínio definido como xhigh. O OmniDocBench foi executado com o esforço de raciocínio definido como "none", para refletir um desempenho de baixo custo e baixa latência.

Estamos também a melhorar a compreensão visual de imagens densas, de alta resolução, onde a fidelidade total é importante. A partir do GPT‑5.4, introduzimos um nível de detalhe de entrada de imagem original,⁠(abre numa nova janela) que suporta perceção com fidelidade total até 10,24M píxeis no total ou uma dimensão máxima de 6000 píxeis, o que for inferior; o nível de detalhe de entrada de imagem elevado passa agora a suportar até 2,56M píxeis no total ou uma dimensão máxima de 2048 píxeis. Em testes iniciais com utilizadores da API, observámos ganhos significativos na capacidade de localizar elementos, na compreensão de imagens e na precisão de cliques ao usar detalhe original ou elevado.

“Nas nossas avaliações que medem o desempenho de utilização do computador em ~30K portais de HOA e de imposto predial, o GPT-5.4 alcançou uma taxa de sucesso de 95% à primeira tentativa e de 100% em até três tentativas, em comparação com ~73–79% com modelos CUA anteriores. Também concluiu sessões cerca de ~3x mais depressa, utilizando cerca de ~70% menos tokens, melhorando materialmente a fiabilidade e a eficiência de custos à escala."

— Dod Fraser, CEO da Mainstay

Na API, os programadores podem aceder a estas capacidades usando a ferramenta de computador atualizada. Consulte a nossa documentação atualizada⁠(abre numa nova janela) para conhecer as melhores práticas recomendadas.

Programação

O GPT‑5.4 combina os pontos fortes de programação do GPT‑5.3‑Codex com capacidades líderes em trabalho de conhecimento e uso do computador, que fazem mais diferença em tarefas de maior duração, em que o modelo pode usar ferramentas, iterar e levar o trabalho mais longe com menos intervenção manual. Iguala ou supera o GPT‑5.3‑Codex no SWE-Bench Pro, mantendo uma latência menor em todos os níveis de esforço de raciocínio.

Estimamos a latência analisando o comportamento dos nossos modelos em produção e simulando-o offline. A estimativa de latência tem em conta a duração das chamadas de ferramentas (tempo de execução de código), os tokens amostrados e os tokens de entrada. A latência no mundo real pode variar substancialmente e depende de muitos fatores não capturados na nossa simulação. Os esforços de raciocínio foram alterados de none para xhigh.

Quando ativado, o modo /fast no Codex oferece uma velocidade de tokens até 1.5x mais rápida com GPT‑5.4. É o mesmo modelo e a mesma inteligência, apenas mais rápido. Isto significa que é possível avançar nas tarefas de programação, iteração e depuração sem perder o ritmo. Os programadores podem aceder ao GPT‑5.4 com a mesma rapidez através da API, usando o processamento prioritário⁠(abre numa nova janela).

Na avaliação e nos testes internos, verificámos que o GPT‑5.4 se destaca em tarefas complexas de front-end, com resultados visivelmente mais estéticos e mais funcionais do que quaisquer modelos que tenhamos lançado anteriormente.Em avaliações e testes internos, verificámos que o GPT‑5.4 se destaca em tarefas complexas de front-end, com resultados visivelmente mais estéticos e mais funcionais do que qualquer modelo que tenhamos lançado anteriormente.

Como demonstração das capacidades melhoradas do modelo quando o uso do computador e a programação trabalham em conjunto, estamos também a lançar uma skill experimental do Codex chamada «Playwright (Interactive)⁠(abre numa nova janela)». Isto permite ao Codex depurar visualmente aplicações web e Electron; pode até ser usado para testar uma aplicação enquanto a está a criar.

Jogo de simulação de parque temático feito com GPT‑5.4 a partir de um único prompt ligeiramente especificado, usando o Playwright Interactive para playtesting no browser e geração de imagens para o conjunto de recursos isométricos. A simulação inclui a colocação de caminhos baseada em mosaicos, a construção de atrações e cenários, a procura de caminhos pelos visitantes, a formação de filas e os ciclos das atrações, enquanto as métricas do parque, como dinheiro, número de visitantes, satisfação, limpeza e classificação, sobem ou descem com base no desempenho do layout e na forma como os visitantes reagem a ele. O Playwright foi utilizado para automatizar playtests no navegador, construindo e expandindo o parque, colocando e removendo caminhos e atrações, verificando a navegação da câmara e confirmando que os visitantes, as filas, os estados das atrações e as métricas da interface do utilizador eram atualizados corretamente ao longo de várias rondas de jogo.

Prompt: Usa $playwright-interactive e $imagegen. Cria um jogo de simulação interativo de parque temático isométrico que eu possa construir e navegar no browser. Usa o imagegen para estabelecer a visão visual global e gerar os recursos do jogo, incluindo atrações, caminhos, terreno, árvores, água, bancas de comida, decorações, edifícios, ícones e ilustrações de UI. O mundo deve parecer coeso, polido e visualmente rico, com uma direção artística premium que funcione bem a partir de uma perspetiva isométrica. Permite-me colocar e remover caminhos, adicionar atrações, posicionar cenários e deslocar-me pelo parque de forma fluida enquanto monitorizo a atividade dos visitantes, o estado das atrações e o crescimento do parque. Inclui movimento credível dos visitantes, sistemas simples de gestão do parque como dinheiro, limpeza, filas e felicidade, e faz com que a experiência pareça divertida, clara e completa, em vez de um protótipo rudimentar. Dá prioridade ao charme, à legibilidade e a uma forte sensação de jogo, em detrimento do realismo.

Ao fazer testes de jogo, garante que constróis e expandes um parque ao longo de várias rondas de jogo, certifica-te de que a colocação e a navegação funcionam sem problemas, confirma que os visitantes reagem ao layout do parque e às atrações, e que os elementos visuais, a interface e as interações parecem estáveis e coesos.

«Os nossos engenheiros consideram o GPT-5.4 mais natural e assertivo do que os modelos anteriores. Resolve problemas ambíguos sem duvidar de si próprio e é proativo a paralelizar o trabalho para manter as coisas a andar.»

— Lee Robinson, Vice-Presidente de Educação para Programadores da Cursor

Utilização de ferramentas

Com o GPT‑5.4, melhorámos significativamente a forma como os modelos trabalham com ferramentas externas. Os agentes podem agora operar em ecossistemas de ferramentas maiores, escolher as ferramentas certas de forma mais fiável e concluir fluxos de trabalho em vários passos com menor custo e latência.

Pesquisa de ferramentas

Na API, o GPT‑5.4 introduz a pesquisa de ferramentas⁠(abre numa nova janela), que permite aos modelos trabalhar de forma eficiente quando lhes são dadas muitas ferramentas.

Antes, quando um modelo recebia ferramentas, todas as definições de ferramentas eram incluídas logo de início no prompt. Em sistemas com muitas ferramentas, isto podia acrescentar milhares — ou até dezenas de milhares — de tokens a cada pedido, aumentando o custo, atrasando respostas e enchendo o contexto com informação que o modelo podia nunca vir a usar.

Com a pesquisa de ferramentas, o GPT‑5.4 recebe, em vez disso, uma lista leve das ferramentas disponíveis, juntamente com a capacidade de pesquisar ferramentas. Quando o modelo precisa de usar uma ferramenta, pode procurar a definição dessa ferramenta e anexá-la à conversa nesse momento.

Esta abordagem reduz drasticamente o número de tokens necessários para fluxos de trabalho com muitas ferramentas e preserva a cache, tornando os pedidos mais rápidos e mais baratos. Também permite que os agentes trabalhem de forma fiável com ecossistemas de ferramentas muito maiores. Para servidores MCP que podem conter dezenas de milhares de tokens de definições de ferramentas, os ganhos de eficiência podem ser substanciais.

Para demonstrar os ganhos de eficiência, avaliámos 250 tarefas do benchmark MCP Atlas⁠(abre numa nova janela) da Scale com todos os 36 servidores MCP ativados em dois modos: (1) expor cada função MCP diretamente no contexto do modelo e (2) colocar todos os servidores MCP por detrás da pesquisa de ferramentas. A configuração com pesquisa de ferramentas reduziu a utilização total de tokens em 47%, mantendo a mesma precisão.

As contagens de tokens de exemplo resultam da média de 250 tarefas no conjunto de dados público MCP-Atlas.

Chamadas agênticas a ferramentas

O GPT‑5.4 também melhora as chamadas a ferramentas, tornando-as mais precisas e eficientes ao decidir quando e como usar ferramentas durante o raciocínio, sobretudo na API. Em comparação com o GPT‑5.2, atinge maior precisão em menos turnos no Toolathlon, um benchmark que testa quão bem agentes de IA conseguem usar ferramentas e APIs do mundo real para concluir tarefas em vários passos. Por exemplo, um agente precisa de ler emails, extrair anexos de trabalhos, carregá-los, avaliá-los e registar os resultados numa folha de cálculo.

Para casos de uso sensíveis à latência, em que é preferido um esforço de raciocínio None, o GPT‑5.4 melhora ainda mais face aos seus antecessores.

No τ2-bench⁠⁠(abre numa nova janela), um modelo tem de usar ferramentas para realizar uma tarefa de apoio ao cliente, em que pode haver um utilizador simulado que consegue comunicar e executar ações sobre o estado do mundo. O esforço de raciocínio foi definido como None.

Pesquisa na web melhorada

O GPT‑5.4 é melhor na pesquisa agêntica na web. No BrowseComp, uma medição de quão bem agentes de IA conseguem navegar de forma persistente na web para encontrar informação difícil de localizar, o GPT‑5.4 dá um salto de 17%_abs face ao GPT‑5.2, e o GPT‑5.4 Pro estabelece um novo estado da arte de 89,3%.

Na prática, isto significa que o GPT‑5.4 Thinking responde melhor a perguntas que exigem reunir informação de muitas fontes na web. Consegue pesquisar de forma mais persistente ao longo de várias rondas para identificar as fontes mais relevantes, em particular para perguntas do tipo «agulha num palheiro», e sintetizá-las numa resposta clara e bem fundamentada.

No BrowseComp, utilizámos uma lista de bloqueio de pesquisa que excluía websites com respostas aos benchmarks, para evitar contaminação e garantir uma medição justa do desempenho. O GPT‑5.4 foi medido numa data posterior à do GPT‑5.2, pelo que as pontuações refletem alterações no modelo, no nosso sistema de pesquisa e no estado da internet. O GPT‑5.4 foi testado com uma lista de bloqueio mais longa e atualizada. Os modelos usam a ferramenta de pesquisa do ChatGPT, que pode ter pequenas diferenças face à pesquisa na API.

“GPT-5.4 xhigh é o novo estado da arte na utilização de ferramentas em múltiplas etapas. A Zapier executa alguns dos benchmarks de utilização de ferramentas mais rigorosos do setor, testando modelos em centenas de fluxos de trabalho avançados do mundo real. O GPT-5.4 terminou o trabalho onde os modelos anteriores desistiram: o modelo mais persistente até à data.”

— Wade, CEO da Zapier

Capacidade de direcionamento

À semelhança do Codex, que explica a sua abordagem quando começa a trabalhar, o GPT‑5.4 Thinking no ChatGPT passará agora a apresentar um preâmbulo do seu trabalho para consultas mais longas e complexas. Também é possível adicionar instruções ou ajustar a direção a meio da resposta. Isto facilita orientar o modelo para o resultado exato pretendido, sem recomeçar nem exigir vários turnos adicionais. Esta funcionalidade já está disponível em chatgpt.com⁠(abre numa nova janela) e na aplicação Android, chegando em breve à aplicação iOS.

O modelo também pode pensar mais tempo em tarefas difíceis, mantendo uma maior consciência dos passos anteriores na conversa. Isto permite-lhe lidar com fluxos de trabalho mais longos e prompts mais complexos, mantendo as respostas coerentes e relevantes do início ao fim.

Este vídeo foi acelerado para fins ilustrativos.

Segurança

Nos últimos meses, continuámos a melhorar as salvaguardas que introduzimos com o GPT‑5.3‑Codex, enquanto preparávamos o GPT‑5.4 para implementação. À semelhança do GPT‑5.3‑Codex, estamos a tratar o GPT‑5.4 como High cyber capability no âmbito do nosso Preparedness Framework, e estamos a implementá-lo com as proteções correspondentes, conforme documentado no system card⁠. Estas incluem uma stack expandida de segurança cibernética, incluindo sistemas de monitorização, controlos de acesso de confiança e bloqueio assíncrono para pedidos de maior risco para clientes em superfícies de retenção zero de dados (ZDR), a par de investimento contínuo no ecossistema de segurança em geral.

Uma vez que as capacidades de cibersegurança são inerentemente de dupla utilização, mantemos uma abordagem de precaução à implementação, enquanto continuamos a calibrar as nossas políticas e classificadores. Para determinados clientes em superfícies ZDR, o bloqueio ao nível do pedido continua a fazer parte da nossa stack de mitigação de risco cibernético; como os classificadores ainda estão a melhorar, podem ocorrer alguns falsos positivos enquanto continuamos a aperfeiçoar estas salvaguardas. Estas atualizações visam melhorar a forma como as proteções funcionam na prática, incluindo a redução de recusas desnecessárias e de respostas com demasiadas ressalvas, mantendo ao mesmo tempo fortes proteções contra o uso indevido.

Continuámos a nossa investigação de segurança sobre a monitorização da Chain-of-Thought (CoT) para compreender melhor como os modelos raciocinam e ajudar a detetar potenciais comportamentos indevidos. No âmbito deste trabalho, apresentamos uma nova avaliação open source, CoT controllability⁠, que mede se os modelos conseguem ofuscar deliberadamente o seu raciocínio para escapar à monitorização. Verificámos que o GPT‑5.4 Thinking tem pouca capacidade para controlar o seu CoT, o que é uma propriedade positiva do ponto de vista da segurança, sugerindo que o modelo não consegue ocultar o seu raciocínio e que a monitorização de CoT continua a ser uma ferramenta de segurança eficaz.

Disponibilidade e preços

O GPT‑5.4 está a ser disponibilizado gradualmente hoje no ChatGPT e no Codex. Na API, o GPT‑5.4 já está disponível como gpt-5.4. O GPT‑5.4 Pro também está disponível na API como gpt-5.4-pro para programadores que precisam do máximo desempenho nas tarefas mais complexas.

No ChatGPT, o GPT‑5.4 Thinking está disponível a partir de hoje para os utilizadores do ChatGPT Plus, Team e Pro, substituindo o GPT‑5.2 Thinking. O GPT‑5.3 Thinking continuará disponível durante três meses para utilizadores com planos pagos no seletor de modelos na secção Modelos Antigos, após o qual será descontinuado, em 5 de junho de 2026. Os utilizadores dos planos Enterprise e Edu podem ativar o acesso antecipado nas definições de administração. O GPT‑5.4 Pro está disponível nos planos Pro e Enterprise. Janelas de contexto⁠(abre numa nova janela) no ChatGPT para o GPT‑5.4 Thinking permanece inalterado de GPT‑5.2 Thinking.

O GPT‑5.4 é o nosso primeiro modelo de raciocínio da linha principal que incorpora as capacidades de programação de fronteira do GPT‑5.3‑codex e que está a ser disponibilizado no ChatGPT, na API e no Codex. Chamamos-lhe GPT‑5.4 para refletir esse salto e simplificar a escolha entre modelos ao usar o Codex. Com o tempo, é de esperar que os nossos modelos Instant e Thinking evoluam a ritmos diferentes.

O GPT‑5.4 no Codex inclui suporte experimental para a janela de contexto de 1M. Os programadores podem experimentar isto configurando model_context_window e model_auto_compact_token_limit. Os pedidos que excedam a janela de contexto padrão de 272K contam para os limites de utilização a 2x a taxa normal.

Na API, o GPT‑5.4 tem um preço por token mais elevado do que o GPT‑5.2 para refletir as suas capacidades melhoradas, enquanto a sua maior eficiência de tokens ajuda a reduzir o número total de tokens necessários para muitas tarefas. Os preços Batch e Flex estão disponíveis a metade da taxa padrão da API, enquanto o processamento prioritário está disponível ao dobro da taxa padrão da API.

Modelo da API	Preço de entrada	Preço de entrada em cache	Preço de saída
gpt-5.2	$1.75 / M tokens	$0.175 / M tokens	$14 / M tokens
gpt-5.4	$2.50 / M tokens	$0.25 / M tokens	$15 / M tokens
gpt-5.2-pro	$21 / M tokens	-	$168 / M tokens
gpt-5.4-pro	$30 / M tokens	-	$180 / M tokens

Avaliações

Profissional

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.00%	82%	70,9%	70,9%	74,1%
FinanceAgent v1.1	56%	61,5%	54%	59,5%	—
Tarefas de Modelação de Banca de Investimento (Interno)	87,3%	83,6%	79,3%	68,4%	71,7%
OfficeQA	68,1%	—	65,1%	63,1%	—

Programação

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (Public)	57.70%	—	56.8%	55,6%	—
Terminal-Bench 2.0	75,1%	—	77.3%	62.2%	—

Utilização do computador e visão

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld-Verified	75.00%	—	74%	47,3%	—
MMMU Pro (sem ferramentas)	81,2%	—	—	79,5%	—
MMMU Pro (com ferramentas)	82,1%	—	—	80,4%	—

Utilização de ferramentas

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82,70%	89,3%	77.3%	65,80%	77,90%
MCP Atlas	67,2%	—	—	60,6%	—
Toolathlon	54,6%	—	51,90%	45,7%	—
Tau2-bench Telecom	98,9%	—	—	98,7%	—

Académico

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Investigação Científica de Fronteira	33%	36,7%	—	25,2%	—
FrontierMath Níveis 1–3	47,6%	—	—	40,7%	—
FrontierMath Nível 4	27,1%	38,0%	—	18,8%	31,3%
GPQA Diamond	92.8%	94,4%	92,6%	92,4%	93,2%
Humanity's Last Exam (sem ferramentas)	39,8%	42,7%	—	34,5%	36,6%
Humanity's Last Exam (com ferramentas)	52,1%	58,7%	—	45,5%	50%

Contexto longo

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128 000	93%	—	—	94,00%	—
Graphwalks BFS 256K–1M	21,4%	—	—	—	—
Graphwalks pais 0–128 000 (precisão)	89,8%	—	—	89%	—
Graphwalks pais 256K–1M (precisão)	32,4%	—	—	—	—
OpenAI MRCR v2 8-needle 4K–8K	97,3%	—	—	98,2%	—
OpenAI MRCR v2 8-needle 8K–16K	91,4%	—	—	89,3%	—
OpenAI MRCR v2 8-needle 16K–32K	97,2%	—	—	95,3%	—
OpenAI MRCR v2 8-needle 32K–64K	90,5%	—	—	92%	—
OpenAI MRCR v2 8-needle 64K–128K	86%	—	—	85,6%	—
OpenAI MRCR v2 8-needle 128K–256K	79,3%	—	—	77%	—
OpenAI MRCR v2 8-needle 256K–512K	57,5%	—	—	—	—
OpenAI MRCR v2 8-agulhas 512K–1M	36,6%	—	—	—	—

Raciocínio abstrato

Avaliação	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (Verificado)	93,7%	94,5%	—	86,2%	90,5%
ARC-AGI-2 (Verificado)	73,3%	83,3%	—	52,9%	54,2% (alto)

Avaliações sem raciocínio

Avaliação	GPT‑5.4 (none)	GPT‑5.2 (none)	GPT‑4.1
OmniDocBench (distância de edição normalizada)	0,109	0,140	—
Tau2-bench Telecom	64,3%	57,2%	43,6%

Os evals foram executados com o esforço de raciocínio definido como xhigh, exceto quando especificado em contrário. Os benchmarks foram realizados num ambiente de investigação, o que pode produzir, em alguns casos, um resultado ligeiramente diferente do ChatGPT em produção.