17 de março de 2026

Apresentamos o GPT‑5.4 mini e o GPT‑5.4 nano

Modelos rápidos e eficientes otimizados para programação e subagentes

Carregando…

Hoje, estamos lançando o GPT‑5.4 mini e o GPT‑5.4 nano, nossos modelos pequenos mais capazes até agora. Eles trazem muitas das forças do GPT‑5.4 para modelos mais rápidos e eficientes, projetados para cargas de trabalho de alto volume.

O GPT‑5.4 mini melhora significativamente em relação ao GPT‑5 mini em programação, raciocínio, compreensão multimodal e uso de ferramentas, além de rodar mais de 2x mais rápido. Ele também se aproxima do desempenho do modelo maior GPT‑5.4 em várias avaliações, incluindo SWE-Bench Pro e OSWorld-Verified.

O GPT‑5.4 nano é a menor e mais barata versão do GPT‑5.4 para tarefas em que velocidade e custo são o que mais importam. Ele também é uma atualização significativa em relação ao GPT‑5 nano. Recomendamos para classificação, extração de dados, ranqueamento e subagentes de programação que lidam com tarefas de apoio mais simples.

Esses modelos foram feitos para o tipo de carga de trabalho em que a latência molda diretamente a experiência do produto: assistentes de programação que precisam ser responsivos, subagentes que concluem rapidamente tarefas de apoio, sistemas que usam o computador e capturam e interpretam capturas de tela e aplicações multimodais que conseguem raciocinar sobre imagens em tempo real. Nesses cenários, o melhor modelo muitas vezes não é o maior — é o que consegue responder rápido, usar ferramentas com confiabilidade e ainda ter bom desempenho em tarefas profissionais complexas.

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-Bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%
Toolathlon	54.6%	42.9%	35.5%	26.9%
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%

^{1 O maior reasoning_effort disponível para o GPT‑5 mini é 'high'.}

Veja o que nossos clientes acharam depois de testar o GPT‑5.4 mini e o GPT‑5.4 nano em seus fluxos de trabalho:

"O GPT-5.4 mini oferece forte desempenho de ponta a ponta para um modelo dessa categoria. Nas nossas avaliações, ele igualou ou superou modelos concorrentes em várias tarefas de saída e em recall de citações, a um custo muito menor. Ele também alcançou taxas de aprovação ponta a ponta mais altas e atribuição de fontes mais forte do que o modelo maior GPT-5.4."

— Aabhas Sharma, CTO da Hebbia

Programação

O GPT‑5.4 mini e o GPT‑5.4 nano são especialmente eficazes em fluxos de trabalho de programação que se beneficiam de iteração rápida. Os modelos lidam com edições pontuais, navegação na base de código, geração de front-end e ciclos de depuração com baixa latência, o que os torna uma ótima opção para tarefas de programação que precisam ser concluídas mais rápido e a um custo menor.

Em benchmarks, o GPT‑5.4 mini supera de forma consistente o GPT‑5 mini em latências semelhantes e se aproxima de taxas de aprovação em nível do GPT‑5.4, enquanto roda muito mais rápido, entregando uma das melhores relações desempenho/latência para fluxos de trabalho de programação.

Estimamos a latência observando o comportamento dos nossos modelos em produção e simulando isso offline. A estimativa de latência considera a duração das chamadas de ferramenta (tempo de execução de código), tokens amostrados e tokens de entrada. A latência no mundo real pode variar substancialmente e depende de muitos fatores que não são capturados em nossa simulação. Da mesma forma, os custos são estimados com base nos preços de API desses modelos no momento da redação. Os custos podem mudar no futuro. O esforço de raciocínio foi testado de low a xhigh.

Subagentes

O GPT‑5.4 mini também é uma ótima opção para sistemas que combinam modelos de tamanhos diferentes. No Codex, por exemplo, um modelo maior como o GPT‑5.4 pode cuidar do planejamento, coordenação e julgamento final, enquanto delega para subagentes do GPT‑5.4 mini que lidam, em paralelo, com subtarefas mais específicas — como buscar na base de código, revisar um arquivo grande ou processar documentos de apoio. Saiba como os subagentes funcionam no Codex na documentação⁠(abre em uma nova janela).

Esse padrão se torna ainda mais útil à medida que modelos menores ficam mais rápidos e mais capazes. Em vez de usar um único modelo para tudo, desenvolvedores podem compor sistemas em que modelos maiores decidem o que fazer e modelos menores executam rapidamente em escala. O GPT‑5.4 mini é nosso modelo mini mais forte até agora para esse tipo de fluxo de trabalho.

Uso do computador

O GPT‑5.4 mini também é forte em tarefas multimodais, especialmente as relacionadas ao uso do computador. O modelo consegue interpretar rapidamente capturas de tela de interfaces de usuário complexas para concluir tarefas de uso do computador com velocidade. No OSWorld-Verified, o GPT‑5.4 mini se aproxima do GPT‑5.4 enquanto supera de forma substancial o GPT‑5 mini.

Disponibilidade e preços

O GPT‑5.4 mini já está disponível hoje na API, no Codex e no ChatGPT.

Na API, o GPT‑5.4 mini oferece suporte a entradas de texto e imagem, uso de ferramentas, chamada de função, pesquisa na web, pesquisa em arquivos, uso do computador e skills. Ele tem uma janela de contexto de 400k e custa $0.75 por 1M tokens de entrada e $4.50 por 1M tokens de saída.

No Codex, o GPT‑5.4 mini está disponível no app do Codex, na CLI, na extensão do IDE e na web. Ele usa apenas 30% da cota do GPT‑5.4 o que permite que desenvolvedores lidem rapidamente com tarefas de programação mais simples no Codex por cerca de um terço do custo. O Codex também pode delegar para subagentes do GPT‑5.4 mini para que o trabalho que exige menos raciocínio rode no modelo mais barato.

No ChatGPT, o GPT‑5.4 mini está disponível para usuários Free e Go pelo recurso "Thinking" no menu +. Para todos os outros usuários, o GPT‑5.4 mini está disponível como fallback de limite de uso para o GPT‑5.4 Thinking.

O GPT‑5.4 nano está disponível apenas na API e custa $0.20 por 1M tokens de entrada e $1.25 por 1M tokens de saída.

Para mais informações sobre as salvaguardas dos modelos, consulte o adendo do System Card no nosso Deployment Safety Hub⁠(abre em uma nova janela).

Coding

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
SWE-bench Pro (Public)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0	75.1%	60.0%	46.3%	38.2%

Tool-calling

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
MCP Atlas	67.2%	57.7%	56.1%	47.6%
Toolathlon	54.6%	42.9%	35.5%	26.9%
τ2-bench (telecom)	98.9%	93.4%	92.5%	74.1%

Intelligence

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
GPQA Diamond	93.0%	88.0%	82.8%	81.6%
HLE w/ tool	52.1%	41.5%	37.7%	31.6%
HLE w/o tools	39.8%	28.2%	24.3%	18.3%

MM / Vision / CUA

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OSWorld-Verified	75.0%	72.1%	39.0%	42.0%
MMMUPro w/ Python	81.5%	78.0%	69.5%	74.1%
MMMUPro	81.2%	76.6%	66.1%	67.5%
OmniDocBench 1.5 (no tools)² — lower is better	0.109	0.1263	0.2419	0.1791

Long context

	GPT-5.4 (xhigh)	GPT-5.4 mini (xhigh)	GPT-5.4 nano (xhigh)	GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K	86.0%	47.7%	44.2%	35.1%
OpenAI MRCR v2 8-needle 128K–256K	79.3%	33.6%	33.1%	19.4%
Graphwalks BFS 0K–128K	93.1%	76.3%	73.4%	73.4%
Graphwalks parents 0–128K (accuracy)	89.8%	71.5%	50.8%	64.3%

^{1 O maior reasoning_effort disponível para o GPT‑5 mini é 'high'.}

^{2 Distância de edição geral. O OmniDocBench foi executado com reasoning_effort definido como 'none' para refletir desempenho de baixo custo e baixa latência.}

2026

Autoria

OpenAI

Continuar lendo

Ver tudo

Launching Health in ChatGPT

Produto23 de jul. de 2026

How news organizations are using AI > Card Image

Como veículos de notícias usam IA em suas missões vitais

Empresa22 de jul. de 2026

Apresentamos o OpenAI Presence

Produto22 de jul. de 2026