23 de abril de 2026

Apresentamos o GPT‑5.5

Uma nova classe de inteligência para trabalho real

A carregar…

Atualização de 24 de abril de 2026: o GPT‑5.5 e o GPT‑5.5 Pro estão agora disponíveis na API. A system card também foi atualizada para descrever as salvaguardas adicionais aplicáveis.

Estamos a lançar o GPT‑5.5, o nosso modelo mais inteligente e mais intuitivo de usar até à data, e o próximo passo rumo a uma nova forma de fazer trabalho num computador.

O GPT‑5.5 percebe mais depressa o que pretende fazer e consegue executar uma maior parte do trabalho por si só. Destaca-se a escrever e depurar código, fazer investigação online, analisar dados, criar documentos e folhas de cálculo, operar software e alternar entre ferramentas até uma tarefa estar concluída. Em vez de gerir cuidadosamente cada passo, pode dar ao GPT‑5.5 uma tarefa confusa, com várias partes, e confiar que ele vai planear, usar ferramentas, verificar o trabalho, navegar na ambiguidade e continuar.

Os ganhos são especialmente fortes na programação agêntica, na utilização do computador, no trabalho de conhecimento e na investigação científica inicial — áreas em que o progresso depende de raciocinar com base no contexto e de agir ao longo do tempo. O GPT‑5.5 oferece este salto de inteligência sem comprometer a velocidade: modelos maiores e mais capazes são muitas vezes mais lentos a disponibilizar, mas o GPT‑5.5 iguala a latência por token do GPT‑5.4 na disponibilização em cenários reais, enquanto apresenta um nível de inteligência muito superior. Também usa significativamente menos tokens para concluir as mesmas tarefas no Codex, tornando-o mais eficiente e mais capaz.

Estamos a lançar o GPT‑5.5 com o nosso conjunto de salvaguardas mais robusto até à data, concebido para reduzir a utilização indevida, preservando o acesso para trabalho benéfico. Avaliámos este modelo em toda a nossa gama de frameworks de segurança e preparação, trabalhámos com equipas de red teaming internas e externas, acrescentámos testes direcionados para capacidades avançadas de cibersegurança e biologia e recolhemos feedback sobre casos de uso reais junto de quase 200 parceiros de acesso antecipado de confiança, antes do lançamento.

Hoje, o GPT‑5.5 está a ser disponibilizado para utilizadores Plus, Pro, Business e Enterprise no ChatGPT e no Codex, e o GPT‑5.5 Pro está a ser disponibilizado para utilizadores Pro, Business e Enterprise no ChatGPT. As implementações na API exigem salvaguardas diferentes e estamos a trabalhar de perto com parceiros e clientes nos requisitos de segurança e proteção para o disponibilizar à escala. Vamos trazer o GPT‑5.5 e o GPT‑5.5 Pro para a API muito em breve.

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82,70%	75,1%	-	-	69,4%	68,5%
Expert-SWE (Internal)	73,1%	68,5%	-	-	-	-
GDPval (wins or ties)	84,9%	83.00%	82,3%	82%	80,3%	67,3%
OSWorld-Verified	78,7%	75.00%	-	-	78,0%	-
Toolathlon	55,6%	54,6%	-	-	-	48,8%
BrowseComp	84,4%	82,70%	90,1%	89,3%	79,3%	85,9%
FrontierMath Níveis 1–3	51,7%	47,6%	52,4%	50%	43,8%	36,9%
FrontierMath Nível 4	35,4%	27,1%	39,6%	38,0%	22,9%	16.7%
CyberGym	81,8%	79,0%	-	-	73,1%	-

Recursos do modelo

A OpenAI está a construir a infraestrutura global para IA agêntica, tornando possível que pessoas e empresas em todo o mundo realizem trabalho com IA. No último ano, vimos a IA acelerar drasticamente a engenharia de software. Com o GPT‑5.5 no Codex e no ChatGPT, essa mesma transformação começa a estender-se à investigação científica e ao trabalho mais amplo que as pessoas fazem em computadores.

Nestes domínios, o GPT‑5.5 não é apenas mais inteligente; é também mais eficiente na forma como resolve problemas, muitas vezes alcançando resultados de maior qualidade com menos tokens e menos repetições. No Coding Index da Artificial Analysis, o GPT‑5.5 oferece inteligência de última geração a metade do custo de modelos de programação de fronteira concorrentes.

O Índice de Inteligência da Artificial Analysis⁠(abre numa nova janela) é uma média ponderada de 10 evals realizados por uma entidade externa: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Programação agêntica

O GPT‑5.5 é o nosso modelo de programação agêntica mais forte até à data. No Terminal-Bench 2.0, que testa fluxos de trabalho complexos na linha de comandos que exigem planeamento, iteração e coordenação de ferramentas, atinge uma precisão de última geração de 82.7%. No SWE-Bench Pro, que avalia a resolução de issues do GitHub no mundo real, atinge 58.6%, resolvendo mais tarefas ponta a ponta numa única passagem do que modelos anteriores. No Expert-SWE, a nossa eval interna de fronteira para tarefas de programação de longo prazo com uma estimativa mediana de conclusão humana de 20 horas, o GPT‑5.5 também supera o GPT‑5.4.

Nas três evals, o GPT‑5.5 melhora as pontuações do GPT‑5.4 utilizando menos tokens.

Os pontos fortes do modelo em programação destacam-se especialmente no Codex, onde consegue assumir trabalho de engenharia que vai desde a implementação e refatorizações até à depuração, testes e validação. Testes iniciais sugerem que o GPT‑5.5 é melhor nos comportamentos de que o trabalho de engenharia real depende, como manter o contexto em sistemas grandes, raciocinar sobre falhas ambíguas, validar pressupostos com ferramentas e aplicar alterações em toda a base de código envolvente.

A trajetória renderizada utiliza dados vetoriais do NASA/JPL Horizons para a Orion, a Lua e o Sol, com a escala de visualização ajustada para facilitar a leitura.

Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

Para além dos benchmarks, os testadores iniciais disseram que o GPT‑5.5 mostra uma maior capacidade de compreender a estrutura de um sistema: porque é que algo está a falhar, onde é que a correção tem de ficar e o que mais na base de código seria afetado.

«O primeiro modelo de programação que usei com verdadeira clareza conceptual.»

Dan Shipper, fundador e CEO da Every, descreveu o GPT‑5.5 como «o primeiro modelo de programação que usei com verdadeira clareza conceptual».

Depois de lançar uma aplicação, passou dias a depurar um problema pós-lançamento antes de chamar um dos seus melhores engenheiros para reescrever parte do sistema. Para testar o GPT‑5.5, recuou efetivamente no tempo: seria o modelo capaz de olhar para o estado avariado e produzir o mesmo tipo de reescrita que o engenheiro acabou por decidir fazer? O GPT‑5.4 não conseguiu. O GPT‑5.5 conseguiu.

«Sinto genuinamente que estou a trabalhar com uma inteligência superior, e há quase uma sensação de respeito.»

Pietro Schirano, CEO da MagicPath, viu um salto semelhante quando o GPT‑5.5 fez merge de uma branch com centenas de alterações de frontend e refatorizações numa branch principal que também tinha mudado substancialmente, resolvendo o trabalho de uma só vez em cerca de 20 minutos.

Engenheiros sénior que testaram o modelo disseram que o GPT‑5.5 era visivelmente mais forte do que o GPT‑5.4 e o Claude Opus 4.7 em raciocínio e autonomia, detetando problemas antecipadamente e prevendo necessidades de testes e revisão sem instruções explícitas. Num caso, um engenheiro pediu-lhe para reestruturar a arquitetura de um sistema de comentários num editor colaborativo de markdown e voltou a uma stack de 12 diffs que estava quase completa. Outros disseram que precisaram de surpreendentemente pouca correção de implementação e se sentiram mais confiantes nos planos do GPT‑5.5 em comparação com o GPT‑5.4.

Um engenheiro da NVIDIA que teve acesso antecipado ao modelo chegou mesmo a dizer: «Perder o acesso ao GPT‑5.5 é como se me tivessem amputado um membro.»

«O GPT-5.5 é visivelmente mais inteligente e mais persistente do que o GPT-5.4, com um desempenho de programação mais forte e uso de ferramentas mais fiável. Mantém-se na tarefa por muito mais tempo sem parar demasiado cedo, o que é especialmente importante para o trabalho complexo e de longa duração que os nossos utilizadores delegam ao Cursor.»

— Michael Truell, Cofundador e CEO na Cursor

Trabalho de conhecimento

Os mesmos pontos fortes que tornam o GPT‑5.5 excelente a programar também o tornam poderoso para o trabalho do dia a dia num computador. Como o modelo é melhor a compreender a intenção, consegue percorrer de forma mais natural todo o ciclo do trabalho de conhecimento: encontrar informação, perceber o que importa, usar ferramentas, verificar o resultado e transformar matéria-prima em algo útil.

No Codex, o GPT‑5.5 é melhor do que o GPT‑5.4 a gerar documentos, folhas de cálculo e apresentações de diapositivos. Os testadores alpha disseram que superou modelos anteriores em trabalho como investigação operacional, modelação em folhas de cálculo e transformar inputs empresariais desorganizados em planos. Quando combinado com as capacidades de utilização do computador do Codex, o GPT‑5.5 aproxima-nos da sensação de que o modelo pode mesmo usar o computador consigo: ver o que está no ecrã, clicar, escrever, navegar pelas interfaces e alternar entre ferramentas com precisão.

Equipas na OpenAI já estão a usar estes pontos fortes em fluxos de trabalho reais. Hoje, mais de 85% da empresa usa o Codex todas as semanas em funções que incluem engenharia de software, finanças, comunicações, marketing, ciência de dados e gestão de produto. Em Comunicações, a equipa usou o GPT‑5.5 no Codex para analisar seis meses de dados de pedidos de intervenção, criar um framework de pontuação e risco e validar um agente Slack automatizado, para que pedidos de baixo risco pudessem ser tratados automaticamente, enquanto pedidos de maior risco continuassem a ser encaminhados para revisão humana. Em Finanças, a equipa usou o Codex para rever 24 771 formulários fiscais K-1, num total de 71 637 páginas, usando um fluxo de trabalho que excluía informação pessoal e ajudou a equipa a acelerar a tarefa em duas semanas face ao ano anterior. Na equipa de Go-to-Market, um colaborador automatizou a geração de relatórios semanais de negócio, poupando 5 a 10 horas por semana.

No ChatGPT, o GPT‑5.5 Thinking desbloqueia ajuda mais rápida para problemas mais difíceis, com respostas mais inteligentes e mais concisas para ajudar a avançar no trabalho complexo de forma mais eficiente. Destaca-se em trabalho profissional como programação, investigação, síntese e análise de informação e tarefas com muitos documentos, especialmente ao usar plugins.

No GPT‑5.5 Pro, os testadores iniciais estão a ver um avanço significativo tanto na dificuldade como na qualidade do trabalho que o ChatGPT consegue assumir, com melhorias de latência que o tornam muito mais prático para tarefas exigentes. Em comparação com o GPT‑5.4 Pro, os testadores consideraram as respostas do GPT‑5.5 Pro significativamente mais completas, bem estruturadas, precisas, relevantes e úteis, com um desempenho especialmente forte em negócios, jurídico, educação e ciência de dados.

O GPT‑5.5 atinge desempenho de última geração em vários benchmarks que refletem este tipo de trabalho. No GDPval⁠⁠, que testa a capacidade dos agentes de produzir trabalho de conhecimento bem especificado em 44 profissões, o GPT‑5.5 obtém 84,9%. No OSWorld-Verified, que mede se um modelo consegue operar ambientes informáticos reais por si só, alcança 78,7%. E no Tau2-bench Telecom, que testa fluxos de trabalho complexos de apoio ao cliente, alcança 98,0% sem afinação de prompts. O GPT‑5.5 também apresenta um forte desempenho noutros benchmarks de trabalho de conhecimento: 60,0% no FinanceAgent, 88,5% em tarefas internas de modelação de banca de investimento e 54,1% no OfficeQA Pro.

O Tau2-bench Telecom foi executado sem afinação de prompts (e com o GPT‑4.1 como modelo de utilizador). O GPT‑5.5 entende melhor a intenção da tarefa e é mais eficiente em tokens do que os seus antecessores.

«O GPT-5.5 oferece o desempenho sustentado necessário para trabalho de execução intensiva. Construído e disponibilizado em sistemas NVIDIA GB200 NVL72, o modelo permite às nossas equipas entregar funcionalidades ponta a ponta a partir de prompts em linguagem natural, reduzir o tempo de depuração de dias para horas e transformar semanas de experimentação em progresso de um dia para o outro em bases de código complexas. É mais do que programação mais rápida — é uma nova forma de trabalhar que ajuda as pessoas a operar a uma velocidade fundamentalmente diferente.»

— Justin Boitano, VP de IA Empresarial na NVIDIA

Investigação científica

O GPT‑5.5 também mostra ganhos em fluxos de trabalho de investigação científica e técnica, que exigem mais do que responder a uma pergunta difícil. Os investigadores precisam de explorar uma ideia, reunir evidência, testar pressupostos, interpretar resultados e decidir o que experimentar a seguir. O GPT‑5.5 é melhor do que outros modelos a manter-se nesse ciclo.

Notavelmente, o GPT‑5.5 mostra uma melhoria clara face ao GPT‑5.4 no GeneBench⁠(abre numa nova janela), uma nova eval focada na análise multietapas de dados científicos em genética e biologia quantitativa. Estes problemas exigem que os modelos raciocinem sobre dados potencialmente ambíguos ou com erros com orientação mínima de supervisão, enfrentem obstáculos realistas como confundidores ocultos ou falhas de QC e implementem e interpretem corretamente métodos estatísticos modernos. O desempenho do modelo é impressionante, tendo em conta que as tarefas aqui muitas vezes correspondem a projetos de vários dias para especialistas científicos.

Do mesmo modo, no BixBench⁠(abre numa nova janela), um benchmark concebido em torno da bioinformática e da análise de dados no mundo real, o GPT‑5.5 alcançou um desempenho líder entre modelos com pontuações publicadas. As capacidades científicas do modelo são agora suficientemente fortes para acelerar de forma significativa o progresso nas fronteiras da investigação biomédica como um co-cientista de pleno direito.

Noutro exemplo, uma versão interna do GPT‑5.5 com um harness personalizado ajudou a descobrir uma nova prova⁠(abre numa nova janela) sobre números de Ramsey, um dos objetos centrais da combinatória. A combinatória estuda como objetos discretos se encaixam: grafos, redes, conjuntos e padrões. Os números de Ramsey perguntam, em termos gerais, quão grande tem de ser uma rede antes de ser garantido que surge algum tipo de ordem. Os resultados nesta área são raros e muitas vezes tecnicamente difíceis. Aqui, o GPT‑5.5 encontrou uma prova de um facto assintótico de longa data sobre números de Ramsey fora da diagonal, mais tarde verificado em Lean. O resultado é um exemplo concreto de o GPT‑5.5 contribuir não só com código ou explicações, mas também com um argumento matemático surpreendente e útil numa área de investigação fundamental.

Os testadores iniciais usaram o GPT‑5.5 Pro no ChatGPT menos como um motor de respostas de uma só vez e mais como um parceiro de investigação: criticando manuscritos em várias passagens, pondo à prova argumentos técnicos, propondo análises e trabalhando com código, notas e contexto de PDFs. O denominador comum é que o GPT‑5.5 é melhor a ajudar os investigadores a passar da pergunta à experiência e ao resultado final.

Derya Unutmaz, professor de imunologia e investigador no Jackson Laboratory for Genomic Medicine, usou o GPT‑5.5 Pro para analisar um conjunto de dados de expressão génica com 62 amostras e quase 28 000 genes, produzindo um relatório de investigação detalhado que não só resumiu os resultados como também destacou questões e insights fundamentais — um trabalho que, segundo disse, teria levado meses à sua equipa.

Bartosz Naskręcki, professor auxiliar de matemática na Universidade Adam Mickiewicz em Poznań, Polónia, usou o GPT‑5.5 no Codex para criar uma aplicação de geometria algébrica a partir de um único prompt em 11 minutos, visualizando a interseção de superfícies quadráticas e convertendo a curva resultante num modelo de Weierstrass.

Mais tarde, alargou a aplicação com uma visualização de singularidades mais estável e coeficientes exatos que podem ser reutilizados em trabalho futuro. Para ele, a mudança maior é que o Codex pode agora ajudar a implementar fluxos de trabalho personalizados de visualização matemática e álgebra computacional que antes exigiam ferramentas dedicadas. Em conjunto, estes exemplos mostram o GPT‑5.5 a transformar a intenção de especialistas em ferramentas e análises de investigação funcionais.

Crédito: Bartosz Naskręcki⁠(abre numa nova janela)

Prompt: # Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Main window

Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve

Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level

## Side right window

Equação curta de Weierstrass (sobre Q ou uma extensão quadrática de corpos) calculada em Go através de fórmulas efetivas do teorema de Riemann-Roch

## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes

## Specs

App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

«É incrivelmente estimulante usar o novo modelo GPT-5.5 da OpenAI no nosso harness, fazê-lo raciocinar sobre enormes conjuntos de dados bioquímicos para prever resultados de fármacos em humanos e, depois, ver como obtém ganhos significativos de precisão nas nossas evals de descoberta de fármacos mais exigentes. Se a OpenAI continuar neste ritmo, os fundamentos da descoberta de fármacos vão mudar até ao final do ano.»

— Brandon White, Cofundador e CEO da Axiom Bio

Eficiência de inferência de nova geração

Disponibilizar o GPT‑5.5 com a latência do GPT‑5.4 exigiu repensar a inferência como um sistema integrado, e não como um conjunto de otimizações isoladas. O GPT‑5.5 foi co-concebido para, treinado com e disponibilizado em sistemas NVIDIA GB200 e GB300 NVL72. O Codex e o GPT‑5.5 foram fundamentais para alcançarmos as nossas metas de desempenho. O Codex ajudou a equipa a passar mais depressa da ideia para uma implementação passível de benchmark, esboçando abordagens, montando experiências e ajudando a identificar quais as otimizações que valiam um investimento mais aprofundado. O GPT‑5.5 ajudou a encontrar e implementar melhorias-chave na própria stack. Dito de forma simples, o modelo ajudou a melhorar a infraestrutura que o disponibiliza.

Uma dessas melhorias foi a implementação de heurísticas de balanceamento de carga e de particionamento. Antes do GPT‑5.5, dividíamos os pedidos num acelerador num número fixo de chunks para equilibrar o trabalho entre núcleos de computação, garantindo que pedidos grandes e pequenos podiam correr na mesma GPU. No entanto, um número pré-determinado de chunks estáticos não é ideal para todas as formas de tráfego. Para aproveitar melhor as GPUs, o Codex analisou padrões de tráfego de produção de várias semanas e escreveu algoritmos heurísticos personalizados para particionar e equilibrar o trabalho de forma ótima. O esforço teve um impacto desproporcionado, aumentando as velocidades de geração de tokens em mais de 20%.

A fazer avançar a cibersegurança para a segurança de todos

Preparar o mundo para modelos que são muito bons a encontrar e corrigir vulnerabilidades de segurança é um trabalho de equipa e exigirá que todo o ecossistema trabalhe arduamente para construir resiliência, com acesso democratizado aos modelos e disponibilização iterativa para a próxima era da ciberdefesa⁠.

Os modelos de fronteira estão a tornar-se cada vez mais capazes em cibersegurança. Essas capacidades vão tornar-se amplamente disseminadas e acreditamos que o melhor caminho a seguir é garantir que podem ser usadas para acelerar a ciberdefesa e reforçar o ecossistema.

O GPT‑5.5 é um passo incremental, mas importante, rumo a uma IA capaz de resolver alguns dos desafios mais difíceis do mundo, como a cibersegurança. Com o GPT‑5.2 em dezembro, implementámos proativamente as salvaguardas de cibersegurança⁠ necessárias para limitar o potencial abuso cibernético com os nossos modelos; agora, com o GPT‑5.5, estamos a implementar classificadores mais rigorosos para risco cibernético potencial, que alguns utilizadores poderão achar inicialmente irritantes, à medida que os ajustamos ao longo do tempo.

Há anos que identificamos a cibersegurança como uma categoria no nosso Preparedness Framework⁠(abre numa nova janela), à medida que os nossos modelos foram melhorando de forma incremental, enquanto desenvolvemos e calibramos medidas de mitigação de forma iterativa, para podermos lançar, de forma responsável, modelos com capacidades significativas de cibersegurança.

Estamos a implementar salvaguardas líderes do setor para este nível de capacidade em cibersegurança.Apresentámos pela primeira vez salvaguardas específicas de cibersegurança com o GPT‑5.2⁠(abre numa nova janela) no ano passado, que continuámos a testar, refinar e desenvolver em implementações subsequentes. Para o GPT‑5.5, concebemos controlos mais apertados em torno de atividade de maior risco, pedidos sensíveis de cibersegurança e acrescentámos proteções contra uso indevido repetido. O acesso alargado é possível graças aos nossos investimentos em segurança do modelo, utilização autenticada e monitorização de utilização não permitida. Há meses que trabalhamos com especialistas externos para desenvolver, testar e iterar estas salvaguardas, reforçando a sua robustez. Com o GPT‑5.5, estamos a garantir que os developers conseguem proteger o seu código com facilidade, ao mesmo tempo que implementamos controlos mais fortes em torno dos fluxos de trabalho de cibersegurança com maior probabilidade de causar danos por parte de agentes maliciosos.
Estamos a expandir o acesso para acelerar a ciberdefesa a todos os níveis.Estamos a disponibilizar os nossos modelos permissivos em cibersegurança através do Trusted Access for Cyber⁠, começando pelo Codex, que inclui acesso alargado às capacidades avançadas de cibersegurança do GPT‑5.5 com menos restrições para utilizadores verificados que cumpram determinados sinais de confiança⁠(abre numa nova janela) no lançamento. As organizações responsáveis por defender infraestruturas críticas⁠ podem candidatar-se a aceder a modelos permissivos em cibersegurança, como o GPT‑5.4‑Cyber, cumprindo requisitos rigorosos de segurança para usar estes modelos na proteção dos seus sistemas internos. Isto dá a uma vasta gama de defensores verificados ferramentas mais capazes para trabalho legítimo de segurança, com menos fricção desnecessária, garantindo que democratizamos o acesso a capacidades defensivas importantes. Os utilizadores podem candidatar-se a acesso de confiança em chatgpt.com/cyber⁠(abre numa nova janela) para reduzir recusas desnecessárias ao usar o GPT‑5.5 para trabalho defensivo verificado.
Estamos a trabalhar com parceiros governamentais para ajudar a proteger infraestruturas críticas para a população.Em conjunto, estamos a explorar como a IA avançada pode apoiar o trabalho defensivo de responsáveis de confiança por sistemas dos quais as pessoas dependem, desde os sistemas digitais que protegem dados importantes dos contribuintes até à rede elétrica e ao abastecimento de água nas comunidades locais.

Estamos a tratar as capacidades biológicas/químicas e de cibersegurança do GPT‑5.5 como High no nosso Preparedness Framework⁠(abre numa nova janela). Embora o GPT‑5.5 não tenha atingido o nível Critical de capacidade em cibersegurança, as nossas avaliações e testes mostraram que as suas capacidades de cibersegurança são um avanço em comparação com o GPT‑5.4.

Além disso, o GPT‑5.5 passou pelo nosso processo completo de segurança e governação antes do lançamento, incluindo avaliações de preparação, testes específicos por domínio, novas avaliações direcionadas para capacidades avançadas de biologia e cibersegurança e testes robustos com especialistas externos. Partilhamos mais detalhes na system card⁠(abre numa nova janela) do GPT‑5.5.

Este trabalho reflete a nossa abordagem mais ampla de resiliência em IA, que acreditamos ser necessária à medida que as capacidades dos modelos avançam. Queremos que a IA poderosa esteja disponível para as pessoas que a usam para defender sistemas, instituições e a população. O caminho viável é o acesso de confiança, salvaguardas robustas que evoluem com a capacidade e a capacidade operacional para detetar e responder a uso indevido grave.

Disponibilidade e preços

No ChatGPT, o GPT‑5.5 Thinking está disponível para utilizadores Plus, Pro, Business e Enterprise. O GPT‑5.5 Pro, concebido para perguntas ainda mais difíceis e trabalho de maior precisão, está disponível para utilizadores Pro, Business e Enterprise.

No Codex, o GPT‑5.5 está disponível nos planos Plus, Pro, Business, Enterprise, Edu e Go com uma janela de contexto de 400K. O GPT‑5.5 também está disponível no modo Fast, gerando tokens 1,5x mais depressa por 2,5x o custo.

Para developers de API, o gpt-5.5 estará em breve disponível nas APIs de Responses e Chat Completions a $5 por 1M de tokens de entrada e $30 por 1M de tokens de saída, com uma janela de contexto de 1M. Os preços Batch e Flex estão disponíveis a metade da tarifa standard da API, enquanto o processamento Priority está disponível a 2,5x da tarifa standard. Também iremos lançar o gpt-5.5-pro na API para uma precisão ainda maior, com um preço de $30 por 1M de tokens de entrada e $180 por 1M de tokens de saída. Consulte a página de preços⁠ para ver todos os detalhes.

Embora o GPT‑5.5 tenha um preço superior ao do GPT‑5.4, é ao mesmo tempo mais inteligente e muito mais eficiente em tokens. No Codex, afinámos cuidadosamente a experiência para que o GPT‑5.5 ofereça melhores resultados com menos tokens do que o GPT‑5.4 para a maioria dos utilizadores, continuando a oferecer uma utilização generosa em todos os níveis de subscrição.

Avaliações

Programação

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (Public) *	58,6%	57.70%	-	-	64,3%	54,2%
Terminal-Bench 2.0	82,70%	75,1%	-	-	69,4%	68,5%
Especialista-SWE (interno)	73,1%	68,5%	-	-	-	-

^*Os ^{laboratórios assinalaram}^{indícios de memorização}⁠(abre numa nova janela)^{nesta eval}

Profissional

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (wins or ties)	84,9%	83.00%	82,3%	82%	80,3%	67.3%
FinanceAgent v1.1	60,0%	56%	-	61,5%	64,4%	59,7%
Tarefas de Modelação de Banca de Investimento (Interno)	88,5%	87,3%	88,6%	83,6%	-	-
OfficeQA Pro	54,1%	53,2%	-	-	43,6%	18,1%

Utilização do computador e visão

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified	78,7%	75.00%	-	-	78,0%	-
MMMU Pro (sem ferramentas)	81,2%	81,2%	-	-	-	80,5%
MMMU Pro (com ferramentas)	83,2%	82,1%	-	-	-	-

Utilização de ferramentas

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84,4%	82,70%	90,1%	89,3%	79,3%	85,9%
MCP Atlas**	75,3%	70,6%	-	-	79,1%	78,2%
Toolathlon	55,6%	54,6%	-	-	-	48,8%
Tau2-bench Telecom*** (prompts originais)	98.0%	92.8%	-	-	-	-

^{** MCP Atlas: resultados da Scale AI após a última atualização de abril de 2026.
*** Tau2-bench telecom: resultados do 5.5 e do 5.4 com os prompts originais, i.e., sem ajuste de prompts. Isto exclui resultados de outros laboratórios que foram avaliados com ajustes de prompts.}

Académico

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25,0%	19,0%	33,2%	25,6%	-	-
FrontierMath Níveis 1–3	51,7%	47,6%	52,4%	50%	43,8%	36,9%
FrontierMath Nível 4	35,4%	27,1%	39,6%	38,0%	22,9%	16.7%
BixBench	80,5%	74%	-	-	-	-
GPQA Diamond	93,6%	92.8%	-	94,4%	94,2%	94,3%
Humanity's Last Exam (sem ferramentas)	41,4%	39,8%	43,1%	42,7%	46,9%	44,4%
Humanity's Last Exam (com ferramentas)	52,2%	52,1%	57,2%	58,7%	54,7%	51,4%

Cibersegurança

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Tarefas de desafio Capture-the-Flags (Interno)****	88,10%	83,7%	-	-	-	-
CyberGym	81,8%	79,0%	-	-	73,1%	-

^{**** Uma expansão dos CTFs mais difíceis usados em system cards, com desafios adicionais igualmente exigentes.}

Contexto longo

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256k f1	73,7 %	62,5%	-	-	76,9%	-
Graphwalks BFS 1 mil f1	45,4%	9,4%	-	-	41,2% (Opus 4.6)	-
Graphwalks pais 256 000 f1	90,1%	82,8%	-	-	93,6%	-
Graphwalks pais 1.000 f1	58,5%	44,4%	-	-	72.0% (Opus 4.6)	-
OpenAI MRCR v2 8-needle 4K–8K	98,1%	97,3%	-	-	-	-
OpenAI MRCR v2 8-needle 8K-16K	93%	91,4%	-	-	-	-
OpenAI MRCR v2 8-needle 16K-32K	96,5%	97,2%	-	-	-	-
OpenAI MRCR v2 8-agulhas 32K-64K	90,00%	90,5%	-	-	-	-
OpenAI MRCR v2 8-needle 64K-128K	83,1%	86%	-	-	-	-
OpenAI MRCR v2 8-needle 128K-256K	87,5%	79,3%	-	-	59,2%	-
OpenAI MRCR v2 8-needle 256K-512K	81,5%	57,5%	-	-	-	-
OpenAI MRCR v2 8-agulhas 512K–1M	74%	36,6%	-	-	32,2%	-

Raciocínio abstrato

Avaliação	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Verificado)	95,0%	93,7%	-	94,5%	93,5%	98.0%
ARC-AGI-2 (Verificado)	85.0%	73,3%	-	83,3%	75.8%	77.1%

As evals do GPT foram executadas com o esforço de raciocínio definido como xhigh e realizadas num ambiente de investigação, o que pode produzir resultados ligeiramente diferentes do ChatGPT em produção em alguns casos.