23 de abril de 2026

Apresentando o GPT‑5.5

Uma nova classe de inteligência para o trabalho de verdade

Carregando…

Atualização de 24 de abril de 2026: o GPT‑5.5 e o GPT‑5.5 Pro já estão disponíveis na API. O system card também foi atualizado para descrever as salvaguardas adicionais aplicáveis.

Estamos lançando o GPT‑5.5, nosso modelo mais inteligente e mais intuitivo de usar até agora, e o próximo passo rumo a uma nova forma de realizar trabalho no computador.

O GPT‑5.5 entende mais rápido o que você está tentando fazer e consegue assumir mais do trabalho por conta própria. Ele se destaca em escrever e depurar código, pesquisar online, analisar dados, criar documentos e planilhas, operar softwares e alternar entre ferramentas até que uma tarefa seja concluída. Em vez de gerenciar cuidadosamente cada etapa, você pode dar ao GPT‑5.5 uma tarefa confusa, com várias partes, e confiar que ele vai planejar, usar ferramentas, checar o próprio trabalho, navegar pela ambiguidade e continuar.

Os ganhos são especialmente fortes em programação com agentes, uso do computador, trabalho de conhecimento e pesquisa científica inicial — áreas em que o progresso depende de raciocinar com base no contexto e tomar ações ao longo do tempo. O GPT‑5.5 entrega esse salto de inteligência sem comprometer a velocidade: modelos maiores e mais capazes costumam ser mais lentos para servir, mas o GPT‑5.5 iguala a latência por token do GPT‑5.4 em produção, enquanto atua em um nível de inteligência muito mais alto. Ele também usa significativamente menos tokens para concluir as mesmas tarefas do Codex, tornando-se mais eficiente e mais capaz.

Estamos lançando o GPT‑5.5 com nosso conjunto de salvaguardas mais robusto até hoje, criado para reduzir o uso indevido enquanto preserva o acesso para trabalhos benéficos. Avaliamos este modelo em toda a nossa suíte de frameworks de segurança e prontidão, trabalhamos com redteamers internos e externos, adicionamos testes direcionados para capacidades avançadas de cibersegurança e biologia e coletamos feedback de casos de uso reais de quase 200 parceiros confiáveis de acesso antecipado antes do lançamento.

Hoje, o GPT‑5.5 está sendo disponibilizado para usuários Plus, Pro, Business e Enterprise no ChatGPT e no Codex, e o GPT‑5.5 Pro está sendo disponibilizado para usuários Pro, Business e Enterprise no ChatGPT. As implantações na API exigem salvaguardas diferentes, e estamos trabalhando de perto com parceiros e clientes nos requisitos de segurança e proteção para servi-lo em escala. Vamos levar o GPT‑5.5 e o GPT‑5.5 Pro para a API muito em breve.

	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.70%	75,1%	-	-	69,4%	68,5%
Expert-SWE (Internal)	73,1%	68,5%	-	-	-	-
GDPval (wins or ties)	84,9%	83.00%	82,3%	82.0%	80,3%	67,3%
OSWorld-Verified	78,7%	75.00%	-	-	78,0%	-
Toolathlon	55,6%	54.6%	-	-	-	48,8%
BrowseComp	84,4%	82.70%	90,1%	89.3%	79.3%	85,9%
FrontierMath Tier 1–3	51,7%	47,6%	52,4%	50.0%	43,8%	36,9%
FrontierMath Tier 4	35,4%	27.1%	39,6%	38.0%	22,9%	16,7%
CyberGym	81,8%	79,0%	-	-	73,1%	-

Capacidades do modelo

A OpenAI está construindo a infraestrutura global para IA com agentes, permitindo que pessoas e empresas no mundo todo realizem trabalho com IA. No último ano, vimos a IA acelerar drasticamente a engenharia de software. Com o GPT‑5.5 no Codex e no ChatGPT, essa mesma transformação está começando a se estender à pesquisa científica e ao trabalho mais amplo que as pessoas fazem nos computadores.

Em todas essas áreas, o GPT‑5.5 não é apenas mais inteligente; ele é mais eficiente na forma como resolve problemas, muitas vezes chegando a resultados de maior qualidade com menos tokens e menos tentativas. No Coding Index da Artificial Analysis, o GPT‑5.5 entrega inteligência de ponta a metade do custo de modelos de programação de fronteira concorrentes.

O Artificial Analysis Intelligence Index⁠(abre em uma nova janela) é uma média ponderada de 10 avaliações realizadas por um terceiro: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity's Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.

Programação com agentes

O GPT‑5.5 é nosso modelo de programação com agentes mais forte até hoje. No Terminal-Bench 2.0, que testa fluxos de trabalho complexos de linha de comando que exigem planejamento, iteração e coordenação de ferramentas, ele alcança uma acurácia de última geração de 82.7%. No SWE-Bench Pro, que avalia a resolução de issues do GitHub no mundo real, ele atinge 58.6%, resolvendo mais tarefas de ponta a ponta em uma única passagem do que modelos anteriores. No Expert-SWE, nossa avaliação interna de fronteira para tarefas de programação de longo horizonte, com tempo mediano estimado de conclusão humana de 20 horas, o GPT‑5.5 também supera o GPT‑5.4.

Em todas as três avaliações, o GPT‑5.5 melhora os resultados do GPT‑5.4 enquanto usa menos tokens.

Testes iniciais sugerem que o GPT‑5.5 é melhor nos comportamentos de que o trabalho de engenharia real depende, como manter o contexto em sistemas grandes, raciocinar diante de falhas ambíguas, verificar suposições com ferramentas e propagar mudanças pelo restante da base de código. Os testes iniciais sugerem que o GPT‑5.5 é melhor nos comportamentos dos quais o trabalho real de engenharia depende, como manter o contexto em sistemas grandes, raciocínio diante de falhas ambíguas, verificar suposições com ferramentas e propagar alterações por toda a base de código ao redor.

A trajetória renderizada usa dados vetoriais do NASA/JPL Horizons para Orion, a Lua e o Sol, com escala de exibição aplicada para facilitar a leitura.

Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.

Além dos benchmarks, os testadores iniciais disseram que o GPT‑5.5 mostra uma capacidade maior de entender a estrutura de um sistema: por que algo está falhando, onde a correção precisa entrar e o que mais na base de código seria afetado.

"O primeiro modelo de programação que já usei com uma clareza conceitual de verdade."

Dan Shipper, fundador e CEO da Every, descreveu o GPT‑5.5 como "o primeiro modelo de programação que já usei com uma clareza conceitual de verdade."

Depois de lançar um app, ele passou dias depurando um problema pós-lançamento antes de chamar um de seus melhores engenheiros para reescrever parte do sistema. Para testar o GPT‑5.5, ele efetivamente voltou no tempo: o modelo conseguiria olhar para o estado quebrado e produzir o mesmo tipo de reescrita que o engenheiro acabou decidindo fazer? O GPT‑5.4 não conseguiu. O GPT‑5.5 conseguiu.

"Parece genuinamente que estou trabalhando com uma inteligência superior, e há quase uma sensação de respeito."

Pietro Schirano, CEO da MagicPath, viu uma mudança de patamar semelhante quando o GPT‑5.5 mesclou um branch com centenas de mudanças de frontend e refatoração na branch main, que também havia mudado substancialmente, resolvendo o trabalho de uma só vez em cerca de 20 minutos.

Engenheiros seniores que testaram o modelo disseram que o GPT‑5.5 foi visivelmente mais forte do que o GPT‑5.4 e o Claude Opus 4.7 em raciocínio e autonomia, identificando problemas com antecedência e prevendo necessidades de testes e revisão sem instruções explícitas. Em um caso, um engenheiro pediu que ele reestruturasse a arquitetura de um sistema de comentários em um editor colaborativo de markdown e voltou para uma stack de 12 diffs quase pronta. Outros disseram que precisaram de surpreendentemente poucas correções de implementação e se sentiram mais confiantes nos planos do GPT‑5.5 em comparação com o GPT‑5.4.

Um engenheiro da NVIDIA que teve acesso antecipado ao modelo chegou a dizer: "Perder o acesso ao GPT‑5.5 é como ter um membro amputado."

"O GPT-5.5 é visivelmente mais inteligente e mais persistente do que o GPT-5.4, com desempenho de programação mais forte e uso de ferramentas mais confiável. Ele permanece na tarefa por muito mais tempo, sem parar cedo demais, o que é crucial para o trabalho complexo e de longa duração que nossos usuários delegam ao Cursor."

— Michael Truell, cofundador e CEO da Cursor

Trabalho de conhecimento

As mesmas qualidades que tornam o GPT‑5.5 ótimo em programação também o tornam poderoso para o trabalho cotidiano no computador. Como o modelo entende melhor a intenção, ele consegue percorrer de forma mais natural o ciclo completo do trabalho de conhecimento: encontrar informações, entender o que importa, usar ferramentas, verificar o resultado e transformar matéria-prima em algo útil.

No Codex, o GPT‑5.5 é melhor do que o GPT‑5.4 para gerar documentos, planilhas e apresentações de slides. Testadores alfa disseram que ele superou modelos anteriores em trabalhos como pesquisa operacional, modelagem em planilhas e transformar entradas de negócios bagunçadas em planos. Quando combinado com as habilidades de uso do computador do Codex, o GPT‑5.5 nos aproxima da sensação de que o modelo pode realmente usar o computador com você: ver o que está na tela, clicar, digitar, navegar por interfaces e transitar entre ferramentas com precisão.

Equipes na OpenAI já estão usando essas qualidades em fluxos de trabalho reais. Hoje, mais de 85% da empresa usa o Codex toda semana em áreas como engenharia de software, finanças, comunicação, marketing, ciência de dados e gestão de produto. Na área de Comunicação, a equipe usou o GPT‑5.5 no Codex para analisar seis meses de dados de solicitações de palestras, criar um framework de pontuação e risco e validar um agente automatizado no Slack, para que solicitações de baixo risco fossem tratadas automaticamente, enquanto as de maior risco continuassem sendo encaminhadas para revisão humana. Em Finanças, a equipe usou o Codex para revisar 24,771 formulários fiscais K-1, totalizando 71,637 páginas, usando um fluxo de trabalho que excluía informações pessoais e ajudou a equipe a acelerar a tarefa em duas semanas em comparação com o ano anterior. Na equipe de Go-to-Market, uma pessoa automatizou a geração de relatórios semanais de negócios, economizando 5-10 horas por semana.

No ChatGPT, o GPT‑5.5 Thinking libera ajuda mais rápida para problemas mais difíceis, com respostas mais inteligentes e mais concisas para ajudar você a avançar pelo trabalho complexo com mais eficiência. Ele se destaca em trabalho profissional como programação, pesquisa, síntese e análise de informações e tarefas com muitos documentos, especialmente ao usar plugins.

No GPT‑5.5 Pro, os testadores iniciais estão vendo um salto significativo tanto na dificuldade quanto na qualidade do trabalho que o ChatGPT consegue assumir, com melhorias de latência que o tornam muito mais prático para tarefas exigentes. Em comparação com o GPT‑5.4 Pro, os testadores acharam as respostas do GPT‑5.5 Pro significativamente mais abrangentes, bem estruturadas, precisas, relevantes e úteis, com desempenho especialmente forte em negócios, área jurídica, educação e ciência de dados.

O GPT‑5.5 alcança desempenho de ponta em múltiplos benchmarks que refletem esse tipo de trabalho. No GDPval⁠⁠, que testa a capacidade dos agentes de produzir trabalho de conhecimento bem especificado em 44 ocupações, o GPT‑5.5 marca 84.9%. No OSWorld-Verified, que mede se um modelo consegue operar ambientes reais de computador por conta própria, ele chega a 78.7%. E no Tau2-bench Telecom, que testa fluxos de trabalho complexos de atendimento ao cliente, ele chega a 98.0% sem prompt tuning. O GPT‑5.5 também tem bom desempenho em outros benchmarks de trabalho de conhecimento: 60.0% no FinanceAgent, 88.5% em tarefas internas de modelagem de banco de investimento e 54.1% no OfficeQA Pro.

O Tau2-bench Telecom foi executado sem prompt tuning (e com o GPT‑4.1 como modelo de usuário). O GPT‑5.5 entende melhor a intenção da tarefa e é mais eficiente em tokens do que seus antecessores.

"O GPT-5.5 entrega o desempenho sustentado necessário para trabalho intensivo de execução. Construído e executado em sistemas NVIDIA GB200 NVL72, o modelo permite que nossas equipes entreguem funcionalidades de ponta a ponta a partir de prompts em linguagem natural, reduzam o tempo de depuração de dias para horas e transformem semanas de experimentação em progresso da noite para o dia em bases de código complexas. É mais do que codificar mais rápido — é uma nova forma de trabalhar que ajuda as pessoas a operar em uma velocidade fundamentalmente diferente."

— Justin Boitano, VP de IA Empresarial na NVIDIA

Pesquisa científica

O GPT‑5.5 também mostra ganhos em fluxos de trabalho de pesquisa científica e técnica, que exigem mais do que responder a uma pergunta difícil. Pesquisadores precisam explorar uma ideia, reunir evidências, testar suposições, interpretar resultados e decidir o que tentar em seguida. O GPT‑5.5 é melhor do que outros modelos em persistir ao longo desse ciclo.

Notavelmente, o GPT‑5.5 mostra uma melhora clara em relação ao GPT‑5.4 no GeneBench⁠(abre em uma nova janela), uma nova avaliação focada em análise científica de dados em múltiplas etapas em genética e biologia quantitativa. Esses problemas exigem que os modelos raciocinem sobre dados potencialmente ambíguos ou com erros, com orientação mínima de supervisão, enfrentem obstáculos realistas como fatores de confusão ocultos ou falhas de QC (controle de qualidade) e implementem e interpretem corretamente métodos estatísticos modernos. O desempenho do modelo é impressionante considerando que as tarefas aqui muitas vezes correspondem a projetos de vários dias para especialistas científicos.

Da mesma forma, no BixBench⁠(abre em uma nova janela), um benchmark projetado em torno de bioinformática e análise de dados do mundo real, o GPT‑5.5 alcançou desempenho líder entre os modelos com resultados publicados. As capacidades científicas do modelo agora são fortes o suficiente para acelerar de forma significativa o progresso nas fronteiras da pesquisa biomédica como um co-cientista de verdade.

Em outro exemplo, uma versão interna do GPT‑5.5 com um harness personalizado ajudou a descobrir uma nova demonstração⁠(abre em uma nova janela) sobre números de Ramsey, um dos objetos centrais da combinatória. A combinatória estuda como objetos discretos se encaixam: grafos, redes, conjuntos e padrões. Os números de Ramsey perguntam, em linhas gerais, quão grande uma rede precisa ser antes que algum tipo de ordem seja garantido. Resultados nessa área são raros e, muitas vezes, tecnicamente difíceis. Aqui, o GPT‑5.5 encontrou uma demonstração de um fato assintótico de longa data sobre números de Ramsey fora da diagonal, depois verificado em Lean. O resultado é um exemplo concreto de o GPT‑5.5 contribuir não apenas com código ou explicação, mas com um argumento matemático surpreendente e útil em uma área central de pesquisa.

Testadores iniciais usaram o GPT‑5.5 Pro no ChatGPT menos como um mecanismo de respostas de uma só vez e mais como um parceiro de pesquisa: criticando manuscritos em várias rodadas, colocando à prova argumentos técnicos, propondo análises e trabalhando com código, anotações e contexto de PDFs. O ponto em comum é que o GPT‑5.5 é melhor em ajudar pesquisadores a ir da pergunta ao experimento e ao resultado.

Derya Unutmaz, professor e pesquisador de imunologia no Jackson Laboratory for Genomic Medicine, usou o GPT‑5.5 Pro para analisar um conjunto de dados de expressão gênica com 62 amostras e quase 28.000 genes, produzindo um relatório de pesquisa detalhado que não apenas resumiu as descobertas, mas também trouxe à tona perguntas e insights-chave — um trabalho que, segundo ele, teria levado meses para sua equipe.

Bartosz Naskręcki, professor assistente de matemática na Universidade Adam Mickiewicz em Poznań, Polônia, usou o GPT‑5.5 no Codex para criar um app de geometria algébrica a partir de um único prompt em 11 minutos, visualizando a interseção de superfícies quadráticas e convertendo a curva resultante em um modelo de Weierstrass.

Depois, ele expandiu o app com uma visualização de singularidade mais estável e coeficientes exatos que podem ser reutilizados em trabalhos futuros. Para ele, a mudança maior é que agora o Codex pode ajudar a implementar fluxos de trabalho personalizados de visualização matemática e de álgebra computacional que antes exigiam ferramentas dedicadas. Juntos, esses exemplos mostram o GPT‑5.5 transformando a intenção de especialistas em ferramentas e análises de pesquisa funcionando na prática.

Crédito: Bartosz Naskręcki⁠(abre em uma nova janela)

Prompt: # Algebraic geometry surface intersection

Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.

## Main window

Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve

Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level

## Side right window

Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas

## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes

## Specs

App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable

## Docs

Git repo, journal, plan (Markdown files)

"É incrivelmente empolgante usar o novo modelo GPT-5.5 da OpenAI no nosso harness, fazer com que ele raciocine sobre enormes conjuntos de dados bioquímicos para prever desfechos de medicamentos em humanos e, então, ver ganhos significativos de precisão nas nossas avaliações mais difíceis de descoberta de fármacos. Se a OpenAI continuar nesse ritmo, os fundamentos da descoberta de fármacos vão mudar até o fim do ano."

— Brandon White, cofundador e CEO da Axiom Bio

Eficiência de inferência de próxima geração

Servir o GPT‑5.5 com a latência do GPT‑5.4 exigiu repensar a inferência como um sistema integrado, não como um conjunto de otimizações isoladas. O GPT‑5.5 foi co-projetado para, treinado com e servido em sistemas NVIDIA GB200 e GB300 NVL72. O Codex e o GPT‑5.5 foram fundamentais para alcançarmos nossas metas de desempenho. O Codex ajudou a equipe a ir mais rápido da ideia a uma implementação passível de benchmarking, esboçando abordagens, conectando experimentos e ajudando a identificar quais otimizações valiam um investimento mais profundo. O GPT‑5.5 ajudou a encontrar e implementar melhorias-chave na própria stack. Em termos simples, o modelo ajudou a melhorar a infraestrutura que o serve.

Uma dessas melhorias foi em heurísticas de balanceamento de carga e particionamento. Antes do GPT‑5.5, dividíamos as requisições em um acelerador em um número fixo de chunks para balancear o trabalho entre núcleos de computação, garantindo que requisições grandes e pequenas pudessem rodar na mesma GPU. No entanto, um número pré-determinado de chunks estáticos não é ideal para todos os perfis de tráfego. Para utilizar melhor as GPUs, o Codex analisou padrões de tráfego em produção de várias semanas e escreveu algoritmos heurísticos personalizados para particionar e balancear o trabalho de forma otimizada. O esforço teve um impacto desproporcional, aumentando as velocidades de geração de tokens em mais de 20%.

Avançando a cibersegurança para a segurança de todos

Preparar o mundo para modelos que são muito bons em encontrar e corrigir vulnerabilidades de segurança é um esporte de equipe e exigirá que todo o ecossistema trabalhe duro para construir resiliência, com acesso democratizado aos modelos e implantação iterativa para a próxima era da defesa cibernética⁠.

Modelos de fronteira estão se tornando cada vez mais capazes em cibersegurança. Essas capacidades serão amplamente distribuídas, e acreditamos que o melhor caminho é garantir que possam ser usadas para acelerar a defesa cibernética e fortalecer o ecossistema.

O GPT‑5.5 é um passo incremental, mas importante, rumo a uma IA capaz de resolver alguns dos desafios mais difíceis do mundo, como a cibersegurança. Com o GPT‑5.2 em dezembro, implementamos proativamente as salvaguardas cibernéticas⁠ necessárias para limitar o possível abuso cibernético com nossos modelos; agora, com o GPT‑5.5, estamos implementando classificadores mais rigorosos para risco cibernético potencial, que alguns usuários podem achar incômodos no começo, enquanto os ajustamos ao longo do tempo.

Há anos identificamos a cibersegurança como uma categoria no nosso Preparedness Framework⁠(abre em uma nova janela) à medida que nossos modelos foram melhorando incrementalmente, enquanto desenvolvemos e calibramos mitigações de forma iterativa, para conseguir lançar de forma responsável modelos com capacidades relevantes de cibersegurança.

Estamos implementando salvaguardas líderes do setor para este nível de capacidade cibernética. Apresentamos salvaguardas específicas para cibersegurança pela primeira vez com o GPT‑5.2⁠(abre em uma nova janela) no ano passado, e continuamos testando, refinando e evoluindo essas proteções em implantações subsequentes. Para o GPT‑5.5, criamos controles mais rigorosos para atividades de maior risco, solicitações cibernéticas sensíveis e adicionamos proteções contra uso indevido repetido. O acesso amplo é viabilizado por nossos investimentos em segurança do modelo, uso autenticado e monitoramento de uso não permitido. Há meses, trabalhamos com especialistas externos para desenvolver, testar e iterar sobre a robustez dessas salvaguardas. Com o GPT‑5.5, estamos garantindo que desenvolvedores consigam proteger seu código com facilidade, ao mesmo tempo em que aplicamos controles mais fortes aos fluxos de trabalho cibernéticos mais propensos a causar danos quando usados por agentes mal-intencionados.
Estamos ampliando o acesso para acelerar a defesa cibernética em todos os níveis. Estamos disponibilizando nossos modelos com permissões ampliadas para cibersegurança por meio do Trusted Access for Cyber⁠, começando pelo Codex, que inclui acesso ampliado às capacidades avançadas de cibersegurança do GPT‑5.5 com menos restrições para usuários verificados que atendam a determinados sinais de confiança⁠(abre em uma nova janela) no lançamento. Organizações responsáveis por defender infraestrutura crítica⁠ podem se candidatar para acessar modelos com permissões ampliadas para cibersegurança, como o GPT‑5.4‑Cyber, cumprindo requisitos rigorosos de segurança para usar esses modelos na proteção de seus sistemas internos. Isso oferece a uma ampla gama de defensores verificados ferramentas mais capazes para trabalho legítimo de segurança, com menos atrito desnecessário, garantindo a democratização do acesso a importantes capacidades defensivas. Usuários podem solicitar acesso confiável em chatgpt.com/cyber⁠(abre em uma nova janela) para reduzir recusas desnecessárias ao usar o GPT‑5.5 em trabalho defensivo verificado.
Estamos trabalhando com parceiros governamentais para ajudar a proteger a infraestrutura crítica em benefício do público.Juntos, estamos explorando como a IA avançada pode apoiar o trabalho defensivo de autoridades confiáveis responsáveis por sistemas dos quais as pessoas dependem, desde os sistemas digitais que protegem dados importantes de contribuintes até a rede elétrica e o abastecimento de água em comunidades locais.

Estamos tratando as capacidades biológicas/químicas e de cibersegurança do GPT‑5.5 como High sob o nosso Preparedness Framework⁠(abre em uma nova janela). Embora o GPT‑5.5 não tenha atingido o nível de capacidade de cibersegurança Critical, nossas avaliações e testes mostraram que suas capacidades de cibersegurança representam um avanço em relação ao GPT‑5.4.

Além disso, antes do lançamento, o GPT‑5.5 passou por todo o nosso processo de segurança e governança, incluindo avaliações de prontidão, testes específicos por domínio, novas avaliações direcionadas para capacidades avançadas de biologia e cibersegurança e testes robustos com especialistas externos. Compartilhamos mais detalhes no system card⁠(abre em uma nova janela) do GPT‑5.5.

Esse trabalho reflete nossa abordagem mais ampla de resiliência em IA, que acreditamos ser necessária à medida que as capacidades dos modelos avançam. Queremos que uma IA poderosa esteja disponível para as pessoas que a usam para defender sistemas, instituições e o público. O caminho viável é o acesso confiável, salvaguardas robustas que evoluem com a capacidade e a capacidade operacional de detectar e responder a usos indevidos graves.

Disponibilidade e preços

No ChatGPT, o GPT‑5.5 Thinking está disponível para usuários Plus, Pro, Business e Enterprise. O GPT‑5.5 Pro, criado para perguntas ainda mais difíceis e trabalhos de maior precisão, está disponível para usuários Pro, Business e Enterprise.

No Codex, o GPT‑5.5 está disponível nos planos Plus, Pro, Business, Enterprise, Edu e Go com uma janela de contexto de 400K. O GPT‑5.5 também está disponível no modo Fast, gerando tokens 1.5x mais rápido por 2.5x o custo.

Para desenvolvedores de API, gpt-5.5 estará disponível em breve nas APIs Responses e Chat Completions por US$ 5 por 1M tokens de entrada e US$ 30 por 1M tokens de saída, com uma janela de contexto de 1M. As opções de preços Batch e Flex estão disponíveis por metade da tarifa padrão da API, enquanto o processamento Priority está disponível por 2.5x a tarifa padrão. Também vamos lançar o gpt-5.5-pro na API para uma precisão ainda maior, com preço de US$ 30 por 1M tokens de entrada e US$ 180 por 1M tokens de saída. Veja a página de preços⁠ para mais detalhes.

Embora o GPT‑5.5 tenha um preço mais alto que o GPT‑5.4, ele é tanto mais inteligente quanto muito mais eficiente no uso de tokens. No Codex, ajustamos cuidadosamente a experiência para que o GPT‑5.5 entregue melhores resultados com menos tokens do que o GPT‑5.4 para a maioria dos usuários, mantendo um uso generoso em todos os níveis de assinatura.

Avaliações

Programação

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
SWE-Bench Pro (Public) *	58.6%	57.70%	-	-	64.3%	54.2%
Terminal-Bench 2.0	82.70%	75,1%	-	-	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	-	-	-	-

^*Os ^{laboratórios observaram}^{indícios de memorização}⁠(abre em uma nova janela)^{nesta avaliação}

Profissional

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GDPval (wins or ties)	84,9%	83.00%	82,3%	82.0%	80,3%	67,3%
FinanceAgent v1.1	60,0%	56.0%	-	61,5%	64,4%	59,7%
Tarefas de modelagem para banco de investimento (interno)	88,5%	87,3%	88,6%	83.6%	-	-
OfficeQA Pro	54,1%	53,2%	-	-	43,6%	18,1%

Uso do computador e visão

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
OSWorld-Verified	78,7%	75.00%	-	-	78,0%	-
MMMU Pro (sem ferramentas)	81,2%	81,2%	-	-	-	80,5%
MMMU Pro (com ferramentas)	83,2%	82.1%	-	-	-	-

Uso de ferramentas

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
BrowseComp	84,4%	82.70%	90,1%	89.3%	79.3%	85,9%
MCP Atlas**	75,3%	70,6%	-	-	79,1%	78,2%
Toolathlon	55,6%	54.6%	-	-	-	48,8%
Tau2-bench Telecom*** (prompt original)	98,0%	92,8%	-	-	-	-

^{** MCP Atlas: resultados da Scale AI após a atualização mais recente de abril de 2026.
*** Tau2-bench telecom: resultados para 5.5 e 5.4 com prompts originais, ou seja, sem ajuste de prompt. Isso omite resultados de outros laboratórios que foram avaliados com ajustes de prompt.}

Acadêmico

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
GeneBench	25,0%	19,0%	33,2%	25,6%	-	-
FrontierMath Tier 1–3	51,7%	47,6%	52,4%	50.0%	43,8%	36,9%
FrontierMath Tier 4	35,4%	27.1%	39,6%	38.0%	22,9%	16,7%
BixBench	80,5%	74.0%	-	-	-	-
GPQA Diamond	93,6%	92,8%	-	94.4%	94,2%	94,3%
Humanity's Last Exam (sem ferramentas)	41,4%	39,8%	43,1%	42,7%	46,9%	44,4%
Humanity's Last Exam (com ferramentas)	52,2%	52,1%	57,2%	58,7%	54,7%	51,4%

Segurança cibernética

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Tarefas do desafio Capture-the-Flags (interno)****	88,1%	83,7%	-	-	-	-
CyberGym	81.8%	79.0%	-	-	73.1%	-

^{**** Uma expansão dos CTFs mais difíceis usados em system cards, com desafios difíceis adicionais.}

Contexto Longo

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Graphwalks BFS 256k f1	73.7%	62.5%	-	-	76.9%	-
Graphwalks BFS 1mil f1	45.4%	9.4%	-	-	41.2% (Opus 4.6)	-
Graphwalks parents 256k f1	90.1%	82.8%	-	-	93,6%	-
Graphwalks parents 1mil f1	58.5%	44.4%	-	-	72.0% (Opus 4.6)	-
OpenAI MRCR v2 8-needle 4K-8K	98.1%	97.3%	-	-	-	-
OpenAI MRCR v2 8-needle 8K-16K	93.0%	91.4%	-	-	-	-
OpenAI MRCR v2 8-needle 16K-32K	96.5%	97.2%	-	-	-	-
OpenAI MRCR v2 8-needle 32K-64K	90,0%	90.5%	-	-	-	-
OpenAI MRCR v2 8-needle 64K-128K	83.1%	86.0%	-	-	-	-
OpenAI MRCR v2 8-needle 128K-256K	87.5%	79.3%	-	-	59.2%	-
OpenAI MRCR v2 8-needle 256K-512K	81.5%	57,5%	-	-	-	-
OpenAI MRCR v2 8-needle 512K-1M	74.0%	36.6%	-	-	32,2%	-

Raciocínio abstrato

Aval.	GPT‑5.5	GPT‑5.4	GPT‑5.5 Pro	GPT‑5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
ARC-AGI-1 (Verified)	95,0%	93.7%	-	94.5%	93,5%	98,0%
ARC-AGI-2 (Verified)	85,0%	73.3%	-	83.3%	75,8%	77,1%

As avaliações do GPT foram executadas com reasoning effort definido como xhigh e conduzidas em um ambiente de pesquisa, o que pode gerar saídas ligeiramente diferentes das do ChatGPT em produção em alguns casos.