Apresentamos o GPT‑5.2
O modelo de fronteira mais avançado para trabalho profissional e agentes de longa duração.
Estamos a apresentar o GPT‑5.2, a família de modelos mais capaz até agora para trabalho de conhecimento profissional.
Atualmente, o utilizador médio do ChatGPT Enterprise afirma que a IA lhe poupa entre 40 e 60 minutos por dia, e os utilizadores intensivos dizem que lhes poupa mais de 10 horas por semana. Concebemos o GPT‑5.2 para desbloquear ainda mais valor económico para as pessoas; é melhor a criar folhas de cálculo, a construir apresentações, a escrever código, a interpretar imagens, a compreender contextos longos, a utilizar ferramentas e a lidar com projetos complexos de vários passos.
O GPT‑5.2 estabelece um novo estado da arte em muitos benchmarks, incluindo o GDPval, onde supera profissionais do setor em tarefas de trabalho de conhecimento bem especificadas que abrangem 44 profissões.
GPT‑5.2 Thinking | GPT‑5.1 Raciocínio | |
GDPval (vitórias ou empates) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (public) | 55,6% | 50,8% |
SWE-bench Verified | Engenharia de software | 76,3% |
GPQA Diamond (sem ferramentas) | 92,4% | 88,10% |
CharXiv Reasoning (com Python) | 88,7% | 80,3% |
HMMT (fev. 2025) | 99,4% | 96,3% |
FrontierMath (Níveis 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Verificado) | 86,2% | 72,80% |
ARC-AGI-2 (Verificado) | 52,9% | 17,6% |
A Notion(abre numa nova janela), a Box(abre numa nova janela), a Shopify(abre numa nova janela), a Harvey(abre numa nova janela) e a Zoom(abre numa nova janela) observaram que o GPT‑5.2 demonstra um desempenho de ponta em raciocínio de longo horizonte e em chamadas de ferramentas. A Databricks(abre numa nova janela), a Hex(abre numa nova janela) e a Triple Whale(abre numa nova janela) consideraram que o GPT‑5.2 é excecional em ciência de dados agêntica e em tarefas de análise de documentos. A Cognition(abre numa nova janela), a Warp(abre numa nova janela), a Charlie Labs(abre numa nova janela), a JetBrains(abre numa nova janela) e a Augment Code(abre numa nova janela) referem que o GPT‑5.2 oferece um desempenho agêntico de programação de nível de ponta, com melhorias mensuráveis em áreas como programação interativa, revisões de código e deteção de bugs.
No ChatGPT, o GPT‑5.2 Instant, Thinking e Pro começarão a ser disponibilizados hoje, começando pelos planos pagos. Na API, estão desde já disponíveis para todos os developers.
De forma geral, o GPT‑5.2 traz melhorias significativas em inteligência geral, compreensão de contextos longos, chamadas de ferramentas em modo agêntico e visão — tornando-o melhor a executar tarefas complexas, do mundo real, de ponta a ponta, do que qualquer modelo anterior.
O GPT‑5.2 Thinking é o melhor modelo até agora para utilização profissional em cenários reais. No GDPval, um eval que mede tarefas de trabalho de conhecimento bem especificadas em 44 profissões, o GPT‑5.2 Thinking estabelece um novo valor de estado da arte e é o nosso primeiro modelo a ter um desempenho ao nível ou acima de um especialista humano. Em concreto, o GPT‑5.2 Thinking supera ou iguala os melhores profissionais do setor em 70,9% das comparações em tarefas de trabalho de conhecimento no GDPval, segundo avaliadores humanos especialistas. Estas tarefas incluem criar apresentações, folhas de cálculo e outros artefactos. O GPT‑5.2 Thinking gerou outputs para as tarefas do GDPval a >11x da velocidade e a <1% do custo de profissionais especialistas, o que sugere que, com supervisão humana, o GPT‑5.2 pode ajudar no trabalho profissional. As estimativas de velocidade e custo baseiam-se em métricas históricas; a velocidade no ChatGPT pode variar.
No GDPval, os modelos enfrentam tarefas de trabalho de conhecimento bem especificadas que abrangem 44 profissões dos 9 principais setores que contribuem para o PIB dos EUA. As tarefas pedem produtos de trabalho reais, como apresentações de vendas, folhas de cálculo de contabilidade, escalas de urgências, diagramas de produção ou vídeos curtos. No ChatGPT, o GPT‑5.2 Thinking tem novas ferramentas que o GPT‑5 Thinking não tem.
Quando analisou um resultado particularmente bom, um dos avaliadores do GDPval comentou: «É um salto entusiasmante e visível na qualidade dos resultados... [parece] ter sido feito por uma empresa profissional com equipa e apresenta um layout surpreendentemente bem concebido e conselhos úteis para ambos os entregáveis, embora num deles ainda tenhamos alguns erros menores para corrigir.»
Além disso, no nosso benchmark interno de tarefas de modelação em folhas de cálculo de um analista júnior de banca de investimento — como construir um modelo de três demonstrações financeiras para uma empresa Fortune 500 com formatação e citações corretas, ou criar um modelo de leveraged buyout para uma operação de take-private — a pontuação média por tarefa do GPT‑5.2 Thinking é 9,3% superior à do GPT‑5.1, subindo de 59,1% para 68,4%.
As comparações lado a lado mostram uma maior sofisticação e melhor formatação em folhas de cálculo e diapositivos gerados pelo GPT‑5.2 Thinking:

Prompt: Cria um modelo de planeamento de força de trabalho: headcount, plano de contratações, attrition e impacto no orçamento. Inclui os departamentos de engenharia, marketing, jurídico e vendas.
Para utilizar as novas capacidades de folhas de cálculo e apresentações no ChatGPT, é necessário ter um plano pago e selecionar o GPT‑5.2 Thinking ou o Pro. As gerações complexas podem demorar vários minutos a ser produzidas.
O GPT‑5.2 Thinking estabelece um novo estado da arte de 55,6% no SWE-bench Pro, uma avaliação rigorosa de engenharia de software em cenários reais. Ao contrário do SWE-bench Verified, que apenas testa Python, o SWE-bench Pro avalia quatro linguagens e procura ser mais resistente a contaminação, mais desafiante, mais diverso e mais relevante do ponto de vista industrial.
No SWE-bench Pro(abre numa nova janela)Um modelo recebe um repositório de código e tem de gerar um patch para resolver uma tarefa realista de engenharia de software.
No SWE-bench Verified (não representado no gráfico), o GPT‑5.2 Thinking atinge o nosso novo máximo de 80 %.
Para utilização profissional no dia a dia, isto traduz‑se num modelo que consegue depurar código de produção de forma mais fiável, implementar pedidos de funcionalidades, refatorar grandes bases de código e lançar correções de ponta a ponta com menos intervenção manual.
O GPT‑5.2 Thinking é também melhor do que o GPT‑5.1 Thinking em engenharia de software de front-end. Os primeiros utilizadores de teste consideraram‑no significativamente mais forte em desenvolvimento de front-end e em trabalho de UI complexo ou pouco convencional — sobretudo quando envolve elementos 3D —, o que o torna um parceiro diário poderoso para engenheiros em toda a stack. Vê alguns exemplos do que consegue produzir a partir de um único prompt:
Prompt: Criar uma aplicação de página única num único ficheiro HTML com os seguintes requisitos:
- Nome: Simulação de ondas do oceano
- Funcionalidades: alterar a velocidade do vento, a altura das ondas e a iluminação.
- A interface deve ser calma e realista.
Os primeiros utilizadores de teste partilharam o seu feedback sobre as capacidades de programação do GPT‑5.2:
«O GPT-5.2 representa o maior salto dos modelos GPT em programação agêntica desde o GPT-5 e é um modelo de programação de estado da arte na sua faixa de preço. A simples mudança de versão não faz justiça ao salto na inteligência. Estamos entusiasmados por torná-lo o modelo predefinido em todo o Windsurf e em várias cargas de trabalho centrais do Devin.»
O GPT‑5.2 Thinking alucina menos do que o GPT‑5.1 Thinking. Numa série de perguntas desidentificadas do ChatGPT, as respostas com erros foram 38 % menos frequentes. Para profissionais, isto significa menos erros ao utilizar o modelo para investigação, escrita, análise e apoio à decisão — tornando o modelo mais fiável para o trabalho de conhecimento do dia a dia.
O esforço de raciocínio foi definido para o máximo disponível e foi ativada uma ferramenta de pesquisa. Os erros foram detetados por outros modelos, que também podem cometer erros. As taxas de erro ao nível de afirmação são muito inferiores às taxas de erro ao nível de resposta, uma vez que a maioria das respostas contém muitas afirmações.
Como todos os modelos, o GPT‑5.2 Thinking não é perfeito. Para qualquer coisa crítica, verifica novamente as suas respostas.
O GPT‑5.2 Thinking define um novo estado da arte em raciocínio em contextos longos, alcançando um desempenho de topo no OpenAI MRCRv2 — uma avaliação que testa a capacidade de um modelo integrar informação dispersa por documentos longos. Em tarefas do mundo real, como análise aprofundada de documentos, que exigem informação relacionada distribuída por centenas de milhares de tokens, o GPT‑5.2 Thinking é substancialmente mais preciso do que o GPT‑5.1 Thinking. Em particular, é o primeiro modelo que vimos a atingir uma precisão próxima de 100% na variante 4-needle do MRCR (até 256k tokens).
Na prática, isto permite que profissionais utilizem o GPT‑5.2 para trabalhar com documentos longos — como relatórios, contratos, artigos científicos, transcrições e projetos com vários ficheiros — mantendo a coerência e a precisão ao longo de centenas de milhares de tokens. Isto torna o GPT‑5.2 especialmente adequado para análise profunda, síntese e fluxos de trabalho complexos com múltiplas fontes.
No OpenAI-MRCR(abre numa nova janela) v2 (multi-round co-reference resolution), vários pedidos de utilizador idênticos («needle») são inseridos em longos «haystacks» de pedidos e respostas semelhantes, e o modelo é solicitado a reproduzir a resposta à enésima needle. A versão 2 do eval corrige cerca de 5% das tarefas que tinham valores de referência incorretos. O mean match ratio mede a média da taxa de correspondência de strings entre a resposta do modelo e a resposta correta. Os pontos em 256k tokens máximos de input representam médias entre 128k–256k tokens de input, e assim sucessivamente. Aqui, 256k representa 256 * 1.024 = 262.114 tokens. O esforço de raciocínio foi definido para o máximo disponível.
Para tarefas que beneficiam de pensar para além da janela de contexto máxima, o GPT‑5.2 Thinking é compatível com o nosso novo endpoint Responses /compact, que alarga a janela de contexto efetiva do modelo. Isto permite ao GPT‑5.2 Thinking lidar com fluxos de trabalho mais longos e intensivos em ferramentas que, de outro modo, ficariam limitados pelo comprimento da janela de contexto. Saiba mais na nossa documentação da API(abre numa nova janela).
O GPT‑5.2 Thinking é o nosso modelo de visão mais avançado até à data, reduzindo aproximadamente para metade as taxas de erro em raciocínio sobre gráficos e compreensão de interfaces de software.
No uso profissional do dia a dia, isto significa que o modelo consegue interpretar de forma mais precisa dashboards, capturas de ecrã de produtos, diagramas técnicos e relatórios visuais — suportando fluxos de trabalho em finanças, operações, engenharia, design e apoio ao cliente, onde a informação visual é central.
No CharXiv Reasoning(abre numa nova janela), os modelos respondem a perguntas sobre gráficos visuais de artigos científicos. Foi ativada uma ferramenta em Python e o esforço de raciocínio foi definido para o máximo.
No ScreenSpot-Pro(abre numa nova janela), os modelos têm de raciocinar sobre capturas de ecrã de alta resolução de interfaces gráficas de utilizador em diferentes contextos profissionais. Foi ativada uma ferramenta em Python e o esforço de raciocínio foi definido para o máximo. Sem a ferramenta em Python, as pontuações são muito mais baixas. Recomendamos ativar a ferramenta em Python em tarefas de visão como estas.
Quando comparado com modelos anteriores, o GPT‑5.2 Thinking tem uma compreensão mais sólida de como os elementos estão posicionados numa imagem, o que ajuda em tarefas em que a disposição relativa é fundamental para resolver o problema. No exemplo abaixo, pedimos ao modelo para identificar os componentes numa imagem de input (neste caso, uma motherboard) e devolver etiquetas com caixas delimitadoras aproximadas. Mesmo numa imagem de baixa qualidade, o GPT‑5.2 identifica as principais regiões e coloca caixas que correspondem, de forma aproximada, às localizações reais de cada componente, enquanto o GPT‑5.1 apenas rotula algumas partes e revela uma compreensão muito mais fraca da sua disposição espacial.
GPT‑5.1

GPT‑5.2

O GPT‑5.2 Thinking estabelece um novo estado da arte de 98,7% no Tau2-bench Telecom, demonstrando a sua capacidade de utilizar ferramentas de forma fiável em tarefas longas e com múltiplas interações.
Para casos de utilização sensíveis à latência, o GPT‑5.2 Thinking também apresenta um desempenho muito superior com reasoning.effort='none', superando de forma significativa o GPT‑5.1 e o GPT‑4.1.
No τ2-bench(abre numa nova janela), os modelos utilizam ferramentas para concluir tarefas de apoio ao cliente numa interação de vários turnos com um utilizador simulado. Para o domínio Telecom, incluímos uma instrução breve e útil no prompt de sistema para melhorar o desempenho. Excluímos o subconjunto Airline devido à menor qualidade da avaliação de referência.
Para profissionais, isto traduz-se em fluxos de trabalho ponta a ponta mais robustos — como resolver casos de apoio ao cliente, obter dados de vários sistemas, executar análises e gerar resultados finais com menos falhas entre etapas.
Por exemplo, ao colocar uma questão complexa de serviço ao cliente que exige uma resolução em vários passos, o modelo consegue coordenar de forma mais eficaz todo o fluxo de trabalho através de vários agentes. No exemplo abaixo, um viajante relata um voo atrasado, uma ligação perdida, uma noite passada em Nova Iorque e uma necessidade médica de lugar específico. O GPT‑5.2 gere toda a cadeia de tarefas — nova reserva, lugar com assistência especial e compensação — entregando um resultado mais completo do que o GPT‑5.1.
GPT‑5.1

GPT‑5.2

Uma das nossas esperanças para a IA é que venha a acelerar a investigação científica em benefício de todos. Para isso, temos trabalhado em conjunto com cientistas e escutado o seu feedback para perceber como a IA pode acelerar o seu trabalho e, no mês passado, partilhámos aqui algumas experiências colaborativas iniciais.
Acreditamos que o GPT‑5.2 Pro e GPT‑5.2 Thinking são os melhores modelos do mundo para apoiar e acelerar o trabalho dos cientistas. No GPQA Diamond, um benchmark de perguntas e respostas ao nível de pós-graduação, resistente à pesquisa no Google, o GPT‑5.2 Pro atinge 93,2%, seguido de perto pelo GPT‑5.2 Thinking, com 92,4%.
No GPQA Diamond(abre numa nova janela), os modelos respondem a perguntas de escolha múltipla sobre física, química e biologia. Não foram ativadas ferramentas e o esforço de raciocínio foi definido para o máximo.
No FrontierMath (Níveis 1–3), uma avaliação de matemática de nível avançado, o GPT‑5.2 Thinking estabeleceu um novo estado da arte, resolvendo 40,3% dos problemas.
No FrontierMath(abre numa nova janela), os modelos resolvem problemas de matemática de nível avançado. Uma ferramenta em Python foi ativada e o esforço de raciocínio foi definido para o máximo.
Estamos a começar a ver modelos de IA acelerar de forma significativa o progresso em matemática e ciência, de formas bem tangíveis. Por exemplo, em trabalhos recentes com o GPT‑5.2 Pro, investigadores exploraram uma questão em aberto na teoria da aprendizagem estatística. Num contexto restrito e bem especificado, o modelo propôs uma prova que foi posteriormente verificada pelos autores e revista com especialistas externos, ilustrando como modelos de fronteira podem apoiar a investigação matemática sob supervisão humana rigorosa.
No ARC-AGI-1 (Verified), um benchmark concebido para medir capacidades gerais de raciocínio abstrato, o GPT‑5.2 Thinking iguala o desempenho de modelos anteriores, reduzindo o custo de atingir esse desempenho em cerca de 390×.
No ARC-AGI-2 (Verified), que aumenta a dificuldade e isola melhor o raciocínio fluido, o GPT‑5.2 Thinking atinge um novo estado da arte para modelos de chain-of-thought, com uma pontuação de 52,9%. O GPT‑5.2 Pro tem um desempenho ainda superior, alcançando 54,2%, ampliando ainda mais a capacidade do modelo para raciocinar sobre problemas novos e abstratos.
As melhorias nestas avaliações refletem o raciocínio multi-passo mais robusto do GPT‑5.2, a maior precisão quantitativa e uma resolução de problemas mais fiável em tarefas técnicas complexas.
Eis o que os primeiros utilizadores de teste dizem sobre o GPT‑5.2:
«O GPT-5.2 desbloqueou uma mudança completa de arquitetura para nós. Substituímos um sistema frágil com vários agentes por um único mega-agente com mais de 20 ferramentas. A melhor parte é que simplesmente funciona. O mega-agente é mais rápido, mais inteligente e cem vezes mais fácil de manter. Estamos a ver uma latência muito mais baixa, chamadas de ferramentas muito mais robustas e já não precisamos de prompts de sistema enormes, porque o 5.2 executa tudo de forma limpa a partir de um simples prompt de uma linha. Parece magia pura.»
No ChatGPT, as pessoas deverão notar que o GPT‑5.2 é mais agradável de utilizar no dia a dia — mais estruturado, mais fiável e continuando a ser agradável conversar com ele.
O GPT‑5.2 Instant é um modelo rápido e versátil para o trabalho e a aprendizagem do dia a dia, construído sobre o tom de conversa mais caloroso introduzido no GPT‑5.1 Instant. Os primeiros utilizadores de teste destacaram em especial explicações mais claras, que trazem a informação principal logo ao início.
O GPT‑5.2 Thinking foi concebido para trabalho mais profundo, ajudando a estruturar o raciocínio e a tomada de decisões com uma estrutura mais clara e detalhes mais úteis.
O GPT‑5.2 Pro é a nossa opção mais inteligente e fiável para perguntas difíceis, oferecendo melhor precisão, menos erros graves e um desempenho mais robusto em domínios complexos, como a programação.
O GPT‑5.2 baseia-se na investigação sobre safe completion que introduzimos com o GPT‑5, que ensina o modelo a fornecer a resposta mais útil, mantendo-se dentro dos limites de segurança.
Com esta versão, continuámos a trabalhar para reforçar as respostas dos modelos em conversas sensíveis, com melhorias significativas na forma como respondem a prompts que indicam sinais de suicídio ou auto agressão, sofrimento de saúde mental ou dependência emocional do modelo. Estas intervenções direcionadas resultaram em menos respostas indesejáveis em ambos os GPT‑5.2 Instant e GPT‑5.2 Thinking, em comparação com os modelos GPT‑5.1 e GPT‑5 Instant e Thinking. Mais detalhes podem ser encontrados no system card.
Estamos nas primeiras fases do lançamento do nosso modelo de previsão de idade, para que possamos aplicar automaticamente proteções de conteúdo a utilizadores com menos de 18 anos, de forma a limitar o acesso a conteúdo sensível. Isto baseia-se na nossa abordagem existente para utilizadores que sabemos ter menos de 18 anos e nos nossos controlos parentais.
O GPT‑5.2 é mais um passo numa série contínua de melhorias, e estamos ainda longe de terminar. Embora esta versão traga ganhos significativos em inteligência e produtividade, sabemos que há áreas em que as pessoas querem mais. No ChatGPT, estamos a trabalhar em problemas conhecidos, como recusas excessivas, ao mesmo tempo que continuamos a elevar a fasquia em matéria de segurança e fiabilidade. Estas alterações são complexas e estamos concentrados em fazê-las da forma correta.
GPT‑5.2 | GPT‑5.1 Instant | GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
Saúde mental | 0,995 | 0,883 | 0,915 | 0,684 |
Dependência emocional | 0,938 | 0,945 | 0,955 | 0,785 |
Autoagressão | 0,938 | 0,925 | 0,963 | 0,937 |
No ChatGPT, vamos começar a disponibilizar o GPT‑5.2 (Instant, Thinking e Pro) hoje, começando pelos planos pagos (Plus, Pro, Go, Business, Enterprise). Implementamos o GPT‑5.2 de forma gradual para manter o ChatGPT o mais estável e fiável possível; se não o vir de imediato, tente novamente mais tarde. No ChatGPT, o GPT‑5.1 continuará disponível para utilizadores pagantes durante três meses em Modelos legados, após o que o GPT‑5.1 será descontinuado.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Na nossa Plataforma de API, o GPT‑5.2 Thinking está disponível a partir de hoje na Responses API e na Chat Completions API como gpt-5.2, e o GPT‑5.2 Instant como gpt-5.2-chat-latest. O GPT‑5.2 Pro está disponível na Responses API como gpt-5.2-pro. Os developers podem agora definir o parâmetro de raciocínio no GPT‑5.2 Pro, e tanto o GPT‑5.2 Pro como o GPT‑5.2 Thinking suportam agora um quinto nível de esforço de raciocínio, xhigh, para tarefas em que a qualidade é o mais importante.
O GPT‑5.2 tem um preço de $1,75/1M de tokens de input e $14/1M de tokens de output, com um desconto de 90% em inputs em cache. Em vários evals agênticos, verificámos que, apesar do custo superior por token do GPT‑5.2, o custo para atingir um determinado nível de desempenho acabou por ser mais baixo, graças à maior eficiência do GPT‑5.2 na utilização de tokens.
Embora os preços das subscrições do ChatGPT se mantenham inalterados, na API o GPT‑5.2 tem um preço por token superior ao do GPT‑5.1, por ser um modelo mais capaz. Ainda assim, continua abaixo de outros modelos de fronteira, para que as pessoas o possam continuar a utilizar de forma intensiva no trabalho diário e nas aplicações principais.
Modelo | Input | Input em cache | Output |
gpt-5.2 / | $1,75 | $0,175 | $14 |
gpt-5.2-pro | $21 | - | $168,00 |
gpt-5.1 / | $1,25 | $0,125 | $10 |
gpt-5-pro | $15 | - | $120 |
Atualmente, não temos planos para descontinuar o GPT‑5.1, o GPT‑5 ou o GPT‑4.1 na API, e iremos comunicar qualquer plano de descontinuação com ampla antecedência para os developers. Embora o GPT‑5.2 funcione bem no Codex desde o primeiro momento, esperamos lançar uma versão do GPT‑5.2 otimizada para o Codex nas próximas semanas.
O GPT‑5.2 foi construído em colaboração com os nossos parceiros de longa data NVIDIA e Microsoft. Os data centers Azure e as GPUs NVIDIA, incluindo as H100, H200 e GB200-NVL72, sustentam a infraestrutura de treino em grande escala da OpenAI, impulsionando ganhos significativos na inteligência dos modelos. Em conjunto, esta colaboração permite-nos escalar capacidade de computação com confiança e trazer novos modelos para o mercado mais rapidamente.
Em seguida, apresentamos resultados de benchmarks abrangentes para o GPT‑5.2 Thinking, juntamente com um subconjunto de resultados para o GPT‑5.2 Pro.
Profissional
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Programação
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Factualidade
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Contexto longo
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vision
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Utilização de ferramentas
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Académico
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Raciocínio abstrato
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Os modelos foram executados com o esforço de raciocínio máximo disponível na nossa API (xhigh para o GPT‑5.2 Thinking e Pro, e high para o GPT‑5.1 Thinking), exceto nas avaliações profissionais, em que o GPT‑5.2 Thinking foi executado com esforço de raciocínio heavy, o máximo disponível no ChatGPT Pro. Os benchmarks foram realizados num ambiente de investigação, o que pode, em alguns casos, produzir resultados ligeiramente diferentes dos do ChatGPT em produção.
* No SWE-Lancer, omitimos 40/237 problemas que não correram na nossa infraestrutura.


