Pular para o conteúdo principal
OpenAI

11 de dezembro de 2025

ProdutoLançamento

Apresentamos o GPT‑5.2

O modelo de fronteira mais avançado para trabalho profissional e agentes de longa duração.

Carregando…

Estamos apresentando o GPT‑5.2, a série de modelos mais avançada até agora para o trabalho profissional baseado em conhecimento.

Hoje, o usuário médio do ChatGPT Enterprise diz que a IA economiza de 40 a 60 minutos por dia, e usuários intensivos relatam uma economia de mais de 10 horas por semana. Nós projetamos o GPT‑5.2 para desbloquear ainda mais valor econômico para as pessoas; ele é melhor em criar planilhas, montar apresentações, escrever código, interpretar imagens, entender contextos longos, usar ferramentas e lidar com projetos complexos de múltiplas etapas.

O GPT‑5.2 estabelece um novo estado da arte em diversos benchmarks, incluindo o GDPval, em que supera profissionais do mercado em tarefas bem definidas de trabalho baseado em conhecimento em 44 ocupações diferentes.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (vitórias ou empates)
Tarefas de trabalho baseado em conhecimento

70,90%

38,8% (GPT‑5)

SWE-Bench Pro (público)
Engenharia de software

55,6%

50,8%

SWE-bench Verified
Engenharia de software

80%

76,3%

GPQA Diamond (sem ferramentas)
Perguntas de ciência

92,4%

88,1%

CharXiv Reasoning (com Python)
Perguntas sobre figuras científicas

88,7%

80,3%

HMMT (fevereiro de 2025)
Torneio de Matemática

99,4%

96,3%

FrontierMath (Tier 1–3)
Matemática Avançada

40,3%

31,0%

ARC-AGI-1 (Verificado)
Raciocínio abstrato

86,2%

72,8%

ARC-AGI-2 (Verified)
Raciocínio abstrato

52,9%

17,6%

Notion(abre em uma nova janela), Box(abre em uma nova janela), Shopify(abre em uma nova janela), Harvey(abre em uma nova janela) e Zoom(abre em uma nova janela) observaram que o GPT‑5.2 apresenta raciocínio de longo alcance e desempenho de ponta em chamadas de ferramentas. Databricks(abre em uma nova janela), Hex(abre em uma nova janela) e Triple Whale(abre em uma nova janela) constataram que o GPT‑5.2 é excepcional em tarefas de ciência de dados com agentes e análise de documentos. Cognition(abre em uma nova janela), Warp(abre em uma nova janela), Charlie Labs(abre em uma nova janela), JetBrains(abre em uma nova janela) e Augment Code(abre em uma nova janela) relatam que o GPT‑5.2 oferece desempenho de ponta em programação com agentes, com melhorias mensuráveis em áreas como programação interativa, revisões de código e identificação de bugs.

No ChatGPT, o GPT‑5.2 Instant, Thinking e Pro começam a ser disponibilizados hoje, começando pelos planos pagos. Na API, eles já estão disponíveis para todos os desenvolvedores.

De forma geral, o GPT‑5.2 traz melhorias significativas em inteligência geral, entendimento de contextos longos, uso agêntico de ferramentas e visão — o que o torna melhor do que qualquer modelo anterior para executar tarefas complexas do mundo real de ponta a ponta.

Desempenho do modelo

Tarefas economicamente valiosas

O GPT‑5.2 Thinking é o melhor modelo até agora para uso profissional no mundo real. No GDPval, uma avaliação que mede tarefas bem definidas de trabalho baseado em conhecimento em 44 ocupações, o GPT‑5.2 Thinking atinge um novo resultado de estado da arte e é o nosso primeiro modelo a atuar em nível igual ou superior ao de um especialista humano. Especificamente, o GPT‑5.2 Thinking supera ou empata com os principais profissionais do mercado em 70,9% das comparações em tarefas de trabalho baseado em conhecimento no GDPval, de acordo com avaliadores humanos especialistas. Essas tarefas incluem criar apresentações, planilhas e outros materiais. O GPT‑5.2 Thinking produziu resultados para as tarefas do GDPval a mais de 11 vezes a velocidade e a menos de 1% do custo de profissionais especialistas, o que sugere que, quando combinado com supervisão humana, o GPT‑5.2 pode ajudar de forma significativa no trabalho profissional. As estimativas de velocidade e custo se baseiam em métricas históricas; a velocidade no ChatGPT pode variar.

No GDPval, os modelos executam tarefas bem definidas de trabalho baseado em conhecimento, cobrindo 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA. As tarefas pedem entregáveis reais de trabalho, como apresentações de vendas, planilhas contábeis, escalas de pronto-atendimento, diagramas de manufatura ou vídeos curtos. No ChatGPT, o GPT‑5.2 Thinking tem novas ferramentas que o GPT‑5 Thinking não tem.

Ao analisar um resultado especialmente bom, um dos avaliadores do GDPval comentou: “É um salto empolgante e perceptível na qualidade do resultado... [parece] ter sido feito por uma empresa profissional, com equipe, e tem um layout surpreendentemente bem desenhado e boas recomendações para as duas entregas — embora em uma delas ainda tenhamos alguns pequenos erros a corrigir.”

Além disso, no nosso benchmark interno de tarefas de modelagem em planilhas típicas de analistas juniores de investment banking — como montar um modelo de três demonstrativos para uma empresa da Fortune 500 com formatação e referências adequadas, ou construir um modelo de aquisição alavancada (LBO) para fechar o capital de uma empresa —, a pontuação média por tarefa do GPT‑5.2 Thinking é 9,3% maior do que a do GPT‑5.1, subindo de 59,1% para 68,4%.

Comparações lado a lado mostram mais sofisticação e melhor formatação em planilhas e slides gerados pelo GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Prompt: Crie um modelo de planejamento de força de trabalho: quadro de pessoal, plano de contratações, rotatividade e impacto no orçamento. Inclua os departamentos de engenharia, marketing, jurídico e vendas.

Para usar os novos recursos de planilhas e apresentações no ChatGPT, você precisa estar em um plano pago e selecionar o GPT‑5.2 Thinking ou o Pro. Gerações complexas podem levar vários minutos para serem concluídas.

Codificação

O GPT‑5.2 Thinking estabelece um novo estado da arte de 55,6% no SWE-bench Pro, uma avaliação rigorosa de engenharia de software em cenários reais. Diferentemente do SWE-bench Verified, que testa apenas Python, o SWE-bench Pro avalia quatro linguagens e busca ser mais resistente a contaminação, desafiador, diverso e relevante para o uso industrial.

No SWE-bench Pro(abre em uma nova janela), o modelo recebe um repositório de código e deve gerar um patch para resolver uma tarefa realista de engenharia de software.

No SWE-bench Verified (não mostrado no gráfico), o GPT‑5.2 Thinking atinge nossa nova melhor marca de 80%.

Para o uso profissional do dia a dia, isso se traduz em um modelo que consegue entender bases de código complexas com mais confiabilidade, propor mudanças e entregar correções de ponta a ponta com menos intervenção manual.

O GPT‑5.2 Thinking também é melhor em engenharia de software de front-end do que o GPT‑5.1 Thinking. Os primeiros testadores acharam o modelo significativamente mais forte em design de interface, depuração de front‑end e iteração rápida, tornando‑o um parceiro diário poderoso para engenheiros em toda a stack. Veja alguns exemplos do que ele consegue produzir a partir de um único prompt:

Prompt: Crie um aplicativo de página única, em um único arquivo HTML, com os seguintes requisitos:
- Nome: Simulação de Ondas do Oceano
- Objetivo: Exibir ondas animadas realistas.
- Funcionalidades: Alterar a velocidade do vento, altura das ondas, iluminação.
- A interface deve ser calma e realista.

Os primeiros testadores compartilharam seu feedback sobre as capacidades de programação do GPT‑5.2:

"GPT-5.2 representa o maior salto dos modelos GPT em programação com agentes desde o GPT-5 e é um modelo de programação em estado da arte na sua faixa de preço. O aumento na numeração da versão não faz jus ao salto de inteligência. Estamos animados para torná-lo o padrão em todo o Windsurf e em várias cargas de trabalho centrais do Devin."
Jeff Wang, CEO, Windsurf

Factualidade

O GPT‑5.2 Thinking alucina menos do que o GPT‑5.1 Thinking. Em um conjunto de consultas desidentificadas do ChatGPT, respostas com erro foram 38% menos frequentes. Para profissionais, isso significa menos erros ao usar o modelo para aprender, pesquisar ou tomar decisões — tornando‑o mais confiável para o trabalho intelectual do dia a dia.

O esforço de raciocínio foi definido no máximo disponível e uma ferramenta de busca foi ativada. Os erros foram detectados por outros modelos, que também podem cometer erros. As taxas de erro em nível de afirmação são muito menores do que em nível de resposta, já que a maioria das respostas contém várias afirmações.

Como todos os modelos, o GPT‑5.2 Thinking está longe de ser perfeito. Para qualquer coisa crítica, sempre confira as respostas.

Contexto longo

O GPT‑5.2 Thinking estabelece um novo estado da arte em entendimento de contexto longo, melhorando sua capacidade de integrar informações espalhadas por documentos extensos. Em tarefas reais, como análises profundas de documentos que exigem sintetizar informações relacionadas ao longo de centenas de milhares de tokens, o GPT‑5.2 Thinking é substancialmente mais preciso do que o GPT‑5.1 Thinking. Em particular, é o primeiro modelo que vimos atingir quase 100% de acurácia na variante 4‑needle do MRCR (até 256k tokens).

Na prática, isso permite que profissionais usem o GPT‑5.2 para ler, resumir e cruzar informações entre grandes volumes de texto, mantendo coerência e precisão ao longo de centenas de milhares de tokens. Isso torna o GPT‑5.2 especialmente adequado para análise profunda, síntese e fluxos de trabalho complexos com múltiplas fontes.

No OpenAI-MRCR⁠(abre em uma nova janela) v2 (resolução de co-referência em várias rodadas), várias solicitações idênticas de “agulha” do usuário são inseridas em longos “palheiros” de solicitações e respostas semelhantes, e é solicitado ao modelo que reproduza a resposta à enésima agulha. A versão 2 da avaliação corrige cerca de 5% das tarefas que tinham valores de verdade incorretos. A proporção média de correspondência mede a média de correspondência entre a resposta do modelo e a resposta correta. Os pontos em 256 mil tokens de entrada máxima representam médias entre 128 mil e 256 mil tokens de entrada, e assim por diante. Aqui, 256 mil representa 256 * 1.024 = 262.114 tokens. O esforço de raciocínio foi definido para o máximo disponível.

Para tarefas que se beneficiam de pensar além da janela máxima de contexto, o GPT‑5.2 Thinking é compatível com o nosso novo endpoint Responses /compact, que estende a janela de contexto efetiva do modelo. Isso permite que o GPT‑5.2 Thinking lide com fluxos de trabalho mais longos e intensivos em ferramentas, que de outra forma ficariam limitados pelo tamanho do contexto. Saiba mais na nossa documentação da API(abre em uma nova janela).

Visão

O GPT‑5.2 Thinking é também o nosso modelo mais forte em visão até agora, reduzindo quase pela metade os erros em interpretação de gráficos e interfaces de software.

Para o uso profissional do dia a dia, isso significa que o modelo pode dar suporte com mais confiabilidade a casos de uso em analytics, design de produto e atendimento ao cliente em que a informação visual é central.

No CharXiv Reasoning(abre em uma nova janela), os modelos respondem a perguntas sobre conteúdo visual em artigos científicos. A ferramenta Python estava ativada e o esforço de raciocínio foi definido como máximo.

No ScreenSpot-Pro(abre em uma nova janela), os modelos devem raciocinar sobre capturas de tela de alta resolução de interfaces gráficas de usuário em uma variedade de ambientes profissionais. Uma ferramenta Python foi ativada e o esforço de raciocínio foi configurado para o máximo. Sem a ferramenta Python, as pontuações são muito mais baixas. Recomendamos ativar a ferramenta Python em tarefas de visão como estas.

Em comparação com modelos anteriores, o GPT‑5.2 Thinking tem uma compreensão mais precisa de como os elementos estão posicionados em uma imagem, o que ajuda em tarefas em que o layout relativo desempenha um papel essencial na solução do problema. No exemplo abaixo, pedimos ao modelo para identificar os componentes em uma imagem de entrada (neste caso, uma placa-mãe) e retornar rótulos com retângulos delimitadores aproximados. Mesmo em uma imagem de baixa qualidade, o GPT‑5.2 identifica as principais regiões e posiciona caixas que correspondem aproximadamente às localizações reais de cada componente, enquanto o GPT‑5.1 rotula apenas algumas partes e demonstra uma compreensão bem mais fraca da disposição espacial.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Chamada de ferramentas

O GPT‑5.2 Thinking atinge um novo estado da arte de 98,7% em benchmarks de chamada de ferramentas, demonstrando sua capacidade de usar ferramentas com confiança em tarefas longas e com várias interações.

Para casos de uso sensíveis à latência, o GPT‑5.2 Thinking também tem um desempenho muito melhor com reasoning.effort='none', superando de forma significativa o GPT‑5.1 e o GPT‑4.1.

No τ2-bench⁠(abre em uma nova janela), os modelos usam ferramentas para concluir tarefas de suporte ao cliente em domínios reais. O subconjunto Airline foi omitido devido à menor qualidade das anotações de ground truth.

Para profissionais, isso se traduz em desempenho ponta a ponta mais forte ao orquestrar fluxos de trabalho com várias etapas, chamar múltiplas ferramentas e gerar resultados finais com menos falhas entre um passo e outro.

Por exemplo, ao lidar com uma dúvida complexa de atendimento ao cliente que exige várias etapas, o GPT‑5.2 consegue coordenar de forma mais eficaz um fluxo completo de trabalho entre vários agentes. No caso abaixo, uma pessoa viajante relata um voo atrasado, uma conexão perdida, uma estadia noturna em Nova York e uma necessidade médica específica de assento. O GPT‑5.2 administra toda a cadeia de tarefas — remarcação, pedidos especiais, hotel e compensação — entregando um resultado mais completo do que o GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Ciência e matemática

Uma das nossas esperanças para a IA é que ela acelere a pesquisa científica em benefício de todos. Com esse objetivo, temos trabalhado em parceria com cientistas — e ouvindo o que eles precisam — para entender como a IA pode acelerar seu trabalho; no mês passado, compartilhamos aqui alguns experimentos colaborativos iniciais.

Acreditamos que o GPT‑5.2 Pro e o GPT‑5.2 Thinking são os melhores do mundo para apoiar e acelerar o trabalho de cientistas. No GPQA Diamond, um benchmark de perguntas e respostas em nível de pós-graduação e à prova de Google, o GPT‑5.2 Pro atinge 93,2%, seguido de perto pelo GPT‑5.2 Thinking, com 92,4%.

No GPQA Diamond(abre em uma nova janela), os modelos respondem a perguntas de múltipla escolha sobre física, química e biologia. Nenhuma ferramenta foi ativada e o esforço de raciocínio foi ajustado para o máximo.

No FrontierMath (Tier 1–3), uma avaliação de matemática em nível de especialista, o GPT‑5.2 Thinking estabeleceu um novo estado da arte, resolvendo 40,3% dos problemas.

No FrontierMath(abre em uma nova janela), os modelos resolvem problemas de matemática em nível avançado. A ferramenta Python estava ativada e o esforço de raciocínio foi definido como máximo.

Estamos começando a ver modelos de IA acelerarem de forma concreta o progresso em matemática e ciência. Por exemplo, em um trabalho recente com o GPT‑5.2 Pro, pesquisadores exploraram uma questão em aberto em teoria do aprendizado estatístico. Em um cenário restrito e bem definido, o modelo propôs uma demonstração que depois foi verificada pelos autores e revisada com especialistas externos, ilustrando como modelos de fronteira podem auxiliar a pesquisa matemática sob supervisão humana próxima.

ARC-AGI 2

No ARC-AGI-1 (Verified), um benchmark criado para medir a capacidade geral de raciocínio, o GPT‑5.2 é o primeiro modelo a ultrapassar o patamar de 90%, melhorando o resultado de 87% do o3‑preview no ano passado e reduzindo o custo para atingir esse desempenho em cerca de 390×.

No ARC-AGI-2 (Verified), que aumenta a dificuldade e isola melhor o raciocínio fluido, o GPT‑5.2 Thinking atinge um novo estado da arte para modelos de raciocínio passo a passo, com pontuação de 52,9%. GPT‑5.2 Pro tem um desempenho ainda maior, chegando a 54,2% e ampliando ainda mais a capacidade do modelo de raciocinar sobre problemas novos e abstratos.

As melhorias nessas avaliações refletem o raciocínio em múltiplas etapas mais sólido do GPT‑5.2, a maior precisão quantitativa e a solução de problemas mais confiável em tarefas técnicas complexas.

Veja o que nossos primeiros testadores dizem sobre o GPT‑5.2:

"O GPT-5.2 desbloqueou uma mudança completa de arquitetura para nós. Consolidamos um sistema frágil com múltiplos agentes em um único mega‑agente com mais de 20 ferramentas. A melhor parte é que simplesmente funciona. O mega‑agente é mais rápido, mais inteligente e 100 vezes mais fácil de manter. Estamos vendo uma queda dramática na latência, chamadas de ferramentas muito mais robustas e não precisamos mais de system prompts enormes, porque o 5.2 executa tudo de forma impecável a partir de um simples prompt de uma linha. Parece mágica pura."
AJ Orbach, CEO, Triple Whale

GPT‑5.2 no ChatGPT

No ChatGPT, os usuários devem perceber que o GPT‑5.2 é mais agradável de usar no dia a dia — mais estruturado, mais confiável e ainda prazeroso de conversar.

O GPT‑5.2 Instant é um modelo rápido e robusto para o trabalho e o aprendizado do dia a dia, com melhorias claras em perguntas de busca de informação, tutoriais e passo a passo, redação técnica e tradução, aprofundando o tom de conversa mais acolhedor introduzido no GPT‑5.1 Instant. Os primeiros testadores destacaram especialmente explicações mais claras, que trazem as informações principais logo de início.

O GPT‑5.2 Thinking foi projetado para trabalhos mais profundos, ajudando os usuários a lidar com tarefas mais complexas com mais refinamento — especialmente para programar, resumir documentos longos, responder a perguntas sobre arquivos enviados, trabalhar matemática e lógica passo a passo e apoiar planejamento e decisões com estrutura mais clara e detalhes mais úteis.

O GPT‑5.2 Pro é a nossa opção mais inteligente e confiável para perguntas difíceis, em que uma resposta de qualidade superior compensa esperar um pouco mais, com testes iniciais mostrando menos erros graves e desempenho mais forte em domínios complexos como programação.

Segurança

O GPT‑5.2 se baseia na pesquisa de safe completion que apresentamos com o GPT‑5, que ensina o modelo a dar a resposta mais útil possível permanecendo dentro dos limites de segurança.

Com esta versão, continuamos nosso trabalho para fortalecer as respostas dos modelos em conversas sensíveis, com melhorias significativas na forma como eles reagem a prompts que indicam sinais de suicídio ou autoagressão, sofrimento em saúde mental ou dependência emocional do modelo. Essas intervenções direcionadas resultaram em menos respostas indesejáveis tanto no GPT‑5.2 Instant quanto no GPT‑5.2 Thinking, em comparação com os modelos GPT‑5.1 e GPT‑5 Instant e Thinking. Mais detalhes podem ser encontrados no system card.

Estamos nos estágios iniciais de implementação do nosso modelo de previsão de idade, para que possamos aplicar automaticamente proteções de conteúdo a usuários menores de 18 anos, limitando o acesso a conteúdo sensível. Isso se soma à nossa abordagem atual para usuários que sabemos que têm menos de 18 anos e aos nossos controles parentais.

O GPT‑5.2 é mais um passo em uma série contínua de melhorias, e estamos longe de terminar. Embora esta versão traga ganhos importantes em inteligência e produtividade, sabemos que ainda há áreas em que as pessoas querem mais. No ChatGPT, estamos trabalhando em problemas conhecidos, como recusas excessivas e respostas inconsistentes, ao mesmo tempo em que continuamos elevando o nível geral de segurança e confiabilidade. Essas mudanças são complexas, e estamos focados em acertar.

Avaliações de saúde mental


GPT‑5.2
Instant

GPT‑5.1 Instant

GPT‑5.2 Pensando

GPT‑5.1 Thinking

Saúde mental

0,995

0,883

0,915

0,684

Dependência emocional

0,938

0,945

0,955

0,785

Autolesão

0,938

0,925

0,963

0,937

Disponibilidade e preços

No ChatGPT, começaremos a disponibilizar o GPT‑5.2 (Instant, Thinking e Pro) hoje, começando pelos planos pagos (Plus, Pro, Go, Business, Enterprise). Implantamos o GPT‑5.2 de forma gradual para manter o ChatGPT o mais estável e confiável possível; se você não o vir de imediato, tente novamente mais tarde. No ChatGPT, o GPT‑5.1 continuará disponível para usuários pagantes por três meses, na seção de modelos legados; depois disso, vamos descontinuar o GPT‑5.1.

Nomes dos modelos no ChatGPT e na API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Na nossa Plataforma de API, o GPT‑5.2 Thinking está disponível hoje na Responses API e na Chat Completions API como gpt-5.2, e o GPT‑5.2 Instant como gpt-5.2-chat-latest. GPT‑5.2 Pro está disponível na Responses API como gpt-5.2-pro. Os desenvolvedores agora podem definir o parâmetro de raciocínio no GPT‑5.2 Pro, e tanto o GPT‑5.2 Pro quanto o GPT‑5.2 Thinking agora oferecem o novo quinto nível de esforço de raciocínio, xhigh, para tarefas em que a qualidade é o fator mais importante.

O GPT‑5.2 tem preço de US$ 1,75 por 1M de tokens de entrada e US$ 14 por 1M de tokens de saída, com desconto de 90% em Cached Inputs. Em várias avaliações com agentes, observamos que, apesar do custo por token mais alto do GPT‑5.2, o custo para atingir um determinado nível de qualidade acabou sendo menor graças à maior eficiência do GPT‑5.2 no uso de tokens.

Embora os preços das assinaturas do ChatGPT permaneçam os mesmos, na API o GPT‑5.2 tem preço por token maior do que o GPT‑5.1, porque é um modelo mais capaz. Ainda assim, seu preço continua abaixo de outros modelos de fronteira, para que as pessoas possam continuar a usá-lo de forma intensa no trabalho diário e em aplicativos centrais.

Preço por milhão de tokens

Modelo

Entrada

Entrada em cache

Resultado

gpt-5.2 /
gpt-5.2-chat-latest

$1,75

$0,18

$14

GPT‑5.2 Pro

$21

-

$168

gpt-5.1 / gpt-5.1-chat-latest

$1,25

$0,125

$10

gpt-5-pro

$15

-

US$ 120

No momento, não temos planos de descontinuar o GPT‑5.1, GPT‑5 ou GPT‑4.1 na API, e comunicaremos qualquer plano de descontinuação com bastante antecedência para os desenvolvedores. Embora o GPT‑5.2 funcione bem no Codex desde o primeiro uso, esperamos lançar uma versão do GPT‑5.2 otimizada para o Codex nas próximas semanas.

Nossos parceiros

O GPT‑5.2 foi desenvolvido em colaboração com nossos parceiros de longa data NVIDIA e Microsoft. Os data centers Azure e as GPUs NVIDIA — incluindo H100, H200 e GB200-NVL72 — sustentam a infraestrutura de treinamento em larga escala da OpenAI, impulsionando ganhos significativos em inteligência de modelo. Essa colaboração nos permite escalar capacidade computacional com segurança e levar novos modelos ao mercado com mais rapidez.

Apêndice

Benchmarks detalhados

A seguir, apresentamos resultados abrangentes de benchmarks para o GPT‑5.2 Thinking, além de um subconjunto de resultados para o GPT‑5.2 Pro.

Profissional
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Codificação
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Factualidade
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Contexto Longo
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Visão
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Uso de ferramentas
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Acadêmico
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Raciocínio abstrato
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Os modelos foram executados com o máximo esforço de raciocínio disponível na nossa API (xhigh para o GPT‑5.2 Thinking e Pro, e high para o GPT‑5.1 Thinking), exceto nas avaliações profissionais, em que o GPT‑5.2 Thinking foi executado com reasoning effort heavy, o nível máximo disponível no ChatGPT Pro. Os benchmarks foram realizados em um ambiente de pesquisa, o que pode gerar resultados ligeiramente diferentes do ChatGPT em produção em alguns casos.

* Para o SWE-Lancer, omitimos 40 de 237 problemas que não rodaram na nossa infraestrutura.

Autoria

OpenAI