Pular para o conteúdo principal
OpenAI

11 de dezembro de 2025

PublicaçãoProdutoEmpresa

Avançando a ciência e a matemática com o GPT‑5.2

O GPT‑5.2 é o nosso modelo mais avançado até agora para trabalhos em matemática e ciência.

Carregando…

Uma das nossas grandes expectativas em relação à IA avançada é que ela acelere a pesquisa científica em benefício de todos, ajudando pesquisadores a explorar mais ideias, testá-las mais rápido e transformar descobertas em impacto. 

Ao longo do último ano, temos trabalhado de perto com cientistas de matemática, física, biologia e ciência da computação para entender onde a IA pode ajudar — e onde ela ainda fica aquém. No mês passado, publicamos um artigo que reúne estudos de caso iniciais em matemática, física, biologia, ciência da computação, astronomia e ciência de materiais em que o GPT‑5 ajudou pesquisadores — mostrando como o GPT‑5 já começou a contribuir para trabalhos científicos reais. Com o GPT‑5.2, estamos começando a ver esses ganhos se tornarem mais consistentes e mais confiáveis.

Desempenho ainda melhor onde a precisão é essencial

GPT‑5.2 Pro e GPT‑5.2 Thinking são nossos modelos mais avançados até agora para trabalhos científicos e matemáticos.

Um raciocínio matemático sólido é a base da confiabilidade em trabalhos científicos e técnicos. Ele permite que os modelos sigam lógicas de múltiplas etapas, mantenham quantidades consistentes e evitem erros sutis que podem se acumular em análises reais — de simulações e estatística a previsão e modelagem. Os avanços em benchmarks como o FrontierMath refletem não uma habilidade estreita, mas um raciocínio geral e capacidade de abstração mais fortes — habilidades que se transferem diretamente para fluxos de trabalho científicos, como programação, análise de dados e desenho de experimentos.

Essas capacidades também estão intimamente ligadas ao avanço em direção à inteligência geral. Um sistema capaz de raciocinar com abstrações de forma consistente, manter a coerência ao longo de longas cadeias de pensamento e generalizar entre domínios está demonstrando características fundamentais para a AGI — não truques específicos de tarefa, mas habilidades amplas de raciocínio, transferíveis, que importam em ciência, engenharia e tomada de decisão no mundo real.

Acreditamos que o GPT‑5.2 Pro e o GPT‑5.2 Thinking são os melhores modelos do mundo para ajudar e acelerar o trabalho de cientistas. No GPQA Diamond, um benchmark de perguntas e respostas em nível de pós-graduação que não pode ser resolvido só com buscas no Google, o GPT‑5.2 Pro atinge 93,2%, seguido de perto pelo GPT‑5.2 Thinking, com 92,4%.

No GPQA Diamond(abre em uma nova janela), os modelos respondem a perguntas de múltipla escolha sobre física, química e biologia. Nenhuma ferramenta foi habilitada e o esforço de raciocínio foi definido no máximo.

No FrontierMath (Tier 1–3), uma avaliação de matemática em nível de especialista, o GPT‑5.2 Thinking estabeleceu um novo estado da arte, resolvendo 40,3% dos problemas.

No FrontierMath(abre em uma nova janela), os modelos resolvem problemas de matemática em nível de especialista. Uma ferramenta de Python foi habilitada e o esforço de raciocínio foi definido no máximo.

Estudo de caso

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(abre em uma nova janela).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Olhando para o futuro

Esse resultado aponta um caminho promissor de como sistemas de IA podem apoiar a pesquisa científica, especialmente em domínios com fundamentos teóricos axiomáticos, como matemática e computação teórica. Em contextos como esses, modelos de fronteira podem ajudar a explorar demonstrações, testar hipóteses e identificar conexões que, de outra forma, exigiriam um esforço humano considerável para serem descobertas.

Ao mesmo tempo, esses sistemas não são pesquisadores independentes. O julgamento especializado, a verificação e o entendimento profundo do domínio continuam sendo essenciais. Mesmo modelos muito capazes podem cometer erros ou se apoiar em pressupostos não declarados. Mas eles também podem produzir argumentos detalhados e estruturados, que merecem estudo e refinamento cuidadosos por parte de humanos. Por isso, avançar com confiabilidade usando IA depende de fluxos de trabalho que mantenham validação, transparência e colaboração firmemente no centro do processo.

Visto como um estudo de caso, esse resultado ilustra um modo emergente de fazer pesquisa. Modelos como o GPT‑5.2 podem atuar como ferramentas de apoio ao raciocínio matemático e de aceleração da exploração inicial, enquanto a responsabilidade pela correção, interpretação e contexto permanece com os pesquisadores humanos. Usados com cuidado, esses sistemas podem ajudar a tornar mais ágeis aspectos importantes do trabalho teórico, sem substituir o papel central do julgamento humano na investigação científica.