Saltar para o conteúdo principal
OpenAI

11 de dezembro de 2025

PublicaçãoProdutoEmpresa

A impulsionar a ciência e a matemática com o GPT‑5.2

O GPT‑5.2 é o nosso modelo mais avançado até agora para trabalho em matemática e ciência.

A carregar…

Um dos nossos desejos para uma IA avançada é que esta acelere a investigação científica em benefício de todos, ajudando os investigadores a explorar mais ideias, a testá-las mais depressa e a transformar descobertas em impacto.

Ao longo do último ano, temos trabalhado em estreita colaboração com cientistas de matemática, física, biologia e informática para entender onde a IA pode ajudar — e onde ainda não está à altura. No mês passado, publicámos um artigo que reúne estudos de caso iniciais em matemática, física, biologia, informática, astronomia e ciência dos materiais, em que o GPT‑5 ajudou investigadores, mostrando como o GPT‑5 já começou a contribuir para trabalho científico real. Com o GPT‑5.2, estamos a começar a ver esses ganhos tornarem-se mais consistentes e fiáveis.

Desempenho mais forte onde a precisão é crucial

O GPT‑5.2 Pro e o GPT‑5.2 Thinking são os nossos modelos mais avançados até agora para trabalho científico e matemático.

Um raciocínio matemático robusto é a base da fiabilidade em trabalho científico e técnico. Permite que os modelos sigam lógica com vários passos, mantenham as quantidades consistentes e evitem erros subtis que se podem acumular em análises reais — desde simulações e estatísticas até previsão e modelação. As melhorias em benchmarks como o FrontierMath refletem não uma competência estreita, mas um raciocínio geral e uma abstração mais fortes, capacidades que se traduzem diretamente em fluxos de trabalho científicos como programação, análise de dados e conceção de experiências.

Estas capacidades estão também intimamente ligadas ao progresso em direção a uma inteligência geral. Um sistema que consegue raciocinar de forma fiável por abstração, manter a consistência ao longo de cadeias longas de pensamento e generalizar entre domínios está a exibir características que são fundacionais para a AGI — não truques específicos de tarefas, mas competências de raciocínio amplas e transferíveis que importam em ciência, engenharia e tomada de decisão no mundo real.

Acreditamos que o GPT‑5.2 Pro e o GPT‑5.2 Thinking são os melhores modelos do mundo para apoiar e acelerar o trabalho de cientistas. No GPQA Diamond, um benchmark de perguntas e respostas ao nível de pós-graduação, resistente à pesquisa no Google, o GPT‑5.2 Pro atinge 93,2%, seguido de perto pelo GPT‑5.2 Thinking, com 92,4%.

No GPQA Diamond(abre numa nova janela), os modelos respondem a perguntas de escolha múltipla sobre física, química e biologia. Não foram ativadas ferramentas e o esforço de raciocínio foi definido para o máximo.

No FrontierMath (Níveis 1–3), uma avaliação de matemática de nível avançado, o GPT‑5.2 Thinking estabeleceu um novo estado da arte, resolvendo 40,3% dos problemas.

No FrontierMath(abre numa nova janela), os modelos resolvem problemas de matemática de nível avançado. Uma ferramenta em Python foi ativada e o esforço de raciocínio foi definido para o máximo.

Estudo de caso

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(abre numa nova janela).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Olhar em frente

Este resultado sugere uma direção útil para a forma como os sistemas de IA podem suportar a investigação científica, sobretudo em domínios com fundamentos teóricos axiomáticos, como a matemática e a informática teórica. Em contextos como estes, modelos de fronteira podem ajudar a explorar provas, testar hipóteses e identificar ligações que, de outro modo, exigiriam um esforço humano substancial para serem descobertas.

Ao mesmo tempo, estes sistemas não são investigadores independentes. O juízo especializado, a verificação e o conhecimento do domínio continuam a ser essenciais. Mesmo modelos muito capazes podem cometer erros ou assentar em pressupostos não declarados. Mas também podem produzir argumentos detalhados e estruturados que merecem estudo e refinamento cuidadosos por parte de humanos. Fazer progressos fiáveis com IA depende, por isso, de fluxos de trabalho que mantenham a validação, a transparência e a colaboração firmemente «no circuito».

Visto como estudo de caso, este resultado ilustra um modo emergente de prática de investigação. Modelos como o GPT‑5.2 podem servir como ferramentas para apoiar o raciocínio matemático e acelerar a exploração em fases iniciais, enquanto a responsabilidade pela exatidão, interpretação e contexto permanece com os investigadores humanos. Usados com cuidado, estes sistemas podem ajudar a simplificar aspetos significativos do trabalho teórico sem substituir o papel central do juízo humano na investigação científica.