Passer au contenu principal
OpenAI

Faire progresser la science et les mathématiques avec GPT‑5.2

GPT‑5.2 est notre modèle le plus puissant à ce jour pour les travaux scientifiques et mathématiques.

Chargement…

Nous espérons notamment que des systèmes d’IA avancés permettront d’accélérer la recherche scientifique au bénéfice de tout le monde, en aidant les chercheurs à explorer davantage d’idées, à les tester plus rapidement et à transformer plus vite les découvertes en impact concret.

Au cours de l’année écoulée, nous avons collaboré étroitement avec des scientifiques en mathématiques, physique, biologie et informatique pour comprendre dans quels domaines l’IA peut les aider, et où elle montre encore ses limites. Le mois dernier, nous avons publié un article rassemblant de premières études de cas en mathématiques, physique, biologie, informatique, astronomie et science des matériaux, montrant comment GPT‑5 contribue déjà à des travaux scientifiques concrets. Avec GPT‑5.2, nous constatons que ces gains deviennent plus systématiques et plus fiables.

Des performances renforcées là où la précision est cruciale

GPT‑5.2 Pro et GPT‑5.2 Thinking sont à ce jour nos modèles les plus performants pour les travaux scientifiques et mathématiques.

Un raisonnement mathématique solide est un fondement essentiel pour garantir la fiabilité des travaux scientifiques et techniques. Il permet aux modèles de suivre un raisonnement en plusieurs étapes, de conserver la cohérence des quantités et d’éviter les erreurs subtiles qui peuvent s’accumuler dans des analyses réelles, qu’il s’agisse de simulations, de statistiques, de prévisions ou de modélisation. Les progrès réalisés sur des benchmarks comme FrontierMath ne reflètent pas une compétence étroite, mais au contraire un raisonnement général plus robuste et une meilleure capacité d’abstraction, des aptitudes qui se traduisent directement dans les flux de travail scientifiques comme le développement de code, l’analyse de données ou la conception d’expériences.

Ces capacités sont également étroitement liées aux avancées vers une intelligence artificielle générale (AGI). Un système capable de raisonner de manière fiable par abstraction, de rester cohérent sur de longues chaînes de raisonnement et de généraliser d’un domaine à l’autre manifeste des caractéristiques essentielles de l’AGI, non pas des astuces limitées à une tâche, mais des facultés de raisonnement larges et transférables qui comptent dans l’ensemble des sciences, de l’ingénierie et de la prise de décision dans le monde réel.

Nous pensons que GPT‑5.2 Pro et GPT‑5.2 Thinking sont aujourd’hui les modèles les plus performants au monde pour soutenir les scientifiques et accélérer leurs travaux. Sur GPQA Diamond, un benchmark de questions-réponses de niveau maîtrise conçu pour être « à l’épreuve de Google », GPT‑5.2 Pro atteint 93,2 %, suivi de près par GPT‑5.2 Thinking avec 92,4 %.

Dans GPQA Diamond(s'ouvre dans une nouvelle fenêtre), les modèles répondent à des questions à choix multiple portant sur la physique, la chimie et la biologie. Aucun outil n’était activé et l’effort de raisonnement était réglé au maximum.

Sur FrontierMath (niveaux 1 à 3), une évaluation des mathématiques de niveau expert, GPT‑5.2 Thinking a établi un nouveau record en résolvant 40,3 % des problèmes.

Dans FrontierMath(s'ouvre dans une nouvelle fenêtre), les modèles résolvent des problèmes de mathématiques de niveau expert. Un outil Python était activé et l’effort de raisonnement était réglé au maximum.

Étude de cas

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(s'ouvre dans une nouvelle fenêtre).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

Perspectives d’avenir

Ce résultat ouvre des perspectives intéressantes sur la façon dont les systèmes d’IA peuvent soutenir la recherche scientifique, surtout dans des domaines fondés sur des théories axiomatiques comme les mathématiques et l’informatique théorique. Dans ce type de contexte, les modèles de pointe peuvent aider à explorer des démonstrations, tester des hypothèses et mettre en lumière des relations qui exigeraient autrement un effort humain considérable pour être mis au jour.

Pour autant, ces systèmes ne sont pas des chercheurs autonomes. Le jugement d’expert, la vérification et la compréhension approfondie du domaine restent essentiels. Même les modèles les plus puissants peuvent commettre des erreurs ou s’appuyer sur des hypothèses implicites. Mais ils peuvent aussi produire des raisonnements détaillés et structurés qui méritent un examen attentif et un affinage par les chercheurs. Des progrès fiables avec l’IA reposent donc sur des modes de travail qui maintiennent la validation, la transparence et la collaboration au cœur du processus.

Comme étude de cas, ce résultat illustre une nouvelle manière de faire de la recherche qui commence à émerger. Des modèles comme GPT‑5.2 peuvent servir d’outils pour soutenir le raisonnement mathématique et accélérer les phases d’exploration précoce, tandis que la responsabilité de la justesse, de l’interprétation et du contexte demeure celle des chercheurs. Utilisés avec discernement, ces systèmes peuvent contribuer à simplifier des pans entiers du travail théorique, sans remettre en question le rôle central du jugement humain dans la recherche scientifique.