Faire progresser la science et les mathématiques avec GPT‑5.2
GPT‑5.2 est notre modèle le plus puissant à ce jour pour les travaux scientifiques et mathématiques.
Nous espérons notamment que des systèmes d’IA avancés permettront d’accélérer la recherche scientifique au bénéfice de tout le monde, en aidant les chercheurs à explorer davantage d’idées, à les tester plus rapidement et à transformer plus vite les découvertes en impact concret.
Au cours de l’année écoulée, nous avons collaboré étroitement avec des scientifiques en mathématiques, physique, biologie et informatique pour comprendre dans quels domaines l’IA peut les aider, et où elle montre encore ses limites. Le mois dernier, nous avons publié un article rassemblant de premières études de cas en mathématiques, physique, biologie, informatique, astronomie et science des matériaux, montrant comment GPT‑5 contribue déjà à des travaux scientifiques concrets. Avec GPT‑5.2, nous constatons que ces gains deviennent plus systématiques et plus fiables.
GPT‑5.2 Pro et GPT‑5.2 Thinking sont à ce jour nos modèles les plus performants pour les travaux scientifiques et mathématiques.
Un raisonnement mathématique solide est un fondement essentiel pour garantir la fiabilité des travaux scientifiques et techniques. Il permet aux modèles de suivre un raisonnement en plusieurs étapes, de conserver la cohérence des quantités et d’éviter les erreurs subtiles qui peuvent s’accumuler dans des analyses réelles, qu’il s’agisse de simulations, de statistiques, de prévisions ou de modélisation. Les progrès réalisés sur des benchmarks comme FrontierMath ne reflètent pas une compétence étroite, mais au contraire un raisonnement général plus robuste et une meilleure capacité d’abstraction, des aptitudes qui se traduisent directement dans les flux de travail scientifiques comme le développement de code, l’analyse de données ou la conception d’expériences.
Ces capacités sont également étroitement liées aux avancées vers une intelligence artificielle générale (AGI). Un système capable de raisonner de manière fiable par abstraction, de rester cohérent sur de longues chaînes de raisonnement et de généraliser d’un domaine à l’autre manifeste des caractéristiques essentielles de l’AGI, non pas des astuces limitées à une tâche, mais des facultés de raisonnement larges et transférables qui comptent dans l’ensemble des sciences, de l’ingénierie et de la prise de décision dans le monde réel.
Nous pensons que GPT‑5.2 Pro et GPT‑5.2 Thinking sont aujourd’hui les modèles les plus performants au monde pour soutenir les scientifiques et accélérer leurs travaux. Sur GPQA Diamond, un benchmark de questions-réponses de niveau maîtrise conçu pour être « à l’épreuve de Google », GPT‑5.2 Pro atteint 93,2 %, suivi de près par GPT‑5.2 Thinking avec 92,4 %.
Dans GPQA Diamond(s'ouvre dans une nouvelle fenêtre), les modèles répondent à des questions à choix multiple portant sur la physique, la chimie et la biologie. Aucun outil n’était activé et l’effort de raisonnement était réglé au maximum.
Sur FrontierMath (niveaux 1 à 3), une évaluation des mathématiques de niveau expert, GPT‑5.2 Thinking a établi un nouveau record en résolvant 40,3 % des problèmes.
Dans FrontierMath(s'ouvre dans une nouvelle fenêtre), les modèles résolvent des problèmes de mathématiques de niveau expert. Un outil Python était activé et l’effort de raisonnement était réglé au maximum.
Étude de cas
Ce résultat ouvre des perspectives intéressantes sur la façon dont les systèmes d’IA peuvent soutenir la recherche scientifique, surtout dans des domaines fondés sur des théories axiomatiques comme les mathématiques et l’informatique théorique. Dans ce type de contexte, les modèles de pointe peuvent aider à explorer des démonstrations, tester des hypothèses et mettre en lumière des relations qui exigeraient autrement un effort humain considérable pour être mis au jour.
Pour autant, ces systèmes ne sont pas des chercheurs autonomes. Le jugement d’expert, la vérification et la compréhension approfondie du domaine restent essentiels. Même les modèles les plus puissants peuvent commettre des erreurs ou s’appuyer sur des hypothèses implicites. Mais ils peuvent aussi produire des raisonnements détaillés et structurés qui méritent un examen attentif et un affinage par les chercheurs. Des progrès fiables avec l’IA reposent donc sur des modes de travail qui maintiennent la validation, la transparence et la collaboration au cœur du processus.
Comme étude de cas, ce résultat illustre une nouvelle manière de faire de la recherche qui commence à émerger. Des modèles comme GPT‑5.2 peuvent servir d’outils pour soutenir le raisonnement mathématique et accélérer les phases d’exploration précoce, tandis que la responsabilité de la justesse, de l’interprétation et du contexte demeure celle des chercheurs. Utilisés avec discernement, ces systèmes peuvent contribuer à simplifier des pans entiers du travail théorique, sans remettre en question le rôle central du jugement humain dans la recherche scientifique.


