16 décembre 2025

Évaluer la capacité de l’IA à accomplir des tâches de recherche scientifique

Nous introduisons FrontierScience, un nouveau benchmark qui évalue les capacités de l'IA pour un raisonnement scientifique de niveau expert en physique, en chimie et en biologie.

Lire l’article

Graphique partiel avec un fond en dégradé doux de vert et jaune, un grand mot tronqué commençant par « Fro… », et des blocs de texte superposés à droite listant des critères d'évaluation tels que « Factual », « Gradable », « Objective » et « Difficult ».

Chargement...

Le raisonnement est au cœur du travail scientifique. Au-delà de la simple mémorisation des faits, les scientifiques génèrent des hypothèses, les testent, les affinent et synthétisent des idées à travers différents domaines. À mesure que nos modèles deviennent plus performants, la question centrale est de savoir comment ils peuvent raisonner en profondeur pour contribuer à la recherche scientifique.

Au cours de l'année écoulée, nos modèles ont atteint des jalons majeurs, notamment en obtenant des performances dignes de médailles d'or à l'Olympiad internationale de mathématiques et à l'Olympiad internationale d'informatique. En parallèle, nous commençons à observer que nos modèles les plus performants, tels que GPT‑5, accélèrent de manière significative les processus scientifiques réels. Les chercheurs utilisent ces systèmes pour des tâches telles que la recherche bibliographique à travers les disciplines et les langues et la résolution de preuves mathématiques complexes. Dans bien des cas, le modèle raccourcit le travail qui aurait pu prendre des jours ou des semaines à quelques heures. Ce progrès est documenté dans notre article Expériences préliminaires d'accélération scientifique avec GPT‑5⁠, publié en novembre 2025, qui présente des preuves initiales que GPT‑5 peut accélérer de manière mesurable les flux de travail scientifiques.

Présentation de FrontierScience

Comme l'accélération des progrès scientifiques est l'une des opportunités les plus prometteuses pour que l'IA profite à l'humanité, nous améliorons nos modèles pour des tâches mathématiques et scientifiques complexes et développons des outils qui aideront les scientifiques à en tirer le meilleur parti.

Lorsque GPQA⁠(ouverture dans une nouvelle fenêtre), un benchmark scientifique « Google-Proof » composé de questions rédigées par des experts titulaires d'un doctorat, a été publié en novembre 2023, GPT‑4 a obtenu un score de 39 %, en dessous du seuil de référence des experts fixé à 70 %. Deux ans plus tard, GPT‑5.2 a obtenu un score de 92 %. À mesure que les capacités de raisonnement et de connaissances des modèles continuent de s'étendre, il sera important d'utiliser des critères d'évaluation plus difficiles pour mesurer et prévoir la capacité des modèles à accélérer la recherche scientifique. Les repères scientifiques antérieurs se concentrent principalement sur des questions à choix multiples, sont saturés ou ne sont pas spécifiquement axés sur la science.

Pour combler cette lacune, nous introduisons FrontierScience : un nouveau référentiel conçu pour évaluer les capacités scientifiques de niveau expert. FrontierScience est rédigé et vérifié par des experts en physique, chimie et biologie, et comprend des centaines de questions conçues pour être difficiles, originales et significatives. FrontierScience comprend deux volets de questions : « Olympiad », qui évalue les capacités de raisonnement scientifique de type Olympiad, et « Research », qui mesure les capacités en recherche scientifique réelle. Fournir davantage d'informations sur les capacités scientifiques des modèles nous aide à suivre les progrès et à faire avancer la science accélérée par l'IA.

Dans nos évaluations initiales, GPT‑5.2 est notre modèle le plus performant sur FrontierScience-Olympiad (avec un score de 77 %) et Research (avec un score de 25 %), devançant les autres modèles de pointe. Nous avons observé des progrès significatifs dans la résolution de questions de niveau expert, tout en laissant de la place pour davantage de progrès, notamment pour les tâches de recherche ouvertes. Pour les scientifiques, cela suggère que les modèles actuels peuvent déjà apporter un support à certaines parties de la recherche impliquant un raisonnement structuré, tout en soulignant qu'il reste un travail important à accomplir pour améliorer leur capacité à mener une réflexion ouverte. Ces résultats s'alignent sur la manière dont les scientifiques utilisent déjà les modèles actuels : pour accélérer les flux de travail de recherche tout en s'appuyant sur le jugement humain pour la formulation et la validation des problèmes, et de plus en plus pour explorer des idées et des connexions qui prendraient autrement beaucoup plus de temps à découvrir, y compris, dans certains cas, en contribuant à de nouvelles perspectives que les experts évaluent et testent ensuite.

Au final, le critère le plus important pour évaluer les capacités scientifiques de l'IA s'avère être les découvertes inédites qu'elle aide à générer ; ce sont elles qui comptent pour la science et la société. FrontierScience se trouve en amont de cela. Cela nous offre un repère central pour le raisonnement scientifique de niveau expert, nous permettant de tester les modèles sur un ensemble de questions standardisées, d'observer leurs réussites ou échecs, et d'identifier les améliorations nécessaires. FrontierScience est limité et présente des restrictions dans certains aspects clés (par exemple, en se concentrant sur des problèmes restreints rédigés par des experts) et ne reflète pas l'ensemble des activités quotidiennes des scientifiques. Cependant, le domaine a besoin de repères scientifiques plus difficiles, originaux et significatifs, et FrontierScience constitue une avancée dans cette direction.

Ce que FrontierScience mesure et comment nous l'avons construit

L'évaluation complète de FrontierScience s'étend sur plus de 700 questions textuelles (dont 160 dans le jeu d'or) couvrant des sous-domaines de la physique, de la chimie et de la biologie. Le benchmark est composé d'une partie Olympiad et d'une partie Research. FrontierScience-Olympiad contient 100 questions conçues par des médaillés des olympiades internationales pour évaluer le raisonnement scientifique dans un format contraint à réponses courtes. L'ensemble Olympiad a été conçu pour contenir des questions théoriques au moins aussi difficiles que les problèmes des compétitions internationales d'olympiades. FrontierScience-Research se compose de 60 sous-tâches de recherche originales conçues par des scientifiques titulaires d'un doctorat (doctorants, professeurs ou chercheurs postdoctoraux) qui sont évaluées à l'aide d'une grille de notation sur dix points. Le jeu de recherche a été créér pour contenir des sous-tâches autonomes et en plusieurs étapes, au niveau de difficulté qu'un scientifique titulaire d'un doctorat pourrait rencontrer lors de ses recherches.

Questions échantillon

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Chaque tâche dans FrontierScience est rédigée et vérifiée par un expert du domaine en physique, chimie ou biologie. Pour l'ensemble Olympiad, tous les experts ont reçu une médaille dans au moins une (et souvent plusieurs) compétitions internationales Olympiad. Pour l'ensemble Research, tous les experts possèdent un doctorat pertinent.

Les questions Olympiad ont été créées en collaboration avec 42 anciens médaillés internationaux ou entraîneurs d'équipes nationales dans les domaines concernés, totalisant 109 médailles d'Olympiad. Les questions de Research ont été créées en collaboration avec 45 scientifiques qualifiés et experts du domaine. Tous les scientifiques étaient soit doctorants, soit chercheurs postdoctoraux, soit professeurs. Leurs domaines d'expertise couvraient un éventail de disciplines scientifiques spécialisées et importantes, allant de l'électrodynamique quantique à la chimie organique synthétique et à la biologie évolutive.

Le processus de création de tâches pour les deux ensembles comprenait une sélection défavorable aux modèles internes d’OpenAI (par exemple, en écartant les tâches que les modèles réussissaient, ce qui nous amène à penser que l’évaluation pourrait être quelque peu biaisée en leur défaveur par rapport à d’autres). Nous rendons public l'ensemble Olympiad gold de 100 questions et l'ensemble Research gold de 60 questions, tout en conservant les autres questions pour suivre la contamination.

Organigramme montrant quatre étapes d'un pipeline de développement de tâches—Création, Révision, Résolution et Révision—avec de brèves descriptions de chaque étape et des marques de validation pour les critères factuels, évaluables, objectifs et difficiles.

Les tâches passent par quatre étapes : Création, Examen, Résolutions, Révision. Des experts indépendants examinent les tâches des uns et des autres pour vérifier qu'elles sont conformes aux critères.

Notation des performances des modèles

L'ensemble Olympiad peut être évalué avec une réponse courte : soit un nombre, une expression ou une correspondance floue de chaîne, ce qui aide à vérifier l'exactitude. Cependant, cette vérification se fait souvent au détriment de l'expressivité et de l'ouverture du problème. Pour l'ensemble Research, nous introduisons une architecture basée sur des grilles d'évaluation pour évaluer des tâches plus ouvertes. Chaque question comprend un barème de notation avec plusieurs éléments indépendants et objectivement évaluables, pour un total de 10 points. Le barème d'évaluation évalue non seulement l'exactitude de la réponse finale, mais aussi la justesse des étapes de raisonnement intermédiaires, permettant ainsi une analyse nuancée des performances et des échecs du modèle. Une solution est considérée comme « correcte » si elle obtient au moins 7 points sur 10 selon la grille d'évaluation.

Les réponses sont évaluées par un correcteur basé sur un modèle (GPT‑5) selon les critères de la réponse courte ou du barème. Bien que nous préférerions idéalement utiliser un expert humain pour évaluer chaque réponse, cette approche n'est pas évolutive, nous avons donc conçu la grille de notation pour qu'elle soit vérifiable à l'aide d'un modèle d'évaluation. Nous avons développé un processus de vérification pour garantir que les grilles d'évaluation et les questions étaient bien calibrées en termes de difficulté et de précision.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Chaque tâche de l'ensemble de recherche est notée à l'aide d'un barème totalisant 10 points pouvant être utilisé par un expert ou un modèle de notation. Pour augmenter notre capacité à évaluer les modèles, nous utilisons un autre modèle pour évaluer les réponses.

Performances du modèle

Nous avons évalué plusieurs modèles de pointe : GPT‑5.2, Claude Opus 4.5, et Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, et OpenAI o3 sur FrontierScience-Olympiad et FrontierScience-Research. Tous les modèles de raisonnement ont été évalués à un niveau d'effort de raisonnement « élevé », à l'exception de GPT‑5.2 à « xhigh ». Dans nos évaluations initiales, GPT‑5.2 est notre modèle le plus performant sur FrontierScience-Olympiad (avec un score de 77 %) et Research (avec un score de 25 %), devançant les autres modèles de pointe. Gemini 3 Pro est comparable à GPT‑5.2 sur l'ensemble Olympiad (score de 76 %).

Nous avons constaté des progrès substantiels dans la résolution de questions de niveau expert, notamment sur des tâches de recherche ouvertes. Il reste encore de la marge pour progresser : en analysant les transcriptions pour identifier les échecs, les modèles de pointe ont parfois commis des erreurs de raisonnement, de logique et de calcul, n'ont pas compris certains concepts scientifiques de niche et ont commis des inexactitudes factuelles.

Nous comparons les performances de précision entre plusieurs modèles de pointe. GPT‑5.2 est notre modèle le plus performant sur les ensembles FrontierScience-Research et Olympiad.

Nous comparons les précisions entre les efforts de raisonnement pour GPT‑5.2 et o3. Un temps de réflexion plus long mène à une précision accrue.

Limitations et suite

Bien que FrontierScience représente une avancée dans la complexité des critères scientifiques, il subsiste encore de nombreuses limitations. FrontierScience est composé de questions avec un énoncé de problème contraint, qui se concentre sur l'évaluation de la réponse finale (Olympiad) ou sur l'évaluation du raisonnement pour accomplir une tâche de recherche (Research). De plus, l'utilisation de grilles d'évaluation comportant plusieurs éléments pour des tâches plus longues est moins objective que la vérification de la réponse finale.

FrontierScience offre un instantané à plus haute résolution du raisonnement des modèles sur des questions difficiles rédigées par des experts, mais pas une image complète de la manière dont la science est pratiquée en réalité. En particulier, il n'évalue pas une partie significative de la recherche scientifique : comment les modèles génèrent de véritables nouvelles hypothèses ou interagissent avec plusieurs modalités, y compris les données vidéo et les systèmes expérimentaux réels dans le monde physique.

À l'avenir, nous prévoyons que les progrès en raisonnement scientifique proviendront à la fois de systèmes de raisonnement à usage général améliorés et d'efforts ciblés pour développer les capacités scientifiques. FrontierScience est un outil parmi d'autres, et à mesure que les modèles s'améliorent, nous prévoyons de faire évoluer ce benchmark, de l'étendre à de nouveaux domaines et de l'associer à davantage d'évaluations du monde réel qui examinent ce que ces systèmes activent réellement pour les scientifiques. Les benchmarks comme FrontierScience nous aident à comprendre les faiblesses des systèmes d'IA actuels afin de concentrer notre travail sur la création de modèles fiables en tant que partenaires dans la découverte scientifique.

Auteur

OpenAI

Poursuivez votre lecture

Tout afficher

GPT-Red : auto-améliorer la robustesse

Sécurité15 juil. 2026

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026

Présentation de GeneBench-Pro

Recherches30 juin 2026