16 de desembre del 2025

Avaluar la capacitat de la IA per dur a terme tasques de recerca científica

Presentem FrontierScience, un nou benchmark que avalua les capacitats de la IA per al raonament científic de nivell expert en física, química i biologia.

Llegeix l'article

Gràfic parcial amb un fons degradat suau verd i groc, una paraula gran retallada que comença per «Fro…» i blocs de text superposats a la dreta que enumeren criteris de revisió com «Factual», «Avaluable», «Objectiu» i «Difícil».

S'està carregant…

El raonament és al centre del treball científic. Més enllà de recordar fets, els científics generen hipòtesis, les posen a prova i les refinen, i sintetitzen idees entre camps. A mesura que els nostres models es tornen més capaços, la pregunta central és com poden raonar en profunditat per contribuir a la recerca científica.

Durant l'últim any, els nostres models han assolit fites importants, com ara obtenir un rendiment de medalla d'or a la International Math Olympiad i a la International Olympiad in Informatics. En paral·lel, comencem a veure que els nostres models més capaços, com GPT‑5, acceleren de manera significativa fluxos de treball científics reals. Els investigadors utilitzen aquests sistemes per a tasques com la cerca bibliogràfica entre disciplines i idiomes i per treballar en demostracions matemàtiques complexes. En molts casos, el model escurça a hores una feina que podria haver requerit dies o setmanes. Aquest progrés està documentat al nostre article Early science acceleration experiments with GPT‑5⁠, publicat el novembre de 2025, que presenta proves inicials que GPT‑5 pot accelerar de manera mesurable els fluxos de treball científics.

Presentem FrontierScience

Com que accelerar el progrés científic és una de les oportunitats més prometedores perquè la IA beneficiï la humanitat, estem millorant els nostres models en tasques difícils de matemàtiques i ciències i treballant en les eines que ajudaran els científics a treure'n el màxim profit.

Quan es va publicar GPQA⁠(s'obre en una finestra nova), un benchmark científic «Google-Proof» de preguntes escrites per experts amb doctorat, el novembre de 2023, GPT‑4 va obtenir un 39%, per sota de la línia base dels experts del 70%. Dos anys després, GPT‑5.2 va obtenir un 92%. A mesura que les capacitats de raonament i coneixement dels models continuen escalant, seran importants benchmarks més difícils per mesurar i anticipar la capacitat dels models d'accelerar la recerca científica. Els benchmarks científics previs se centren en gran part en preguntes d'opció múltiple, estan saturats o no se centren principalment en la ciència.

Per cobrir aquest buit, presentem FrontierScience: un nou benchmark creat per mesurar capacitats científiques de nivell expert. FrontierScience està escrit i verificat per experts en física, química i biologia, i consta de centenars de preguntes dissenyades per ser difícils, originals i significatives. FrontierScience inclou dues vies de preguntes: Olympiad, que mesura capacitats de raonament científic d'estil olimpíada, i Research, que mesura habilitats de recerca científica del món real. Oferir més informació sobre les capacitats científiques dels models ens ajuda a fer seguiment del progrés i a avançar la ciència accelerada per la IA.

En les nostres avaluacions inicials, GPT‑5.2 és el nostre model amb millor rendiment a FrontierScience-Olympiad (amb un 77%) i Research (amb un 25%), per davant d'altres models d'avantguarda. Hem vist un progrés substancial en la resolució de preguntes de nivell expert, tot deixant marge per a més avenços, especialment en tasques obertes d'estil de recerca. Per als científics, això suggereix que els models actuals ja poden donar suport a parts de la recerca que impliquen raonament estructurat, alhora que destaca que encara queda feina significativa per millorar la seva capacitat de dur a terme pensament obert. Aquests resultats coincideixen amb la manera com els científics ja utilitzen els models actuals: per accelerar fluxos de treball de recerca mentre confien en el judici humà per plantejar problemes i validar-los, i cada cop més per explorar idees i connexions que, d'una altra manera, trigarien molt més a descobrir-se, incloent-hi, en alguns casos, l'aportació de noves idees que els experts després avaluen i posen a prova.

Al capdavall, el benchmark més important per a les capacitats científiques de la IA són els descobriments nous que ajuda a generar; això és el que finalment importa per a la ciència i la societat. FrontierScience se situa abans d'això. Ens dona una estrella polar per al raonament científic de nivell expert, i ens permet provar els models en un conjunt estandarditzat de preguntes, veure on tenen èxit o fracassen, i identificar on hem de millorar-los. FrontierScience és estret i té limitacions en aspectes clau (per exemple, se centra en problemes restringits escrits per experts) i no capta tot el que fan els científics en la seva feina quotidiana. Però el camp necessita benchmarks científics més difícils, originals i significatius, i FrontierScience aporta un pas endavant en aquesta direcció.

Què mesura FrontierScience i com l'hem construït

L'avaluació completa de FrontierScience abasta més de 700 preguntes textuals (amb 160 al conjunt or) que cobreixen subcamps de la física, la química i la biologia. El benchmark es compon d'una divisió Olympiad i una divisió Research. FrontierScience-Olympiad conté 100 preguntes dissenyades per medallistes d'olimpíades internacionals per avaluar el raonament científic en un format restringit de resposta curta. El conjunt Olympiad es va dissenyar per contenir preguntes teòriques almenys tan difícils com els problemes de les competicions internacionals d'olimpíades. FrontierScience-Research consta de 60 subtasques de recerca originals dissenyades per científics amb doctorat (doctorands, professors o investigadors postdoctorals) que s'avaluen amb una rúbrica de 10 punts. El conjunt Research es va crear per contenir subtasques autocontingudes de diversos passos amb un nivell de dificultat que un científic amb doctorat podria trobar durant la seva recerca.

Preguntes de mostra

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Cada tasca de FrontierScience està escrita i verificada per un expert del domini en física, química o biologia. Per al conjunt Olympiad, tots els experts han rebut una medalla en almenys una (i sovint diverses) competicions internacionals d'olimpíades. Per al conjunt Research, tots els experts tenen un doctorat rellevant.

Les preguntes Olympiad es van crear en col·laboració amb 42 antics medallistes internacionals o entrenadors d'equips nacionals en els dominis pertinents, amb un total de 109 medalles d'olimpíada. Les preguntes de recerca es van crear en col·laboració amb 45 científics qualificats i experts del domini. Tots els científics eren doctorands, investigadors postdoctorals o professors. Les seves àrees d'expertesa abastaven un ventall de disciplines científiques especialitzades i importants, des de l'electrodinàmica quàntica fins a la química orgànica sintètica i la biologia evolutiva.

El procés de creació de tasques per a tots dos conjunts va incloure una certa selecció en contra dels models interns d'OpenAI (per exemple, descartant tasques que els models resolien correctament, de manera que esperem que l'avaluació estigui una mica esbiaixada contra aquests models en relació amb d'altres). Obrim el codi font del conjunt or Olympiad de 100 preguntes i del conjunt or Research de 60 preguntes, i en reservem la resta per fer seguiment de la contaminació.

Diagrama de flux que mostra quatre etapes d'un procés de desenvolupament de tasques —Creació, Revisió, Resolució i Revisió—, amb breus descripcions de cada pas i marques de verificació per als criteris factual, avaluable, objectiu i difícil.

Les tasques passen per quatre etapes: Creació, Revisió, Resolució i Revisió. Experts independents revisen les tasques dels altres per verificar que s'ajusten als criteris.

Com avaluem el rendiment del model

El conjunt Olympiad es pot avaluar amb una resposta curta: ja sigui amb un nombre, una expressió o una coincidència difusa de cadena, cosa que ajuda a verificar-ne la correcció. Tanmateix, aquesta verificació sovint implica un compromís amb l'expressivitat i el caràcter obert del problema. Per al conjunt Research, presentem una arquitectura basada en rúbriques per avaluar tasques més obertes. Cada pregunta inclou una rúbrica de puntuació amb múltiples ítems independents i avaluables objectivament, que sumen 10 punts. La rúbrica d'avaluació valora no només la precisió de la resposta final, sinó també la correcció dels passos intermedis de raonament, cosa que permet una anàlisi matisada del rendiment i dels errors del model. Es considera que una solució és «correcta» si rep almenys 7/10 punts de la rúbrica.

Les respostes són avaluades per un corrector basat en models (GPT‑5) segons la resposta curta o els criteris de la rúbrica. Tot i que l'ideal seria utilitzar un expert humà per avaluar cada resposta, aquest enfocament no és escalable, així que vam dissenyar la rúbrica perquè es pogués comprovar amb un corrector model. Vam desenvolupar una cadena de verificació per ajudar a garantir que les rúbriques i les preguntes estiguessin ben calibrades en dificultat i correcció.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Cada tasca del conjunt de recerca s'avalua amb una rúbrica de 10 punts que pot utilitzar un expert o un model corrector. Per ampliar la nostra capacitat d'avaluar models, fem servir un altre model per corregir les respostes.

Rendiment dels models

Vam avaluar diversos models d'avantguarda: GPT‑5.2, Claude Opus 4.5 i Gemini 3 Pro, GPT‑4o, OpenAI o4-mini i OpenAI o3 a FrontierScience-Olympiad i FrontierScience-Research. Tots els models de raonament es van avaluar amb un esforç de raonament «high», amb l'excepció de GPT‑5.2 amb «xhigh». En les nostres avaluacions inicials, GPT‑5.2 és el nostre model amb millor rendiment a FrontierScience-Olympiad (amb un 77%) i Research (amb un 25%), per davant d'altres models d'avantguarda. Gemini 3 Pro és comparable a GPT‑5.2 al conjunt Olympiad (amb un 76%).

Hem vist un progrés substancial en la resolució de preguntes de nivell expert, especialment en tasques obertes d'estil de recerca. Encara hi ha marge de millora: en analitzar les transcripcions dels fracassos, els models d'avantguarda de vegades cometien errors de raonament, lògica i càlcul, no entenien conceptes científics de nínxol i cometien imprecisions factuals.

Comparem les precisions entre diversos models d'avantguarda. GPT‑5.2 és el nostre model amb millor rendiment a FrontierScience-Research i al conjunt Olympiad.

Comparem les precisions entre esforços de raonament per a GPT‑5.2 i o3. Més temps de reflexió comporta una millor precisió.

Limitacions i què ve després

Tot i que FrontierScience representa un pas endavant en la dificultat dels benchmarks científics, encara hi ha moltes limitacions. FrontierScience es compon de preguntes amb un enunciat restringit, cosa que se centra a avaluar la resposta final (Olympiad) o a avaluar el raonament per completar una tasca de recerca (Research). A més, utilitzar rúbriques amb múltiples components en tasques més llargues és menys objectiu que comprovar la resposta final.

FrontierScience ofereix una instantània de més alta resolució del raonament dels models sobre preguntes difícils escrites per experts, però no una imatge completa de com es fa la ciència a la pràctica. En particular, no avalua una part significativa de la recerca científica: com els models generen hipòtesis realment noves, o interactuen amb múltiples modalitats, incloent-hi dades de vídeo i sistemes experimentals reals al món físic.

De cara al futur, esperem que el progrés en el raonament científic vingui tant de sistemes de raonament de propòsit general millors com d'un esforç centrat a improvisar capacitats científiques. FrontierScience és una eina entre moltes, i a mesura que els models millorin, tenim previst iterar aquest benchmark, ampliar-lo a nous dominis i combinar-lo amb més avaluacions del món real que examinin què permeten realment fer aquests sistemes als científics. Benchmarks com FrontierScience ens ajuden a entendre les debilitats dels sistemes d'IA actuals per centrar la nostra feina a fer que els models siguin col·laboradors fiables en el descobriment científic.

Autor

OpenAI

Continuar llegint

Veure-ho tot

GPT-Red: automillora per a la robustesa

Seguretat15 de jul. del 2026

Separar el senyal del soroll en les avaluacions de codi

Recerca8 de jul. del 2026

Presentem GeneBench-Pro

Recerca30 de juny del 2026