16 december 2025

Evaluatie van het vermogen van AI om wetenschappelijke onderzoektaken uit te voeren

We introduceren FrontierScience, een nieuwe benchmark die beoordeelt hoe goed AI op expertniveau wetenschappelijk kan redeneren binnen de natuurkunde, scheikunde en biologie.

Paper lezen

Gedeeltelijke afbeelding met een zachte groen-en-gele gradiëntachtergrond, een groot afgesneden woord beginnend met "Fro…" en gelaagde tekstblokken aan de rechterkant die beoordelingscriteria opsommen zoals "Feitelijk", "Beoordeelbaar", "Objectief" en "Moeilijk".

Bezig met laden...

Redeneren staat centraal in wetenschappelijk werk. Wetenschappers doen meer dan feiten onthouden: ze formuleren hypothesen, toetsen en verfijnen die, en brengen ideeën uit verschillende vakgebieden samen. Nu onze modellen steeds capabeler worden, rijst de vraag hoe diepgaand redeneren kan bijdragen aan wetenschappelijk onderzoek.

In het afgelopen jaar hebben onze modellen belangrijke mijlpalen bereikt, waaronder het behalen van prestaties die een gouden medaille zouden scoren op de Internationale Wiskunde Olympiade en de Internationale Olympiade in Informatica. Tegelijkertijd zien we dat onze meest capabele modellen, zoals GPT‑5, wetenschappelijke workflows daadwerkelijk versnellen. Onderzoekers gebruiken deze systemen voor taken zoals diepgaand literatuuronderzoek over verschillende disciplines en talen, en het doorwerken van complexe wiskundige bewijzen. In veel gevallen verkort het model werk dat anders dagen of weken zou hebben geduurd tot slechts enkele uren. Deze vooruitgang is gedocumenteerd in ons paper Vroege experimenten voor wetenschapsversnelling met GPT‑5⁠, uitgebracht in november 2025, dat vroeg bewijs presenteert dat GPT‑5 wetenschappelijke workflows meetbaar kan versnellen.

Maak kennis met FrontierScience

Het versnellen van wetenschappelijke vooruitgang is een van de meest veelbelovende manieren waarop AI de mensheid kan helpen. Daarom verbeteren we onze modellen voor complexe wiskundige en wetenschappelijke taken en ontwikkelen we tools waarmee onderzoekers er het maximale uit kunnen halen.

Toen GPQA⁠(opent in een nieuw venster), een niet Google-bare, wetenschappelijke benchmark van vragen geschreven door PhD-experts, in november 2023 werd uitgebracht, behaalde GPT‑4 een score van 39%, onder de expertbasislijn van 70%. Twee jaar later behaalde GPT‑5.2 een score van 92%. Naarmate de redeneer- en kennisvaardigheden van modellen blijven groeien, zijn zwaardere benchmarks nodig om te meten en te voorspellen in hoeverre ze wetenschappelijk onderzoek kunnen versnellen. Eerdere wetenschappelijke benchmarks richten zich voornamelijk op meerkeuzevragen, zijn verzadigd, of zijn niet centraal gericht op wetenschap.

Om deze kloof te overbruggen, introduceren we FrontierScience: een nieuwe benchmark die is ontworpen om wetenschappelijke capaciteiten op expertniveau te meten. FrontierScience is geschreven en geverifieerd door experts op het gebied van natuurkunde, scheikunde en biologie, en bestaat uit honderden vragen die zijn ontworpen om moeilijk, origineel en betekenisvol te zijn. FrontierScience bevat twee soorten vragen: Olympiad, waarmee wetenschappelijk redeneren in olympiadestijl wordt getoetst, en Research, waarmee wetenschappelijke onderzoeksvaardigheden in realistische contexten worden gemeten. Meer inzicht in de wetenschappelijke capaciteiten van modellen helpt ons de voortgang te volgen en de door AI versnelde wetenschap te bevorderen.

In onze eerste evaluaties is GPT‑5.2 ons best presterende model op FrontierScience-Olympiad (met een score van 77%) en Research (met een score van 25%), en daarmee beter dan andere frontier-modellen. We hebben aanzienlijke vooruitgang geboekt bij het oplossen van vragen op expertniveau, terwijl er nog ruimte is voor meer vooruitgang, vooral bij open onderzoeksgerichte taken. Voor wetenschappers betekent dit dat huidige modellen al ondersteuning kunnen bieden bij onderdelen van onderzoek die gestructureerd redeneren vereisen. Tegelijkertijd maakt het duidelijk dat er nog veel werk nodig is om hun vermogen tot open en verkennend denken te verbeteren. Deze resultaten sluiten aan bij hoe wetenschappers huidige modellen al inzetten: om onderzoeksprocessen te versnellen, terwijl zij voor probleemafbakening en validatie blijven vertrouwen op menselijk oordeel. Steeds vaker gebruiken zij modellen ook om ideeën en verbanden te verkennen die anders veel meer tijd zouden kosten om bloot te leggen, en die in sommige gevallen zelfs leiden tot nieuwe inzichten die experts vervolgens beoordelen en toetsen.

Uiteindelijk zijn de belangrijkste maatstaf voor de wetenschappelijke capaciteiten van AI de nieuwe ontdekkingen die het helpt mogelijk maken. Die zijn wat er uiteindelijk toe doet voor wetenschap en samenleving. FrontierScience speelt een rol eerder in dat proces. Het fungeert als een richtpunt voor wetenschappelijk redeneren op expertniveau en stelt ons in staat om modellen te testen aan de hand van een gestandaardiseerde set vragen, te zien waar ze slagen of tekortschieten, en vast te stellen waar verdere verbetering nodig is. FrontierScience is beperkt en heeft beperkingen in belangrijke opzichten (bijvoorbeeld door zich te richten op beperkte, door experts geschreven problemen) en omvat niet alles wat wetenschappers in hun dagelijkse werk doen. Maar het veld heeft behoefte aan moeilijkere, originele en betekenisvolle wetenschappelijke benchmarks, en FrontierScience zet een stap voorwaarts in deze richting.

Wat FrontierScience meet en hoe we het hebben gebouwd

De volledige FrontierScience-evaluatie omvat meer dan 700 tekstuele vragen (waarvan 160 in de gouden set) die subvelden in natuurkunde, scheikunde en biologie bestrijken. De benchmark bestaat uit twee onderdelen: een Olympiad-gedeelte en een Research-gedeelte. FrontierScience-Olympiad bevat 100 vragen, opgesteld door internationale winnaars van olympiademedailles, die wetenschappelijk redeneren toetsen binnen een strak afgebakend kortantwoordformaat. De Olympiad-set is ontworpen om theoretische vragen te bevatten die minstens zo moeilijk zijn als problemen bij internationale olympiadewedstrijden. FrontierScience-Research bestaat uit 60 originele onderzoekstaken die zijn ontworpen door PhD-wetenschappers (promovendi, professoren of postdoctorale onderzoekers) en worden beoordeeld met een 10-puntenrubriek. De onderzoekset is gemaakt om zelfstandige, meerstapse subtaken te bevatten op een moeilijkheidsniveau dat een PhD-wetenschapper tijdens zijn of haar onderzoek zou kunnen tegenkomen.

Voorbeeldvragen

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Elke taak in FrontierScience is geschreven en geverifieerd door een domeinexpert in natuurkunde, scheikunde of biologie. Voor de Olympiad-set hebben alle experts een medaille in minstens één (en vaak meerdere) internationale olympiades. Voor de Research-set hebben alle experts een relevante PhD.

De olympiadevragen zijn gemaakt in samenwerking met 42 voormalige internationale medaillewinnaars of nationale teamcoaches in de relevante domeinen, met in totaal 109 medailles. De onderzoeksvragen zijn gemaakt in samenwerking met 45 gekwalificeerde wetenschappers en domeinexperts. Alle wetenschappers waren ofwel doctoraatskandidaten, postdoctorale onderzoekers of professoren. Hun vakgebieden omvatten een reeks gespecialiseerde en belangrijke wetenschappelijke disciplines, van kwantum-elektrodynamica tot synthetische organische chemie tot evolutionaire biologie.

Bij het samenstellen van beide sets is rekening gehouden met de prestaties van interne OpenAI-modellen. Taken die deze modellen al correct oplosten, zijn verwijderd. Daardoor kan de evaluatie enigszins in het nadeel van deze modellen uitvallen ten opzichte van andere. We stellen een gevalideerde Olympiad-referentieset van 100 vragen en een Research-referentieset van 60 vragen open source beschikbaar. De overige vragen houden we apart om mogelijke contaminatie te kunnen monitoren.

Stroomdiagram dat vier fasen van een taakontwikkelingspijplijn toont (creatie, beoordeling, Resoluties en revisie) met korte beschrijvingen van elke stap en vinkjes voor feitelijke, beoordeelbare, objectieve en moeilijke criteria.

Taken doorlopen vier stadia: creatie, beoordeling, oplossing, en revisie. Onafhankelijke experts beoordelen elkaars taken om te verifiëren of ze aan de criteria voldoen.

Hoe we prestaties van modellen meten

De Olympiad-set is te beoordelen aan de hand van korte antwoorden, zoals een getal, een wiskundige uitdrukking of een fuzzy string-vergelijking. Dat maakt het eenvoudiger om de juistheid te verifiëren. Deze manier van verifiëren gaat echter vaak ten koste van hoe vrij en open het probleem kan worden geformuleerd. Voor de Research-set gebruiken we een rubric-gebaseerde beoordelingsmethode om meer open onderzoeksopgaven te evalueren. Elke vraag bevat een beoordelings-rubric met meerdere onafhankelijke en objectief beoordeelbare items, met een totaal van 10 punten. De beoordelings-rubric beoordeelt niet alleen de nauwkeurigheid van het uiteindelijke antwoord, maar ook de correctheid van de tussenliggende redeneerstappen, waardoor een genuanceerde analyse van modelprestaties en fouten mogelijk wordt. Een oplossing wordt als 'correct' beschouwd als deze minimaal 7 van de 10 rubric-punten krijgt.

Reacties worden beoordeeld door een modelgebaseerde beoordelaar (GPT‑5) aan de hand van ofwel het korte antwoord of de rubric-criteria. Hoewel we idealiter een menselijke expert zouden gebruiken om elke reactie te beoordelen, is deze aanpak niet schaalbaar, dus hebben we de rubric zo ontworpen dat deze controleerbaar is met een model. We hebben een verificatiepijplijn ontwikkeld om ervoor te zorgen dat rubrics en vragen goed zijn afgestemd op moeilijkheidsgraad en juistheid.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Elke taak in de onderzoekset wordt beoordeeld met een rubric die in totaal 10 punten omvat en kan worden gebruikt door een expert of een modelbeoordelaar. Om ons vermogen om modellen te evalueren uit te breiden, gebruiken we een ander model om reacties te beoordelen.

Modelprestaties

We evalueerden verschillende frontier-modellen: GPT‑5.2, Claude Opus 4.5, en Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, en OpenAI o3 op FrontierScience-Olympiad en FrontierScience-Research. Alle modellen werden geëvalueerd met een 'high' redeneerinspanning, met uitzondering van GPT‑5.2 met "xhigh". In onze eerste evaluaties is GPT‑5.2 ons best presterende model op FrontierScience-Olympiad (met een score van 77%) en Research (met een score van 25%), en daarmee beter dan andere frontier-modellen. Gemini 3 Pro is vergelijkbaar met GPT‑5.2 op de Olympiad-set (scorend 76%).

We zien aanzienlijke vooruitgang bij het beantwoorden van vragen op expertniveau, met name bij meer open onderzoekstaken. Er is nog steeds ruimte voor groei: bij het analyseren van de transcripts op fouten maakten modellen soms fouten in redenering, logica en berekeningen, begrepen ze niche wetenschappelijke concepten niet en maakten ze feitelijke onnauwkeurigheden.

We vergelijken de nauwkeurigheid van verschillende modellen. GPT‑5.2 is ons best presterende model op FrontierScience-Research en -Olympiad.

We vergelijken de nauwkeurigheid van redeneerniveaus voor GPT‑5.2 en o3. Een langere denktijd leidt tot verbeterde nauwkeurigheid.

Beperkingen en vervolgstappen

Hoewel FrontierScience een stap voorwaarts betekent in de moeilijkheidsgraad van wetenschappelijke benchmarks, zijn er nog steeds veel beperkingen. FrontierScience bestaat uit vragen met een beperkte probleemstelling, die zich richten op het evalueren van het eindantwoord (Olympiade) of het evalueren van de redenering om een onderzoekstaak te voltooien (Research). Bovendien is het gebruik van rubrics met meerdere componenten bij langere taken minder objectief dan het controleren van het eindantwoord.

FrontierScience geeft meer inzicht in het redeneergedrag van modellen bij complexe, door experts geschreven vragen, maar vangt niet het volledige proces van wetenschappelijk onderzoek in de praktijk. In het bijzonder beoordeelt het niet een belangrijk deel van wetenschappelijk onderzoek: hoe modellen echt nieuwe hypothesen genereren, of omgaan met meerdere modaliteiten, waaronder videogegevens en echte experimentele systemen in de fysieke wereld.

Vooruitkijkend verwachten we dat de vooruitgang in wetenschappelijk redeneren zal voortkomen uit zowel betere algemene redeneersystemen als gerichte inspanningen om wetenschappelijke capaciteiten te verbeteren. FrontierScience is een van de vele tools, en naarmate modellen verbeteren, zijn we van plan om deze benchmark te herzien, uit te breiden naar nieuwe domeinen en te koppelen aan meer evaluaties in de echte wereld die bekijken wat deze systemen wetenschappers daadwerkelijk in staat stellen om te doen. Benchmarks zoals FrontierScience helpen ons de zwakke punten van de huidige AI-systemen te begrijpen, zodat we ons werk kunnen richten op het maken van modellen die betrouwbare partners zijn in wetenschappelijk onderzoek.

Auteur

OpenAI

Andere interessante artikelen

Alles weergeven

GPT-Red: zelfverbetering voor robuustheid ontsluiten

Veiligheid15 jul 2026

Signaal en ruis scheiden in programmeerevaluaties

Onderzoek8 jul 2026

Introductie van GeneBench-Pro

Onderzoek30 jun 2026