16. desember 2025

Evaluering av KI-ens evne til å utføre vitenskapelige forskningsoppgaver

Vi introduserer FrontierScience, en ny referansestandard som evaluerer KI-evner for vitenskapelig resonnering på ekspertnivå innen fysikk, kjemi og biologi.

Les artikkelen

Delvis grafikk med en myk grønn-og-gul gradientbakgrunn, et stort beskåret ord som begynner med "Fro…," og lagdelte tekstblokker til høyre som viser vurderingskriterier som "Faktuell," "Gradbar," "Objektiv," og "Vanskelig."

Laster inn …

Resonnement er kjernen i vitenskapelig arbeid. Utover å huske fakta, genererer forskere hypoteser, tester og forbedrer dem, og syntetiserer ideer på tvers av fagfelt. Etter hvert som modellene våre blir mer kapable, er det sentrale spørsmålet hvordan de kan Resonner dypt for å bidra til vitenskapelig forskning.

I løpet av det siste året har modellene våre nådd store milepæler, inkludert å oppnå gullmedaljeprestasjoner ved den internasjonale Math Olympiad og den internasjonale Olympiad in Informatics. Parallelt begynner vi å se at våre mest kapable modeller, som GPT‑5, meningsfullt akselererer ekte vitenskapelige arbeidsflyter. Forskere bruker disse systemene til oppgaver som grundig litteratursøk på tvers av disipliner og språk, og til å arbeide gjennom komplekse matematiske bevis. I mange tilfeller forkorter modellen arbeid som ellers kunne ha tatt dager eller uker til bare timer. Denne fremgangen er dokumentert i vår artikkel Tidlige vitenskapelige akselerasjonseksperimenter med GPT‑5⁠, utgitt i november 2025, som presenterer tidlige bevis på at GPT‑5 kan målbart akselerere vitenskapelige arbeidsflyter.

Vi presenterer FrontierScience

Ettersom akselererende vitenskapelig fremgang er en av de mest lovende mulighetene for KI til å gagne menneskeheten, forbedrer vi modellene våre på vanskelige matematikk- og vitenskapsoppgaver og jobber med verktøyene som vil hjelpe forskere med å få mest mulig ut av dem.

Da GPQA⁠(åpnes i et nytt vindu), en "Google-sikker" vitenskapelig referanse med spørsmål skrevet av PhD-eksperter, ble utgitt i november 2023, oppnådde GPT‑4 en score på 39 %, under ekspertbaselinen på 70 %. To år senere oppnådde GPT‑5.2 92 %. Etter hvert som modellenes resonnerings- og kunnskapsevner fortsetter å utvikle seg, vil mer krevende referansemålinger være viktige for å vurdere og forutsi modellenes evne til å akselerere vitenskapelig forskning. Tidligere vitenskapelige referansepunkter fokuserer i stor grad på flervalgsspørsmål, er overmettet, eller er ikke sentralt fokusert på vitenskap.

For å tette dette gapet introduserer vi FrontierScience: en ny referanse bygget for å måle ekspert-nivå vitenskapelige evner. FrontierScience er skrevet og verifisert av eksperter innen fysikk, kjemi og biologi, og består av hundrevis av spørsmål som er laget for å være utfordrende, originale og meningsfulle. FrontierScience inkluderer to spor med spørsmål: Olympiad, som måler vitenskapelig resonnementsevne i Olympiad-stil, og Research, som måler evner innen vitenskapelig forskning i den virkelige verden. Å gi mer innsikt i modellers vitenskapelige evner hjelper oss med å spore fremgang og fremme KI-akselerert vitenskap.

I våre innledende evalueringer er GPT‑5.2 vår best presterende modell på FrontierScience-Olympiad (med en poengsum på 77 %) og forskning (med en poengsum på 25 %), foran andre banebrytende modeller. Vi har sett betydelig fremgang i å løse spørsmål på ekspertnivå, samtidig som vi har rom for mer fremgang, spesielt på åpne forskningsoppgaver. For forskere antyder dette at nåværende modeller allerede kan støtte deler av forskningen som involverer strukturert resonnement, samtidig som det fremheves at det gjenstår betydelig arbeid for å forbedre deres evne til å utføre åpen tenkning. Disse resultatene er i tråd med hvordan forskere allerede bruker dagens modeller: for å akselerere forskningsarbeidsflyter mens de stoler på menneskelig dømmekraft for problemformulering og validering, og i økende grad for å utforske ideer og forbindelser som ellers ville tatt mye lengre tid å avdekke—inkludert, i noen tilfeller, å bidra med nye innsikter som eksperter deretter evaluerer og tester.

Til slutt er den viktigste målestokken for de vitenskapelige evnene til KI de nye oppdagelsene den bidrar til å generere; det er de som til syvende og sist betyr noe for vitenskapen og samfunnet. FrontierScience ligger oppstrøms for det. Det gir oss en ledestjerne for vitenskapelig resonnement på ekspertnivå, slik at vi kan teste modeller på et standardisert sett med spørsmål, se hvor de lykkes eller mislykkes, og identifisere hvor vi må forbedre dem. FrontierScience er smal og har begrensninger på viktige områder (for eksempel ved å fokusere på begrensede, ekspertforfattede problemer) og fanger ikke opp alt forskere gjør i sitt daglige arbeid. Men feltet trenger mer krevende, originale og meningsfulle vitenskapelige målestokker, og FrontierScience gir et skritt fremover i denne retningen.

Hva FrontierScience måler og hvordan vi bygde det

Den fullstendige FrontierScience-evalueringen omfatter over 700 tekstspørsmål (med 160 i gullsettet) som dekker underfelt innen fysikk, kjemi og biologi. Referansemålingen består av en Olympiad og en forskningsdel. FrontierScience-Olympiad inneholder 100 spørsmål utformet av internasjonale Olympiad-medaljører for å vurdere vitenskapelig resonnement i et begrenset, kortsvarformat. Olympiad-oppsettet ble designet for å inneholde teoretiske spørsmål som er minst like vanskelige som oppgaver i internasjonale Olympiad-konkurranser. FrontierScience-Research består av 60 originale forskningsoppgaver utformet av PhD-forskere (doktorgradsstudenter, professorer eller postdoktorer) som vurderes ved hjelp av en 10-punkts vurderingsskala. Forskningssettet ble opprettet for å inneholde selvstendige, flertrinns deloppgaver på et vanskelighetsnivå som en PhD-forsker kan møte under sin forskning.

Eksempelspørsmål

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Hver oppgave i FrontierScience er skrevet og verifisert av en domeneekspert innen fysikk, kjemi eller biologi. For Olympiad-oppsettet ble alle ekspertene tildelt en medalje i minst én (og ofte flere) internasjonale Olympiad-konkurranser. For forskningssettet har alle ekspertene en relevant PhD-grad.

Olympiad-spørsmålene ble opprettet i samarbeid med 42 tidligere internasjonale medaljevinnere eller Teamtrenere i de relevante domener, med totalt 109 Olympiad-medaljer. Forskningsspørsmålene ble opprettet i samarbeid med 45 kvalifiserte forskere og domeneeksperter. Alle forskerne var enten doktorgradsstipendiater, postdoktorer eller professorer. Deres ekspertiseområder omfattet et spekter av spesialiserte og viktige vitenskapelige disipliner, fra kvanteelektrodynamikk til syntetisk organisk kjemi til evolusjonsbiologi.

Opprettelsesprosessen for oppgaver for begge settene inkluderte en viss seleksjon mot OpenAIs interne modeller (f.eks. å forkaste oppgaver som modellene klarte riktig, så vi forventer at evalueringen vil være noe partisk mot disse modellene sammenlignet med andre). Vi gjør Olympiad gullsettet med 100 spørsmål og Research gullsettet med 60 spørsmål tilgjengelig som åpen kildekode, mens vi holder tilbake de andre spørsmålene for å spore forurensning.

Flytdiagram som viser fire stadier i en oppgaveutviklingsprosess—Opprettelse, Gjennomgang, Oppløsning og Revisjon—med korte beskrivelser av hvert trinn og avkrysningsbokser for faktiske, graderbare, objektive og vanskelige kriterier.

Oppgaver går gjennom fire stadier: Opprettelse, Gjennomgang, Oppløsninger, Revisjon. Uavhengige eksperter vurderer hverandres oppgaver for å verifisere at de samsvarer med kriteriene.

Hvordan vi vurderer modellens ytelse

Olympiad-oppsettet kan vurderes med et kort svar: enten med et tall, uttrykk eller uskarp strengmatch, som hjelper med å verifisere korrekthet. Imidlertid går denne verifisering ofte på bekostning av problemets uttrykksevne og åpenhet. For forskningssettet introduserer vi en rubrikkbasert arkitektur for vurdering av mer åpne oppgaver. Hvert spørsmål inkluderer en vurderingsrubrikk med flere uavhengige og objektivt vurderbare elementer, totalt 10 poeng. Vurderingsrubrikken vurderer ikke bare nøyaktigheten av det endelige svaret, men også korrektheten av de mellomliggende resonnementstrinnene, noe som tillater en nyansert analyse av modellens ytelse og feil. En løsning anses som "korrekt" hvis den tildeles minst 7/10 rubrikkerpoeng.

Svarene evalueres av en modellbasert vurderer (GPT‑5) mot enten kortsvar eller rubrikkriterier. Selv om vi ideelt sett ville brukt en ekspert til å vurdere hvert svar, er denne tilnærmingen ikke skalerbar, så vi utformet rubrikken slik at den kan kontrolleres ved hjelp av en modellvurderer. Vi utviklet en verifisering for å bidra til å sikre at rubrikker og spørsmål var godt kalibrert i forhold til vanskelighetsgrad og korrekthet.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Hver oppgave i forskningssettet vurderes ved hjelp av en rubrikk som gir totalt 10 poeng, og som kan brukes av en ekspert eller en modellvurderer. For å utvide vår evne til å evaluere modeller, bruker vi en annen modell til å bedømme svar.

Modellytelse

Vi evaluerte flere banebrytende modeller: GPT‑5.2, Claude Opus 4.5, og Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, og OpenAI o3 på FrontierScience-Olympiad og FrontierScience-Research. Alle resonneringsmodeller ble evaluert med “høy” resonneringsinnsats, med unntak av GPT‑5.2 på “xhigh”. I våre innledende evalueringer er GPT‑5.2 vår best presterende modell på FrontierScience-Olympiad (med en poengsum på 77 %) og forskning (med en poengsum på 25 %), foran andre banebrytende modeller. Gemini 3 Pro er sammenlignbar med GPT‑5.2 på Olympiad-settet (scorer 76 %).

Vi har sett betydelig fremgang i å løse spørsmål på ekspertnivå, spesielt på åpne forskningsoppgaver. Det er fortsatt rom for vekst: ved å analysere transkripsjonene for feil, gjorde avanserte modeller noen ganger resonnerings-, logikk- og beregningsfeil, forsto ikke nisjevitenskapelige konsepter, og gjorde faktiske unøyaktigheter.

Vi sammenligner nøyaktighetene på tvers av flere grensemodeller. GPT‑5.2 er vår best ytende modell på FrontierScience-Research og Olympiad-settet.

Vi sammenligner nøyaktighetene på tvers av resonneringsinnsatser for GPT‑5.2 og o3. Lengre tenketid fører til bedre nøyaktighet.

Begrensninger og veien neste

Selv om FrontierScience representerer et fremskritt i vanskelighetsgraden av vitenskapelige referansemålinger, er det fortsatt mange begrensninger. FrontierScience består av spørsmål med en begrenset problemstilling, som fokuserer på å evaluere det endelige svaret (Olympiad) eller resonnementet for å fullføre en oppgave innen forskning (Forskning). I tillegg er det mindre objektivt å bruke rubrikker med flere komponenter på lengre oppgaver enn å sjekke det endelige svaret.

FrontierScience tilbyr et snapshot med høyere oppløsninger av modellers resonnement på vanskelige, ekspertforfattede spørsmål, men ikke et fullstendig bilde av hvordan vitenskap utføres i praksis. Spesielt vurderer den ikke en betydelig del av vitenskapelig forskning: hvordan modeller genererer genuint nye hypoteser, eller samhandler med flere modaliteter, inkludert Videodata og reelle eksperimentelle systemer i den fysiske verden.

Fremover forventer vi at fremgang innen vitenskapelig resonnering vil komme både fra bedre generelle resonneringssystemer og målrettet innsats for å forbedre vitenskapelige evner. FrontierScience er et verktøy blant mange, og ettersom modellene forbedres, planlegger vi å iterere på denne referansemålingen, utvide den til nye domener, og kombinere den med flere evalueringer fra den virkelige verden som ser på hva disse systemene faktisk aktiver for forskere å gjøre. Benchmarking som FrontierScience hjelper oss med å forstå svakhetene i dagens KI-systemer, slik at vi kan fokusere arbeidet vårt på å gjøre modeller til pålitelige partnere i vitenskapelig oppdagelse.

Forfatter

OpenAI

Les videre

Se alle

GPT-Red: Låser opp selvforbedring for robusthet

Sikkerhet15. juli 2026

Skille signal fra støy i kodeevalueringer

Research8. juli 2026

Vi introduserer GeneBench-Pro

Research30. juni 2026