16. december 2025

Evaluering af AI's evne til at udføre videnskabelige forskningsopgaver

Vi introducerer nu FrontierScience, som er et nyt benchmark, der evaluerer AI's evner til videnskabelig avanceret tænkning på ekspertniveau inden for fysik, kemi og biologi.

Læs artiklen

Delvis grafik med en blød grøn-gul gradientbaggrund, et stort beskåret ord, der starter med "Fro…," og lagdelte tekstblokke til højre, der angiver vurderingskriterier som "Faktuel," "Graduerbar," "Objektiv" og "Svær."

Indlæser ...

Avanceret tænkning er kernen i alt videnskabeligt arbejde. Ud over at huske fakta genererer forskere hypoteser, tester og justerer dem og syntetiserer ideer på tværs af discipliner. Efterhånden som vores modeller bliver mere kompetente, er det centrale spørgsmål, hvordan de kan anvende avanceret tænkning for at bidrage til videnskabelig forskning.

I løbet af det sidste år har vores modeller nået store fremskridt, herunder at opnå guldmedaljepræstationer ved Den Internationale Matematik-Olympiade og Den Internationale Informatik-Olympiade. Parallelt begynder vi at se, at vores mest effektive modeller, såsom GPT‑5, på meningsfuld vis accelererer reelle videnskabelige arbejdsprocesser. Forskere bruger disse systemer til opgaver såsom dybtgående litteratursøgning på tværs af discipliner og sprog samt til at arbejde sig igennem komplekse matematiske beviser. I mange tilfælde forkorter modellen arbejdet, der kunne have taget dage eller uger til blot nogle få timer. Denne fremgang er dokumenteret i vores artikel Tidlige videnskabelige accelerationseksperimenter med GPT‑5⁠, der blev udgivet i november 2025, som indeholder tidlige beviser for, at GPT‑5 kan målbart fremskynde videnskabelige arbejdsgange.

Vi introducerer nu FrontierScience

Accelererende videnskabelige fremskridt er en af de mest lovende muligheder for AI til at gavne menneskeheden. Derfor forbedrer vi vores modeller til vanskelige matematik- og videnskabsopgaver og arbejder på værktøjer, der vil hjælpe forskere med at få mest muligt ud af dem.

Da GPQA⁠(åbner i et nyt vindue), som er en "Google-sikker" videnskabelig benchmark med spørgsmål skrevet af PhD-eksperter, blev udgivet i november 2023, opnåede GPT‑4 en score på 39 %, hvilket er under ekspertbaselinjen på 70 %. To år senere opnåede GPT‑5.2 en score på 92 %. Efterhånden som modellernes videnskabelige kapacitet for avanceret tænkning fortsætter med at skalere, vil mere udfordrende benchmarks være vigtige for at måle og forudsige modellernes evne til at fremskynde videnskabelig forskning. Tidligere videnskabelige benchmarks, der fokuserede primært på multiple choice-spørgsmål, er nu mættede eller ikke centralt fokuseret på videnskab.

For at udligne denne mangel introducerer vi nu FrontierScience, som er en ny benchmark, der er designet til at måle videnskabelige færdigheder på ekspertniveau. FrontierScience er skrevet og verificeret af eksperter inden for fysik, kemi og biologi og består af hundredvis af spørgsmål, der er designet til at være vanskelige, originale og meningsfulde. FrontierScience inkluderer to grupper af spørgsmål: Olympiade, som måler Olympiade-stil videnskabelige kapaciteter til avanceret tænkning, og Research, som måler evner til videnskabelig forskning i den virkelige verden. Større indsigt i modellers videnskabelige kapaciteter hjælper os med at spore fremskridt og fremme AI-accelereret videnskab.

I vores indledende evalueringer er GPT‑5.2 vores bedst præsterende model på FrontierScience-Olympiad (med en score på 77 %) og Research (med en score på 25 %), hvilket er bedre end andre lignende modeller. Vi har set betydelige fremskridt i løsningen af spørgsmål på ekspertniveau, mens der stadig er plads til mere fremgang, især med hensyn til åbne forskningsopgaver. For forskere tyder dette på, at de nuværende modeller allerede kan understøtte deling af forskningen, der involverer struktureret avanceret tænkning, mens det understreger, at det stadig er nødvendigt med betydeligt arbejde for at forbedre deres evne til at udføre åbne tankeprocesser. Disse resultater stemmer overens med, hvordan forskere allerede bruger nutidens modeller, f.eks. til at fremskynde forskningsarbejdsgange, mens de stoler på menneskelig dømmekraft til problemformulering og validering, og i stigende grad til at udforske ideer og forbindelser, der ellers ville tage meget længere tid at afdække, herunder i nogle tilfælde at bidrage med nye indsigter, som eksperter derefter evaluerer og tester.

I sidste ende er den vigtigste målestok for AI's videnskabelige evner de nye opdagelser, den hjælper med at generere. Det er dem, der i sidste ende betyder noget for videnskaben og samfundet. FrontierScience ligger allerede i front på det punkt. Det giver os en ledestjerne for videnskabelig, avanceret tænkning på ekspertniveau, så vi kan teste modeller ud fra et standardiseret sæt spørgsmål, se hvor de har lykkes eller fejler, og identificere hvor vi skal forbedre dem. FrontierScience er snæver og har begrænsninger på vigtige områder (for eksempel ved at fokusere på begrænsede, ekspertforfattede problemer) og registrerer ikke alt, hvad forskere laver i deres daglige arbejde. Men området har brug for mere udfordrende, originale og meningsfulde videnskabelige benchmarks, og FrontierScience giver et skridt fremad i denne retning.

Hvad FrontierScience måler, og hvordan vi byggede den

Den fulde FrontierScience-evaluering omfatter over 700 tekstspørgsmål (med 160 i guld-sættet), der dækker underfelter inden for fysik, kemi og biologi. Benchmarket består af en Olympiad- og en Research -del. FrontierScience Olympiad indeholder 100 spørgsmål, der er udformet af internationale olympiademedaljevindere til at vurdere videnskabelig avanceret tænkning i et begrænset, kort svarformat. Olympiad-sættet blev designet til at indeholde teoretiske spørgsmål, der er mindst lige så svære som opgaver ved internationale olympiadekonkurrencer. FrontierScience-Research består af 60 originale forskningsopgaver, der er designet af PhD-videnskabsfolk (ph.d.-kandidater, professorer eller postdoktorale forskere), som bedømmes ved hjælp af en 10-punkts rubrik. Research-sættet blev skabt til at indeholde selvstændige, flertrinsunderopgaver på det sværhedsniveau, som en PhD-forsker kunne opleve under forskning.

Eksempler på spørgsmål

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Hver opgave i FrontierScience er skrevet og verificeret af en domæneekspert inden for fysik, kemi eller biologi. For Olympiad-sættet blev alle eksperter tildelt en medalje i mindst én (og ofte flere) internationale olympiadekonkurrencer. For Research-sættet havde alle eksperter en relevant ph.d.-grad.

Olympiad-spørgsmålene blev skabt i samarbejde med 42 tidligere internationale medaljevindere eller nationale Team-trænere inden for de relevante domæner, i alt 109 olympiademedaljer. Forskningsspørgsmålene blev skabt i samarbejde med 45 kvalificerede forskere og domæneeksperter. Alle forskere var enten ph.d.-kandidater, postdoktorale forskere eller professorer. Deres ekspertiseområder omfattede en række specialiserede og vigtige videnskabelige discipliner, fra kvanteelektrodynamik til syntetisk organisk kemi til evolutionsbiologi.

Opgaveoprettelsesprocessen for begge sæt inkluderede en vis udvælgelse mod OpenAI's interne modeller (f.eks. at kassere opgaver, som modellerne klarede korrekt, så vi forventer, at evalueringen vil være noget forudindtaget mod disse modeller i forhold til andre). Vi offentlgør Olympiad-guldsættet med 100 spørgsmål og Research-guldsættet med 60 spørgsmål som open source, mens vi holder de andre spørgsmål tilbage for at spore kontaminering.

Flowchart, der viser fire faser i en opgaveudviklingspipeline – Oprettelse, Gennemgang, Løsning og Revision – med korte beskrivelser af hvert trin og flueben for faktuelle, bedømningsbare, objektive og vanskelige kriterier.

Opgaver går gennem fire faser: Oprettelse, Gennemgang, Løsning og Revision. Uafhængige eksperter gennemgår hinandens opgaver for at verificere, at de opfylder kriterierne.

Sådan klassificerer vi modelpræstation

Olympiad-sættet kan vurderes med et kort svar: enten med et tal, et udtryk eller en uklar strengmatch, hvilket hjælper med at verificere korrektheden. Dog går denne verifikation ofte på kompromis med problemets udtryksfuldhed og åbenhed. For Research-sættet introducerer vi en rubrikbaseret arkitektur til at vurdere mere åbne opgaver. Hvert spørgsmål inkluderer en bedømmelsesrubrik med flere uafhængige og objektivt vurderbare elementer, der tilsammen giver 10 point. Bedømmelsesrubrikken vurderer ikke kun nøjagtigheden af det endelige svar, men også korrektheden af de mellemliggende trin for avanceret tænkning, hvilket muliggør en nuanceret analyse af modelpræstation og fejlanalyse. En løsning anses for at være “korrekt”, hvis den scorer mindst 7/10 point i bedømmelseskriterierne.

Svarene vurderes af en modelbaseret bedømmer (GPT‑5) i forhold til enten det korte svar eller rubrikkriterierne. Selvom vi ideelt set ville bruge en ekspert til at bedømme hvert svar, er denne tilgang ikke skalerbar, så vi designede rubrikken til at kunne tjekkes ved hjælp af en model-evaluator. Vi udviklede en verifikationsproces for at hjælpe med at sikre, at rubrikker og spørgsmål var godt kalibreret til sværhedsgrad og korrekthed.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Hver opgave i forskningssættet vurderes ved hjælp af en rubrik, der i alt giver 10 point, og som kan bruges af en ekspert eller en model. For at udvide vores evne til at evaluere modeller, anvender vi en anden model til at vurdere svar.

Modelpræstation

Vi evaluerede flere banebrydende modeller såsom GPT‑5.2, Claude Opus 4.5, og Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, og OpenAI o3 på FrontierScience-Olympiad og FrontierScience-Research. Alle modeller til avanceret tænkning blev evalueret ved "høj" avanceret tænkningsindsats med undtagelse af GPT‑5.2 ved "xhigh". I vores indledende evalueringer er GPT‑5.2 vores bedst præsterende model på FrontierScience-Olympiad (med en score på 77 %) og Research (med en score på 25 %), hvilket er bedre end andre lignende modeller. Gemini 3 Pro er sammenlignelig med GPT‑5.2 på Olympiad-sættet (scorer 76%).

Vi har set betydelige fremskridt i løsningen af spørgsmål på ekspertniveau, især inden for åbne forskningsopgaver. Der er stadig mere plads til at vokse. Ved at analysere transkripterne for fejl, lavede Frontier-modellerne nogle gange fejl i avanceret tænkning, logik og beregning, og forstod ikke nichevidenskabelige koncepter og lavede faktuelle unøjagtigheder.

Vi sammenligner nøjagtigheder på tværs af flere frontlinjemodeller. GPT‑5.2 er vores bedst præsterende model på FrontierScience-Research og Olympiad-sættet.

Vi sammenligner nøjagtigheder på tværs af indsatser for avanceret tænkning for GPT‑5.2 og o3. Længere tænkningstid fører til forbedret nøjagtighed.

Begrænsninger og næste tiltag

Selvom FrontierScience repræsenterer et skridt fremad i sværhedsgraden af videnskabelige benchmarks, er der stadig mange begrænsninger. FrontierScience består af spørgsmål med en begrænset problemformulering, der fokuserer på at evaluere det endelige svar (Olympiad) eller evaluere avanceret tænkning for at fuldføre en forskningsopgave (Research). Derudover er brugen af bedømmelseskriterier med flere komponenter til længere opgaver mindre objektiv end at kontrollere det endelige svar.

FrontierScience tilbyder et øjebliksbillede i højere opløsning af modellernes avanceret tænkning for vanskelige, ekspertskrevne spørgsmål, men giver ikke et fuldstændigt billede af, hvordan videnskab udføres i praksis. Især vurderer FrontierScience ikke en væsentlig del af videnskabelig forskning, såsom hvordan modeller genererer ægte nye hypoteser eller interagerer med flere modaliteter, herunder Videodata og reelle eksperimentelle systemer i den fysiske verden.

Når vi ser fremad, forventer vi, at fremskridt inden for videnskabelig avanceret tænkning vil komme fra både bedre generelle systemer til avanceret tænkning og fokuseret indsats på at forbedre videnskabelige kapaciteter. FrontierScience er et værktøj blandt mange, og efterhånden som modellerne forbedres, planlægger vi at iterere på dette benchmark, udvide det til nye domæner og parre det med flere evalueringer fra den virkelige verden, der ser på, hvad disse systemer faktisk giver forskere mulighed for at gøre. Benchmarks såsom FrontierScience hjælper os med at forstå svaghederne ved nutidens AI-systemer, så vi kan fokusere vores arbejde på at gøre modeller til pålidelige partnere i videnskabelig opdagelse.

Skrevet af

OpenAI

Læs videre

Se alle

GPT-Red: Frigør selvforbedring for robusthed

Sikkerhed15. jul. 2026

At skelne signal fra støj i kodeevalueringer

Research8. jul. 2026

Vi introducerer GeneBench-Pro

Research30. jun. 2026