Utvärdering av AI:s förmåga att utföra vetenskapliga forskningsuppgifter
Vi introducerar FrontierScience, ett nytt riktmärke som utvärderar AI-förmågor för vetenskapligt resonemang på expertnivå inom fysik, kemi och biologi.

Resonemang är kärnan i vetenskapligt arbete. Utöver att återkalla fakta genererar forskare även hypoteser som de testar och förfinar, och syntetiserar idéer från olika områden. I takt med att våra modeller blir allt mer kapabla blir den centrala frågan allt mer hur de kan resonera djupt för att bidra till vetenskaplig forskning.
Under det senaste året har våra modeller nått stora milstolpar såsom att prestera på guldmedaljnivå under den internationella olympiaden i matematik och informatik. Vi börjar även se att våra mest kapabla modeller såsom GPT‑5 på ett betydande sätt accelererar verkliga vetenskapliga arbetsflöden. Forskare använder dessa system för uppgifter såsom litteratursökning över olika discipliner och språk samt för att bearbeta komplexa matematiska bevis. I många fall förkortar modellen arbete som kunde ha tagit dagar eller veckor till timmar. Detta framsteg dokumenteras i vår artikel Tidiga vetenskapliga accelerationsexperiment med GPT‑5 som släpptes i november 2025. Den presenterar tidiga bevis på att GPT‑5 kan påtagligt påskynda vetenskapliga arbetsflöden.
Eftersom accelererande vetenskapliga framsteg är en av de mest lovande möjligheterna för AI att gynna mänskligheten förbättrar vi våra modeller för svåra matematik- och naturvetenskapliga uppgifter och arbetar med verktyg som kommer att hjälpa forskare att få ut det mesta av dem.
När GPQA(öppnas i ett nytt fönster) (ett "Google-säkert" vetenskapligt riktmärke med frågor skrivna av experter med doktorsexamen) släpptes i november 2023 uppnådde GPT‑4 39 % under expertbaslinjen på 70 %. Två år senare uppnådde GPT‑5.2 92 %. I takt med att modellers resonemangs- och kunskapsförmågor fortsätter att utvecklas kommer mer utmanande riktmärken att bli viktigare för att mäta och prognostisera modellers förmåga att accelerera vetenskaplig forskning. Tidigare vetenskapliga riktmärken fokuserar främst på flervalsfrågor, är mättade eller inte centralt inriktade på vetenskap.
För att överbrygga denna klyfta introducerar vi FrontierScience: ett nytt riktmärke utformat för att mäta expertkunskaper på vetenskaplig nivå. FrontierScience är skriven och verifierad av experter inom fysik, kemi och biologi, och består av hundratals frågor utformade för att vara svåra, originella och meningsfulla. FrontierScience inkluderar två frågespår: Olympiad som mäter vetenskapliga resonemangsförmågor i olympiadstil, och Research som mäter verkliga vetenskapliga forskningsförmågor. Att ge mer insikt i modellers vetenskapliga kapacitet hjälper oss att följa framsteg och främja AI-accelererad vetenskap.
I våra initiala utvärderingar är GPT‑5.2 vår bäst presterande modell på FrontierScience-Olympiad (med en poäng på 77 %) och forskning (med en poäng på 25 %). Vi har sett betydande framsteg i att lösa frågor på expertnivå men ser utrymme för förbättring, särskilt när det kommer till öppna forskningsinriktade uppgifter. För forskare innebär detta att nuvarande modeller redan kan ge stöd till delar av forskningen som involverar strukturerat resonemang men betyder även att mycket arbete återstår för att förbättra deras förmåga att utföra öppet tänkande. Dessa resultat stämmer överens med hur forskare redan använder dagens modeller: för att påskynda forskningsflöden samtidigt som de förlitar sig på mänskligt omdöme för problemformulering och validering, utforska idéer och samband som annars skulle ta lång tid att upptäcka inklusive, i vissa fall, för att bidra med nya insikter som experter sedan utvärderar och testar.
Den viktigaste riktmärket för AI:s vetenskapliga förmågor är dock i slutändan de nya upptäckter den bidrar till att generera eftersom det är vad som är viktigt för vetenskapen och samhället. FrontierScience är bland ledarna inom det. Den är en ledstjärna för vetenskapligt resonemang på expertnivå som låter oss testa modeller på en standardiserad uppsättning frågor för att se inom vad de lyckas eller misslyckas samt identifiera vart det finns utrymme för förbättring. FrontierScience är smal och har begränsningar i vissa avseenden (till exempel fokus på begränsade, expertbeskrivna problem) och fångar inte upp allt som forskare gör i sitt dagliga arbete. Fast området behöver svårare samt mer originella och meningsfulla vetenskapliga riktmärken och FrontierScience är ett steg framåt i rätt riktning.
Den fullständiga utvärderingen av FrontierScience inkluderar över 700 textfrågor (med 160 på guldnivå) som täcker delområden inom fysik, kemi och biologi. Riktmärket består av delarna Olympiad och Research. FrontierScience-Olympiad innehåller 100 frågor skapade av internationella olympiadmedaljörer för att bedöma vetenskapligt resonemang i ett begränsat format med korta svar. Olympiad-delen utformades för att innehålla teoretiska frågor som är minst lika svåra som problem vid internationella olympiader. FrontierScience-Research består av 60 forskningsuppgifter skapade av forskare (doktorander, professorer eller postdoktorala forskare) som bedöms med hjälp av en skala på 10 poäng. Research-delen skapades för att innehålla självständiga deluppgifter i flera steg på den svårighetsgrad som en forskare kan stöta på i sin forskning.
Varje uppgift i FrontierScience är skriven och verifierad av en expert inom fysik, kemi eller biologi. För Olympiad-delen har experterna vunnit en medalj i minst en (ofta flera) internationella olympiader. För Research-delen har experterna en relevant doktorsexamen.
Olympiad-frågorna skapades i samarbete med 42 tidigare internationella medaljörer eller nationella teamcoacher inom relevanta område, totalt 109 olympiadmedaljer. Forskningsfrågorna skapades i samarbete med 45 kvalificerade forskare och områdesexperter. Alla forskare var antingen doktorander, postdoktorala forskare eller professorer. Deras expertisområden sträckte sig över en rad specialiserade och viktiga vetenskapliga discipliner, från kvantelektrodynamik till syntetisk organisk kemi till evolutionär biologi.
Processen för att skapa uppgifter för båda delarna inkluderade viss selektion mot OpenAI:s interna modeller (t.ex. att kassera uppgifter som modellerna lyckades lösa korrekt vilket innebär att vi förväntar oss att utvärderingen kommer att vara något partisk mot dessa modeller i förhållande till andra). De 100 frågorna för Olympiad-delen och de 60 frågorna för Research-delen är öppna för alla medans de andra frågorna inte delas för att spåra kontaminering.

Uppgifter går igenom fyra steg: skapande, granskning, lösning, revidering. Oberoende experter granskar varandras uppgifter för att verifiera att de stämmer överens med kriterierna.
Olympiad-delen kan bedömas med ett kort svar: antingen med ett nummer, uttryck eller ofullständig matchning vilket hjälper till att verifiera korrektheten. Denna verifiering kompromissar dock ofta med problemets uttrycksfullhet och öppenhet. För Research-delen introducerar vi en matrisbaserad arkitektur för betygsättning av mer öppna uppgifter. Varje fråga innehåller en poängsättningsmatris med flera oberoende och objektivt bedömbara element, totalt 10 poäng. Poängsättningsmatrisen bedömer inte bara noggrannheten i det slutliga svaret utan även korrektheten i mellanliggande resonemangssteg vilket möjliggör nyanserad modellprestation och felanalys. En lösning anses vara "korrekt" om den får minst 7/10 poäng.
Svar utvärderas av en modellbaserad betygsättare (GPT‑5) mot antingen kortsvar eller poängmatrisen. Även om vi helst skulle vilja använda en expert för att bedöma varje svar är detta tillvägagångssätt inte skalbart, vi utformade därför bedömningskriterierna till att kunna kontrolleras med hjälp av en modell. Vi utvecklade en verifieringspipeline för att säkerställa att bedömningskriterier och frågor var välkalibrerade för svårighetsgrad och korrekthet.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Underkänd 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Godkänd 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Godkänd 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Godkänd 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Underkänd 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Varje uppgift i Research-delen bedöms med hjälp av en bedömningsmall som ger totalt 10 poäng och kan användas av en expert eller en modellbedömare. För att utöka vår förmåga att utvärdera modeller använder vi en annan modell för att bedöma svar.
Vi har utvärderat flera avancerade modeller: GPT‑5.2, Claude Opus 4.5, och Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, och OpenAI o3 på FrontierScience-Olympiad och FrontierScience-Research. Alla resonemangsmodeller utvärderades med "hög" resonemangsansträngning med undantag för GPT‑5.2 som utvärderades med "xhigh". I våra initiala utvärderingar är GPT‑5.2 vår bäst presterande modell på FrontierScience-Olympiad (med en poäng på 77 %) och forskning (med en poäng på 25 %). Gemini 3 Pro är jämförbar med GPT‑5.2 på Olympiad-delen (poäng på 76 %).
Vi har sett betydande framsteg i att lösa frågor på expertnivå, särskilt inom öppna forskningsuppgifter. Det finns fortfarande utrymme för förbättring: transkriptioner av misslyckanden visar att frontlinjemodeller ibland gjorde resonemangs-, logik- och beräkningsfel, förstod inte nischade vetenskapliga koncept och gjorde faktamässiga felaktigheter.
Vi jämför noggrannhet hos flera avancerade modeller. GPT‑5.2 är vår högst presterande modell på FrontierScience-Research och Olympiad.
Vi jämför noggrannheten hos resonemangsinsatser för GPT‑5.2 och o3. Längre betänketid leder till förbättrad noggrannhet.
Även om FrontierScience representerar ett steg framåt i svårighetsgraden av vetenskapliga riktmärken finns det fortfarande många begränsningar. FrontierScience består av frågor med en begränsad problemställning som fokuserar på att utvärdera det slutliga svaret (Olympiad) eller utvärdera resonemanget för att slutföra en forskningsuppgift (Research). Dessutom är användningen av bedömningskriterier med flera komponenter på längre uppgifter mindre objektivt än kontroll av det slutliga svaret.
FrontierScience erbjuder en högupplöst ögonblicksbild av modellernas resonemang kring svåra frågor skapade av experter men inte en fullständig bild av hur vetenskap utförs i praktiken. I synnerhet utvärderar den inte en betydande del av vetenskaplig forskning: hur modeller genererar genuint nya hypoteser eller interagerar med flera modaliteter, inklusive videodata och verkliga experimentella system i den fysiska världen.
Framöver förväntar vi oss att framsteg inom vetenskapligt resonemang kommer att komma från både bättre allmänna resonemangssystem och fokuserade insatser för att förbättra vetenskapliga förmågor. FrontierScience är ett av många verktyg och i takt med att modellerna förbättras planerar vi att fortsätta med denna referenspunkt, utöka den till nya domäner och kombinera den med fler verkliga utvärderingar som undersöker vad dessa system faktiskt tillåter forskare att göra. Referenspunkter som FrontierScience hjälper oss att förstå svagheterna hos dagens AI-system så att vi kan fokusera vårt arbete på att göra modeller till pålitliga partners inom vetenskap.


