Mat á getu gervigreindar til að framkvæma vísindarannsóknarverkefni
Við kynnum FrontierScience, nýtt viðmið sem metur getu gervigreindar til að framkvæma vísindalega röksemdafærslu í eðlisfræði, efnafræði og líffræði á sérfræðistigi.

Röksemdafærsla er kjarninn í vísindalegri vinnu. Fyrir utan að rifja upp staðreyndir, búa vísindamenn til tilgátur, prófa og betrumbæta þær og samþætta hugmyndir á milli sviða. Þegar líkön okkar verða færari er meginspurningin hvernig þau geta rökhugsað djúpt til að leggja sitt af mörkum til vísindarannsókna.
Á síðasta ári hafa líkön okkar náð mikilvægum áföngum, þar á meðal að vinna gullverðlaun á Alþjóðlegu Ólympíuleikunum í stærðfræði og Alþjóðlegu Ólympíuleikunum í upplýsingafræði. Samhliða erum við farin að sjá okkar hæfustu líkön, eins og GPT‑5, merkjanlega flýta fyrir raunverulegum vísindalegum verkflæðum. Rannsakendur nota þessi kerfi til verkefna eins og að leita í heimildum á milli fræðigreina og tungumála og vinna úr flóknum stærðfræðilegum sönnunum. Í mörgum tilfellum styttir líkanið vinnu sem hefði getað tekið nokkra daga eða nokkrar vikur upp í nokkrar klukkustundir. Þessum framförum er lýst í grein okkar, Early science acceleration experiments with GPT‑5, sem kom út í nóvember 2025, og sýnir fram á að GPT‑5 getur mælanlega hraðað vísindalegum vinnuflæðum.
Þar sem hraðari vísindaframfarir eru eitt efnilegasta tækifærið fyrir gervigreind til að gagnast mannkyni, erum við að bæta líkön okkar fyrir erfið stærðfræði- og vísindaverkefni og vinna að verkfærum sem munu hjálpa vísindamönnum að fá sem mest út úr þeim.
Þegar GPQA(opnast í nýjum glugga), „Google-Proof“ vísindaviðmið fyrir spurningar sem doktorsnemar höfðu skrifað, var gefið út í nóvember 2023, fékk GPT‑4 39% einkunn, sem er undir viðmiðunargildi sérfræðinga sem var 70%. Tveimur árum síðar náði GPT‑5.2 92%. Eftir því sem röksemdafærslu- og þekkingargeta líkana heldur áfram að aukast, verða erfiðari viðmið mikilvæg til að mæla og spá fyrir um getu líkana til að hraða vísindarannsóknum. Fyrri vísindaleg viðmið einblína að mestu leyti á fjölvalsspurningar, eru mettuð eða ekki sérstaklega einbeitt á vísindum.
Til að brúa þetta bil kynnum við FrontierScience: nýtt viðmið sem er hannað til að mæla vísindalega getu á sérfræðistigi. FrontierScience er skrifað og staðfest af sérfræðingum í eðlisfræði, efnafræði og líffræði og inniheldur hundruð spurninga sem eru hannaðar til að vera erfiðar, frumlegar og innihaldsríkar. FrontierScience inniheldur tvær spurningaleiðir: Ólympíuleikarnir, sem mælir vísindalega rökhugsunarhæfni í anda Ólympíuleikanna, og rannsóknir, sem mælir raunverulegar vísindalegar rannsóknarhæfni. Að veita meiri innsýn í vísindalega getu líkana hjálpar okkur að fylgjast með framförum og efla vísindi sem hraðað er með gervigreind.
Í fyrstu mati okkar er GPT‑5.2 besta líkanið okkar á FrontierScience-Olympiad (með 77% einkunn) og Research (með 25% einkunn), á undan öðrum Frontier-líkönum. Við höfum séð verulegar framfarir í lausnum á spurningum á sérfræðistigi en samt sem áður er svigrúm fyrir frekari framfarir, sérstaklega í opnum rannsóknarverkefnum. Fyrir vísindamenn bendir þetta til þess að núverandi líkön geti þegar stutt við þá hluta rannsókna sem fela í sér skipulagða röksemdafærslu, en jafnframt undirstrikar það að verulegt verk er enn óunnið til að bæta getu þeirra til að hugsa opið. Þessar niðurstöður eru í samræmi við það hvernig vísindamenn nota nú þegar líkön nútímans: til að flýta fyrir rannsóknarvinnuflæði en treysta á mannlega dómgreind til að móta vandamál og staðfesta þau, og í auknum mæli til að kanna hugmyndir og tengsl sem annars tæki mun lengri tíma að afhjúpa — þar á meðal, í sumum tilfellum, að leggja til nýja innsýn sem sérfræðingar meta síðan og prófa.
Að lokum eru mikilvægasta viðmiðið fyrir vísindalega getu gervigreindar þær nýjungar sem hún stuðlar að; það er það sem skiptir í raun máli fyrir vísindin og samfélagið. FrontierScience er ofar í því. Það gefur okkur vísindalegan grunn fyrir vísindalega röksemdafærslu á sérfræðistigi, gerir okkur kleift að prófa líkön með stöðluðum spurningum, sjá hvar þau ná árangri eða mistakast og greina hvar við þurfum að bæta þau. FrontierScience er þröngt svið og hefur takmarkanir í lykilatriðum (til dæmis með áherslu á afmörkuð, sérfræðiskrifuð vandamál) og nær ekki yfir allt sem vísindamenn gera í daglegu starfi sínu. En sviðið þarf erfiðari, frumlegri og þýðingarmeiri vísindaviðmið, og FrontierScience veitir skref fram á við í þessa átt.
Heildarmat FrontierScience spannar yfir 700 textaspurningar (þar af 160 í gullsettinu) sem fjalla um undirsvið í eðlisfræði, efnafræði og líffræði. Viðmiðið samanstendur af Ólympíukeppni og rannsóknarhluta. FrontierScience-Olympiad inniheldur 100 spurningar sem eru hannaðar af alþjóðlegum ólympíuverðlaunahöfum til að meta vísindalega röksemdafærslu í stuttu, afmörkuðu svarsniði. Ólympíusettinu var hannað til að innihalda fræðilegar spurningar sem eru að minnsta kosti jafn erfiðar og verkefni á alþjóðlegum ólympíuleikum. FrontierScience-Research samanstendur af 60 frumlegum rannsóknarverkefnum sem hönnuð eru af doktorsnemum (doktorsnemum, prófessorum eða nýdoktorum) sem eru metin með 10 punkta matskvarða. Rannsóknarsettið var búið til til að innihalda sjálfstæð, fjölþrepa undirverkefni á því erfiðleikastigi sem doktorsnemi gæti lent í í rannsóknum sínum.
Hvert verkefni í FrontierScience er skrifað og staðfest af sérfræðingi í eðlisfræði, efnafræði eða líffræði. Fyrir Ólympíusettið fengu allir sérfræðingar verðlaunapening í að minnsta kosti einni (og oft mörgum) alþjóðlegum ólympíukeppnum. Fyrir rannsóknarsettið hafa allir sérfræðingar viðeigandi doktorsgráðu.
Ólympíuspurningarnar voru búnar til í samstarfi við 42 fyrrverandi alþjóðlega verðlaunahafa eða landsliðsþjálfara á viðkomandi sviðum, samtals 109 Ólympíuverðlaun. Rannsóknarspurningarnar voru þróaðar í samstarfi við 45 hæfa vísindamenn og sérfræðinga á þessu sviði. Allir vísindamennirnir voru annað hvort doktorsnemar, nýdoktorar eða prófessorar. Sérþekkingarsvið þeirra náði yfir fjölbreytt úrval sérhæfðra og mikilvægra vísindagreina, allt frá skammtafræðilegri rafeindafræði til tilbúinnar lífrænnar efnafræði og þróunarlíffræði.
Verkefnasköpunarferlið fyrir bæði settin fól í sér val gegn innri líkönum OpenAI (t.d. að henda verkefnum sem líkönum tókst að leysa rétt, þannig að við búumst við að matið verði nokkuð skekkt gegn þessum líkönum miðað við önnur). Við bjóðum upp á opinn hugbúnað fyrir Ólympíuleikanna með 100 spurningum og rannsóknarverkefni með 60 spurningum, og höldum áfram að nota hinar spurningarnar til að fylgjast með mengun.

Verkefni fara í gegnum fjögur stig: Sköpun, Yfirferð, Úrlausn, Endurskoðun. Óháðir sérfræðingar yfirfara verkefni hvers annars til að staðfesta að þau samræmist skilyrðunum.
Hægt er að gefa Ólympíusettinu einkunn með stuttu svari: annaðhvort með tölu, tjáningu eða óljósri strengjasamsvörun, sem hjálpar til við að staðfesta réttmæti. Hins vegar vegur þessi staðfesting oft á móti tjáningarfrelsi og opnu eðli vandamálsins. Fyrir rannsóknarsettið kynnum við matskvarðatengda högun til að gefa einkunn fyrir opnari verkefni. Hver spurning inniheldur matskvarða með mörgum sjálfstæðum og hlutlægt metanlegum atriðum, samtals 10 punktar. Matskvarðinn metur ekki aðeins nákvæmni endanlegs svars, heldur einnig réttmæti millistigs röksemdafærsluskrefa, sem gerir kleift að greina frammistöðu líkansins og greina mistök á nákvæman hátt. Lausn er talin „rétt“ ef hún fær að minnsta kosti 7/10 stig samkvæmt matskvarða.
Svörin eru metin af líkanbundnum flokkara (GPT‑5) annað hvort út frá stutta svarinu eða viðmiðunum í matsflokknum. Þó að við myndum helst nota sérfræðing til að gefa einkunn fyrir hvert svar, þá er þessi aðferð ekki stigstærðanleg, þannig að við hönnuðum matsrammann þannig að hægt væri að athuga hann með líkanflokkara. Við þróuðum staðfestingarkerfi til að tryggja að matsreglur og spurningar væru vel stilltar miðað við erfiðleikastig og réttmæti.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Mistókst 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Staðist 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Staðist 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Staðist 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Mistókst 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Hvert verkefni í rannsóknarsettinu er metið með matskvarða sem samtals gefur 10 stig og getur verið notaður af sérfræðingi eða líkanflokkara. Til að auka getu okkar til að meta líkön, notum við annað líkan til að gefa einkunn á svör.
Við metum nokkur frontier-líkön: GPT‑5.2, Claude Opus 4.5, og Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, og OpenAI o3 á FrontierScience-Olympiad og FrontierScience-Research. Öll röksemdafærslulíkön voru metin með „high“ röksemdafærsluátaki, nema GPT‑5.2 sem var metið með „xhigh“. Í fyrstu mati okkar er GPT‑5.2 besta líkanið okkar á FrontierScience-Olympiad (með 77% einkunn) og Research (með 25% einkunn), á undan öðrum Frontier-líkönum. Gemini 3 Pro er sambærilegt við GPT‑5.2 á Olympiad-settinu (með 76% einkunn).
Við höfum séð verulegar framfarir í lausnum á spurningum á sérfræðistigi, sérstaklega í opnum rannsóknarverkefnum. Það er enn meira svigrúm til vaxtar: frá því að greina afritin í leit að göllum, gera frontier-líkön stundum rökvillur, rökfræði- og útreikningsvillur, skildu ekki sérhæfð vísindaleg hugtök og gerðu staðreyndavillur.
Við berum saman nákvæmni yfir nokkur fremstu líkön. GPT‑5.2 er líkanið okkar með bestu frammistöðu á FrontierScience-Research og Olympiad settinu.
Við berum saman nákvæmni yfir röksemdafærsluátök fyrir GPT‑5.2 og o3. Lengri umhugsunartími leiðir til bættrar nákvæmni.
Þó að FrontierScience sé skref fram á við hvað varðar erfiðleika vísindalegra viðmiða, þá eru samt sem áður margar takmarkanir. FrontierScience samanstendur af spurningum með takmörkuðu vandamáli, sem leggur áherslu á að meta lokasvarið (Olympiad) eða meta röksemdafærslu til að ljúka rannsóknarverkefni (Research). Auk þess er notkun matskvarða með mörgum þáttum á lengri verkefnum minna hlutlæg en að skoða endanlegt svar.
FrontierScience býður upp á skýrari mynd af röksemdafærslu líkana um erfiðar, sérfræðispurningar, en ekki heildarmynd af því hvernig vísindi eru framkvæmd í reynd. Einkum og sér í lagi metur það ekki verulegan hluta vísindarannsókna: hvernig líkön skapa sannarlega nýjar tilgátur eða hafa samskipti við fjölbreyttar aðferðir, þar á meðal myndbandsgögn og raunveruleg tilraunakerfi í efnisheiminum.
Horft fram á veginn búumst við við að framfarir í vísindalegri rökhugsun komi bæði frá betri almennum rökhugsunarkerfum og markvissri vinnu við að bæta vísindalega getu. FrontierScience er eitt verkfæri af mörgum, og eftir því sem líkön batna ætlum við að endurtaka þetta viðmið, víkka það út á ný svið og para það við raunverulegri matsrannsóknir sem skoða hvað þessi kerfi gera vísindamönnum í raun kleift að gera. Viðmið eins og FrontierScience hjálpa okkur að skilja veikleika nútíma gervigreindarkerfa svo við getum einbeitt okkur að því að gera líkön að áreiðanlegum samstarfsaðilum í vísindalegum uppgötvunum.


