Mākslīgā intelekta spēju novērtēšana veikt zinātnisko pētījumu uzdevumus
Iepazīstinām ar FrontierScience, jaunu etalonu, kas novērtē mākslīgā intelekta spējas ekspertu līmeņa zinātniskajā argumentācijā fizikā, ķīmijā un bioloģijā.

Argumentācija ir zinātniskā darba pamatā. Papildus faktu atcerēšanai zinātnieki rada hipotēzes, pārbauda un pilnveido tās, kā arī sintezē idejas dažādās jomās. Tā kā mūsu modeļi kļūst spējīgāki, galvenais jautājums ir tas, kā tie var dziļi argumentēt, lai veicinātu zinātnisko izpēti.
Pēdējā gada laikā mūsu modeļi ir sasnieguši nozīmīgus pavērsienus, tostarp demonstrējuši zelta medaļas līmeņa sniegumu Starptautiskajā matemātikas olimpiādē un Starptautiskajā informātikas olimpiādē. Paralēli mēs sākam redzēt, kā mūsu visjaudīgākie modeļi, piemēram, GPT‑5, būtiski paātrina reālās zinātniskās darbplūsmas. Pētnieki izmanto šīs sistēmas tādiem uzdevumiem kā literatūras meklēšana dažādās disciplīnās un valodās, kā arī sarežģītu matemātisko pierādījumu risināšana. Daudzos gadījumos modelis saīsina darbam nepieciešamo laiku līdz stundām, kas citādi varētu aizņemt dienas vai pat nedēļas. Šis progress ir dokumentēts mūsu rakstā Agrīnie zinātnes paātrināšanas eksperimenti ar GPT‑5, kas tika publicēts 2025. gada novembrī, kurā tiek prezentēti agrīni pierādījumi, ka GPT‑5 var izmērāmi paātrināt zinātniskos darba procesus.
Tā kā zinātniskā progresa paātrināšana ir viena no daudzsološākajām iespējām, kā MI varētu sniegt labumu cilvēcei, mēs uzlabojam savus modeļus sarežģītiem matemātikas un zinātnes uzdevumiem un strādājam pie rīkiem, kas palīdzēs zinātniekiem maksimāli izmantot šos modeļus.
Kad 2023. gada novembrī tika izlaists GPQA(atveras jaunā logā), “Google necaurlaidīgs” zinātnes etalons ar jautājumiem, ko izstrādājuši doktora grāda eksperti, GPT‑4 ieguva 39 %, kas ir zemāk par ekspertu bāzes līmeni 70 %. Divus gadus vēlāk, GPT‑5.2 sasniedza 92 %. Tā kā modeļu argumentācijas un zināšanu spējas turpina attīstīties, būs svarīgi izmantot sarežģītākus kritērijus, lai novērtētu un prognozētu modeļu spēju paātrināt zinātniskos pētījumus. Iepriekšējie zinātniskie etaloni lielākoties koncentrējas uz jautājumiem ar atbilžu variantiem, ir piesātināti vai nav galvenokārt vērsti uz zinātni.
Lai pārvarētu šo plaisu, mēs iepazīstinām ar FrontierScience: jaunu etalonu, kas izveidots, lai līdzinātos ekspertu līmeņa zinātniskajām spējām. FrontierScience ir rakstījuši un verificējuši fizikas, ķīmijas un bioloģijas jomu eksperti, un tas sastāv no simtiem jautājumu, kas ir izstrādāti, lai būtu sarežģīti, oriģināli un nozīmīgi. FrontierScience ietver divas jautājumu kategorijas: olimpiāde, kas novērtē olimpiādes stila zinātniskās argumentēšanas spējas, un pētniecība, kas novērtē reālās pasaules zinātniskās pētniecības spējas. Sniedzot plašāku ieskatu modeļu zinātniskajās spējās, mēs varam izsekot progresam un veicināt MI paātrinātu zinātnes attīstību.
Mūsu sākotnējos novērtējumos GPT‑5.2 ir mūsu vislabāk funkcionējošais modelis FrontierScience-Olympiad (ar rezultātu 77 %) un pētniecībā (ar rezultātu 25 %), apsteidzot citus jaunākos modeļus. Mēs esam novērojuši ievērojamu progresu ekspertu līmeņa jautājumu risināšanā, vienlaikus atstājot vietu turpmākam progresam, īpaši atvērtu pētniecības stila uzdevumu jomā. Zinātniekiem tas parāda, ka pašreizējie modeļi jau var sniegt atbalstu pētniecības daļām, kas ietver strukturētu argumentāciju, vienlaikus uzsverot, ka vēl ir daudz darāmā, lai uzlabotu to spēju veikt atvērtu domāšanu. Šie rezultāti atbilst tam, kā zinātnieki jau šodien izmanto modeļus: lai paātrinātu pētniecības darbplūsmas, paļaujoties uz cilvēka vērtējumu problēmu formulēšanā un validācijā, un arvien vairāk, lai izpētītu idejas un saiknes, kuru atklāšana citādi prasītu daudz ilgāku laiku — tostarp dažos gadījumos sniedzot jaunas atziņas, kuras eksperti pēc tam novērtē un pārbauda.
Galu galā, vissvarīgākais mākslīgā intelekta zinātnisko spēju kritērijs ir jauni atklājumi, ko tas palīdz ģenerēt; tie ir tie, kas beigu beigās ir svarīgi zinātnei un sabiedrībai. FrontierScience atrodas tā visa priekšgalā. Tas mums sniedz vadzvaigzni ekspertu līmeņa zinātniskajai argumentācijai, ļaujot pārbaudīt modeļus uz standartizēta jautājumu kopuma, redzēt, kur tie gūst panākumus vai neizdodas, un noteikt, kur mums tie ir jāuzlabo. FrontierScience ir šaura darbības joma un tam ir ierobežojumi vairākos būtiskos aspektos (piemēram, koncentrējoties uz specifiskām, ekspertu izstrādātām problēmām) un tas neaptver visu, ko zinātnieki dara savā ikdienas darbā. Tomēr šai jomai ir nepieciešami sarežģītāki, oriģinālāki un jēgpilnāki zinātnes etaloni, un FrontierScience nodrošina soli uz priekšu šajā virzienā.
Pilnais FrontierScience novērtējums aptver vairāk nekā 700 tekstuālus jautājumus (ar 160 zelta komplektā), kas aptver fizikas, ķīmijas un bioloģijas apakšnozares. Etalons sastāv no olimpiādes un pētniecības daļas. FrontierScience-Olympiad satur 100 jautājumus, ko izstrādājuši starptautisko olimpiāžu medaļnieki, lai novērtētu zinātnisko domāšanu ierobežotā, īsu atbilžu formātā. Olimpiādes komplekts tika izstrādāts, lai tajā būtu teorētiski jautājumi, kas ir vismaz tikpat sarežģīti kā uzdevumi starptautiskajās olimpiādēs. FrontierScience-Research sastāv no 60 oriģināliem pētniecības uzdevumiem, ko izstrādājuši doktora grāda zinātnieki (doktoranti, profesori vai pēcdoktorantūras pētnieki), kuri tiek vērtēti, izmantojot 10 punktu vērtēšanas skalu. Pētniecības komplekts tika izveidots, lai ietvertu patstāvīgus, daudzpakāpju apakšuzdevumus tādā grūtības pakāpē, ar kādu doktora grāda zinātnieks varētu saskarties savas izpētes laikā.
Katrs uzdevums FrontierScience ir fizikas, ķīmijas vai bioloģijas nozares eksperta rakstīts un verificēts. Olimpiādes komplektā visi eksperti saņēmuši medaļu vismaz vienā (un bieži vien vairākās) starptautiskajās olimpiādēs. Pētījumu komplektā visiem ekspertiem ir atbilstošs doktora grāds.
Olimpiādes jautājumi tika izveidoti sadarbībā ar 42 bijušajiem starptautiskajiem medaļniekiem vai nacionālo komandu treneriem attiecīgajās nozarēs, kopā iegūstot 109 olimpiādes medaļas. Pētniecības jautājumi tika izveidoti sadarbībā ar 45 kvalificētiem zinātniekiem un nozares ekspertiem. Visi zinātnieki bija vai nu doktoranti, pēcdoktorantūras pētnieki vai profesori. Viņu specializācijas jomas aptvēra plašu specializētu un nozīmīgu zinātnisko disciplīnu klāstu, sākot no kvantu elektrodinamikas līdz sintētiskajai organiskajai ķīmijai līdz evolūcijas bioloģijai.
Abu kopu uzdevumu izveides process ietvēra zināmu atlasi, izmantojot OpenAI iekšējos modeļus (piemēram, tika atmesti uzdevumi, kurus modeļi veiksmīgi atpazina, tāpēc mēs sagaidām, ka novērtējums būs nedaudz neobjektīvs pret šiem modeļiem salīdzinājumā ar citiem). Mēs publiskojam atvērtā koda Olimpiādes zelta komplektu ar 100 jautājumiem un Pētniecības zelta komplektu ar 60 jautājumiem, paturot pārējos jautājumus, lai izsekotu piesārņojumu.

Uzdevumi iziet cauri četriem posmiem: izveide, izskatīšana, atrisināšana, pārskatīšana. Neatkarīgi eksperti pārskata viens otra uzdevumus, lai verificētu, ka tie atbilst kritērijiem.
Olimpiādes komplektu var vērtēt ar īsu atbildi: vai nu ar skaitli, izteiksmi, vai neskaidru virknes atbilstību, kas palīdz verificēt pareizību. Tomēr šī verifikācija bieži vien ir kompromiss starp problēmas izteiksmīgumu un atvērtību. Pētniecības komplektam mēs piedāvājam rubrikā balstītu arhitektūru, lai novērtētu atvērtākus uzdevumus. Katrā jautājumā ir iekļauta vērtēšanas rubrika ar vairākiem neatkarīgiem un objektīvi novērtējamiem elementiem, kopā 10 punkti. Vērtēšanas rubrika novērtē ne tikai galīgās atbildes precizitāti, bet arī starpposma argumentācijas soļu pareizību, ļaujot veikt niansētu modeļa veiktspējas un kļūdu analīzi. Risinājums tiek uzskatīts par “pareizu”, ja tam piešķir vismaz 7 no 10 vērtēšanas punktiem.
Atbildes tiek novērtētas, izmantojot uz modeļa balstītu vērtētāju (GPT‑5), salīdzinot tās vai nu ar īso atbildi, vai ar rubrikas kritērijiem. Lai gan ideālā gadījumā mēs izmantotu ekspertu cilvēku, lai novērtētu katru atbildi, šī pieeja nav mērogojama, tāpēc mēs izstrādājām rubriku, kuru var pārbaudīt, izmantojot modeļa vērtētāju. Mēs izstrādājām verifikācijas procesu, lai palīdzētu nodrošināt, ka vērtēšanas kritēriji un jautājumi ir precīzi kalibrēti attiecībā uz grūtības pakāpi un pareizību.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Neizdevās 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Nokārtots 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Nokārtots 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Nokārtots 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Neizdevās 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Katrs uzdevums pētniecības kopā tiek vērtēts, izmantojot rubriku, kas kopā veido 10 punktus un ko var izmantot eksperts vai modeļa vērtētājs. Lai paplašinātu mūsu spēju novērtēt modeļus, mēs izmantojam citu modeli, lai novērtētu atbildes.
Mēs novērtējām vairākus jaunākos modeļus: GPT‑5.2, Claude Opus 4.5 un Gemini 3 Pro, GPT‑4o, OpenAI o4-mini un OpenAI o3 uz FrontierScience-Olympiad un FrontierScience-Research. Visi apsvērumu modeļi tika novērtēti ar "augstu" argumentācijas intensitāti, izņemot GPT‑5.2, kas tika novērtēts ar "xhigh". Mūsu sākotnējos novērtējumos GPT‑5.2 ir mūsu vislabāk funkcionējošais modelis FrontierScience-Olympiad (ar rezultātu 77 %) un pētniecībā (ar rezultātu 25 %), apsteidzot citus jaunākos modeļus. Gemini 3 Pro ir salīdzināms ar GPT‑5.2 Olimpiādes komplektā (ar rezultātu 76 %).
Mēs esam novērojuši ievērojamu progresu ekspertu līmeņa jautājumu risināšanā, īpaši atvērtos pētījumu stila uzdevumos. Vēl ir vieta izaugsmei: analizējot transkriptus kļūdu noteikšanai, robežmodeļi dažkārt pieļāva kļūdas argumentācijā, loģikā un aprēķinos, nesaprata nišas zinātniskos jēdzienus un pieļāva faktu neprecizitātes.
Mēs salīdzinām precizitāti vairākos robežmodeļos. GPT‑5.2 ir mūsu visfukncionālākais modelis FrontierScience-Research un Olimpiādes komplektācijā.
Mēs salīdzinām precizitāti dažādos argumentācijas centienos GPT‑5.2 un o3. Ilgāks domāšanas laiks uzlabo precizitāti.
Lai gan FrontierScience pārstāv soli uz priekšu zinātnisko etalonu sarežģītībā, joprojām ir daudz ierobežojumu. FrontierScience sastāv no jautājumiem ar ierobežotu problēmas izklāstu, kas koncentrējas uz galīgās atbildes novērtēšanu (Olimpiāde) vai uz argumentācijas novērtēšanu, lai pabeigtu pētniecības uzdevumu (Pētniecība). Turklāt rubriku izmantošana ar vairākiem komponentiem garākos uzdevumos ir mazāk objektīva nekā galīgās atbildes pārbaude.
FrontierScience piedāvā augstas izšķirtspējas momentuzņēmumu par modeļu argumentāciju sarežģītos, ekspertu veidotos jautājumos, bet ne pilnīgu priekšstatu par to, kā zinātne tiek veikta praksē. Īpaši tas nenovērtē būtisku daļu no zinātniskajiem pētījumiem: kā modeļi ģenerē patiesi jaunas hipotēzes vai mijiedarbojas ar vairākām modalitātēm, tostarp video datiem un reālām eksperimentālām sistēmām fiziskajā pasaulē.
Skatoties uz priekšu, mēs sagaidām progresu zinātniskajā argumentācijā gan no labākām vispārējās nozīmes argumentācijas sistēmām, gan no mērķtiecīgas piepūles uzlabot zinātniskās spējas. FrontierScience ir viens no daudziem rīkiem, un, uzlabojoties modeļiem, mēs plānojam atkārtot šo etalonu, paplašināt to uz jauniem domēniem un savienot to ar vairāk reālās pasaules novērtējumiem, kas aplūko, ko šīs sistēmas patiesībā ļauj zinātniekiem darīt. Tādi etaloni kā FrontierScience palīdz mums izprast mūsdienu mākslīgā intelekta sistēmu vājās vietas, lai koncentrētu mūsu darbu uz to, lai modeļi kļūtu par uzticamiem partneriem zinātniskajā atklāšanā.


