Teaduslike uurimisülesannete täitmisel tehisintellekti võime hindamine
Tutvustame FrontierScience'i, uut võrdlusalust, mis hindab tehisintellekti võimekust eksperttasemel teaduslikuks arutlemiseks füüsikas, keemias ja bioloogias.

Arutlemine on teadustöö keskmes. Lisaks faktide esitamisele tegelevad teadlased hüpoteeside koostamise, testimise ja täpsustamisega ning ideede valdkondade ülese sünteesiga. Kuna meie mudelid on võimekamaks saamas, on keskne küsimus, milline on nende võimekus sügavalt arutleda, et teadusuuringutesse panus anda.
Viimase aasta jooksul on meie mudelid saavutanud olulisi verstaposte, sealhulgas teinud kuldmedali väärilise soorituse rahvusvahelisel matemaatikaolümpiaadil ja rahvusvahelisel informaatikaolümpiaadil. Paralleelselt hakkame nägema, kuidas meie kõige võimekamad mudelid, nagu GPT‑5, kiirendavad märkimisväärselt tegelikke teaduslikke töövooge. Teadlased kasutavad neid süsteeme selliste ülesannete jaoks nagu kirjanduse otsimine eri distsipliinidest ja keeltest ning keerukate matemaatiliste tõestuste lahendamine. Paljudel juhtudel kiirendab mudel tööd, mis oleks muidu võinud võtta päevi või nädalaid, ning kulub vaid tunde. See areng on dokumenteeritud meie artiklis Varajased teaduse kiirenduskatsed GPT‑5‑ga, mis avaldati novembris 2025 - see esitab varajasi tõendeid selle kohta, et GPT‑5 suudab teaduslikke töövooge mõõdetavalt kiirendada.
Kuna teaduse kiirenev areng on üks paljutõotavamaid võimalusi, kuidas tehisintellekt saab inimkonnale kasu tuua, täiustame seda, kuidas meie mudelid suudavad lahendada keerulisi matemaatika- ja teadusülesandeid ning töötame välja tööriistu, mis aitavad teadlastel neid maksimaalselt ära kasutada.
Kui GPQA(avaneb uues aknas), „Google'i-kindel” teaduslik võrdlusmõõdik, mille on kokku pannud doktorikraadiga eksperdid, 2023. aasta novembris avaldati, siis oli GPT‑4 edukus 39%, mis on alla ekspertide baasväärtuse 70%. Kaks aastat oli GPT‑5.2 tulemuseks 92%. Kuna mudelite arutlemis- ja teadmisvõimed jätkavad skaleerumist, on keerulisemad võrdlusalused olulised mudelite võimekuse mõõtmiseks ja selle prognoosimiseks, kuidas mudelid suudavad teadusuuringuid kiirendada. Varasemad teaduslikud võrdlusalused keskenduvad peamiselt valikvastustega küsimustele, on küllastunud või ei ole peamiselt teadusele keskendunud.
Selle lõhe ületamiseks tutvustame FrontierScience'i: uut võrdlusalust, mis on loodud eksperttasemel teaduslike võimete hindamiseks. FrontierScience on kirjutatud ja kinnitatud füüsika-, keemia- ja bioloogiaekspertide poolt ning koosneb sadadest küsimustest, mis on loodud olema keerulised, originaalsed ja tähendusrikkad. FrontierScience sisaldab kahte küsimuste jada: olümpiaad, mis hindab olümpiaadistiilis teaduslikku arutlusvõimet, ja uurimistöö, mis hindab reaalse maailma teadusliku uurimistöö oskusi. Rohkem teavet mudelite teaduslike võimete kohta aitab meil jälgida edusamme ja edendada tehisintellekti poolt kiirendatud teadust.
Meie esialgsete hindamiste põhjal on GPT‑5.2 meie parima sooritusvõimega mudel FrontierScience'i olümpiaadil (tulemusega 77%) ja uurimistöös (tulemusega 25%), edestades teisi tipptasemel mudeleid. Me oleme täheldanud märkimisväärset edasiminekut eksperttasemel küsimuste lahendamisel, jättes samas ruumi edasiseks arenguks, eriti avatud uurimisstiilis ülesannete puhul. Teadlaste jaoks viitab see sellele, et praegused mudelid suudavad juba pakkuda tuge teatud uurimistöö osade tegemisel, mis hõlmavad struktureeritud arutlemist, kuid rõhutatakse, et veel on palju tööd ees, et parandada nende võimekust avatud mõtlemise alal. Need tulemused on kooskõlas sellega, kuidas teadlased juba praegu tänapäeva mudeleid kasutavad: uurimistöö protsesside kiirendamiseks, tuginedes samal ajal inimlikule otsustusvõimele probleemide määratlemisel ja valideerimisel ning üha enam ideede ja seoste uurimiseks, mille avastamine muidu võtaks palju kauem aega—sealhulgas pakuvad need mõnel juhul uusi arusaamasid, mida eksperdid seejärel hindavad ja testivad.
Lõppkokkuvõttes on tehisintellekti teaduslike võimete kõige olulisemaks mõõdupuud need uudsed avastused, mille koostamisele see kaasa aitab; just need on need, mis teaduse ja ühiskonna jaoks lõppkokkuvõttes loevad. FrontierScience asub sellest ülesvoolu. See on meile suunanäitajaks eksperttasemel teadusliku arutlemise jaoks, võimaldades meil testida mudeleid standardiseeritud küsimustike abil, näha, kus need õnnestuvad või ebaõnnestuvad, ja tuvastada, kus neid on vaja täiustada. FrontierScience on kitsas ja see on mitmeti piiratud (näiteks keskendudes piiratud, ekspertide kirjutatud probleemidele) ega hõlma kõike, mida teadlased oma igapäevatöös teevad. Kuid valdkond vajab keerulisemaid, originaalsemaid ja sisukamaid teaduslikke võrdlusaluseid ning FrontierScience on selles suunas samm edasi.
Täielik FrontierScience'i hindamine hõlmab üle 700 tekstiküsimuse (millest 160 on kuldkomplektis), mis katavad füüsika, keemia ja bioloogia alavaldkondi. Võrdlusalus koosneb olümpiaadist ja uurimistöö osast. FrontierScience'i olümpiaad sisaldab 100 küsimust, mille on koostanud rahvusvaheliste olümpiaadide medalistid, et lühivastuste formaadis teaduslikku arutlemisvõimet hinnata. Olümpiaadi komplekt oli loodud sisaldama teoreetilisi küsimusi, mis on vähemalt sama keerulised kui rahvusvahelistel olümpiaadivõistlustel esitatavad probleemid. FrontierScience'i uurimistöö koosneb 60 algupärasest uurimisülesandest, mille on koostanud doktorikraadiga teadlased (doktorandid, professorid või järeldoktorandid) ja mida hinnatakse 10-punktise hindamisskaala alusel. Uurimiskomplekt loodi selleks, et sisaldada iseseisvaid, mitmeastmelisi alamülesandeid, mille raskusaste on selline, millega doktorikraadiga teadlane võib oma uurimistöö käigus kokku puutuda.
Iga FrontierScience'i ülesanne on kirjutatud ja kinnitatud füüsika, keemia või bioloogia valdkonna eksperdi poolt. Olümpiaadi komplekti puhul said kõik eksperdid medali vähemalt ühel (ja sageli mitmel) rahvusvahelisel olümpiaadil. Uurimistöö komplekti jaoks on kõigil ekspertidel asjakohane doktorikraad.
Olümpiaadi küsimused loodi koostöös 42 endise rahvusvahelise medalisti või vastavate valdkondade meeskondade treeneritega, kes on kokku teeninud 109 olümpiaadimedalit. Uurimisküsimused loodi koostöös 45 kvalifitseeritud teadlase ja valdkonna eksperdiga. Kõik teadlased olid kas doktorandid, järeldoktorandid või professorid. Nende erialavaldkonnad hõlmasid mitmesuguseid spetsialiseeritud ja olulisi teaduslikke distsipliine, alates kvantelektrodünaamikast kuni sünteetilise orgaanilise keemia ja evolutsioonibioloogiani.
Mõlema komplekti jaoks hõlmas ülesannete loomise protsess mõningast valikut OpenAI sisemudelite vastu (nt loobumine ülesannetest, mille mudelid edukalt lahendasid, seega eeldame, et hindamine on nende mudelite suhtes teiste mudelitega võrreldes mõnevõrra kallutatud). Me teeme avalikult kättesaadavaks olümpiaadi kuldkomplekti, mis sisaldab 100 küsimust, ja uurimistöö kuldkomplekti, mis sisaldab 60 küsimust, jättes teised küsimused kõrvale, et jälgida saastumist.

Ülesanded läbivad neli etappi: loomine, ülevaade, lahendamine parandamine. Sõltumatud eksperdid vaatavad üksteise ülesandeid üle, et kinnitada nende vastavust kriteeriumidele.
Olümpiaadi komplekt on hinnatav lühikese vastusega: kas numbri, avaldise või häguse sõne vastavusega, mis õigsust kinnitada aitab. Siiski on see kinnitamine sageli kompromissiks probleemi väljendusrikkuse ja avatud olemuse vahel. Uurimistöö komplekti jaoks tutvustame rubriigipõhist arhitektuuri, et hinnata avatud ülesandeid. Iga küsimus sisaldab hindamisjuhendit, milles on mitu sõltumatut ja objektiivselt hinnatavat elementi, kokku on iga küsimus hinnatav 10 punktiga. Hindamisjuhend hindab mitte ainult lõpliku vastuse täpsust, vaid ka vahepealsete arutlusetappide korrektsust, see võimaldab mudeli jõudluse ja ebaõnnestumiste nüansirikast analüüsi. Lahendust peetakse "õigeks", kui see saab vähemalt 7/10 hindamiskriteeriumi punktidest.
Vastuseid hindab mudelipõhine hindaja (GPT‑5) kas lühivastuse või rubriigi kriteeriumide alusel. Kuigi me eelistaksime parimal juhul kasutada iga vastuse hindamiseks eksperthindajat, ei ole see lähenemine skaleeritav, seega kujundasime rubriigi selliselt, et seda saaks kontrollida mudelihindaja abil. Me arendasime välja kinnitusprotsessi, et aidata tagada hindamiskriteeriumide ja küsimuste kalibreeritus raskusastme ja õigsuse osas.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Ebaõnnestumine 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Läbitud 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Läbitud 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Läbitud 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Ebaõnnestumine 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Iga uurimistöö komplekti ülesanne on hinnatav hindamisjuhendi abil, mis annab kokku 10 punkti ja mida saab kasutada kas ekspert või mudelhindaja. Skaleerimaks meie võimekust mudeleid hinnata, kasutame vastuste hindamiseks teist mudelit.
Hindasime mitmeid eesrindlikke mudeleid: GPT‑5.2, Claude Opus 4.5, ja Gemini 3 Pro, GPT‑4o, OpenAI o4-mini ja OpenAI o3 FrontierScience'i olümpiaadil ja FrontierScience'i uurimistöös. Kõiki arutlusmudeleid hinnati "kõrge" arutluspingutusega, välja arvatud GPT‑5.2, mille puhul hinnati oli tasemeks "väga kõrge". Meie esialgsete hindamiste põhjal on GPT‑5.2 meie parima sooritusvõimega mudel FrontierScience'i olümpiaadil (tulemusega 77%) ja uurimistöös (tulemusega 25%), edestades teisi tipptasemel mudeleid. Gemini 3 Pro on olümpiaadi komplektis võrreldav GPT‑5.2‑ga (tulemusega 76%).
Me oleme märganud märkimisväärset edasiminekut eksperttaseme küsimuste lahendamisel, eriti avatud uurimistöö stiilis ülesannete puhul. Veel on ruumi areneda: ebaõnnestumiste transkripte analüüsides tegid tipptasemel mudelid mõnikord arutlus-, loogika- ja arvutusvigu, ei mõistnud eripäraseid teaduslikke kontseptsioone ning olid faktidega ebatäpsed.
Võrdleme täpsust mitmete eesrindlike mudelite vahel. GPT‑5.2 on meie kõige paremini toimiv mudel FrontierScience'i uurimistöö ja olümpiaadi komplektis.
Me võrdleme täpsust GPT‑5.2 ja o3 arutluspingutuste puhul. Pikem mõtlemisaeg viib täpsema tulemuseni.
Kuigi FrontierScience esindab teaduslike võrdlusaluste raskusastme vallas edasiminekut, on sellel siiski veel palju piiranguid. FrontierScience koosneb küsimustest, millel on piiratud probleemikirjeldus, mis keskendub lõpliku vastuse hindamisele (olümpiaad) või arutluskäigu hindamisele uurimisülesande täitmisel (uurimistöö). Lisaks on mitme komponendiga rubriikide kasutamine pikemate ülesannete puhul vähem objektiivne kui lõpliku vastuse kontrollimine.
FrontierScience pakub kõrgema eraldusvõimega hetktõmmist mudelite mõttekäigust keeruliste, ekspertide kirjutatud küsimuste puhul, kuid mitte täielikku pilti sellest, kuidas teadust tegelikult tehakse. Eelkõige ei käsitle see teadusuuringute jaoks olulist osa: kuidas mudelid koostavad tõeliselt uudseid hüpoteese või tegelevad mitme modaliteediga, sealhulgas videoandmete ja reaalsete eksperimentaalsete süsteemidega füüsilises maailmas.
Tulevikku vaadates ootame, et edusammud teaduslikus arutlemises tulevad nii parematest üldotstarbelistest arutlussüsteemidest kui ka fokusseeritud pingutustest teaduslike võimete arendamisel. FrontierScience on üks paljudest tööriistadest ja kui mudelid paranevad, plaanime seda võrdlusalust täiustada, laiendada seda uutesse valdkondadesse ja siduda see rohkemate tegeliku elu põhiste hindamistega, mis uurivad, mida need süsteemid teadlastel tegelikult teha võimaldavad. Sellised võrdlusalused nagu FrontierScience aitavad meil mõista tänapäeva tehisintellekti süsteemide nõrkusi, et keskenduda oma tööle teadusavastustes mudelite usaldusväärseteks partneriteks muutmisel.


