Tekoälyn kyvyn arviointi tieteellisten tutkimustehtävien suorittamiseen
Esittelemme FrontierScience-vertailuanalyysin, joka arvioi tekoälyn kykyjä asiantuntijatason tieteellisessä päättelyssä fysiikan, kemian ja biologian aloilla.

Päättely on tieteellisen työn ydin. Faktojen muistamisen lisäksi tieteilijät luovat hypoteeseja, testaavat ja tarkentavat niitä sekä yhdistävät ideoita eri alojen välillä. Kun malleistamme tulee yhä kyvykkäämpiä, keskeinen kysymys on, miten ne voivat päätellä syvällisesti ja edistää tieteellistä tutkimusta.
Viime vuoden aikana mallimme ovat saavuttaneet merkittäviä virstanpylväitä, kuten kultamitalitason suoritukset kansainvälisissä matematiikka- ja informatiikkaolympialaisissa. Samanaikaisesti alamme nähdä, kuinka kyvykkäimmät mallimme, kuten GPT‑5, nopeuttavat todellisia tieteellisiä työnkulkuja merkittävästi. Tutkijat käyttävät näitä järjestelmiä tehtäviin, kuten kirjallisuushakuihin eri tieteenaloilla ja eri kielillä sekä monimutkaisten matemaattisten todisteiden käsittelyyn. Monissa tapauksissa malli lyhentää työt, jotka olisivat saattaneet kestää päiviä tai viikkoja, muutamaksi tunniksi. Tämä edistys on dokumentoitu artikkelissamme Early science acceleration experiments with GPT‑5, joka julkaistiin marraskuussa 2025 ja esittelee varhaisia todisteita siitä, että GPT‑5 voi mitattavasti nopeuttaa tieteellisiä työnkulkuja.
Koska tieteellisen edistyksen nopeuttaminen on yksi lupaavimmista mahdollisuuksista, joilla tekoäly voi hyödyttää ihmiskuntaa, parannamme mallejamme vaikeissa matematiikan ja luonnontieteiden tehtävissä ja kehitämme työkaluja, jotka auttavat tutkijoita saamaan niistä parhaan hyödyn.
Kun GPQA(avautuu uudessa ikkunassa), joka on tohtoritason asiantuntijoiden kirjoittamista kysymyksistä koostuva "Googlen kestävä" tieteen vertailuanalyysi, GPT‑4 sai 39 %:n tuloksen, mikä on alle asiantuntijoiden 70 %:n vertailuarvon. Kaksi vuotta myöhemmin GPT‑5.2 sai 92 % tuloksen. Kun mallien päättely- ja tietovalmiudet kasvavat jatkuvasti, on tärkeää käyttää vaikeampia vertailuarvoja mallien kyvyn mittaamiseen ja ennustamiseen tieteellisen tutkimuksen nopeuttamiseksi. Aikaisemmat tieteelliset vertailuarvot keskittyvät pääasiassa monivalintakysymyksiin, ovat ylikuormitettuja tai eivät keskity olennaisesti tieteeseen.
Tämän kuilun kaventamiseksi esittelemme FrontierSciencen: uuden vertailuarvon, joka on suunniteltu mittaamaan asiantuntijatason tieteellisiä kyvykkyyksiä. FrontierScience on fysiikan, kemian ja biologian alojen asiantuntijoiden kirjoittama ja vahvistama, ja se koostuu sadoista kysymyksistä, jotka on suunniteltu vaikeiksi, omaperäisiksi ja merkityksellisiksi. FrontierScience sisältää kaksi kysymyslinjaa: Olympiad, joka mittaa olympialaistyylisiä tieteellisiä päättelykykyjä, ja Research, joka mittaa tosielämän tieteellisiä tutkimuskykyjä. Kun saamme enemmän tietoa mallien tieteellisistä kyvykkyyksistä voimme seurata edistystä ja edistää tekoälyn kiihdyttämää tiedettä.
Alkuarvioinneissamme GPT‑5.2 on parhaiten suoriutuva mallimme FrontierScience-Olympiadissa ( 77 %) ja tutkimuksessa (25 %), edellä muita edistyneitä malleja. Asiantuntijatason kysymysten ratkaisemisessa on tapahtunut huomattavaa edistystä, mutta tilaa on vielä lisäkehitykselle, erityisesti avoimissa tutkimustyyppisissä tehtävissä. Tutkijoiden kannalta tämä viittaa siihen, että nykyiset mallit voivat jo nyt tukea strukturoitua päättelyä sisältäviä tutkimuksen osia, mutta samalla korostetaan, että merkittävää työtä on vielä tehtävä niiden kyvyn parantamiseksi suorittaa avoimen päättelyn tehtäviä. Nämä tulokset ovat linjassa sen kanssa, miten tutkijat jo käyttävät tämän päivän malleja: nopeuttaakseen tutkimustyönkulkuja, samalla kun he luottavat ihmisen arviointikykyyn ongelmien kehystämisessä ja validoinnissa, ja yhä enemmän tutustuakseen ideoihin ja yhteyksiin, joiden löytäminen veisi muuten paljon kauemmin – ja joissain tapauksissa myös uusien oivallusten tuottamiseen, joita asiantuntijat sitten arvioivat ja testaavat.
Tekoälyn tieteellisten valmiuksien tärkein mittari ovat lopulta sen avulla tehtävät uudet keksinnöt. Ne ovat todella merkityksellisiä tieteelle ja yhteiskunnalle. FrontierScience on sitä edellä. Se antaa meille asiantuntijatason tieteellisen päättelyn johtotähden, jonka avulla voimme testata malleja standardoidulla kysymyssarjalla, nähdä missä ne onnistuvat tai epäonnistuvat ja tunnistaa, missä niitä on parannettava. FrontierScience on kapea ja sillä on rajoituksia keskeisissä suhteissa (esimerkiksi keskittyminen rajattuihin, asiantuntijoiden kirjoittamiin ongelmiin), eikä se kata kaikkea, mitä tutkijat tekevät päivittäisessä työssään. Mutta alalla tarvitaan vaikeampia, omaperäisiä ja merkityksellisiä tieteen vertailuarvoja, ja FrontierScience tarjoaa askeleen eteenpäin tähän suuntaan.
Koko FrontierScience-arviointi kattaa yli 700 tekstikysymystä (joista 160 on kultasarjassa) ja kattaa fysiikan, kemian ja biologian osa-alueet. Vertailuarvo koostuu Olympiad- ja Research-osiosta. FrontierScience-Olympiad sisältää 100 kysymystä, jotka kansainväliset olympiamitalistit ovat suunnitelleet arvioimaan tieteellistä päättelyä rajatussa, lyhyen vastauksen muodossa. Olympiad-sarja suunniteltiin sisältämään teoreettisia kysymyksiä, jotka ovat vähintään yhtä vaikeita kuin kansainvälisten olympialaisten kilpailutehtävät. FrontierScience-Research koostuu 60 alkuperäisestä tutkimustehtävästä, jotka tohtoritason tutkijat (tohtorikoulutettavat, professorit tai tutkijatohtorit) ovat suunnitelleet ja jotka arvioidaan 10 pisteen arviointikriteeristön avulla. Research-sarja luotiin sisältämään itsenäisiä, monivaiheisia osatehtäviä, joiden vaikeustaso vastaa niitä, joita tohtoritason tutkija saattaa kohdata tutkimuksensa aikana.
Jokainen tehtävä FrontierSciencessa on kirjoitettu ja vahvistettu fysiikan, kemian tai biologian alojen asiantuntijan toimesta. Olympiad-joukossa kaikille asiantuntijoille myönnettiin mitali vähintään yhdessä (ja usein useammassa) kansainvälisessä olympiakilpailussa. Research-joukossa kaikilla asiantuntijoilla on asiaankuuluva tohtorin tutkinto.
Olympiad-kysymykset luotiin yhteistyössä kyseisten alojen 42 entisen kansainvälisen mitalistin tai maajoukkuevalmentajan kanssa, joilla on yhteensä 109 olympiamitalia. Tutkimuskysymykset luotiin yhteistyössä 45 tutkijan ja alan asiantuntijan kanssa. Kaikki tutkijat olivat joko tohtorikoulutettavia, väitöskirjatutkijoita tai professoreita. Heidän asiantuntemuksensa kattoi joukon erikoistuneita ja merkittäviä tieteellisiä aloja, kvanttisähködynamiikasta synteettiseen orgaaniseen kemiaan ja evoluutiobiologiaan.
Molempien sarjojen tehtävien luomisprosessi sisälsi jonkin verran valintaa OpenAI:n sisäisiä malleja vastaan (esimerkiksi hylkäämällä tehtäviä, jotka mallit suorittivat oikein, joten odotamme arvioinnin olevan jossain määrin vinoutunutta näitä malleja vastaan suhteessa muihin). Julkaisemme avoimena lähdekoodina Olympiadin kultasetin, joka sisältää 100 kysymystä, ja Researchin kultasetin, joka sisältää 60 kysymystä. Muut kysymykset on tarkoitettu saastumisen jäljittämiseen.

Tehtävät käyvät läpi neljä vaihetta: luominen, tarkistus, resoluutiot, muokkaus. Riippumattomat asiantuntijat tarkistavat toistensa tehtäviä vahvistaakseen, että ne täyttävät kriteerit.
Olympiad-sarja on arvioitavissa lyhyellä vastauksella: joko numerolla, lausekkeella tai epätarkalla merkkijonovastaavuudella, mikä auttaa oikeellisuuden vahvistamisessa. Tämä vahvistus on kuitenkin usein ristiriidassa ongelman ilmaisukyvyn ja avoimuuden kanssa. Research-sarjaa varten esittelemme arviointikriteereihin perustuvan arkkitehtuurin avoimempien tehtävien arviointia varten. Kukin kysymys sisältää arviointikriteeristön, jossa on useita itsenäisiä ja objektiivisesti arvioitavia kohtia, yhteensä 10 pistettä. Arviointikriteeristö arvioi lopullisen vastauksen tarkkuuden lisäksi myös välivaiheiden päättelyvaiheiden oikeellisuutta, mikä mahdollistaa mallin suorituskyvyn ja epäonnistumisten yksityiskohtaisen analyysin. Ratkaisua pidetään "oikeana", jos se saa vähintään 7/10 pistettä.
Vastaukset arvioi malliarvioija (GPT‑5) joko lyhyen vastauksen tai arviointikriteerien perusteella. Ihannetapauksessa käyttäisimme asiantuntijaihmistä arvioimaan jokaista vastausta, mutta tämä lähestymistapa ei ole skaalautuva, joten suunnittelimme arviointikriteeristön, joka on tarkistettavissa malliarvostelijan avulla. Kehitimme vahvistusmenetelmän, jonka avulla varmistimme, että arviointikriteerit ja kysymykset olivat hyvin kalibroituja vaikeusasteen ja oikeellisuuden suhteen.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Hylätty 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Läpäisty 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Läpäisty 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Läpäisty 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Hylätty 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Jokainen research-joukon tehtävä arvioidaan käyttäen 10 pisteen arviointikriteerejä, jota voi käyttää asiantuntija tai malliarvioija. Laajentaaksemme kykyämme arvioida malleja, käytämme toista mallia vastausten arviointiin.
Arvioimme useita eturivin malleja: GPT‑5.2, Claude Opus 4.5 ja Gemini 3 Pro, GPT‑4o, OpenAI o4-mini ja OpenAI o3 FrontierScience-Olympiad ja FrontierScience-Research. Kaikki päättelymallit arvioitiin "korkealla" päättelyponnistuksella, lukuun ottamatta GPT‑5.2:ta, joka arvioitiin erittäin korkealla tasolla ("xhigh"). Alkuarvioinneissamme GPT‑5.2 on parhaiten suoriutuva mallimme FrontierScience-Olympiadissa ( 77 %) ja tutkimuksessa (25 %), edellä muita edistyneitä malleja. Gemini 3 Pro on verrattavissa GPT‑5.2:een Olympiad-sarjassa (76 %).
Asiantuntijatason kysymysten ratkaisemisessa on tapahtunut huomattavaa edistystä, erityisesti avoimissa tutkimustyyppisissä tehtävissä. Kasvulle on vielä tilaa: epäonnistumisten transkriptioita analysoitaessa rajamallit tekivät joskus päättely-, logiikka- ja laskentavirheitä, eivät ymmärtäneet erikoistuneita tieteellisiä käsitteitä ja tekivät asiavirheitä.
Vertaamme tarkkuuksia useiden huippumallien välillä. GPT‑5.2 on suorituskykyisin mallimme FrontierScience-Research- ja Olympiad-sarjoissa.
Vertailimme GPT‑5.2:n ja o3:n päättelytyön tarkkuutta. Pidempi ajatteluun käytetty aika johtaa parempaan tarkkuuteen.
Vaikka FrontierScience on askel eteenpäin tieteellisten vertailuarvojen vaikeudessa, sillä on silti monia rajoituksia. FrontierScience koostuu kysymyksistä, joilla on rajattu ongelman kuvaus ja jotka keskittyvät joko lopullisen vastauksen arviointiin (Olympiad) tai päättelyn arviointiin tutkimustehtävän suorittamiseksi (Research). Lisäksi, kun käytetään arviointikriteerejä, joissa on useita osia pidemmissä tehtävissä, se ei ole yhtä objektiivista kuin lopullisen vastauksen tarkistaminen.
FrontierScience tarjoaa korkean resoluution tilannevedoksen mallien päättelystä vaikeissa, asiantuntijoiden laatimissa kysymyksissä, mutta ei täydellistä kuvaa siitä, miten tiedettä tehdään käytännössä. Siinä ei arvioida merkittävää osaa tieteellisestä tutkimuksesta: kuinka mallit luovat aidosti uusia hypoteeseja tai ovat vuorovaikutuksessa useiden modaliteettien, kuten videodatan ja todellisten kokeellisten järjestelmien kanssa reaalimaailmassa.
Tulevaisuudessa odotamme edistystä tieteellisessä päättelyssä sekä paremmista yleiskäyttöisistä päättelyjärjestelmistä että keskittyneestä pyrkimyksestä parantaa tieteellisiä kyvykkyyksiä. FrontierScience on yksi työkalu monien joukossa, ja mallien parantuessa aiomme kehittää tätä vertailuarvoa, laajentaa sitä uusille aloille ja yhdistää se todellisiin arviointeihin, jotka tarkastelevat, mitä nämä järjestelmät todella mahdollistavat tutkijoille. FrontierSciencen kaltaiset vertailuarvot auttavat meitä ymmärtämään tämän päivän tekoälyjärjestelmien heikkouksia, jotta voimme keskittyä työhömme ja tehdä malleista luotettavia kumppaneita tieteellisessä tutkimuksessa.


