Dirbtinio intelekto gebėjimo atlikti mokslinių tyrimų užduotis vertinimas
Pristatome „FrontierScience“ – naują lyginamąjį indeksą, kuris vertina dirbtinio intelekto galimybes ekspertų lygio moksliniams samprotavimams fizikos, chemijos ir biologijos srityse.

Samprotavimas yra mokslinio darbo pagrindas. Be faktų prisiminimo, mokslininkai generuoja hipotezes, jas tikrina ir tobulina, taip pat sintezuoja idėjas įvairiose srityse. Kadangi mūsų modeliai tampa vis pajėgesni, pagrindinis klausimas yra, kaip jie gali giliai samprotauti, kad prisidėtų prie mokslinių tyrimų.
Per pastaruosius metus mūsų modeliai pasiekė svarbių etapų, įskaitant aukso medalio laimėjimą tarptautinėje matematikos olimpiadoje ir tarptautinėje informatikos olimpiadoje. Tuo pačiu metu pradedame matyti, kaip mūsų pajėgiausi modeliai, tokie kaip GPT‑5, reikšmingai spartina tikrus mokslinius darbo srautus. Tyrėjai naudoja šias sistemas tokioms užduotims kaip literatūros paieška įvairiose disciplinose ir kalbose bei sudėtingų matematinių įrodymų sprendimas. Daugeliu atvejų modelis sutrumpina darbą, kuris galėjo užtrukti dienas ar savaites, iki valandų. Šis progresas yra dokumentuotas mūsų straipsnyje Ankstyvieji mokslo spartinimo eksperimentai su „GPT‑5“, išleistame 2025 m. lapkritį, kuris pateikia ankstyvus įrodymus, kad „GPT‑5“ gali pastebimai spartinti mokslinius darbo procesus.
Kadangi spartėjanti mokslinė pažanga yra viena iš perspektyviausių galimybių, kaip DI gali būti naudingas žmonijai, mes tobuliname savo modelius sudėtingoms matematikos ir mokslo užduotims ir kuriame įrankius, kurie padės mokslininkams iš jų gauti kuo daugiau naudos.
Kai 2023 m. lapkritį buvo išleistas GPQA(atsidaro naujame lange) – doktorantūros ekspertų parengtas mokslo lyginamasis klausimynas „Google“, „GPT‑4“ surinko 39 %, t. y. mažiau nei ekspertų nustatytas 70 % bazinis rodiklis. Po dvejų metų „GPT‑5.2“ surinko 92 %. Kadangi modelių samprotavimo ir žinių gebėjimai tęsiantis plečiasi, svarbūs bus sudėtingesni etalonai, siekiant įvertinti ir prognozuoti modelių gebėjimą paspartinti mokslinius tyrimus. Ankstesni moksliniai etalonai daugiausia dėmesio skiria klausimams su pasirenkamais atsakymais, yra prisotinti arba nėra tiesiogiai orientuoti į mokslą.
Norėdami užpildyti šią spragą, pristatome „FrontierScience“: naują etaloną, skirtą ekspertinio lygio moksliniams gebėjimams vertinti. „FrontierScience“ parašė ir patikrino fizikos, chemijos ir biologijos ekspertai, jį sudaro šimtai klausimų, kurie yra sudėtingi, originalūs ir prasmingi. „FrontierScience“ apima dvi klausimų grupes: „Olympiad“, kuri matuoja olimpiados stiliaus mokslinio samprotavimo gebėjimus, ir „Research“, kuri matuoja realaus pasaulio mokslinių tyrimų gebėjimus. Daugiau įžvalgų apie modelių mokslinius gebėjimus padeda mums stebėti pažangą ir skatinti DI pagreitintą mokslą.
Pradiniuose vertinimuose GPT‑5.2 yra mūsų geriausiai veikiantis modelis „FrontierScience-Olympiad“ (surinkęs 77%) ir tyrimuose (surinkęs 25%), lenkiantis kitus pažangiausius modelius. Pastebėjome reikšmingą pažangą sprendžiant eksperto lygio klausimus, paliekant erdvės tolesnei pažangai, ypač atviro tipo tyrimų stiliaus užduotyse. Mokslininkams tai rodo, kad dabartiniai modeliai jau gali palaikyti tyrimų dalis, susijusias su struktūriniu samprotavimu, tačiau pabrėžia, kad dar reikia daug nuveikti, siekiant pagerinti jų gebėjimą vykdyti atvirą mąstymą. Šie rezultatai atitinka tai, kaip mokslininkai jau naudoja šiandieninius modelius: siekiant paspartinti tyrimų darbo eigą, pasikliaujant žmogaus sprendimais problemų formulavimui ir patvirtinimui, ir vis dažnėjančiai tyrinėjant idėjas ir ryšius, kuriuos kitaip užtruktų daug ilgiau atskleisti – įskaitant atvejus, kai prisidedama prie naujų įžvalgų, kurias ekspertai vėliau įvertina ir išbando.
Galiausiai svarbiausias dirbtinio intelekto mokslinių galimybių kriterijus yra nauji atradimai, kuriuos jis padeda generuoti; būtent tai yra tai, kas galiausiai svarbu mokslui ir visuomenei. „FrontierScience“ yra priešakyje. Tai suteikia mums pranašumą ekspertų lygio moksliniams samprotavimams, leisdamas mums išbandyti modelius pagal standartizuotą klausimų rinkinį, pamatyti, kur jie sėkmingi ar nesėkmingi, ir nustatyti, kur juos reikia tobulinti. „FrontierScience“ yra siaura ir turi apribojimų pagrindiniais aspektais (pavyzdžiui, daugiausia dėmesio skiriama ribotoms, ekspertų parašytoms problemoms) ir neapima visko, ką mokslininkai veikia savo kasdieniame darbe. Tačiau šiai sričiai reikia sudėtingesnių, originalesnių ir prasmingesnių mokslo lyginamųjų standartų, ir „FrontierScience“ yra žingsnis į priekį šia kryptimi.
Išsamus „FrontierScience“ vertinimas apima daugiau nei 700 tekstinių klausimų (iš kurių 160 yra aukso grupėje), apimančių fizikos, chemijos ir biologijos posričius. Lyginamasis testas susideda iš „Olympiad“ ir „Research“ dalies. „FrontierScience-Olympiad“ sudaro 100 klausimų, kuriuos sukūrė tarptautinių olimpiadų medalininkai, siekiant įvertinti mokslinį samprotavimą riboto, trumpo atsakymo formatu. „Olympiad“ grupė taip, kad jame būtų teorinių klausimų, kurių sudėtingumas būtų bent jau toks pat kaip ir tarptautinių olimpiadų užduočių. „FrontierScience-Research“ sudaro 60 originalių tyrimų užduočių, kurias sukūrė mokslų daktarai (doktorantai, profesoriai arba podoktorantūros tyrėjai) ir kurios vertinamos pagal 10 balų skalę. „Research“ grupė buvo sukurta taip, kad joje būtų savarankiškos, daugiapakopės užduotys, kurių sudėtingumo lygis atitinka tai, su kuo mokslų daktaras gali susidurti savo tyrimuose.
Kiekvieną „FrontierScience“ užduotį parašo ir patikrina fizikos, chemijos arba biologijos srities ekspertas. Visi „Olympiad“ grupės ekspertai buvo apdovanoti medaliu bent vienose (ir dažnai keliose) tarptautinėse olimpiadų varžybose. Visi „Research“ grupės ekspertai turi atitinkamą daktaro laipsnį.
„Olympiad“ klausimai buvo sukurti bendradarbiaujant su 42 buvusiais tarptautiniais medalininkais arba nacionalinių komandų treneriais atitinkamose srityse, iš viso iškovojus 109 olimpiados medalius. „Research“ klausimai buvo sukurti bendradarbiaujant su 45 kvalifikuotais mokslininkais ir srities ekspertais. Visi mokslininkai buvo arba doktorantai, arba doktorantūros studijas baigę mokslininkai, arba profesoriai. Jų kompetencijos sritys apėmė įvairias specializuotas ir svarbias mokslo disciplinas – nuo kvantinės elektrodinamikos iki sintetinės organinės chemijos ir evoliucinės biologijos.
Abiejų rinkinių užduočių kūrimo procesas apėmė tam tikrą atranką pagal „OpenAI“ vidinius modelius (pvz., buvo atmestos užduotys, kurias modeliai sėkmingai atliko teisingai, todėl tikimės, kad vertinimas bus šiek tiek šališkas šių modelių atžvilgiu, palyginti su kitais). Mes suteikiame atvirojo kodo „Olympiad“ 100 klausimų rinkinį ir „Research“ 60 klausimų rinkinį, o kitus klausimus leidžiame naudoti užterštumo stebėjimui.

Užduotys pereina keturis etapus: sukūrimas, peržiūra, sprendimas, pataisymas. Nepriklausomi ekspertai peržiūri vieni kitų užduotis, kad įsitikintų, jog jos atitinka kriterijus.
„Olympiad“ rinkinys yra vertinamas trumpu atsakymu: su skaičiumi, išraiška arba neaiškiu eilučių atitikimu, kuris padeda tikrinti teisingumą. Tačiau šis tikrinimas dažnai susilpnina problemos išraiškingumą ir atvirumą. „Research“ rinkiniui pristatome rubrika pagrįstą architektūrą, skirtą vertinti atviresnes užduotis. Kiekvienas klausimas apima vertinimo rubriką su keliais nepriklausomais ir objektyviai vertinamais elementais, iš viso sudarančiais 10 taškų. Vertinimo rubrika vertina ne tik galutinio atsakymo tikslumą, bet ir tarpinių samprotavimo žingsnių teisingumą, leidžianti atlikti niuansuotą modelio veikimo ir nesėkmių analizę. Sprendimas laikomas „teisingu“, jei jam skiriama bent 7/10 vertinimo rubrikos taškų.
Atsakymai vertinami modeliu pagrįsto vertintojo („GPT‑5“) pagal trumpą atsakymą arba rubrikos kriterijus. Nors idealiu atveju norėtume, kad kiekvieną atsakymą vertintų ekspertas žmogus, toks požiūris nėra pritaikomas masteliui, todėl sukūrėme vertinimo kriterijus, kuriuos galima patikrinti naudojant modelio vertintoją. Mes sukūrėme tikrinimo procesą, kad padėtume užtikrinti, jog vertinimo gairės ir klausimai būtų gerai suderinti pagal sunkumą ir teisingumą.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Nepavyko 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Išlaikyta 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Išlaikyta 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Išlaikyta 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Nepavyko 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Kiekviena užduotis tyrimų grupėje vertinama naudojant 10 balų rubriką, kurią gali naudoti ekspertas arba modelis vertintojas. Norėdami padidinti mūsų gebėjimą vertinti modelius, naudojame kitą modelį atsakymams įvertinti.
Įvertinome kelis pažangiausius modelius: „GPT‑5.2“, „Claude Opus 4.5“, „Gemini 3 Pro“, „GPT‑4o“, „OpenAI o4-mini“ ir „OpenAI o3“ „FrontierScience-Olympiad“ ir „FrontierScience-Research“. Visi samprotavimo modeliai buvo vertinami esant „aukštam“ samprotavimo pastangų lygiui, išskyrus „GPT‑5.2“, kuris buvo vertinamas esant „xhigh“. Pradiniuose vertinimuose GPT‑5.2 yra mūsų geriausiai veikiantis modelis „FrontierScience-Olympiad“ (surinkęs 77%) ir tyrimuose (surinkęs 25%), lenkiantis kitus pažangiausius modelius. „Gemini 3 Pro“ yra palyginamas su „GPT‑5.2“ pagal Olimpiados rinkinį (surinkdamas 76%).
Pastebėjome didelę pažangą sprendžiant ekspertų lygio klausimus, ypač atliekant atvirojo tipo tyrimo tipo užduotis. Vis dar yra kur tobulėti: analizuodami transkriptus ieškodami klaidų, pasienio modeliai kartais darydavo samprotavimo, logikos ir skaičiavimo klaidų, nesuprasdavo nišinių mokslinių sąvokų ir darydavo faktinių netikslumų.
Mes lyginame tikslumus keliuose pažangiausiuose modeliuose. „GPT‑5.2“ yra mūsų aukščiausio našumo modelis „FrontierScience-Research“ ir „Olympiad“ grupėse.
Mes lyginame tikslumus įvairiose samprotavimo pastangose, susijusiose su „GPT‑5.2“ ir „o3“. Ilgesnis mąstymo laikas lemia geresnį tikslumą.
Nors „FrontierScience“ žymi žingsnį į priekį mokslinių etalonų sudėtingumo srityje, vis dar yra daug apribojimų. FrontierScience sudaro klausimai su apribota problemos formuluote, kuri orientuojasi į galutinio atsakymo vertinimą („Olympiad“) arba samprotavimo vertinimą, siekiant užbaigti tyrimo užduotį („Research“). Be to, naudojant rubrikas su keliais komponentais ilgesnėms užduotims, objektyvumas yra mažesnis nei tikrinant galutinį atsakymą.
„FrontierScience“ siūlo didesnės raiškos modelių samprotavimų, atsakant į sudėtingus, ekspertų parašytus klausimus, momentinę nuotrauką, bet ne visą vaizdą apie tai, kaip mokslas veikia praktiškai. Visų pirma, jame nevertinama reikšminga mokslinių tyrimų dalis: kaip modeliai generuoja išties naujas hipotezes arba sąveikauja su įvairiais būdais, įskaitant vaizdo duomenis ir realias eksperimentines sistemas fiziniame pasaulyje.
Žvelgiant į priekį, tikimės, kad pažanga moksliniame samprotavime atsiras tiek iš geresnių bendrosios paskirties samprotavimo sistemų, tiek iš sutelkto dėmesio į mokslinių gebėjimų tobulinimą. „FrontierScience“ yra vienas iš daugelio įrankių, ir tobulėjant modeliams, planuojame kartoti šį etaloną, išplėsti jį į naujas sritis ir susieti su daugiau realaus pasaulio vertinimų, kurie nagrinėja, ką šios sistemos iš tikrųjų įjungia mokslininkams daryti. Tokie etalonai kaip „FrontierScience“ padeda mums suprasti šiandieninių DI sistemų silpnybes, kad galėtume sutelkti savo darbą į tai, kad modeliai taptų patikimais partneriais moksliniuose atradimuose.


