Procjena sposobnosti AI-a da obavlja zadatke naučnog istraživanja
Predstavljamo FrontierScience, novi benchmark koji procjenjuje sposobnosti AI-a za stručnu razinu naučnog rezonovanja u fizici, kemiji i biologiji.

Rezonovanje je u srži naučnog rada. Osim prisjećanja činjenica, naučnici generiraju hipoteze, testiraju ih i usavršavaju, te sintetiziraju ideje kroz različite oblasti. Kako naši modeli postaju sposobniji, ključno pitanje je kako mogu duboko rezonovati kako bi doprinijeli znanstvenom istraživanju.
Tokom protekle godine, naši modeli su dostigli značajne prekretnice, uključujući postizanje zlatne medalje na Međunarodnoj matematičkoj olimpijadi i Međunarodnoj olimpijadi iz informatike. Paralelno, počinjemo primjećivati kako naši najnapredniji modeli, kao što je GPT‑5, značajno ubrzavaju stvarne naučne tokove rada. Istraživači koriste ove sisteme za zadatke kao što su pretraživanje literature kroz različite discipline i jezike te rad na složenim matematičkim dokazima. U mnogim slučajevima, model skraćuje posao koji bi mogao trajati danima ili sedmicama na sate. Ovaj napredak je dokumentovan u našem radu Rani eksperimenti ubrzanja nauke sa GPT‑5, objavljenom u novembru 2025, koji predstavlja rane dokaze da GPT‑5 može mjerljivo ubrzati naučne tokove rada.
Kako je ubrzanje naučnog napretka jedna od najperspektivnijih prilika za AI da koristi čovječanstvu, poboljšavamo naše modele za teške matematičke i naučne zadatke i radimo na alatima koji će pomoći naučnicima da iz njih izvuku maksimum.
Kada je GPQA(otvara se u novom prozoru), „Google-Proof” naučni referentni test pitanja koje su napisali stručnjaci s doktoratom, objavljen u studenom 2023. godine, GPT‑4 je postigao 39%, ispod stručnog praga od 70%. Dvije godine kasnije, GPT‑5.2 je postigao 92%. Kako se sposobnosti rezonovanja i znanja modela nastavljaju razvijati, bit će važni složeniji referentni kriteriji za mjerenje i predviđanje sposobnosti modela da ubrzaju naučna istraživanja. Prethodni naučni benchmarki uglavnom se fokusiraju na pitanja s višestrukim izborom, zasićeni su ili nisu centralno usmjereni na nauku.
Kako bismo premostili ovaj jaz, predstavljamo FrontierScience: novo mjerilo izgrađeno za mjerenje naučnih sposobnosti na ekspertskom nivou. FrontierScience je napisan i potvrđen od strane stručnjaka iz fizike, kemije i biologije, i sastoji se od stotina pitanja dizajniranih da budu teška, originalna i značajna. FrontierScience uključuje dvije vrste pitanja: Olimpijada, koja mjeri sposobnosti naučnog rezonovanja u stilu olimpijade, i Istraživanje, koje mjeri sposobnosti stvarnog naučnog istraživanja. Pružanje više uvida u naučne sposobnosti modela pomaže nam pratiti napredak i unaprijediti nauku ubrzanu umjetnom inteligencijom.
U našim početnim evaluacijama, GPT‑5.2 je naš model s najboljim učinkom na FrontierScience-Olympiad (postigavši 77%) i Research (postigavši 25%), ispred drugih naprednih modela. Primijetili smo značajan napredak u rješavanju pitanja na ekspertskom nivou, dok ostavljamo prostor za dalji napredak, posebno u zadacima istraživačkog stila koji su otvorenog tipa. Za naučnike, ovo sugerira da trenutni modeli već mogu podržati dijelove istraživanja koji uključuju strukturirano rezonovanje, dok istovremeno naglašava da ostaje značajan rad na poboljšanju njihove sposobnosti za provođenje otvorenog razmišljanja. Ovi rezultati su u skladu s načinom na koji naučnici već koriste današnje modele: da ubrzaju istraživačke tokove rada oslanjajući se na ljudsku prosudbu za oblikovanje problema i validaciju, te sve više istražuju ideje i veze koje bi inače trajale mnogo duže da se otkriju—uključujući, u nekim slučajevima, doprinos novih uvida koje stručnjaci zatim procjenjuju i testiraju.
Na kraju, najvažniji kriterij za naučne sposobnosti AI-a su nova otkrića koja pomaže generirati; ona su ono što u konačnici ima značaj za nauku i društvo. FrontierScience se nalazi uzvodno od toga. To nam pruža vodilju za ekspertsko naučno rezonovanje, omogućavajući nam da testiramo modele na standardizovanom skupu pitanja, uočimo gdje uspijevaju ili ne uspijevaju i prepoznamo gdje ih trebamo poboljšati. FrontierScience je ograničena i ima nedostatke u ključnim aspektima (na primjer, fokusira se na specifične probleme koje pišu stručnjaci) i ne obuhvata sve što naučnici rade u svom svakodnevnom radu. Međutim, polje zahtijeva teža, originalnija i značajnija naučna mjerila, a FrontierScience predstavlja korak naprijed u ovom pravcu.
Cjelokupna evaluacija FrontierScience obuhvata preko 700 tekstualnih pitanja (sa 160 u zlatnom setu) koja pokrivaju podpolja iz fizike, hemije i biologije. Benchmark se sastoji od Olimpijade i istraživačkog dijela. FrontierScience-Olympiad sadrži 100 pitanja koje su osmislili međunarodni osvajači medalja na olimpijadama kako bi procijenili naučno rezonovanje u ograničenom formatu kratkog odgovora. Olimpijski set je osmišljen da sadrži teorijska pitanja koja su barem jednako teška kao problemi na međunarodnim olimpijadama. FrontierScience-Research se sastoji od 60 originalnih istraživačkih podzadataka koje su osmislili naučnici sa doktoratom (doktorandi, profesori ili postdoktorski istraživači) i koji se ocjenjuju pomoću rubrike sa 10 tačaka. Set za istraživanje je kreiran da sadrži samostalne, višestepene podzadatke na nivou težine s kojim bi se doktor nauka mogao susresti tokom svog istraživanja.
Svaki zadatak u FrontierScience piše i potvrđuje stručnjak za domenu iz fizike, hemije ili biologije. Za set Olimpijade, svi stručnjaci su nagrađeni medaljom na najmanje jednom (a često i na više) međunarodnom olimpijskom takmičenju. Za istraživački set, svi stručnjaci posjeduju relevantan doktorat.
Pitanja za Olimpijadu su kreirana u saradnji sa 42 bivša međunarodna medalista ili trenera nacionalnih timova u relevantnim domenama, ukupno osvojivši 109 olimpijskih medalja. Istraživačka pitanja su kreirana u saradnji sa 45 kvalifikovanih naučnika i stručnjaka iz domena. Svi naučnici su bili ili doktorandi, postdoktorski istraživači ili profesori. Njihova područja stručnosti obuhvatala su niz specijalizovanih i važnih naučnih disciplina, od kvantne elektrodinamike do sintetičke organske hemije do evolucione biologije.
Proces kreiranja zadataka za oba skupa uključivao je određeni odabir protiv internih modela OpenAI-a (npr. odbacivanje zadataka koje su modeli uspješno riješili, tako da očekujemo da će evaluacija biti donekle pristrasna protiv ovih modela u odnosu na druge). Objavljujemo kao otvoreni kod zlatni set od 100 pitanja za Olimpijadu i zlatni set od 60 pitanja za Istraživanje, zadržavajući ostala pitanja kako bismo pratili kontaminaciju.

Zadaci prolaze kroz četiri faze: Kreiranje, Pregled, Rješavanje, Revizija. Nezavisni stručnjaci pregledaju zadatke jedni drugih kako bi potvrdili da su u skladu s kriterijima.
Olimpijadski set se može ocjenjivati kratkim odgovorom: bilo brojem, izrazom ili nepreciznim podudaranjem niza, što pomaže u potvrđivanju tačnosti. Međutim, ova potvrda često dolazi na račun izražajnosti i otvorenosti problema. Za istraživački set, uvodimo arhitekturu zasnovanu na rubrici za ocjenjivanje zadataka otvorenijeg tipa. Svako pitanje uključuje rubriku ocjenjivanja s više nezavisnih i objektivno procjenjivih stavki, ukupno 10 bodova. Rubrika ocjenjivanja procjenjuje ne samo tačnost konačnog odgovora, već i ispravnost međukoraka u rezonovanju, omogućavajući nijansiranu analizu performansi modela i analizu neuspjeha. Rješenje se smatra „ispravnim“ ako dobije najmanje 7/10 bodova prema rubrici.
Odgovori se ocjenjuju pomoću modelskog ocjenjivača (GPT‑5) prema kriterijima kratkog odgovora ili kriterijima rubrike. Iako bismo idealno koristili stručnjaka da ocijeni svaki odgovor, ovaj pristup nije skalabilan, pa smo osmislili rubriku koja se može provjeriti pomoću modelskog ocjenjivača. Razvili smo proces potvrđivanja kako bismo osigurali da su rubrike i pitanja dobro kalibrirani prema težini i tačnosti.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Neuspjeh 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Prolaz 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Prolaz 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Prolaz 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Neuspjeh 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Svaki zadatak u istraživačkom skupu ocjenjuje se pomoću rubrike koja ukupno iznosi 10 bodova i koju može koristiti stručnjak ili model ocjenjivač. Da bismo povećali našu sposobnost evaluacije modela, koristimo drugi model za ocjenjivanje odgovora.
Procijenili smo nekoliko naprednih modela: GPT‑5.2, Claude Opus 4.5, i Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, i OpenAI o3 na FrontierScience-Olympiad i FrontierScience-Research. Svi modeli rezonovanja su evaluirani uz „visok“ napor rezonovanja, osim GPT‑5.2 koji je evaluiran uz „xhigh“ napor. U našim početnim evaluacijama, GPT‑5.2 je naš model s najboljim učinkom na FrontierScience-Olympiad (postigavši 77%) i Research (postigavši 25%), ispred drugih naprednih modela. Gemini 3 Pro je usporediv s GPT‑5.2 na Olympiad setu (sa rezultatom od 76%).
Primijetili smo značajan napredak u rješavanju pitanja na ekspertskom nivou, posebno na zadacima otvorenog tipa istraživanja. Još uvijek ima prostora za rast: iz analize transkripata o neuspjesima, napredni modeli ponekad su pravili greške u rezonovanju, logici i proračunima, nisu razumjeli specifične naučne pojmove i pravili su činjenične netačnosti.
Upoređujemo tačnost različitih naprednih modela. GPT‑5.2 je naš najuspješniji model na FrontierScience-Research i Olympiad setu.
Upoređujemo tačnosti u naporima rezonovanja za GPT‑5.2 i o3. Duža vremena razmišljanja vode do poboljšane tačnosti.
Iako FrontierScience predstavlja korak naprijed u složenosti naučnih mjerila, još uvijek postoje mnoga ograničenja. FrontierScience se sastoji od pitanja sa ograničenim problemom, koja se fokusiraju na evaluaciju konačnog odgovora (Olimpijada) ili evaluaciju rezonovanja za završetak istraživačkog zadatka (Istraživanje). Osim toga, korištenje rubrika s više komponenti na dužim zadacima manje je objektivno od provjere konačnog odgovora.
FrontierScience nudi snimak veće rezolucije o rezonovanju modela na teškim pitanjima koje su napisali stručnjaci, ali ne i potpunu sliku o tome kako se nauka provodi u praksi. Posebno, ne procjenjuje značajan dio naučnog istraživanja: kako modeli generiraju istinski nove hipoteze ili kako interaguju s višestrukim modalitetima, uključujući video podatke i stvarne eksperimentalne sisteme u fizičkom svijetu.
Gledajući unaprijed, očekujemo da će napredak u naučnom rezonovanju doći kako iz boljih sistema za opće rezonovanje, tako i iz fokusiranih napora na unapređenju naučnih sposobnosti. FrontierScience je jedan od mnogih alata, i kako se modeli poboljšavaju, planiramo iterirati na ovom mjerilu, proširiti ga na nove domene i upariti ga s više evaluacija iz stvarnog svijeta koje ispituju što ovi sistemi zapravo omogućavaju naučnicima da rade. Mjerila poput FrontierScience pomažu nam da razumijemo slabosti današnjih AI sistema kako bismo usmjerili naš rad na to da modeli postanu pouzdani partneri u naučnim otkrićima.


