16. prosinca 2025.

Evaluacija sposobnosti umjetne inteligencije za obavljanje znanstveno-istraživačkih zadataka

Predstavljamo FrontierScience, novo mjerilo koje procjenjuje sposobnosti umjetne inteligencije za znanstveno prosuđivanje na stručnoj razini u fizici, kemiji i biologiji.

Pročitajte rad

Djelomična grafika s mekom gradijentnom pozadinom zelene i žute boje, velikom izrezanom riječi koja počinje s „Od...” i slojevitim blokovima teksta s desne strane koji navode kriterije pregleda kao što su „Činjenično”, „Ocjenjivo”, „Objektivno” i „Teško”.

Učitavanje…

Prosuđivanje je u srži znanstvenog rada. Osim što se prisjećaju činjenica, znanstvenici smišljaju hipoteze, testiraju ih i usavršavaju te sintetiziraju ideje iz različitih područja. Kako naši modeli postaju sve sposobniji, središnje pitanje je kako mogu duboko prosuđivati kako bi doprinijeli znanstvenim istraživanjima.

Tijekom protekle godine naši su modeli došli do značajnih prekretnica, uključujući osvajanje zlatne medalje na Međunarodnoj matematičkoj olimpijadi i Međunarodnoj olimpijadi u informatici. Istodobno počinjemo primjećivati kako naši najsposobniji modeli, poput GPT‑5, značajno ubrzavaju stvarne znanstvene radne procese. Istraživači upotrebljavaju ove sustave na zadacima poput pretraživanja literature na različitim disciplinama i jezicima te za rad na složenim matematičkim dokazima. U mnogim slučajevima model skraćuje posao na sate, a koji bi inače trajao danima ili tjednima. Ovaj napredak dokumentiran je u našem radu Rani eksperimenti ubrzanja znanosti s modelom GPT‑5⁠, objavljenom u studenom 2025., koji predstavlja rane dokaze da GPT‑5 može mjerljivo ubrzati znanstvene radne tijekove.

Predstavljamo FrontierScience

Budući da ubrzavanje znanstvenog napretka predstavlja jednu od najperspektivnijih prilika umjetne inteligencije da djeluje u korist čovječanstva, mi poboljšavamo naše modele na teškim matematičkim i znanstvenim zadacima te radimo na alatima koji će znanstvenicima pomoći da iz njih izvuku maksimum.

Kada je u studenom 2023. objavljen GPQA⁠(otvara se u novom prozoru), znanstveno mjerilo „Google-Proof” s pitanjima koja su napisali doktori znanosti, GPT‑4 je postigao 39 %, što je ispod početne vrijednosti za stručnjake od 70 %. Dvije godine kasnije model GPT‑5.2 postigao je 92 %. Kako se sposobnosti modela za prosuđivanje i znanje nastavljaju razvijati, važniji će biti zahtjevniji kriteriji za mjerenje i predviđanje sposobnosti modela da ubrzaju znanstvena istraživanja. Prethodna znanstvena mjerila koja se uglavnom usredotočuju na pitanja s višestrukim izborom, zasićena su ili nisu središnje usmjerena na znanost.

Kako bismo premostili taj jaz, predstavljamo FrontierScience: novo mjerilo razvijeno za mjerenje znanstvenih sposobnosti na razini stručnjaka. FrontierScience su napisali i provjerili im valjanost stručnjaci iz fizike, kemije i biologije, a sastoji se od stotina pitanja osmišljenih da budu teška, originalna i smislena. FrontierScience uključuje dvije vrste pitanja: Olympiad, koja mjeri sposobnosti znanstvenog prosuđivanja u stilu olimpijade i Research, koja mjeri mogućnost stvarnog znanstvenog istraživanja. Pružanje većeg uvida u znanstvene sposobnosti modela pomaže nam pratiti napredak i unaprijediti znanost ubrzanu umjetnom inteligencijom.

U našim početnim evaluacijama GPT‑5.2 je naš najbolje rangirani model na FrontierScience-Olympiad (s rezultatom 77 %) i Research (s rezultatom 25 %), ispred ostalih naprednih modela. Vidjeli smo značajan napredak u rješavanju pitanja na stručnoj razini, a istovremeno smo ostavili prostora za veći napredak, posebno kod istraživačkih zadataka otvorenog tipa. Ovo znanstvenicima sugerira da trenutni modeli već mogu podržati dijelove istraživanja koji uključuju strukturirano prosuđivanje, a istodobno naglašava da je još uvijek potrebno značajno poraditi na poboljšanju njihove sposobnosti provođenja razmišljanja s otvorenim krajem. Ovi rezultati usklađeni su s načinima na koje znanstvenici već upotrebljavaju današnje modele: za ubrzavanje istraživačkih procesa oslanjajući se na ljudsku prosudbu u oblikovanju problema i validaciji te sve više za istraživanje ideja i veza čije bi otkrivanje inače trajalo puno dulje – uključujući, u nekim slučajevima, doprinos u obliku novih uvida koje stručnjaci zatim evaluiraju i ispituju.

Na kraju, najvažnija mjerila za znanstvene sposobnosti umjetne inteligencije su nova otkrića u čijem je smišljanju pomogla; to je ono što u konačnici ima značaj za znanost i društvo. FrontierScience se nalazi uzvodno od toga. Daje nam smjernicu za stručno znanstveno prosuđivanje, omogućujući nam ispitivanje modela na standardiziranom skupu pitanja, uvid u to gdje uspijevaju ili ne uspijevaju te identificiranje područja u kojima ih trebamo poboljšati. FrontierScience je usko mjerilo i ima ograničenja u ključnim aspektima (na primjer, fokusiranje na ograničene probleme koje su napisali stručnjaci) te ne obuhvaća sve što znanstvenici rade u svojem svakodnevnom radu. Međutim, to područje treba teža, originalnija i smislenija znanstvena mjerila, a FrontierScience ide korak naprijed u tom smjeru.

Što FrontierScience mjeri i kako smo ga razvili

Cjelokupna evaluacija mjerilom FrontierScience obuhvaća više od 700 tekstualnih pitanja (od kojih je 160 u zlatnom setu) koja pokrivaju podpodručja fizike, kemije i biologije. Mjerilo se sastoji od setova Olympiad i a Research. FrontierScience-Olympiad sadržava 100 pitanja koja su osmislili međunarodni osvajači olimpijskih medalja za procjenu znanstvenog prosuđivanja u formatu ograničenog, kratkog odgovora. Set pitanja Olympiad sadržava teorijska pitanja koja su barem jednako teška kao problemi na međunarodnim olimpijskim natjecanjima. FrontierScience-Research sastoji se od 60 originalnih istraživačkih podzadataka koje su osmislili znanstvenici s doktoratom (doktorski kandidati, profesori ili postdoktorski istraživači) i koji se ocjenjuju pomoću rubrike od 10 bodova. Set pitanja Research sadržava samostalne, višestupanjske podzadatke na razini složenosti s kojom bi se znanstvenik s doktoratom mogao susresti tijekom svojeg istraživanja.

Primjeri pitanja

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Svaki zadatak u FrontierScience piše i provjerava mu valjanost stručnjak iz domene fizike, kemije ili biologije. Za set pitanja Olympiad svi stručnjaci su nagrađeni medaljom na barem jednom (a često i na više) međunarodnih olimpijskih natjecanja. Za set Research, svi stručnjaci imaju relevantan doktorat.

Set pitanja Olympiad nastao je u suradnji s 42 bivša međunarodna osvajača medalja ili trenera nacionalnih momčadi u relevantnim područjima, što je ukupno 109 olimpijskih medalja. Set pitanja Research nastao je u suradnji s 45 kvalificiranih znanstvenika i stručnjaka iz domene. Svi znanstvenici bili su ili doktorski kandidati, postdoktorski istraživači ili profesori. Njihova područja stručnosti obuhvaćala su niz specijaliziranih i važnih znanstvenih disciplina, od kvantne elektrodinamike do sintetske organske kemije do evolucijske biologije.

Proces stvaranja zadataka za oba seta uključivao je određeni odabir prema internim modelima OpenAI-ja (npr. odbacivanje zadataka koje su modeli uspješno riješili pa očekujemo da će evaluacija biti donekle pristrana prema tim modelima u odnosu na druge). Objavljujemo kao otvoreni izvor zlatni set od 100 pitanja za Olympiad i zlatni set od 60 pitanja za Research, zadržavajući ostala pitanja kako bismo pratili kontaminaciju.

Dijagram tijeka koji prikazuje četiri faze razvoja zadatka – stvaranje, pregled, rješavanje i revizija – s kratkim opisima svakog koraka i kvačicama za činjenične, ocjenjive, objektivne i teške kriterije.

Zadaci prolaze kroz četiri faze: Stvaranje, Pregled, Rješavanje, Revizija. Neovisni stručnjaci pregledavaju zadatke jedni drugih kako bi provjerili valjanost jesu li usklađeni s kriterijima.

Kako ocjenjujemo izvedbu modela

Set Olympiad može se ocjenjivati kratkim odgovorom: bilo brojem, izrazom ili nejasnim nizom znakova, što pomaže u provjeri točnosti. Međutim, ova provjera valjanosti često je u suprotnosti s ekspresivnošću i otvorenošću problema. Za set Research predstavljamo arhitekturu temeljenu na rubrici za ocjenjivanje otvorenijih zadataka. Svako pitanje uključuje rubriku za ocjenjivanje s više neovisnih i objektivno procjenjivih stavki, ukupno 10 bodova. Rubrika za ocjenjivanje procjenjuje ne samo točnost konačnog odgovora, već i točnost međukoraka u prosuđivanju, omogućujući nijansiranu analizu izvedbe modela i analizu neuspjeha. Rješenje se smatra „točnim“ ako je dodijeljeno najmanje 7/10 bodova rubrike.

Odgovori se evaluiraju pomoću ocjenjivača temeljenog na modelu (GPT‑5) prema kratkom odgovoru ili kriterijima rubrike. Premda bismo idealno koristili stručnjaka za ocjenjivanje svakog odgovora, ovaj pristup nije skalabilan, pa smo osmislili rubriku koja se može provjeriti pomoću ocjenjivača modela. Razvili smo sustav za provjeru valjanosti kako bismo osigurali da su rubrike i pitanja dobro kalibrirani prema težini i točnosti.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Svaki zadatak u setu Research ocjenjuje se pomoću rubrike koja ukupno iznosi 10 bodova, a može je upotrebljavati stručnjak ili ocjenjivač modela. Kako bismo skalirali našu sposobnost evaluacije modela, upotrebljavamo drugi model za ocjenjivanje odgovora.

Učinak modela

Evaluirali smo nekoliko naprednih modela: GPT‑5.2, Claude Opus 4.5 i Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, i OpenAI o3 na FrontierScience-Olympiad i FrontierScience-Research. Svi modeli prosuđivanja evaluirani su pri „high“ intenzitetu prosuđivanja, s izuzetkom modela GPT‑5.2 pri „xhigh“. U našim početnim evaluacijama GPT‑5.2 je naš najbolje rangirani model na FrontierScience-Olympiad (s rezultatom 77 %) i Research (s rezultatom 25 %), ispred ostalih naprednih modela. Gemini 3 Pro je usporediv s GPT‑5.2 na setu Olympiad (s rezultatom od 76 %).

Primijetili smo značajan napredak u rješavanju pitanja na stručnoj razini, posebno kod istraživačkih zadataka otvorenog tipa. Još uvijek ima prostora za napredak: od analize neuspjeha na transkriptima, napredni modeli ponekad su činili pogreške u prosuđivanju, logici i izračunima, nisu razumjeli specifične znanstvene pojmove i činili su činjenične netočnosti.

Uspoređujemo točnosti na nekoliko naprednih modela. GPT‑5.2 je naš najuspješniji model na setovima FrontierScience-Research i Olympiad.

Uspoređujemo točnost na različitim intenzitetima prosuđivanja za GPT‑5.2 i o3. Dulje vrijeme razmišljanja dovodi do poboljšane točnosti.

Ograničenja i što je sljedeće

Premda FrontierScience predstavlja korak naprijed u pogledu težine znanstvenih mjerila, još uvijek postoje mnoga ograničenja. FrontierScience sastoji se od pitanja s tvrdnjom o problemu s ograničenjima, koja se usredotočuje na evaluaciju konačnog odgovora (Olympiad) ili evaluaciju prosuđivanja za dovršetak istraživačkog zadatka (Research). Osim toga, upotreba rubrika s više komponenti na duljim zadacima manje je objektivno od provjere konačnog odgovora.

FrontierScience pruža snimku stanja veće rezolucije o prosuđivanju modela na teškim, stručnim pitanjima, ali ne i potpunu sliku o tome kako se znanost provodi u praksi. Posebice, ne procjenjuje značajan dio znanstvenog istraživanja: kako modeli smišljaju izvorno nove hipoteze ili kako komuniciraju s višestrukim modalitetima, uključujući videopodatke i stvarne eksperimentalne sustave u fizičkom svijetu.

Gledajući u budućnost, očekujemo da će napredak u znanstvenom prosuđivanju proizaći i iz boljih sustava prosuđivanja opće namjene i iz usmjerenog napora na improviziranje znanstvenih sposobnosti. FrontierScience je jedan od mnogih alata, a kako se modeli poboljšavaju, planiramo iterirati na ovom mjerilu, proširiti ga na nove domene i upariti ga s više evaluacija iz stvarnog svijeta koje ispituju što ti sustavi zapravo omogućuju znanstvenicima da rade. Mjerila poput FrontierScience pomažu nam razumjeti slabosti današnjih sustava umjetne inteligencije kako bismo usmjerili naš rad na to da modeli postanu pouzdani partneri u znanstvenim otkrićima.

Autor

OpenAI

Nastavite čitati

Prikaži sve

GPT-Red: samopoboljšanje za robusnost

Sigurnost15. srp 2026.

Razdvajanje signala od šuma u evaluacijama kodiranja

Istraživanje8. srp 2026.

Predstavljamo GeneBench-Pro

Istraživanje30. lip 2026.