16. децембар 2025.

Procena sposobnosti AI-ja da obavlja zadatke naučnog istraživanja

Predstavljamo FrontierScience, novo merilo koje procenjuje AI sposobnosti za naučno rezonovanje na ekspertskom nivou u fizici, hemiji i biologiji.

Pročitajte rad

Delimična grafika sa mekom zeleno-žutom gradijentnom pozadinom, velikom isečenom rečju koja počinje sa „Fro…“ i slojevitim blokovima teksta desno koji navode kriterijume pregleda kao što su „Factual“, „Gradable“, „Objective“ i „Difficult“.

Учитавање…

Rezonovanje je u srži naučnog rada. Pored prisećanja činjenica, naučnici formulišu hipoteze, testiraju ih i usavršavaju, i povezuju ideje između oblasti. Kako naši modeli postaju sposobniji, centralno pitanje je koliko mogu duboko da rezonovanjem doprinesu naučnim istraživanjima.

Tokom protekle godine, naši modeli su dostigli velike prekretnice, uključujući učinak na nivou zlatne medalje na Međunarodnoj matematičkoj olimpijadi i Međunarodnoj olimpijadi iz informatike. Paralelno s tim, počinjemo da vidimo da naši najsposobniji modeli, kao što je GPT‑5, značajno ubrzavaju stvarne naučne tokove rada. Istraživači koriste ove sisteme za zadatke kao što su pretraga literature kroz discipline i jezike i rad na složenim matematičkim dokazima. U mnogim slučajevima, model skraćuje posao za koji bi inače bili potrebni dani ili nedelje na svega nekoliko sati. Ovaj napredak je dokumentovan u našem radu Rani eksperimenti ubrzanja nauke uz GPT‑5⁠, objavljenom u novembru 2025, koji predstavlja rane dokaze da GPT‑5 može merljivo da ubrza naučne tokove rada.

Predstavljamo FrontierScience

Kako je ubrzavanje naučnog napretka jedna od najperspektivnijih prilika da AI koristi čovečanstvu, unapređujemo naše modele za teške zadatke iz matematike i nauke i radimo na alatima koji će naučnicima pomoći da iz njih izvuku najviše.

Kada je GPQA⁠(отвара се у новом прозору), „Google-Proof“ naučni benchmark sa pitanjima koje su napisali stručnjaci sa doktoratom, objavljen u novembru 2023, GPT‑4 je ostvario 39%, ispod ekspertske osnovne vrednosti od 70%. Dve godine kasnije, GPT‑5.2 je ostvario 92%. Kako sposobnosti modela za rezonovanje i znanje nastavljaju da se skaliraju, teži benchmarkovi biće važni za merenje i predviđanje sposobnosti modela da ubrzaju naučna istraživanja. Dosadašnji naučni benchmarkovi uglavnom su usmereni na pitanja višestrukog izbora, zasićeni su ili nisu prvenstveno fokusirani na nauku.

Da bismo premostili ovaj jaz, uvodimo FrontierScience: novi benchmark napravljen da meri naučne sposobnosti na ekspertskom nivou. FrontierScience pišu i proveravaju stručnjaci iz fizike, hemije i biologije, i sastoji se od stotina pitanja osmišljenih da budu teška, originalna i značajna. FrontierScience obuhvata dva traga pitanja: Olympiad, koji meri sposobnosti naučnog rezonovanja u olimpijskom stilu, i Research, koji meri sposobnosti stvarnog naučnog istraživanja. Pružanje dubljeg uvida u naučne sposobnosti modela pomaže nam da pratimo napredak i unapređujemo nauku ubrzanu pomoću AI-ja.

U našim početnim evaluacijama, GPT‑5.2 je naš model sa najboljim rezultatima na FrontierScience-Olympiad (77%) i Research (25%), ispred drugih graničnih modela. Videli smo značajan napredak u rešavanju pitanja na ekspertskom nivou, uz ostavljen prostor za dalji napredak, naročito kod otvorenih istraživačkih zadataka. Za naučnike, to ukazuje da trenutni modeli već mogu da podrže delove istraživanja koji uključuju strukturisano rezonovanje, ali i naglašava da je i dalje potreban značajan rad kako bi se unapredila njihova sposobnost za otvoreno razmišljanje. Ovi rezultati su u skladu sa načinom na koji naučnici već koriste današnje modele: za ubrzavanje istraživačkih tokova rada uz oslanjanje na ljudsku procenu za postavljanje problema i validaciju, i sve više za istraživanje ideja i veza koje bi inače zahtevale mnogo više vremena da se otkriju — uključujući, u nekim slučajevima, doprinos novim uvidima koje stručnjaci potom procenjuju i testiraju.

Na kraju, najvažniji benchmark za naučne sposobnosti AI-ja jesu nova otkrića koja pomaže da se generišu; to je ono što je u konačnici važno za nauku i društvo. FrontierScience se nalazi korak ispred toga. Daje nam zvezdu vodilju za naučno rezonovanje na ekspertskom nivou, omogućavajući nam da testiramo modele na standardizovanom skupu pitanja, vidimo gde uspevaju ili ne uspevaju i utvrdimo gde treba da ih unapredimo. FrontierScience je usko fokusiran i ima ograničenja u ključnim aspektima (na primer, fokusira se na ograničene probleme koje pišu stručnjaci) i ne obuhvata sve što naučnici rade u svakodnevnom poslu. Ali ovoj oblasti su potrebni teži, originalniji i smisleniji naučni benchmarkovi, a FrontierScience predstavlja korak napred u tom pravcu.

Šta FrontierScience meri i kako smo ga izgradili

Kompletna FrontierScience evaluacija obuhvata više od 700 tekstualnih pitanja (od kojih je 160 u zlatnom skupu) koja pokrivaju podoblasti fizike, hemije i biologije. Benchmark se sastoji iz podele Olympiad i Research. FrontierScience-Olympiad sadrži 100 pitanja koja su osmislili osvajači medalja na međunarodnim olimpijadama kako bi procenila naučno rezonovanje u ograničenom formatu kratkog odgovora. Olimpijski skup je osmišljen tako da sadrži teorijska pitanja najmanje jednako teška kao problemi na međunarodnim olimpijskim takmičenjima. FrontierScience-Research sastoji se od 60 originalnih istraživačkih podzadataka koje su osmislili naučnici sa doktoratom (doktorandi, profesori ili postdoktorski istraživači) i koji se ocenjuju pomoću rubrike od 10 poena. Istraživački skup je kreiran tako da sadrži samostalne, višekoračne podzadatke na nivou težine sa kojim bi se naučnik sa doktoratom mogao susresti tokom svog istraživanja.

Primeri pitanja

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Svaki zadatak u FrontierScience piše i proverava domenski stručnjak iz fizike, hemije ili biologije. Za olimpijski skup, svi stručnjaci su osvojili medalju na najmanje jednom (a često i na više) međunarodnih olimpijskih takmičenja. Za istraživački skup, svi stručnjaci imaju odgovarajući PhD.

Olimpijska pitanja nastala su u saradnji sa 42 bivša osvajača međunarodnih medalja ili nacionalna trenera timova u relevantnim oblastima, što ukupno čini 109 olimpijskih medalja. Istraživačka pitanja nastala su u saradnji sa 45 kvalifikovanih naučnika i domenskih stručnjaka. Svi naučnici bili su ili doktorandi, postdoktorski istraživači ili profesori. Njihove oblasti ekspertize obuhvatale su niz specijalizovanih i važnih naučnih disciplina, od kvantne elektrodinamike preko sintetičke organske hemije do evolucione biologije.

Proces izrade zadataka za oba skupa uključivao je i određenu selekciju u odnosu na interne OpenAI modele (npr. odbacivanje zadataka koje su modeli uspešno rešili, pa očekujemo da je evaluacija donekle pristrasna protiv ovih modela u odnosu na druge). Otvoreno objavljujemo olimpijski zlatni skup od 100 pitanja i istraživački zlatni skup od 60 pitanja, dok ostala pitanja zadržavamo kako bismo pratili kontaminaciju.

Dijagram toka koji prikazuje četiri faze procesa razvoja zadatka — Creation, Review, Resolution i Revision — sa kratkim opisima svakog koraka i oznakama za kriterijume factual, gradable, objective i difficult.

Zadaci prolaze kroz četiri faze: Creation, Review, Resolution, Revision. Nezavisni stručnjaci međusobno pregledaju zadatke da bi potvrdili da su usklađeni sa kriterijumima.

Kako ocenjujemo učinak modela

Olimpijski skup može da se ocenjuje kratkim odgovorom: bilo brojem, izrazom ili približnim poklapanjem niske, što pomaže pri proveri tačnosti. Međutim, ova provera često dolazi uz kompromis sa izražajnošću i otvorenošću problema. Za istraživački skup uvodimo arhitekturu ocenjivanja zasnovanu na rubrici za procenu otvorenijih zadataka. Svako pitanje uključuje rubriku ocenjivanja sa više nezavisnih i objektivno proverljivih stavki, ukupno vrednih 10 poena. Rubrika za ocenjivanje procenjuje ne samo tačnost konačnog odgovora, već i ispravnost među-koraka rezonovanja, što omogućava nijansiraniju analizu učinka modela i neuspeha. Rešenje se smatra „ispravnim“ ako dobije najmanje 7/10 poena po rubrici.

Odgovore procenjuje grader zasnovan na modelu (GPT‑5) u odnosu na kratki odgovor ili kriterijume iz rubrike. Iako bi idealno bilo da svaki odgovor ocenjuje stručnjak, ovaj pristup nije skalabilan, pa smo rubriku osmislili tako da može da se proverava pomoću modelskog gradera. Razvili smo verifikacioni tok kako bismo pomogli da se obezbedi da su rubrike i pitanja dobro kalibrisani prema težini i tačnosti.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Svaki zadatak u istraživačkom skupu ocenjuje se pomoću rubrike od ukupno 10 poena koju može da koristi stručnjak ili modelski grader. Da bismo proširili mogućnost evaluacije modela, koristimo drugi model za ocenjivanje odgovora.

Učinak modela

Evaluirali smo nekoliko graničnih modela: GPT‑5.2, Claude Opus 4.5 i Gemini 3 Pro, GPT‑4o, OpenAI o4-mini i OpenAI o3 na FrontierScience-Olympiad i FrontierScience-Research. Svi modeli reznovanja evaluirani su uz „high“ napor rezonovanja, sa izuzetkom GPT‑5.2 koji je evaluiran uz „xhigh“. U našim početnim evaluacijama, GPT‑5.2 je naš model sa najboljim rezultatima na FrontierScience-Olympiad (77%) i Research (25%), ispred drugih graničnih modela. Gemini 3 Pro je uporediv sa GPT‑5.2 na olimpijskom skupu (76%).

Videli smo značajan napredak u rešavanju pitanja na ekspertskom nivou, naročito kod otvorenih istraživačkih zadataka. I dalje postoji prostor za rast: analizom transkripata neuspeha, granični modeli ponekad su pravili greške u rezonovanju, logici i računanju, nisu razumeli usko specijalizovane naučne pojmove i iznosili su činjenične netačnosti.

Poredimo tačnost kroz nekoliko graničnih modela. GPT‑5.2 je naš model sa najboljim rezultatima na FrontierScience-Research i olimpijskom skupu.

Poredimo tačnost kroz nivoe rezonovanja za GPT‑5.2 i o3. Duže vreme razmišljanja dovodi do veće tačnosti.

Ograničenja i šta sledi

Iako FrontierScience predstavlja korak napred u težini naučnih benchmarkova, i dalje postoje brojna ograničenja. FrontierScience se sastoji od pitanja sa ograničenim iskazom problema, što fokus stavlja na procenu konačnog odgovora (Olympiad) ili procenu rezonovanja potrebnog za dovršavanje istraživačkog zadatka (Research). Pored toga, korišćenje rubrika sa više komponenti na dužim zadacima manje je objektivno od provere konačnog odgovora.

FrontierScience pruža sliku više rezolucije o rezonovanju modela na teškim pitanjima koja pišu stručnjaci, ali ne i potpunu sliku o tome kako se nauka zaista radi u praksi. Posebno, ne procenjuje značajan deo naučnog istraživanja: kako modeli generišu zaista nove hipoteze ili kako stupaju u interakciju sa višestrukim modalitetima, uključujući video podatke i stvarne eksperimentalne sisteme u fizičkom svetu.

Gledajući unapred, očekujemo da će napredak u naučnom rezonovanju doći i od boljih sistema rezonovanja opšte namene i od usmerenog rada na unapređivanju naučnih sposobnosti. FrontierScience je jedan alat među mnogima i, kako se modeli budu poboljšavali, planiramo da dalje razvijamo ovaj benchmark, proširimo ga na nove domene i uparimo ga sa više procena iz stvarnog sveta koje sagledavaju šta ovi sistemi zaista omogućavaju naučnicima da rade. Benchmarkovi poput FrontierScience pomažu nam da razumemo slabosti današnjih AI sistema kako bismo svoj rad usmerili na to da modeli postanu pouzdani partneri u naučnom otkrivanju.

Аутор

OpenAI

Наставите са читањем

Прикажи све

GPT-Red: Откључавање самопобољшања за робусност

Безбедност15. јул 2026.

Раздвајање сигнала од шума у проценама програмирања

Истраживање8. јул 2026.

Представљамо GeneBench-Pro

Истраживање30. јун 2026.