16. december 2025

Ocenjevanje sposobnosti umetne inteligence za izvajanje znanstvenih raziskovalnih nalog

Predstavljamo FrontierScience, novo merilo, ki ocenjuje zmožnosti umetne inteligence za strokovno znanstveno utemeljevanje na področjih fizike, kemije in biologije.

Preberite dokument

Delna grafika z mehkim zeleno-rumenim gradientnim ozadjem, velikim obrezanim napisom, ki se začne s »Fro…«, in plastmi besedila na desni strani, ki navajajo merila za pregled, kot so »Dejansko«, »Ocenljivo«, »Objektivno« in »Težavno«.

Nalaganje …

Razmišljanje je v središču znanstvenega dela. Poleg priklica dejstev znanstveniki ustvarijo hipoteze, jih preizkušajo in izpopolnjujejo ter sintetizirajo ideje med različnimi področji. Ko naši modeli postajajo vse bolj sposobni, je osrednje vprašanje, kako lahko globoko utemeljujejo, da prispevajo k znanstvenim raziskavam.

V zadnjem letu so naši modeli dosegli pomembne mejnike, vključno z doseganjem zlate medalje na Mednarodni matematični olimpijadi in Mednarodni olimpijadi informatike. Vzporedno začenjamo opažati, da naši najzmogljivejši modeli, kot je GPT‑5, smiselno pospešujejo resnične znanstvene poteke dela. Raziskovalci te sisteme uporabljajo za naloge, kot je iskanje literature na različnih področjih in jezikih ter reševanje kompleksnih matematičnih dokazov. V mnogih primerih model skrajša delo, ki bi sicer trajalo dneve ali tedne, na ure. Ta napredek je dokumentiran v našem članku Zgodnji poskusi pospeševanja znanosti z GPT‑5⁠, objavljenem novembra 2025, ki predstavlja zgodnje dokaze, da lahko GPT‑5 merljivo pospeši znanstvene delovne procese.

Predstavitev FrontierScience

Ker je pospeševanje znanstvenega napredka ena najbolj obetavnih priložnosti, da umetna inteligenca človeštvu koristi, izboljšujemo naše modele pri zahtevnih matematičnih in znanstvenih nalogah ter delamo na orodjih, ki bodo znanstvenikom pomagala njihove zmogljivosti kar najbolje izkoristiti.

Ko je bil novembra 2023 objavljen GPQA⁠(odpre se v novem oknu), "Google-Proof" znanstveni referenčni test vprašanj, ki so jih napisali strokovnjaki z doktoratom, je GPT‑4 dosegel 39 %, kar je pod strokovnim pragom 70 %. Dve leti kasneje je GPT‑5.2 dosegel 92%. Ko se zmožnosti modelov za sklepanje in znanje nadaljujejo ter povečujejo, bodo zahtevnejša merila pomembna za merjenje in napovedovanje sposobnosti modelov za pospeševanje znanstvenih raziskav. Predhodna znanstvena merila, ki se večinoma osredotočajo na vprašanja z več izbirami, so nasičena ali pa niso osredotočena na znanost.

Za premostitev te vrzeli uvajamo FrontierScience: novo merilo, zasnovano za merjenje znanstvenih zmogljivosti na strokovni ravni. FrontierScience je napisan in preverjen s strani strokovnjakov s področij fizike, kemije in biologije ter vsebuje stotine vprašanj, zasnovanih tako, da so zahtevna, izvirna in smiselna. FrontierScience vključuje dve vrsti vprašanj: Olimpijada, ki meri sposobnosti znanstvenega razmišljanja v olimpijskem slogu, in Raziskave, ki merijo sposobnosti znanstvenega raziskovanja v resničnem svetu. Zagotavljanje večjega vpogleda v znanstvene zmogljivosti modelov nam pomaga slediti napredku in napredovati v znanosti, ki jo pospešuje umetna inteligenca.

V naših začetnih ocenah je GPT‑5.2 naš najbolje delujoči model na FrontierScience-Olimpijada (z oceno 77 %) in Raziskave (z oceno 25 %), pred drugimi frontier modeli. Opazili smo znaten napredek pri reševanju vprašanj na strokovni ravni, pri čemer ostaja prostor za nadaljnji napredek, zlasti pri raziskovalnih nalogah odprtega tipa. Znanstvenikom to nakazuje, da trenutni modeli že lahko podpirajo dele raziskav, ki vključujejo strukturirano razmišljanje, hkrati pa poudarjajo, da ostaja veliko dela za izboljšanje njihove sposobnosti za izvajanje odprtega razmišljanja. Ti rezultati so skladni s tem, kako znanstveniki že danes uporabljajo modele: za pospeševanje raziskovalnih delovnih tokov, medtem ko se zanašajo na človeško presojo za oblikovanje in preverjanje problemov, ter vse bolj za raziskovanje idej in povezav, za katere bi potrebovali veliko več časa, da bi jih odkrili — vključno, v nekaterih primerih, s prispevanjem novih vpogledov, ki jih nato strokovnjaki ocenijo in preizkusijo.

Na koncu so najpomembnejše merilo za znanstvene zmožnosti umetne inteligence nova odkritja, ki jih pomaga ustvariti; ta so tista, ki so na koncu pomembna za znanost in družbo. FrontierScience je v hierarhiji nad tem. To nam daje severno zvezdo za strokovno znanstveno sklepanje, kar nam omogoča, da preizkusimo modele na standardiziranem naboru vprašanj, vidimo, kje uspevajo ali ne uspevajo, in ugotovimo, kje jih moramo izboljšati. FrontierScience je ozko usmerjena in ima omejitve v ključnih pogledih (na primer, osredotoča se na omejene, s strani strokovnjakov napisane probleme) ter ne zajema vsega, kar znanstveniki pri svojem vsakdanjem delu počnejo. Vendar področje potrebuje težje, izvirne in smiselne znanstvene mejnike, in FrontierScience predstavlja korak naprej v tej smeri.

Kaj meri FrontierScience in kako smo ga zasnovali

Celotna ocena FrontierScience obsega več kot 700 besedilnih vprašanj (z 160 v zlati zbirki), ki pokrivajo podpodročja fizike, kemije in biologije. Merilo je sestavljeno iz Olimpijade in Raziskav. FrontierScience-Olimpijada vsebuje 100 vprašanj, ki so jih zasnovali mednarodni olimpijski medalisti za ocenjevanje znanstvenega razmišljanja v omejenem, kratkem odgovoru. Sklop Olimpijada je bil zasnovan tako, da vsebuje teoretična vprašanja, ki so vsaj tako zahtevna kot naloge na mednarodnih olimpijskih tekmovanjih. FrontierScience-Raziskave obsega 60 izvirnih raziskovalnih podnalog, ki jih oblikujejo doktorji znanosti (doktorski kandidati, profesorji ali podoktorski raziskovalci) in so ocenjene z 10-točkovno rubriko. Sklop Raziskave je bil ustvarjen, da vsebuje samostojne, večstopenjske podnaloge na ravni težavnosti, s katero se lahko sreča znanstvenik z doktoratom med svojim raziskovanjem.

Vzorčna vprašanja

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Vsako nalogo v FrontierScience napiše in preveri strokovnjak s področja fizike, kemije ali biologije. Za sklop Olimpijada so bili vsi strokovnjaki nagrajeni z medaljo na vsaj enem (in pogosto več) mednarodnem olimpijskem tekmovanju. Za sklop Raziskave imajo vsi strokovnjaki ustrezen doktorat.

Vprašanja za Olimpijado so bila ustvarjena v sodelovanju z 42 nekdanjimi mednarodnimi dobitniki medalj ali trenerji nacionalnih ekip v ustreznih domenah, skupaj 109 olimpijskih medalj. Vprašanja za Raziskave so bila ustvarjena v sodelovanju s 45 kvalificiranimi znanstveniki in strokovnjaki za domene. Vsi znanstveniki so bili bodisi doktorski kandidati, postdoktorski raziskovalci ali profesorji. Njihova področja strokovnega znanja so zajemala vrsto specializiranih in pomembnih znanstvenih disciplin, od kvantne elektrodinamike do sintetične organske kemije in evolucijske biologije.

Postopek ustvarjanja nalog za oba sklopa je vključeval nekaj izbire proti internim modelom OpenAI (npr. zavračanje nalog, ki so jih modeli uspešno rešili, zato pričakujemo, da bo ocenjevanje nekoliko pristransko proti tem modelom v primerjavi z drugimi). Odprtokodno objavljamo zlati komplet Olimpijade s 100 vprašanji in zlati komplet Raziskav s 60 vprašanji, pri čemer zadržimo ostala vprašanja za spremljanje kontaminacije.

Diagram, ki prikazuje štiri faze razvojnega procesa naloge—Ustvarjanje, Pregled, Reševanje in Revizija—s kratkimi opisi vsakega koraka in kljukicami za dejanska, ocenljiva, objektivna in težavna merila.

Naloge potekajo skozi štiri faze: Ustvarjanje, Pregled, Reševanje, Revizija. Neodvisni strokovnjaki pregledajo naloge drug drugega, da preverijo, ali ustrezajo merilom.

Kako ocenjujemo učinkovitost modela

Olimpijski sklop je ocenljiv s kratkim odgovorom: bodisi s številko, izrazom ali približnim ujemanjem niza, kar pomaga preveriti pravilnost. Vendar pa to preverjanje pogosto pomeni kompromis z izražanjem in odprtostjo problema. Za sklop Raziskav uvajamo arhitekturo, ki temelji na rubriki za ocenjevanje bolj odprtih nalog. Vsako vprašanje vključuje ocenjevalno rubriko z več neodvisnimi in objektivno ocenljivimi elementi, ki skupaj znašajo 10 točk. Ocenjevalna rubrika ocenjuje ne le natančnost končnega odgovora, temveč tudi pravilnost vmesnih korakov sklepanja, kar omogoča podrobno analizo zmogljivosti modela in analizo napak. Rešitev se šteje za "pravilno", če je dodeljenih vsaj 7/10 točk iz rubrike.

Odgovori so ocenjeni s strani ocenjevalnika na osnovi modela (GPT‑5) glede na kratke odgovore ali merila rubrike. Čeprav bi v idealnem primeru uporabili strokovnjaka za ocenjevanje vsakega odgovora, ta pristop ni možno razširiti, zato smo zasnovali ocenjevalno lestvico, ki jo je mogoče preveriti z modelom ocenjevalnikom. Razvili smo preverjalni postopek, ki pomaga zagotoviti, da so rubrike in vprašanja ustrezno kalibrirane glede na težavnost in pravilnost.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Vsaka naloga v raziskovalnem naboru je ocenjena z ocenjevalno lestvico, ki skupaj znaša 10 točk in jo lahko uporablja strokovnjak ali model ocenjevalec. Da bi povečali našo sposobnost ocenjevanja modelov, uporabljamo drug model za ocenjevanje odgovorov.

Zmogljivost modela

Ocenili smo več mejnih modelov: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini in OpenAI o3 na FrontierScience-Olimpijada in FrontierScience-Raziskave. Vsi modeli sklepanja so bili ocenjeni pri "visokem" naporu razmišljanja, z izjemo GPT‑5.2 pri "xhigh". V naših začetnih ocenah je GPT‑5.2 naš najbolje delujoči model za FrontierScience-Olimpijado (z oceno 77 %) in Raziskave (z oceno 25 %), pred drugimi frontier modeli. Gemini 3 Pro je primerljiv z GPT‑5.2 za sklop Olimpijada (dosega 76 %).

Opazili smo znaten napredek pri reševanju vprašanj na strokovni ravni, še posebej pri odprtih raziskovalnih nalogah v raziskovalnem slogu. Še vedno je prostor za rast: pri analizi prepisov za napake so frontier modeli včasih delali napake v razmišljanju, logiki in izračunih, niso razumeli nišnih znanstvenih konceptov in so delali konkretne netočnosti.

Primerjamo natančnosti več frontier modelov. GPT‑5.2 je naš najzmogljivejši model za sklop FrontierScience-Raziskave in Olimpijada.

Primerjamo natančnosti med prizadevanji za sklepanje za GPT‑5.2 in o3. Daljši čas razmišljanja vodi do izboljšane točnosti.

Omejitve in kaj sledi

Čeprav FrontierScience predstavlja korak naprej v težavnosti znanstvenih meril, še vedno obstaja veliko omejitev. FrontierScience je sestavljen iz vprašanj z omejeno problematiko, ki se osredotočajo na ocenjevanje končnega odgovora (Olimpijada) ali ocenjevanje razmišljanja za dokončanje raziskovalne naloge (Raziskava). Poleg tega je uporaba rubrik z več sestavnimi deli pri daljših nalogah manj objektivna kot preverjanje končnega odgovora.

FrontierScience ponuja posnetek z višjo ločljivostjo razmišljanja modelov pri težkih, strokovno napisanih vprašanjih, vendar ne celotne slike o tem, kako se znanost izvaja v praksi. Zlasti ne ocenjuje pomembnega dela znanstvenih raziskav: kako modeli ustvarjajo resnično nove hipoteze ali kako delujejo z več modalitetami, vključno z video podatki in resničnimi eksperimentalnimi sistemi v fizičnem svetu.

Ko gledamo naprej, pričakujemo da bo napredek v znanstvenem razmišljanju izhajal tako iz boljših sistemov za splošno rabo kot tudi iz osredotočenih prizadevanj za izboljšanje znanstvenih sposobnosti. FrontierScience je eno izmed mnogih orodij, in tako kot se modeli izboljšujejo, načrtujemo ponovitev tega merila, njegovo razširitev na nove domene ter povezovanje z več resničnimi vrednotenji, ki preučujejo, kaj ti sistemi znanstvenikom dejansko omogočajo. Merila, kot je FrontierScience, nam pomagajo razumeti slabosti današnjih sistemov umetne inteligence, da lahko svoje delo usmerimo v to, da modeli postanejo zanesljivi partnerji pri znanstvenih odkritjih.

Avtor

OpenAI

Berite naprej

Prikaži vse

GPT-Red: Odklepanje samoizboljšav za robustnost

Varnost15. jul. 2026

Ločevanje signala od šuma pri evalvacijah kodiranja

Raziskave8. jul. 2026

Predstavljamo GeneBench-Pro

Raziskave30. jun. 2026