Hodnotenie schopnosti umelej inteligencie vykonávať vedecký výskum
Predstavujeme FrontierScience, nový benchmark, ktorý hodnotí schopnosti umelej inteligencie v oblasti vedeckého myslenia na expertnej úrovni v oblasti fyziky, chémie a biológie.

Myslenie je základom vedeckej práce. Okrem zapamätania si faktov vedci generujú hypotézy, testujú a zdokonaľujú ich a syntetizujú myšlienky naprieč odbormi. Keďže naše modely sa stávajú schopnejšími, ústrednou otázkou je, ako môžu hlboko myslieť a prispieť k vedeckému výskumu.
Za posledný rok dosiahli naše modely významné míľniky vrátane zisku zlatej medaily na Medzinárodnej matematickej olympiáde a Medzinárodnej olympiáde v informatike. Súbežne s tým začíname vidieť, že naše najschopnejšie modely, ako napríklad GPT‑5, zmysluplne urýchľujú skutočné vedecké pracovné postupy. Výskumníci používajú tieto systémy na úlohy, ako je vyhľadávanie literatúry naprieč disciplínami a jazykmi a práca so zložitými matematickými dôkazmi. V mnohých prípadoch model skracuje prácu, ktorá by mohla trvať dni alebo týždne, na hodiny. Tento pokrok je zdokumentovaný v našom článku Rané experimenty s akceleráciou vedy s GPT‑5, ktorý bol vydaný v novembri 2025 a ktorý predstavuje skoré dôkazy o tom, že GPT‑5 dokáže merateľne urýchliť vedecké pracovné postupy.
Keďže zrýchlenie vedeckého pokroku je jednou z najsľubnejších príležitostí pre umelú inteligenciu v prospech ľudstva, vylepšujeme naše modely náročných matematických a vedeckých úloh a pracujeme na nástrojoch, ktoré pomôžu vedcom z nich vyťažiť maximum.
Keď bol v novembri 2023 zverejnený GPQA(otvorí sa v novom okne), vedecký benchmark s otázkami „Google-Proof“ napísanými expertmi s doktorandským titulom, GPT‑4 dosiahol 39 %, čo je pod úrovňou 70 %, ktorú by mal mať expert. O dva roky neskôr dosiahol GPT‑5.2 skóre 92 %. Keďže sa schopnosti modelov v oblasti myslenia a znalostí naďalej rozširujú, na meranie a predpovedanie schopnosti modelov urýchliť vedecký výskum budú dôležité zložitejšie benchmarky. Predchádzajúce vedecké benchmarky sa vo veľkej miere zameriavajú na otázky s výberom odpovede, sú presýtené alebo nie sú primárne zamerané na vedu.
Aby sme túto priepasť preklenuli, predstavujeme FrontierScience: nový benchmark vytvorený na meranie vedeckých schopností na expertnej úrovni. FrontierScience je napísaný a overený odborníkmi z oblasti fyziky, chémie a biológie a pozostáva zo stoviek otázok navrhnutých tak, aby boli náročné, originálne a zmysluplné. FrontierScience obsahuje dva okruhy otázok: Olympiáda, ktorá meria schopnosti vedeckého myslenia v štýle olympiády, a Výskum, ktorý meria schopnosti vedeckého výskumu v reálnom svete. Poskytovanie väčšieho prehľadu o vedeckých schopnostiach modelov nám pomáha sledovať pokrok a napredovať vo vede urýchlenej umelou inteligenciou.
V našich počiatočných hodnoteniach je GPT‑5.2 naším najvýkonnejším modelom na FrontierScience-Olympiáda (s hodnotením 77 %) a vo Výskume (s hodnotením 25 %), pred ostatnými pokročilými modelmi. Zaznamenali sme výrazný pokrok v riešení otázok na expertnej úrovni a zároveň sme ponechali priestor pre ďalší pokrok, najmä pri úlohách výskumného typu s otvoreným koncom. Pre vedcov to naznačuje, že súčasné modely už dokážu podporovať časti výskumu, ktoré zahŕňajú štruktúrované myslenie, a zároveň zdôrazňuje, že je potrebné vynaložiť značné úsilie na zlepšenie ich schopnosti vykonávať myslenie s otvoreným koncom. Tieto výsledky sú v súlade s tým, ako vedci už používajú dnešné modely: na zrýchlenie výskumných pracovných postupov a zároveň na spoliehanie sa na ľudský úsudok pri formulovaní a overovaní problémov a čoraz viac na skúmanie myšlienok a súvislostí, ktorých odhalenie by inak trvalo oveľa dlhšie – v niektorých prípadoch vrátane prispievania novými poznatkami, ktoré potom odborníci vyhodnotia a otestujú.
Nakoniec je najdôležitejším meradlom vedeckých schopností umelej inteligencie to, aké nové objavy pomáha generovať; práve tie sú tým, čo má v konečnom dôsledku význam pre vedu a spoločnosť. FrontierScience sa nachádza vyššie v hierarchii. Dáva nám orientačný bod pre vedecké myslenie na expertnej úrovni, umožňuje nám testovať modely na štandardizovanom súbore otázok, zistiť, kde sú úspešné alebo kde zlyhávajú, a identifikovať, kde ich potrebujeme vylepšiť. FrontierScience je úzky výskumný program s kľúčovými obmedzeniami (napríklad zameranie sa na obmedzené problémy napísané odborníkmi) a nezachytáva všetko, čo vedci robia vo svojej každodennej práci. Táto oblasť však potrebuje náročnejšie, originálnejšie a zmysluplnejšie vedecké benchmarky a FrontierScience predstavuje krok vpred týmto smerom.
Kompletné hodnotenie FrontierScience zahŕňa viac ako 700 textových otázok (z toho 160 v zlatej sade), ktoré pokrývajú podoblasti fyziky, chémie a biológie. Benchmark sa skladá z časti Olympiáda a časti Výskum. FrontierScience-Olympiáda obsahuje 100 otázok navrhnutých medzinárodnými olympijskými medailistami na hodnotenie vedeckého myslenia v obmedzenom, krátkom formáte odpovedí. Súbor Olympiáda bol navrhnutý tak, aby obsahoval teoretické otázky prinajmenšom rovnako ťažké ako úlohy na medzinárodných olympijských súťažiach. FrontierScience-Výskum pozostáva zo 60 originálnych výskumných čiastkových úloh navrhnutých vedcami s doktorandským titulom (doktorandmi, profesormi alebo postdoktorandskými výskumníkmi), ktoré sú hodnotené pomocou 10-bodovej stupnice. Súbor Výskum bol vytvorený tak, aby obsahoval samostatné, viackrokové podúlohy na úrovni obtiažnosti, s ktorou by sa mohol doktorand stretnúť počas svojho výskumu.
Každú úlohu vo FrontierScience napíše a overí odborník v danej oblasti, a to fyzika, chémia alebo biológia. Pre súbor Olympiáda boli všetci experti ocenení medailou aspoň v jednej (a často vo viacerých) medzinárodných olympiádach. Pre súbor Výskum majú všetci odborníci relevantný titul PhD.
Olympijské otázky boli vytvorené v spolupráci so 42 bývalými medzinárodnými medailistami alebo trénermi národných tímov v príslušných oblastiach, pričom celkovo získali 109 olympijských medailí. Výskumné otázky boli vytvorené v spolupráci so 45 kvalifikovanými vedcami a odborníkmi v danej oblasti. Všetci vedci boli buď doktorandi, postdoktorandskí výskumníci, alebo profesori. Ich oblasti odbornosti zahŕňali širokú škálu špecializovaných a dôležitých vedeckých disciplín, od kvantovej elektrodynamiky cez syntetickú organickú chémiu až po evolučnú biológiu.
Proces vytvárania úloh pre obe sady zahŕňal určitý výber oproti interným modelom OpenAI (napr. vyraďovanie úloh, ktoré modely úspešne zvládli, takže očakávame, že hodnotenie bude do istej miery skreslené voči týmto modelom v porovnaní s ostatnými). Zlatú sadu 100 otázok z Olympiády a zlatú sadu 60 otázok z Výskumu sme sprístupnili otvoreným zdrojovým kódom, pričom ostatné otázky sme si nechali na sledovanie kontaminácie.

Úlohy prechádzajú štyrmi fázami: Vytvorenie, Kontrola, Riešenie, Revízia. Nezávislí experti si navzájom kontrolujú úlohy, aby overili, či spĺňajú kritériá.
Súbor Olympiáda je hodnotiteľný krátkou odpoveďou: buď číslom, výrazom alebo nepresným porovnaním reťazcov, čo pomáha overiť správnosť. Toto overenie však často negatívne ovplyvňuje expresivitu a otvorenosť problému. Pre súbor Výskum zavádzame architektúru založenú na kritériách pre hodnotenie otvorenejších úloh. Každá otázka obsahuje hodnotiacu rubriku s viacerými nezávislými a objektívne hodnotiteľnými položkami, pričom spolu je 10 bodov. Hodnotiaca rubrika posudzuje nielen presnosť konečnej odpovede, ale aj správnosť medzistupňov myslenia, čo umožňuje podrobnú analýzu výkonu modelu a analýzu zlyhaní. Riešenie sa považuje za „správne“, ak získa aspoň 7/10 bodov podľa rubriky.
Odpovede sú hodnotené modelovým hodnotiteľom (GPT‑5) na základe buď krátkej odpovede, alebo kritérií rubriky. Hoci by sme ideálne na hodnotenie každej odpovede použili odborníka, tento prístup nie je škálovateľný, preto sme rubriku navrhli tak, aby sa dala skontrolovať pomocou modelového hodnotiteľa. Vyvinuli sme overovací postup, ktorý pomáha zabezpečiť, aby boli rubriky a otázky správne kalibrované z hľadiska obtiažnosti a správnosti.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Zlyhanie 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Úspešne absolvované 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Úspešne absolvované 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Úspešne absolvované 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Zlyhanie 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Každá úloha vo výskumnom súbore je hodnotená pomocou stupnice s celkovým počtom 10 bodov, ktorú môže použiť expert alebo modelový hodnotiteľ. Aby sme rozšírili našu schopnosť hodnotiť modely, používame na hodnotenie odpovedí iný model.
Hodnotili sme niekoľko pokročilých modelov: GPT‑5.2, Claude Opus 4.5 a Gemini 3 Pro, GPT‑4o, OpenAI o4-mini a OpenAI o3 na FrontierScience-Olympiáda a FrontierScience-Výskum. Všetky modely uvažovania boli hodnotené pri „vysokom“ úsilí o myslenie s výnimkou GPT‑5.2 pri „xvysokom“. V našich počiatočných hodnoteniach je GPT‑5.2 naším najvýkonnejším modelom na FrontierScience-Olympiáda (s hodnotením 77 %) a vo Výskume (s hodnotením 25 %), pred ostatnými pokročilými modelmi. Gemini 3 Pro je porovnateľný s GPT‑5.2 na súbore Olympiáda (dosahuje skóre 76 %).
Zaznamenali sme výrazný pokrok v riešení otázok na expertnej úrovni, najmä v otvorených výskumných úlohách. Stále je priestor na rast: analýzou prepisov a zistením chýb sa u pokročilých modelov niekedy vyskytli chyby v myslení, logike a výpočtoch, nerozumeli špecifickým vedeckým konceptom a robili faktické nepresnosti.
Porovnávame presnosti naprieč niekoľkými pokročilými modelmi. GPT‑5.2 je náš najvýkonnejší model v súbore FrontierScience-Výskum a Olympiáda.
Porovnávame presnosti v rámci úsilia v oblasti myslenia pre GPT‑5.2 a o3. Dlhší čas na premýšľanie vedie k zlepšenej správnosti.
Aj keď FrontierScience predstavuje krok vpred v náročnosti vedeckých benchmarkov, stále existuje mnoho obmedzení. FrontierScience sa skladá z otázok s vyhlásením o obmedzenom probléme, ktoré sa zameriava na vyhodnotenie konečnej odpovede (olympiáda) alebo na vyhodnotenie argumentácie na splnenie výskumnej úlohy (výskum). Okrem toho je používanie rubrík s viacerými zložkami pri dlhších úlohách menej objektívne ako kontrola konečnej odpovede.
FrontierScience ponúka snímku modelu s vyšším rozlíšením v súvislosti s náročnými otázkami napísanými odborníkmi, ale neposkytuje úplný obraz o tom, ako sa veda vykonáva v praxi. Predovšetkým nehodnotí významnú časť vedeckého výskumu: ako modely generujú skutočne nové hypotézy alebo interagujú s viacerými modalitami vrátane video údajov a reálnych experimentálnych systémov vo fyzickom svete.
S výhľadom do budúcnosti očakávame, že pokrok vo vedeckom myslení bude pochádzať z lepších systémov na všeobecné účely a zameraného úsilia na zlepšovanie vedeckých schopností. FrontierScience je jedným z mnohých nástrojov a s tým, ako sa modely zlepšujú, plánujeme tento benchmark iterovať, rozšíriť ho do nových oblastí a spárovať ho s ďalšími hodnoteniami z reálneho sveta, ktoré sa zamerajú na to, čo tieto systémy v skutočnosti umožňujú vedcom robiť. Benchmarky ako FrontierScience nám pomáhajú pochopiť slabé stránky dnešných systémov umelej inteligencie, aby sme sa mohli sústrediť na to, aby modely boli spoľahlivými partnermi vo vedeckom objavovaní.


