Hodnocení schopnosti AI vykonávat vědecké výzkumné úkoly
Představujeme FrontierScience, nový benchmark, který hodnotí schopnosti umělé inteligence pro odborné vědecké odůvodňování v oblastech fyziky, chemie a biologie.

Odůvodňování je středobodem vědecké práce. Kromě pouhého vybavování si faktů vědci vytvářejí hypotézy, testují a zdokonalují je a syntetizují myšlenky napříč obory. Jak se zvyšují schopnosti našich modelů, ústřední otázkou je, jak mohou provádění odůvodňování tak, aby přispívaly k vědeckému výzkumu.
Během posledního roku naše modely dosáhly významných milníků, včetně dosažení výkonu na úrovni zlaté medaile na Mezinárodní matematické olympiádě a Mezinárodní olympiádě v informatice. Současně začínáme pozorovat, jak naše nejschopnější modely, jako je GPT‑5, významně urychlují reálné vědecké pracovní postupy. Výzkumníci používají tyto systémy pro úkoly, jako je rešerše literatury napříč obory a jazyky a řešení složitých matematických důkazů. V mnoha případech model zkracuje práci, která by mohla trvat dny nebo týdny, na hodiny. Tento pokrok je zdokumentován v našem článku Rané experimenty s urychlením vědeckého výzkumu pomocí GPT‑5, vydaném v listopadu 2025, který představuje rané důkazy, že GPT‑5 může měřitelně urychlit vědecké pracovní postupy.
Protože urychlení vědeckého pokroku je jednou z nejslibnějších příležitostí, jak může umělá inteligence prospět lidstvu, své modely zlepšujeme na náročné matematické a vědecké úkoly a pracujeme na nástrojích, které vědcům pomohou z nich vytěžit maximum.
Když byl v listopadu 2023 vydán GPQA(otevře se v novém okně), vědecký benchmark otázek vytvořených odborníky s titulem PhD „odolný vůči Googlu“, GPT‑4 dosáhl skóre 39 %, což je pod základní úrovní odborníků, která je 70 %. O dva roky později GPT‑5.2 dosáhl skóre 92 %. Jak se budou schopnosti modelů v oblasti odůvodňování a znalostí nadále zvyšovat, bude důležité mít náročnější měřítka pro měření a předpovídání schopnosti modelů urychlovat vědecký výzkum. Předchozí vědecká měřítka se většinou zaměřují na otázky s výběrem z více možností, jsou nasycená nebo nejsou primárně zaměřená na vědu.
Abychom překlenuli tuto mezeru, představujeme FrontierScience: nový standard vytvořený k měření vědeckých schopností na expertní úrovni. FrontierScience je psán a ověřen odborníky v oblasti fyziky, chemie a biologie a obsahuje stovky otázek navržených tak, aby byly náročné, originální a smysluplné. FrontierScience zahrnuje dvě skupiny otázek: Olympiáda, která měří schopnosti vědeckého uvažování ve stylu olympiády, a Výzkum, který měří schopnosti vědeckého výzkumu v reálném světě. Poskytnutí většího přehledu o vědeckých schopnostech modelů nám pomáhá sledovat pokrok a rozvíjet vědu urychlovanou umělou inteligencí.
V našich počátečních hodnoceních je GPT‑5.2 naším nejvýkonnějším modelem na Olympiádě FrontierScience (s hodnocením 77 %) a Výzkumu (s hodnocením 25 %), před ostatními průlomovými modely. Zaznamenali jsme značný pokrok v řešení otázek na úrovni expertů, přičemž zůstává prostor pro další pokrok, zejména u otevřených úkolů ve výzkumném stylu. Ukazuje to, že současné modely již mohou vědcům poskytovat podporu v částech výzkumu, které zahrnují strukturované uvažování, a zároveň je vidět, že je třeba ještě hodně práce na zlepšení přemýšlet v otevřených otázkách. Tyto výsledky odpovídají tomu, jak vědci již dnes využívají současné modely: k urychlení výzkumných procesů při současném spoléhání na lidský úsudek pro formulaci a ověřování problémů a stále více k prozkoumávání nápadů a souvislostí, které by jinak trvalo mnohem déle odhalit – včetně přispívání novými poznatky, které pak odborníci hodnotí a testují.
Nakonec jsou nejdůležitějším měřítkem vědeckých schopností umělé inteligence nové objevy, které pomáhá vytvořit, ty jsou tím, co má nakonec význam pro vědu a společnost. FrontierScience stojí nad tím. Představuje polárku pro odborné vědecké odůvodňování, umožňuje nám testovat modely na standardizované sadě otázek, sledovat, kde uspějí nebo selžou, a identifikovat, kde je potřebujeme zlepšovat. FrontierScience je úzké a má v klíčových ohledech omezení (například se zaměřuje na omezené, odborně psané problémy) a nezachycuje vše, co vědci dělají ve své každodenní práci. Ale obor potřebuje obtížnější, originální a smysluplné vědecké benchmarky, a FrontierScience představuje krok vpřed v tomto směru.
Kompletní hodnocení FrontierScience zahrnuje více než 700 textových otázek (z toho 160 v zlaté sadě), které pokrývají podobory z fyziky, chemie a biologie. Srovnávací test se skládá z olympiády a části zaměřené na výzkum. Olympiáda FrontierScience obsahuje 100 otázek navržených medailisty mezinárodních olympiád, které mají za cíl posoudit vědecké uvažování v omezeném formátu krátkých odpovědí. Sada Olympiády byla navržena tak, aby obsahovala teoretické otázky alespoň tak obtížné jako problémy na mezinárodních olympiádách. Výzkum FrontierScience se skládá z 60 původních výzkumných úkolů navržených vědci s titulem PhD (doktorandi, profesoři nebo postdoktorandi), které jsou hodnoceny pomocí 10bodové stupnice. Výzkumná sada byla vytvořena tak, aby obsahovala samostatné, vícestupňové dílčí úkoly na úrovni obtížnosti, s jakou se může setkat vědec s titulem PhD během svého výzkumu.
Každý úkol ve FrontierScience je napsán a ověřen odborníkem v oblasti fyziky, chemie nebo biologie. Pro sadu Olympiády byli všichni odborníci oceněni medailí alespoň v jedné (a často v několika) mezinárodních olympiádách. Pro sadu Výzkumu mají všichni odborníci relevantní titul PhD.
Otázky pro Olympiádu byly vytvořeny ve spolupráci s 42 bývalými mezinárodními medailisty nebo trenéry národních týmů v příslušných oblastech, celkem 109 medailí z olympiád. Výzkumné otázky byly vytvořeny ve spolupráci s 45 kvalifikovanými vědci a odborníky na danou věc. Všichni vědci byli buď doktorandi, postdoktorandi, nebo profesoři. Jejich oblasti odbornosti zahrnovaly řadu specializovaných a důležitých vědeckých disciplín, od kvantové elektrodynamiky přes syntetickou organickou chemii až po evoluční biologii.
Proces vytváření úkolů pro obě sady zahrnoval určitý výběr proti interním modelům OpenAI (např. vyřazení úkolů, které modely úspěšně zvládly, takže očekáváme, že hodnocení bude do určité míry zaujaté proti těmto modelům ve srovnání s ostatními). Zlatou sadu Olympiády se 100 otázkami a zlatou sadu Výzkumu se 60 otázkami zpřístupňujeme jako open-source, přičemž ostatní otázky nezveřejňujeme, abychom mohli sledovat kontaminaci.

Úkoly procházejí čtyřmi fázemi: tvorba, kontrola, řešení, revize. Nezávislí odborníci si navzájem kontrolují úkoly, aby ověřili, že jsou v souladu s kritérii.
Sada Olympiády se dá hodnotit pomocí krátké odpovědi: buď číslem, výrazem, nebo přibližnou shodou řetězců, což pomáhá ověřit správnost. Toto ověření však často znamená kompromis mezi jednoznačností a otevřeností problému. Pro sadu Výzkumu představujeme architekturu založenou na tabulkách pro hodnocení otevřených úkolů. Každá otázka obsahuje hodnoticí tabulku s několika nezávislými a objektivně hodnotitelnými položkami, celkem za 10 bodů. Hodnoticí tabulka posuzuje nejen přesnost konečné odpovědi, ale také správnost mezikroků uvažování, což umožňuje podrobnou analýzu výkonu a selhání modelu. Řešení je považováno za „správné“, pokud získá alespoň 7/10 bodů podle tabulky.
Odpovědi jsou hodnoceny hodnotitelem založeným na modelu (GPT‑5) podle kritérií buď krátké odpovědi, nebo tabulky. Ačkoli bychom k hodnocení každé odpovědi ideálně využili odborníka, tento přístup není škálovatelný, takže jsme navrhli tabulku, kterou lze kontrolovat pomocí hodnotitele v podobě modelu. Vyvinuli jsme proces ověření, který pomáhá zajistit, že hodnoticí tabulky a otázky jsou dobře kalibrovány z hlediska obtížnosti a správnosti.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Nezdařilo se 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Úspěšné 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Úspěšné 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Úspěšné 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Nezdařilo se 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Každý úkol v sadě výzkumu je hodnocen pomocí hodnoticí tabulky s celkovým počtem 10 bodů, kterou může použít odborník nebo hodnotící model. Abychom rozšířili schopnost hodnotit modely, používáme další model k hodnocení odpovědí.
Na Olympiádě FrontierScience a Výzkumu FrontierScience jsme hodnotili jsme několik špičkových modelů: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini a OpenAI o3. Všechny modely odůvodňování byly hodnoceny při „vysoké“ míře odůvodňování s výjimkou GPT‑5.2, který byl hodnocen při „xhigh“ míře. V našich počátečních hodnoceních je GPT‑5.2 naším nejvýkonnějším modelem na Olympiádě FrontierScience (s hodnocením 77 %) a Výzkumu (s hodnocením 25 %), před ostatními průlomovými modely. Gemini 3 Pro je srovnatelný s GPT‑5.2 na sadě Olympiády (s hodnocením 76 %).
Zaznamenali jsme značný pokrok v řešení otázek na úrovni odborníka, zejména u úkolů ve stylu otevřeného výzkumu. Stále je prostor pro růst: z analýzy přepisů na chyby vyplývá, že špičkové modely někdy dělaly chyby v odůvodňování, logice a výpočtech, nerozuměly specifickým vědeckým konceptům a vytvářely faktické nepřesnosti.
Porovnáváme přesnosti napříč několika špičkovými modely. GPT‑5.2 je náš nejvýkonnější model na sadě Výzkum FrontierScience a Olympiády.
Porovnáváme přesnost v úsilí o odůvodňování pro GPT‑5.2 a o3. Delší doba přemýšlení vede ke zvýšení přesnosti.
I když FrontierScience představuje krok vpřed v obtížnosti vědeckých benchmarků, stále existuje mnoho omezení. FrontierScience se skládá z otázek s omezeným zadáním problému, které se zaměřují na hodnocení konečné odpovědi (Olympiáda) nebo hodnocení uvažování pro dokončení výzkumného úkolu (Výzkum). Kromě toho je použití hodnoticích tabulek s více složkami u delších úkolů méně objektivní než kontrola konečné odpovědi.
FrontierScience nabízí pohled s vyšším rozlišením, který ukazuje, jak modely uvažují nad obtížnými, odborně psanými otázkami, ale neposkytuje úplný obraz o tom, jak se věda v praxi provádí. Zejména nehodnotí významnou část vědeckého výzkumu: jak modely vytvářejí skutečně nové hypotézy nebo jak interagují s více modalitami, včetně video dat a reálných experimentálních systémů ve fyzickém světě.
Při pohledu do budoucnosti očekáváme, že pokrok ve vědeckém odůvodňování přijde jak ze zlepšení systémů pro obecné účely uvažování, tak ze soustředěného úsilí na zlepšování vědeckých schopností. FrontierScience je jedním z mnoha nástrojů a jak se modely zlepšují, plánujeme iterovat na tomto benchmarku, rozšířit ho do nových domén a spojit ho s více hodnoceními v reálném světě, která zkoumají, co tyto systémy skutečně povolují vědcům dělat. Benchmarky jako FrontierScience nám pomáhají pochopit slabiny dnešních systémů umělé inteligence, abychom mohli zaměřit naši práci na to, aby se modely staly spolehlivými partnery ve vědeckém výzkumu.


