16 декември 2025 г.

Проценка на способноста на вештачката интелигенција да извршува задачи за научно истражување

Го претставуваме FrontierScience, нова референтна вредност која врши проценка на способностите за научно расудување на вештачката интелигенција во физика, хемија и биологија на експертско ниво.

Прочитајте го документот

Делумна графика со нежна зелено-жолта заднина што прелева, голем исечен збор што започнува со „Fro...“ и слоевити блокови на текст од десната страна со критериуми за прегледување како што се „Фактичка“, „Оценлива“, „Објективна“ и „Тешка“.

Се вчитува...

Расудувањето е во основата на научната работа. Покрај тоа што повикуваат на факти, научниците генерираат хипотези, ги тестираат и усовршуваат и синтетизираат идеи од различни области. Бидејќи нашите модели стануваат поспособни, главното прашање е како можат длабоко да расудуваат за да придонесат за научни истражувања.

Во текот на изминатата година, нашите модели достигнаа значајни пресвртници, вклучувајќи освојување златен медал на Меѓународната математичка олимпијада и Меѓународната олимпијада по информатика. Паралелно, почнуваме да гледаме како нашите најспособни модели, како што е GPT‑5, значајно забрзуваат реални научни работни процеси. Истражувачите ги користат овие системи за задачи како што се пребарување на литература низ различни дисциплини и јазици и работење на сложени математички докази. Во многу случаи, моделот ја скратува работата што можеби траела со денови или седмици на часови. Овој напредок е документиран во нашиот труд Рани експерименти за забрзување на науката со GPT‑5⁠, објавен во ноември 2025 година, кој претставува рани докази дека GPT‑5 може мерливо да ги забрза научните работни процеси.

Претставување на FrontierScience

Бидејќи забрзувањето на напредокот на науката е една од најперспективните можности за вештачката интелигенција да биде од корист за човештвото, ги подобруваме нашите модели за тешки задачи во математиката и науката и работиме на алатките што ќе им помогнат на научниците да извлечат максимум од нив.

Кога GPQA⁠(се отвора во нов прозорец), научна референтна вредност од прашања кои се отпорни на Google напишани од експерти со докторат, беше објавена во ноември 2023 година, GPT‑4 постигна 39%, што е под експертскиот праг од 70%. Две години подоцна, GPT‑5.2 постигна 92%. Како што продолжуваат да се зголемуваат способностите за расудување и знаење на моделите, потешките референтни вредности ќе бидат значајни за мерење и предвидување на способноста на моделите да го забрзаат научното истражување. Поранешните научни референтни вредности кои главно се фокусираат на прашања со повеќечлен избор се веќе заситени или не се главно фокусирани на науката.

За да ја надминеме ова празнина, го претставуваме FrontierScience: нова референтна вредност изградена за мерење на научни способности на експертско ниво. FrontierScience е напишан и потврден од експерти од физика, хемија и биологија, и се состои од стотици прашања дизајнирани да бидат тешки, оригинални и значајни. FrontierScience вклучува две категории на прашања: Олимпијада, која ги оценува способностите за научно расудување во стилот на олимпијадите, и Истражување, која ги оценува способностите за реално научно истражување. Обезбедувањето поголем увид во научните способности на моделите ни помага да го следиме напредокот и да ја унапредиме науката забрзана од вештачка интелигенција.

Според нашите првични евалуации, GPT‑5.2 е нашиот модел со најдобри постигнувања на FrontierScience - Олимпијада (со резултат од 77%) и Истражување (со резултат од 25%), далеку пред останатите најсовремени модели. Видовме значителен напредок во решавањето на прашања од експертско ниво, но има простор за поголем напредок, особено на задачи за истражување од отворен тип. За научниците, ова покажува дека тековните модели веќе можат да поддржуваат делови од истражувањето кои вклучуваат структурирано расудување, но истовремено истакнува дека има уште значителна работа за подобрување на нивната способност да извршуваат размислување од отворен тип. Овие резултати се во согласност со начинот на кој научниците веќе ги користат денешните модели: за да ги забрзаат истражувачките процеси, но се потпираат на човечката проценка за оформување и валидација на проблемите, и сè повеќе за истражување на идеи и врски за кои инаку би требало многу повеќе време за да се откријат — вклучувајќи, во некои случаи, придонесување со нови сознанија што експертите потоа ги оценуваат и тестираат.

На крај, најважната референтна вредност за научните способности на вештачката интелигенција се новите откритија што се генерираат со нејзина помош; тие се она што на крајот на краиштата е важно за науката и општеството. FrontierScience е пред сето ова. Тој ни е ѕвезда-водилка за научно расудување на експертско ниво, овозможувајќи ни да ги тестираме моделите на стандардизиран сет на прашања, да видиме каде успеваат или не успеваат и да идентификуваме каде треба да ги подобриме. FrontierScience е ограничен и има недостатоци во клучни аспекти (на пример, се фокусира на ограничени проблеми напишани од експерти) и не го опфаќа сето она што научниците го прават во својата секојдневна работа. Но полето има потреба од потешки, оригинални и значајни научни референтни вредности, а FrontierScience претставува чекор напред во оваа насока.

Што мери FrontierScience и како го изградивме

Целосната евалуација на FrontierScience опфаќа над 700 текстуални прашања (со 160 во златниот сет) кои опфаќаат подобласти од физика, хемија и биологија. Референтната вредност се состои од деловите Олимпијада и Истражување. FrontierScience-Олимпијада содржи 100 прашања дизајнирани од меѓународни добитници на медали на Олимпијада за да се оцени научното расудување во ограничен формат на кратки одговори. Сетот Олимпијада е дизајниран да содржи теоретски прашања кои се тешки најмалку како проблемите на меѓународните олимписки натпревари. FrontierScience-Истражување се состои од 60 оригинални истражувачки подзадачи дизајнирани од доктори на науки (кандидати за докторат, професори или постдокторантски истражувачи) кои се оценуваат со помош на рубрика од 10 ставки. Сетот Истражување е дизајниран да содржи самостојни подзадачи од повеќе чекори, со ниво на тежина што би можел да го сретне доктор на науки за време на своето истражување.

Примери на прашања

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Секоја задача во FrontierScience е напишана и потврдена од експерт од доменот во физика, хемија или биологија. За сетот Олимпијада, сите експерти имаат освоено медал барем на една (а честопати и на повеќе) меѓународни олимписки натпревари. За сетот Истражување, сите експерти имаат соодветен докторат.

Прашањата за Олимпијада беа направени во соработка со 42 поранешни меѓународни добитници на медали или ментори на национални тимови во релевантните домени, со вкупно 109 олимписки медали. Истражувачките прашања беа направени во соработка со 45 квалификувани научници и експерти од доменот. Сите научници беа кандидати за докторат, постдокторантски истражувачи или професори. Нивните области на експертиза опфаќаа низа специјализирани и важни научни дисциплини, од квантна електродинамика до синтетичка органска хемија и еволутивна биологија.

Процесот на создавање задачи за двата сета вклучуваше и селекција со помош на внатрешни модели на OpenAI (на пр., отфрлање на задачи што моделите успешно ги решија, па очекуваме дека евалуацијата ќе биде донекаде пристрасна кон овие модели во однос на другите). Ги ставивме на располагање златниот сет од 100 прашања за Олимпијада и златниот сет од 60 прашања за Истражување со отворен код, а останатите прашања ги зачувавме за следење на контаминацијата.

Дијаграм кој покажува четири фази на развој на задача — Создавање, Прегледување, Решавање и Ревидирање — со кратки описи на секој чекор и ознаки за критериумите фактичка, оценлива, објективна и тешка.

Задачите поминуваат низ четири фази: Создавање, Прегледување, Решавање, Ревидирање. Независни експерти си ги прегледуваат меѓусебно задачите за да потврдат дека се во согласност со критериумите.

Како ја оценуваме изведбата на моделот

Сетот Олимпијада може да се оценува со краток одговор: со број, израз или нецелосно совпаѓање на низата, што помага во потврдување на точноста. Сепак, оваа потврда често се компромитира со експресивноста и отвореноста на проблемот. За сетот Истражување, воведуваме архитектура базирана на рубрики за оценување на задачи кои се од отворен тип. Секое прашање вклучува рубрика за оценување со повеќе независни елементи што може објективно да се оценат, 10 ставки вкупно. Рубриката за оценување не само што ја оценува точноста на конечниот одговор, туку и исправноста на посредните чекори на расудување, што овозможува разработена анализа на изведбата и неуспехот на моделот. Решението се смета за „точно“ ако добие најмалку 7/10 поени од рубриката.

Одговорите се оценуваат од оценувач базиран на модел (GPT‑5) според краткиот одговор или критериумите на рубриката. Иако идеално би користеле човек експерт за да го оценува секој одговор, овој пристап не е скалабилен, па затоа ја дизајниравме рубриката за да може да се проверува со модел за оценување. Развивме потврдена процедура која ќе помогне да се осигуриме дека рубриките и прашањата се добро калибрирани според тежината и точноста.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Секоја задача во сетот Истражување се оценува со помош на рубрика со вкупно 10 поени, која може да ја користи експерт или модел за оценување. За да ја зголемиме нашата способност за евалуација на модели, користиме друг модел за оценување на одговорите.

Перформанси на моделот

Оценивме неколку најсовремени модели: GPT‑5.2, Claude Opus 4.5 и Gemini 3 Pro, GPT‑4o, OpenAI o4-mini и OpenAI o3 на FrontierScience-Олимпијада и FrontierScience-Истражување. Сите модели за расудување беа оценети со „висок“ обид за расудување, освен GPT‑5.2 кој беше оценет со „особено висок“. Според нашите првични евалуации, GPT‑5.2 е нашиот модел со најдобри постигнувања на FrontierScience - Олимпијада (со резултат од 77%) и Истражување (со резултат од 25%), далеку пред останатите најсовремени модели. Gemini 3 Pro е споредлив со GPT‑5.2 за сетот прашања Олимпијада (освојувајќи 76%).

Забележавме значителен напредок во решавањето на прашања на експертско ниво, особено на задачи за истражување од отворен тип. Сè уште има простор за раст: од анализата на транскриптите за неуспеси, најсовремените модели понекогаш правеа грешки во расудувањето, логиката и пресметките, не ги разбираа специфичните научни концепти и правеа фактички грешки.

Ги споредуваме точностите со неколку најсовремени модели. GPT‑5.2 е нашиот модел со најдобри резултати на FrontierScience-Истражување и Олимпијада.

Споредуваме точности низ обидите за расудување на GPT‑5.2 и o3. Подолго време на размислување води до подобрена точност.

Ограничувања и што е следно

Иако FrontierScience претставува чекор напред во тешката задача за изработка на научни референтни вредности, сè уште постојат многу ограничувања. FrontierScience е составен од прашања со ограничена изјава за проблем, кој се фокусира на оценување на конечниот одговор (Олимпијада) или на оценување на расудувањето за да се заврши некоја истражувачка задача (Истражување). Дополнително, користењето на рубрики со повеќе компоненти за подолги задачи е помалку објективно од проверката на конечниот одговор.

FrontierScience нуди снимка со повисока резолуција на расудувањето на моделите за тешки прашања напишани од експерти, но не и целосна слика за тоа како науката се спроведува во пракса. Конкретно, не оценува значаен дел од научното истражување: како моделите генерираат сосема нови хипотези или како се поврзуваат со повеќе модалитети, вклучувајќи видео податоци и реални експериментални системи во физичкиот свет.

Во иднина, очекуваме остварување напредок во научното расудување како од подобри системи за општо расудување, така и од фокусирани обиди за унапредување на научните капацитети. FrontierScience е една од многуте алатки, и со подобрувањето на моделите, планираме да ја итерираме оваа референта вредност, да ја прошириме на нови домени и да ја поврземе со повеќе евалуации од реалноста кои ќе увидат што всушност им овозможуваат овие системи на научниците да прават. Референтните вредности како FrontierScience ни помагаат да ги разбереме слабостите на денешните системи со вештачка интелигенција за да го насочиме нашето работење кон тоа моделите да бидат доверливи партнери во научните откритија.

Автор

OpenAI

Продолжи да читаш

Види ги сите

GPT-Red: самоподобрување за поголема робустност

Безбедност15 јул. 2026 г.

Одвојување сигнал од шум во евалуации на кодирање

Истражување8 јул. 2026 г.

Претставување на GeneBench-Pro

Истражување30 јун. 2026 г.