16 декабря 2025 г.

Оцениваем возможности ИИ выполнять научно-исследовательские задачи

Мы представляем FrontierScience — новый бенчмарк, который оценивает способности ИИ к научному рассуждению экспертного уровня в физике, химии и биологии.

Читать статью

Частичная графика: мягкий зелено-желтый градиентный фон, крупное обрезанное слово, начинающееся на «Fro…», и справа несколько текстовых блоков с критериями проверки, например «Factual», «Gradable», «Objective» и «Difficult».

Загрузка…

Рассуждение — это основа научной работы. Помимо простого воспроизведения фактов, ученые выдвигают гипотезы, проверяют и уточняют их, а также синтезируют идеи на стыке областей. По мере того, как наши модели становятся более способными, возникает ключевой вопрос, смогут ли они рассуждать достаточно глубоко, чтобы продвигать научные исследования.

За последний год наши модели достигли важных рубежей, например, показали результаты уровня золотой медали на Международной математической олимпиаде и Международной олимпиаде по информатике. Параллельно мы начинаем видеть, как наши самые мощные модели, такие как GPT‑5, заметно ускоряют реальные научные рабочие процессы. Исследователи используют эти системы, например, для поиска литературы на стыке дисциплин и разных языков, а также для работы над сложными математическими доказательствами. Во многих случаях модель сокращает работу, на которую раньше уходили дни или недели, до нескольких часов. Этот прогресс задокументирован в нашей статье Ранние эксперименты по ускорению науки с GPT‑5⁠, выпущенной в ноябре 2025 года, которая представляет ранние доказательства того, что GPT‑5 может заметно ускорять научные рабочие процессы.

Представляем FrontierScience

Ускорение научного прогресса — один из самых многообещающих способов, с помощью которых ИИ может принести пользу человечеству. Поэтому мы улучшаем наши модели на сложных задачах по математике и естественным наукам и развиваем инструменты, которые помогут ученым получить от них максимум.

Когда в ноябре 2023 года был выпущен GPQA⁠(открывается в новом окне), «защищенный от Google» научный бенчмарк вопросов, написанных экспертами с ученой степенью PhD, GPT‑4 набрал 39 %, что ниже экспертного базового уровня, составляющего 70 %. Два года спустя GPT‑5.2 набрал 92 %. По мере того как возможности моделей, и в рассуждении, и в знаниях, продолжают расти, нам понадобятся более сложные бенчмарки, чтобы измерять и прогнозировать их способность ускорять научные исследования. Предыдущие научные бенчмарки, в основном состоящие из вопросов с выбором ответа, уже достигли насыщения или не ставят науку в центр внимания.

Чтобы закрыть этот разрыв, мы представляем FrontierScience — новый бенчмарк, созданный для оценки научных возможностей экспертного уровня. FrontierScience пишут и проверяют эксперты по физике, химии и биологии. Бенчмарк включает несколько сотен вопросов, задуманных как сложные, нестандартные и содержательные. FrontierScience включает два трека вопросов: «Олимпиада», который оценивает научное рассуждение в олимпиадном стиле, и «Исследования», который измеряет навыки, нужные для реальной научно-исследовательской работы. Более глубокое понимание научных возможностей моделей помогает отслеживать прогресс и продвигать науку, ускоряемую ИИ.

В первых оценках GPT‑5.2 показывает лучшие результаты на FrontierScience-Olympiad (77 %) и FrontierScience-Research (25 %), опережая другие передовые модели. Мы видим заметный прогресс в решении вопросов экспертного уровня, и при этом остается пространство для дальнейшего роста — особенно в исследовательских задачах открытого типа (open-ended). Для ученых это означает, что нынешние модели уже могут поддерживать части исследований, где требуется структурированное рассуждение, — и одновременно показывает, что еще многое предстоит сделать, чтобы улучшить их способность к открытому мышлению. Эти результаты согласуются с тем, как ученые уже используют современные модели: они ускоряют исследовательские процессы, но опираются на человеческое суждение при постановке задач и проверке результатов; всё чаще модели помогают исследовать идеи и связи, на поиск которых ушло бы намного больше времени, а иногда даже дают новые инсайты, которые затем оценивают и проверяют эксперты.

В конечном счете, самый важный показатель научных возможностей ИИ — это новые открытия, которые он помогает делать; именно они имеют реальную ценность для науки и общества. FrontierScience — более ранний этап на этом пути. Этот бенчмарк служит ориентиром для научного рассуждения экспертного уровня: мы можем проверять модели на стандартизированном наборе вопросов, видеть, где они справляются или ошибаются, и понимать, что нужно улучшить. При этом FrontierScience — узконаправленный бенчмарк с важными ограничениями (например, он фокусируется на задачах с четкими условиями, написанных экспертами) и не охватывает всего, чем ученые занимаются в повседневной работе. Но этой области нужны более сложные, нестандартные и содержательные научные бенчмарки, и FrontierScience — шаг вперед в этом направлении.

Что измеряет FrontierScience и как мы его создали

Полная оценка FrontierScience включает более 700 текстовых вопросов (160 из них входят в золотой набор, охватывающих поддисциплины физики, химии и биологии. Бенчмарк разделен на два набора: олимпиадный и исследовательский. FrontierScience-Olympiad включает 100 вопросов, созданных медалистами международных олимпиад, чтобы оценивать научное рассуждение в ограниченном формате короткого ответа. Олимпиадный набор задуман так, чтобы в него входили теоретические вопросы как минимум такой же сложности, как задачи на международных олимпиадах. FrontierScience-Research состоит из 60 нестандартных исследовательских подзадач, разработанных учеными со степенью PhD (аспирантами, профессорами или постдокторантами), которые оцениваются по критериям оценивания на 10 баллов. Исследовательский набор создан так, чтобы включать автономные многоэтапные подзадачи уровня сложности, с которым ученый со степенью PhD может столкнуться в ходе своих исследований.

Примеры вопросов

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Каждую задачу FrontierScience пишет и проверяет профильный эксперт по физике, химии или биологии. В олимпиадном наборе все эксперты получили медаль хотя бы на одной (а часто и на нескольких) международных олимпиадах. В исследовательском наборе у всех экспертов есть релевантная степень PhD.

Олимпиадные вопросы были подготовлены вместе с 42 бывшими международными медалистами и тренерами национальных сборных в соответствующих дисциплинах; суммарно у них 109 олимпиадных медалей. Исследовательские вопросы были подготовлены вместе с 45 квалифицированными учеными и экспертами по соответствующим областям. Все ученые были либо аспирантами, либо пост докторантами, либо профессорами. Их экспертиза охватывала широкий спектр специализированных и важных дисциплин: от квантовой электродинамики и синтетической органической химии до эволюционной биологии.

При создании задач для обоих наборов мы учитывали результаты внутренних моделей OpenAI (например, исключали задачи, с которыми модели успешно справлялись). Поэтому мы ожидаем, что оценка будет в некоторой степени смещена против этих моделей по сравнению с другими. Мы публикуем в открытом доступе золотой набор «Олимпиады» из 100 вопросов и золотой набор «Исследований» из 60 вопросов, а остальные вопросы оставляем закрытыми, чтобы отслеживать загрязнение данных (contamination).

Блок-схема с четырьмя этапами конвейера разработки задач — Creation, Review, Resolution и Revision — с короткими описаниями каждого шага и отметками, что соблюдены критерии «factual», «gradable», «objective» и «difficult».

Задачи проходят четыре этапа: Создание (Creation), Проверка (Review), Устранение замечаний (Resolution), Доработка (Revision). Независимые эксперты проверяют задачи друг друга, чтобы убедиться, что они соответствуют критериям.

Как мы оцениваем эффективность работы модели

Олимпиадный набор можно оценивать по короткому ответу: числу, выражению или нечеткому сопоставлению строк, что упрощает проверку корректности. Однако, такая проверяемость часто достигается ценой выразительности и открытости постановки задачи. Для исследовательского набора мы вводим архитектуру выставления баллов по критериям оценивания — для проверки задач открытого типа. Каждый вопрос включает критерии оценивания с несколькими независимыми и объективно проверяемыми пунктами; всего — 10 баллов. Критерии оценивания проверяют не только точность финального ответа, но и корректность промежуточных шагов рассуждения, что позволяет тонко анализировать результаты модели и причины сбоев. Решение считается «верным», если оно набирает не менее 7 из 10 баллов по критериям оценивания.

Ответы оценивает модель-оценщик (GPT‑5) по краткому ответу или по критериям оценивания. В идеале каждый ответ должен оценивать эксперт-человек, но этот подход невозможно масштабировать, поэтому мы составили критерии оценивания так, чтобы их можно было проверять моделью-оценщиком. Мы разработали процесс проверки (verification pipeline), чтобы убедиться, что критерии оценивания и вопросы хорошо откалиброваны по уровню сложности и корректности.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Каждое задание исследовательского набора оценивается по критериям оценивания на 10 баллов — их может применять как эксперт, так и модель-оценщик. Чтобы масштабировать наши возможности оценки моделей, мы используем другую модель для выставления баллов.

Производительность модели

Мы оценили несколько передовых моделей: GPT‑5.2, Claude Opus 4.5 и Gemini 3 Pro, а также GPT‑4o, OpenAI o4-mini и OpenAI o3 — на FrontierScience-Olympiad и FrontierScience-Research. Все модели с функцией рассуждений оценивали при усилии на рассуждение (reasoning effort) «high», за исключением GPT‑5.2 — «xhigh». В первых оценках GPT‑5.2 показывает лучшие результаты на FrontierScience-Olympiad (77 %) и FrontierScience-Research (25 %), опережая другие передовые модели. Gemini 3 Pro показала сопоставимый результат с GPT‑5.2 на олимпиадном наборе (76 %).

Мы видим заметный прогресс в решении вопросов экспертного уровня — особенно в исследовательских задачах открытого типа. При этом есть куда расти: анализ транскриптов на предмет сбоев показывает, что передовые модели иногда допускали ошибки в рассуждениях, логике и вычислениях, не понимали узкие научные концепции и ошибались в фактах.

Мы сравниваем точность нескольких передовых моделей. GPT‑5.2 показывает лучшие результаты на FrontierScience-Research и на олимпиадном наборе.

Мы сравниваем точность GPT‑5.2 и o3 при разном усилии на рассуждение. Большее время на размышление повышает точность.

Ограничения и следующие шаги

Хотя FrontierScience и представляет собой шаг вперед по сложности научных бенчмарков, ограничений по‑прежнему много. FrontierScience состоит из задач с ограниченной формулировкой: в «Олимпиаде» оценивается итоговый ответ, а в «Исследованиях» — рассуждение, которое приводит к выполнению исследовательской задачи. Кроме того, использование многокомпонентных критериев оценивания для более длинных заданий менее объективно, чем проверка конечного ответа.

FrontierScience дает более детальную картину рассуждений моделей на сложных, написанных экспертами вопросах, но не дает полного представления о том, как наука делается на практике. В частности, он не оценивает важную часть научных исследований: как модели выдвигают действительно новые гипотезы или работают с несколькими модальностями, включая видеоданные и реальные экспериментальные системы в физическом мире.

Смотря вперед, мы ожидаем, что прогресс в научном рассуждении будет идти по двум направлениям: улучшение универсальных систем рассуждений и целенаправленная работа над развитием научных возможностей. FrontierScience — это один из многих инструментов. По мере улучшения моделей мы будем развивать этот бенчмарк, расширять его на новые области и дополнять более прикладными оценками, которые показывают, что именно эти системы позволяют делать ученым. Такие бенчмарки, как FrontierScience, помогают понять слабые места нынешних систем ИИ и сфокусировать работу на том, чтобы модели стали надежными партнерами в научных открытиях.

Автор

OpenAI

Читать далее

Просмотреть все

GPT-Red: самоулучшение ради устойчивости

Безопасность15 июл. 2026 г.

Отделяя сигнал от шума в оценках кода

Исследования8 июл. 2026 г.

Представляем GeneBench-Pro

Исследования30 июн. 2026 г.