16 грудня 2025 р.

Оцінювання здатності ШІ виконувати науково-дослідницькі завдання

Ми представляємо FrontierScience, новий еталон, що оцінює можливості штучного інтелекту для експертного наукового аргументування в галузях фізики, хімії та біології.

Читати статтю

Частковий графічний елемент з м'яким градієнтним фоном зеленого та жовтого кольорів, велике обрізане слово, що починається з «Fro…», та накладені блоки тексту праворуч, які перераховують критерії оцінки, такі як «Фактичний», «Оцінюваний», «Об'єктивний» та «Складний».

Завантаження…

В основі наукової роботи лежить міркування. Окрім запам'ятовування фактів, науковці створюють гіпотези, перевіряють і вдосконалюють їх, а також структурують ідеї з різних галузей. Наші моделі стають усе більш здібними, і ключовим є питання про те, наскільки вони здатні до глибоких міркувань, щоб сприяти науковим дослідженням.

Протягом минулого року наші моделі досягли значних успіхів, включаючи здобуття золотих медалей на Міжнародній математичній олімпіаді та Міжнародній олімпіаді з інформатики. Паралельно ми починаємо бачити, як наші найздібніші моделі, такі як GPT‑5, значно прискорюють реальні наукові робочі процеси. Дослідники використовують ці системи для таких завдань, як пошук літератури в різних дисциплінах і мовах та робота над складними математичними доказами. У багатьох випадках модель скорочує роботу, яка могла б зайняти дні або тижні, до кількох годин. Цей прогрес задокументовано в нашій статті Ранні експерименти з прискорення науки за допомогою GPT‑5⁠, опублікованій у листопаді 2025 року, яка представляє перші докази того, що GPT‑5 може відчутно прискорити наукові робочі процеси.

Знайомство з FrontierScience

Оскільки прискорення наукового прогресу є однією з найперспективніших можливостей для ШІ на благо людства, ми вдосконалюємо наші моделі для складних математичних і наукових завдань та працюємо над інструментами, які допоможуть науковцям максимально їх використовувати.

Коли в листопаді 2023 року було представлено GPQA⁠(відкривається у новому вікні) — науковий бенчмарк «Google-proof» із запитань, підготовлених експертами з науковим ступенем PhD, — GPT‑4 набрав 39%, що нижче за експертний еталон у 70%. Через два роки GPT‑5.2 отримав 92%. У міру того як здатності моделей до аргументації та роботи зі знаннями продовжують масштабуватися, важливу роль відіграватимуть складніші бенчмарки для вимірювання та прогнозування здатності моделей прискорювати наукові дослідження. Попередні наукові бенчмарки здебільшого зосереджені на запитаннях з вибором варіантів, є перенасиченими або не мають чіткого фокусу на науці.

Щоб подолати цю прогалину, ми представляємо FrontierScience: новий бенчмарк, створений для оцінки наукових можливостей експертного рівня. FrontierScience створений та перевірений експертами з фізики, хімії та біології і містить сотні запитань, спеціально розроблених так, щоб бути складними, оригінальними та змістовними. FrontierScience містить два напрями запитань: «Олімпіада», що вимірює здатності до наукової аргументації в олімпіадному форматі, та «Дослідження», що оцінює реальні здібності до наукової дослідницької роботи. Надання глибшого розуміння наукових можливостей моделей допомагає нам відстежувати прогрес і просувати науку, прискорену штучним інтелектом.

За нашими початковими оцінками GPT‑5.2 є нашою найкращою моделлю на FrontierScience-Olympiad (з результатом 77%) та в дослідженнях (з результатом 25%), випереджаючи інші передові моделі. Ми спостерігаємо значний прогрес у вирішенні питань експертного рівня: при цьому лишається простір для подальшого прогресу, особливо у відкритих дослідницьких завданнях. Для науковців це свідчить про те, що поточні моделі вже можуть забезпечувати підтримку тих частин досліджень, які включають структуроване міркування, водночас підкреслюючи, що залишається значна робота для покращення їхньої здатності здійснювати відкрите мислення. Ці результати узгоджуються з тим, як учені вже використовують сьогоднішні моделі: для прискорення дослідницьких робочих процесів, покладаючись на людське судження для формулювання проблем і валідації, а також усе частіше — для дослідження ідей та зв'язків, які в іншому випадку зайняли б набагато більше часу для виявлення (включаючи, в деяких випадках, отримання нових інсайтів, які потім оцінюють і тестують експерти).

Зрештою, найважливішим критерієм наукових можливостей ШІ є нові відкриття, які він допомагає створювати; саме вони мають значення для науки та суспільства. Тут у витоків знаходиться FrontierScience. Це дає нам орієнтир для наукового міркування експертного рівня, дозволяючи тестувати моделі на стандартизованому наборі запитань, бачити, де вони досягають успіху або зазнають невдачі, і визначати, де нам потрібно їх покращити. FrontierScience — доволі вузькоспеціалізований тест, він має обмеження в ключових аспектах (наприклад, зосередження на обмежених, написаних експертами проблемах) і не охоплює все, що роблять науковці у своїй повсякденній роботі. Але галузь потребує складніших, оригінальних та значущих наукових орієнтирів, і FrontierScience уже робить крок уперед у цьому напрямку.

Що вимірює FrontierScience і як ми це побудували

Повна оцінка FrontierScience охоплює понад 700 текстових запитань (160 у золотому наборі), що охоплюють підгалузі фізики, хімії та біології. Бенчмарк складається з завдань олімпіадного та дослідницького рівня. FrontierScience-Olympiad містить 100 запитань, розроблених медалістами міжнародних олімпіад, для оцінки наукового мислення у форматі обмежених коротких відповідей. Набір олімпіадного рівня містить теоретичні питання, які є щонайменше такими ж складними, як і задачі на міжнародних олімпіадах. FrontierScience-Research складається з 60 оригінальних дослідницьких підзавдань, розроблених науковцями з науковим ступенем (докторами, професорами й молодими вченими), які оцінюються за 10-бальною шкалою. Набір дослідницького рівня містить самодостатні, багатокрокові підзавдання на рівні складності, з яким може зіткнутися науковець зі ступенем PhD під час своїх досліджень.

Приклади запитань

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Кожне завдання у FrontierScience створене та перевірене галузевим експертом із фізики, хімії або біології. Для набору «Олімпіада» всі експерти були нагороджені медаллю щонайменше на одній (а часто й на кількох) міжнародній олімпіаді. Для набору «Дослідження» всі експерти мають відповідний науковий ступінь PhD.

Питання для олімпіади були створені у співпраці з 42 колишніми міжнародними медалістами або тренерами національних команд у відповідних доменах, загалом 109 олімпіадних медалей. Дослідницькі питання були створені у співпраці з 45 кваліфікованими науковцями та експертами у своїй галузі. Усі науковці були або докторантами, або постдокторантами, або професорами. Їхні сфери експертизи охоплювали ряд спеціалізованих і важливих наукових дисциплін, від квантової електродинаміки до синтетичної органічної хімії і еволюційної біології.

Процес створення завдань для обох наборів передбачав певний відбір із використанням внутрішніх моделей OpenAI (зокрема відхилялися завдання, з якими моделі успішно впоралися), тому ми очікуємо, що оцінювання буде дещо упередженим щодо цих моделей порівняно з іншими. Ми публікуємо у відкритому доступі золотий набір «Олімпіада» зі 100 запитань і золотий набір «Дослідження» з 60 запитань, а решту запитань залишаємо закритими для відстеження контамінації.

Блок-схема, що демонструє чотири етапи конвеєра розробки завдання — створення, огляд, вирішення та перегляд — із короткими описами кожного етапу та позначками для фактичних, оцінюваних, об'єктивних і складних критеріїв.

Завдання проходять чотири етапи: створення, перевірку, розв’язання та доопрацювання. Незалежні експерти взаємно перевіряють завдання одне одного, щоб підтвердити їх відповідність критеріям.

Як ми оцінюємо ефективність моделі

Набір олімпіадного рівня оцінюється за короткою відповіддю — числом, виразом, або нечітким збігом рядків, що допомагає перевірити правильність. Однак ця перевірка часто відбувається за рахунок виразності та відкритості проблеми. Для набору досліджень ми запроваджуємо архітектуру на основі рубрик для оцінювання більш відкритих завдань. Кожне питання містить рубрику оцінювання з кількома незалежними та об'єктивно оцінюваними елементами, загальною сумою 10 балів. Рубрика оцінювання оцінює не лише точність остаточної відповіді, але й правильність проміжних етапів міркування, що дозволяє проводити детальний аналіз ефективності моделі та виявлення помилок. Рішення вважається «правильним», якщо за рубрикою йому присуджено щонайменше 7/10 балів.

Відповіді оцінюються моделлю-оцінювачем (GPT‑5) за короткою відповіддю або за критеріями рубрики оцінювання. Хоча в ідеалі для оцінювання кожної відповіді ми залучали б експерта-людину, такий підхід не масштабується, тому ми розробили рубрику так, щоб її можна було перевіряти за допомогою моделі-оцінювача. Ми розробили процес перевірки, щоб допомогти забезпечити, що рубрики та запитання були добре налаштовані на складність і правильність.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Кожне завдання в дослідницькому наборі оцінюється за рубрикою загальною кількістю 10 балів, яку може використовувати експерт або модель-оцінювач. Щоб масштабувати можливості оцінювання моделей, ми використовуємо іншу модель для перевірки відповідей.

Продуктивність моделі

Ми оцінили кілька передових моделей: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini та OpenAI o3 на FrontierScience-Olympiad та FrontierScience-Research. Усі моделі міркування оцінювалися з рівнем зусиль міркування «high», за винятком GPT‑5.2, яку оцінювали з рівнем «xhigh». За нашими початковими оцінками GPT‑5.2 є нашою найкращою моделлю на FrontierScience-Olympiad (з результатом 77%) та в дослідженнях (з результатом 25%), випереджаючи інші передові моделі. Gemini 3 Pro можна порівняти з GPT‑5.2 на олімпіадному наборі (з результатом 76%).

Ми спостерігали значний прогрес у вирішенні питань експертного рівня, особливо у відкритих дослідницьких завданнях. Але рости ще є куди: аналіз стенограм на предмет помилок виявив, що передові моделі іноді допускали помилки в міркуваннях, логіці та обчисленнях, не розуміли нішевих наукових концепцій та допускали фактичні неточності.

Ми порівнюємо показники точності між кількома передовими моделями. GPT‑5.2 є нашою найрезультативнішою моделлю як для FrontierScience-Research, так і для набору «Олімпіада».

Ми порівнюємо точність у різних зусиллях аргументації для GPT‑5.2 та o3. Більший час на роздуми призводить до покращення точності.

Обмеження та подальші перспективи

Хоча FrontierScience — це крок уперед у складності наукових еталонів, все ще існує багато обмежень. FrontierScience складається з питань із обмеженим формулюванням проблеми, які зосереджуються на оцінці кінцевої відповіді (Olympiad) або оцінці міркувань для виконання дослідницького завдання (Research). Крім того, використання рубрик із кількома компонентами для довших завдань є менш об'єктивним, ніж перевірка остаточної відповіді.

FrontierScience дає детальніше уявлення про те, як моделі міркують над складними запитаннями, підготовленими експертами, але не відображає повною мірою те, як наука здійснюється на практиці. Зокрема, він не оцінює значну частину наукових досліджень: як моделі створюють справді нові гіпотези або взаємодіють з кількома модальностями, включаючи відеодані та реальні експериментальні системи у фізичному світі.

Забігаючи вперед, ми очікуємо, що прогрес у науковому мисленні буде досягнутий як завдяки вдосконаленню систем міркування загального призначення, так і завдяки зусиллям, зосередженим на вдосконаленні наукових можливостей. FrontierScience є одним із багатьох інструментів, і з покращенням моделей ми плануємо поступово вдосконалювати цей еталон, розширювати його на нові галузі та поєднувати з більшою кількістю реальних оцінок, які розглядають, що ці системи насправді дозволяють робити вченим. Такі еталони, як FrontierScience, допомагають нам зрозуміти слабкі сторони сучасних систем штучного інтелекту, аби ми могли зосередити нашу роботу на тому, щоб моделі стали надійними партнерами у наукових відкриттях.

Автор

OpenAI

Продовжити читати

Переглянути всі

GPT-Red: самовдосконалення для стійкості

Безпека15 лип. 2026 р.

Відокремлення сигналу від шуму в оцінюваннях коду

Дослідження8 лип. 2026 р.

Представляємо GeneBench-Pro

Дослідження30 черв. 2026 р.