16 декември 2025 г.

Оценка на способността на ИИ да изпълнява научноизследователски задачи

Представяме FrontierScience, нов еталон, който оценява възможностите на ИИ за научно разсъждение на експертно ниво в областта на физиката, химията и биологията.

Прочетете статията

Частична графика с мек фон в преливащо зелено и жълто, голяма изрязана дума, започваща с „Fro...“, и наслоени блокове текст отдясно, изброяващи критерии за преглед като „Фактически“, „Оценяем“, „Обективен“ и „Труден“.

Зареждане…

Разсъждаването е в основата на научната работа. Освен че си припомнят факти, учените генерират хипотези, тестват ги и ги усъвършенстват и обединяват идеи от различни области. С развитието на нашите модели, основният въпрос е как те могат да разсъждават задълбочено, за да допринесат за научните изследвания.

През последната година нашите модели постигнаха значителни успехи, включително златен медал на Международната олимпиада по математика и Международната олимпиада по информатика. Успоредно с това започваме да виждаме как нашите най-способни модели, като GPT‑5, значително ускоряват реалните научни работни процеси. Изследователите използват тези системи за задачи като търсене на литература изсред различни дисциплини и езици и работа върху сложни математически доказателства. В много случаи моделът съкращава до часове работа, която би отнела дни или седмици. Този напредък е документиран в нашата статия Ранни експерименти за ускоряване на науката с GPT‑5⁠, публикувана през ноември 2025 г., която представя ранни доказателства, че GPT‑5 може да ускори научните работни процеси с измерими резултати.

Представяне на FrontierScience

Тъй като ускоряването на научния прогрес е една от най-обещаващите възможности за ИИ да бъде от полза за човечеството, ние подобряваме нашите модели за трудни задачи в областта на математиката и науката и работим върху инструментите, които ще помогнат на учените да извлекат максимума от тях.

Когато GPQA⁠(отваря се в нов прозорец), „Google-Proof“ научен еталон от въпроси, съставени от експерти с докторска степен, беше пуснат през ноември 2023 г., GPT‑4 постигна резултат от 39%, което е под експертния базов резултат от 70%. Две години по-късно, GPT‑5.2 постигна 92%. С нарастването на способностите на моделите за разсъждение и знания, по-трудни еталони ще бъдат важни за измерване и прогнозиране на способността на моделите да ускорят научните изследвания. Предишните научни еталони до голяма степен или се фокусират върху въпроси с избор между няколко отговора, или са изчерпани, или не са централно насочени към науката.

За да преодолеем тази разлика, представяме FrontierScience: нов еталон, създаден за измерване на научни способности на експертно ниво. FrontierScience е написан и проверяван от експерти в областта на физиката, химията и биологията и се състои от стотици въпроси, проектирани да бъдат трудни, оригинални и значими. FrontierScience включва два типа въпроси: Олимпиада, която измерва способностите за научно разсъждаване в стил Олимпиада, и Изследване, което измерва способностите за научни изследвания в реалния свят. Предоставянето на повече информация за научните възможности на моделите ни помага да проследяваме напредъка и да развиваме науката, ускорена от изкуствения интелект.

В нашите първоначални оценки, GPT‑5.2 е нашият най-добре представящ се модел на FrontierScience-Olympiad (с резултат 77%) и Research (с резултат 25%), изпреварвайки други авангардни модели. Наблюдавахме значителен напредък в решаването на въпроси на експертно ниво, като оставихме място за още напредък, особено при задачи от изследователски тип с отворен край. За учените това предполага, че настоящите модели вече могат да поддържат части от изследванията, които включват структурирано разсъждение, като същевременно се подчертава, че остава значителна работа за подобряване на способността им да извършват отворено мислене. Тези резултати съответстват на начина, по който учените вече използват съвременните модели: за ускоряване на изследователските работни процеси, като разчитат на човешката преценка за формулиране и проверка на проблемите, и все повече за изследване на идеи и връзки, които иначе биха отнели много повече време за разкриване — включително, в някои случаи, допринасяйки с нови прозрения, които експертите след това оценяват и тестват.

В крайна сметка, най-важният критерий за научните възможности на изкуствения интелект са новите открития, които той помага да бъдат генерирани. Те са това, което в крайна сметка има значение за науката и обществото. FrontierScience се намира в по-ранния етап на този процес. Това ни предоставя ориентир за научно разсъждение на експертно ниво, позволявайки ни да тестваме модели върху стандартизиран набор от въпроси, да видим къде успяват или се провалят и да идентифицираме къде трябва да ги подобрим. FrontierScience е ограничена и има недостатъци в ключови отношения (например, фокусиране върху ограничени, написани от експерти проблеми) и не обхваща всичко, което учените правят в ежедневната си работа. Но областта се нуждае от по-трудни, оригинални и значими научни критерии, а FrontierScience предоставя стъпка напред в тази посока.

Какво измерва FrontierScience и как го изградихме

Пълната оценка на FrontierScience обхваща над 700 текстови въпроса (с 160 в златния набор), обхващащи подполета в областта на физиката, химията и биологията. Еталонът се състои от олимпиада и изследователска част. FrontierScience-Olympiad съдържа 100 въпроса, създадени от медалисти от международни олимпиади, за да оценят научното разсъждаване в ограничен формат с кратки отговори. Комплектът за олимпиадата е проектиран да включва теоретични въпроси, които са поне толкова трудни, колкото и задачите на международни олимпиади. FrontierScience-Research се състои от 60 оригинални изследователски подзадачи, създадени от учени с докторска степен (докторанти, професори или постдокторанти), които се оценяват по 10-точкова скала. Изследователският комплект беше създаден, за да включва самостоятелни, многоетапни подзадачи на ниво на трудност, което учен с докторска степен може да срещне по време на своите изследвания.

Примерни въпроси

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Всяка задача във FrontierScience е написана и проверена от експерт в областите на физиката, химията или биологията. За комплекта на Олимпиадата всички експерти са наградени с медал в поне една международна олимпиада (а често и в множество такива). За изследователския комплект всички експерти притежават съответната докторска степен.

Въпросите за олимпиадата бяха създадени в сътрудничество с 42-ма бивши международни медалисти или треньори на национални екипи в съответните домейни, с общо 109 медала от олимпиади. Изследователските въпроси бяха създадени в сътрудничество с 45 квалифицирани учени и експерти в областта. Всички учени бяха или докторанти, постдокторанти или професори. Техните области на експертиза обхващаха множество специализирани и важни научни дисциплини, от квантова електродинамика до синтетична органична химия до еволюционна биология.

Процесът на създаване на задачи за двата набора включваше известен подбор спрямо вътрешните модели на OpenAI (например, отхвърляне на задачи, които моделите успешно са решили, така че очакваме оценката да бъде донякъде пристрастна срещу тези модели в сравнение с други). Публикуваме с отворен код златния комплект от 100 въпроса от Олимпиадата и златния комплект от 60 въпроса за изследвания, като задържаме останалите въпроси, за да следим за замърсяване.

Блок-схема, показваща четири етапа на процеса на разработване на задача – Създаване, Преглед, Решаване и Редакция – с кратки описания на всяка стъпка и отметки за фактически, оценими, обективни и трудни критерии.

Задачите преминават през четири етапа: Създаване, Преглед, Разрешаване, Редакция. Независими експерти преглеждат задачите един на друг, за да проверят дали те съответстват на критериите.

Как оценяваме представянето на модела

Олимпиадният комплект може да бъде оценен с кратък отговор: или с число, израз, или неясно съвпадение на низове, което помага да се проверява правилността. Въпреки това, тази проверка често се извършва за сметка на изразителността и отвореността на проблема. За изследователския набор въвеждаме архитектура, базирана на рубрика, за оценяване на по-отворени задачи. Всеки въпрос включва скала за оценяване с няколко независими и обективно оценими елемента, общо 10 точки. Критериите за оценяване оценяват не само точността на крайния отговор, но и коректността на междинните стъпки на разсъждение, което позволява нюансирано представяне на модела и анализ на неуспехите. Едно решение се счита за „правилно“, ако бъде оценено с поне 7/10 точки по рубриката.

Отговорите се оценяват от оценител, базиран на модел (GPT‑5), спрямо краткия отговор или критериите на рубриката. Въпреки че в идеалния случай бихме използвали човешки експерт за оценка на всеки отговор, този подход не е мащабируем, затова създадохме рубрика, която може да бъде проверена с помощта на модел оценител. Разработихме процес на проверка, за да гарантираме, че рубриките и въпросите са добре калибрирани спрямо трудността и точността.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Всяка задача в изследователския набор се оценява с помощта на рубрика, която общо дава 10 точки и може да бъде използвана от експерт или модел оценител. За да увеличим способността си да оценяваме модели, използваме друг модел за оценяване на отговорите.

Производителност на модела

Оценихме няколко авангардни модела: GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini и OpenAI o3 на FrontierScience-Olympiad и FrontierScience-Research. Всички модели за разсъждаване бяха оценени при „високо“ усилие за разсъждаване, с изключение на GPT‑5.2 при „свръхвисоко“ ниво. В нашите първоначални оценки, GPT‑5.2 е нашият най-добре представящ се модел на FrontierScience-Olympiad (с резултат 77%) и Research (с резултат 25%), изпреварвайки други авангардни модели. Gemini 3 Pro е сравним с GPT‑5.2 на набора Olympiad (с резултат 76%).

Наблюдавахме значителен напредък в решаването на въпроси на експертно ниво, особено при задачи от отворен тип в изследователски стил. Все още има място за растеж. При анализиране на транскрипциите за неуспехи, авангардните модели понякога допускат грешки в разсъжденията, логиката и изчисленията, не разбират тясноспециализирани научни понятия и допускат фактически неточности.

Сравняваме точностите на няколко гранични модела. GPT‑5.2 е нашият най-високопроизводителен модел за набора FrontierScience-Research и Olympiad.

Сравняваме точностите при различни усилия за разсъждаване за GPT‑5.2 и o3. По-дългото време за мислене води до подобрена точност.

Ограничения и какво следва

Въпреки че FrontierScience представлява стъпка напред в трудността на научните еталони, все още съществуват много ограничения. FrontierScience се състои от въпроси с ограничено описание на проблема, които се фокусират върху оценка на крайния отговор (Олимпиада) или оценка на разсъжденията за изпълнение на изследователска задача (Изследване). Освен това, използването на рубрики с множество компоненти за по-дълги задачи е по-малко обективно от проверката на крайния отговор.

FrontierScience предлага по-точна моментна картина на разсъжденията на моделите при трудни, формулирани от експерти въпроси, но не дава пълна представа за това как науката се практикува в реални условия. По-специално, не се оценява значителна част от научните изследвания: как моделите осъществяват генериране на наистина нови хипотези или взаимодействат с множество модалности, включително видео данни и реални експериментални системи във физическия свят.

Занапред очакваме напредък в научното разсъждение да дойде както от по-добри системи за общо предназначение, така и от целенасочени усилия за усъвършенстване на научните възможности. FrontierScience е един от многото инструменти и с подобряването на моделите, ние планираме да надграждаме този еталон, да го разширим в нови сфери и да го съчетаем с повече реални оценки, които разглеждат какво всъщност позволяват тези системи на учените да правят. Еталоните като FrontierScience ни помагат да разберем слабостите на днешните ИИ системи, за да насочим работата си към това моделите да бъдат надеждни партньори в научното откритие.

Автор

OpenAI

Продължавайте да четете

Вижте всички

GPT-Red: Самоусъвършенстване за по-голяма устойчивост

Безопасност15.07.2026 г.

Отделяне на сигнала от шума в оценките за кодиране

Проучване8.07.2026 г.

Представяме GeneBench-Pro

Проучване30.06.2026 г.