AI-дың ғылыми зерттеу тапсырмаларын орындай алу қабілетін бағалау
Біз FrontierScience-ты таныстырамыз — физика, химия және биология бойынша сарапшы деңгейіндегі ғылыми ой қорытуға арналған AI мүмкіндіктерін бағалайтын жаңа бенчмарк.

Ой қорыту — ғылыми жұмыстың өзегі. Ғалымдар жай ғана фактілерді еске түсіріп қоймай, гипотезалар ұсынады, оларды тексеріп, жетілдіреді және әртүрлі салалардағы идеяларды біріктіреді. Біздің модельдер қабілетті бола түскен сайын, олардың ғылыми зерттеуге үлес қосу үшін қаншалықты терең ой қорыта алатыны басты сұраққа айналады.
Соңғы бір жылда модельдеріміз ірі белестерге жетті, соның ішінде Халықаралық математика олимпиадасы мен Халықаралық информатика олимпиадасында алтын медаль деңгейіндегі нәтижеге қол жеткізді. Сонымен қатар, GPT‑5 сияқты ең қабілетті модельдеріміз нақты ғылыми жұмыс үдерістерін елеулі түрде жеделдете бастағанын көріп отырмыз. Зерттеушілер бұл жүйелерді әртүрлі пәндер мен тілдердегі әдебиеттерді іздеу және күрделі математикалық дәлелдеулерді талдау сияқты тапсырмаларда пайдаланып жүр. Көп жағдайда модель күндер не апталар алуы мүмкін жұмысты бірнеше сағатқа дейін қысқартады. Бұл прогресс 2025 жылғы қарашада жарияланған GPT‑5‑пен ғылымды жеделдетуге арналған ерте тәжірибелер атты мақаламызда құжатталған; онда GPT‑5‑тің ғылыми жұмыс үдерістерін өлшенетін түрде жеделдете алатыны туралы бастапқы дәлелдер берілген.
Ғылыми прогресті жеделдету — AI-дың адамзатқа пайда әкелуінің ең үмітті мүмкіндіктерінің бірі болғандықтан, біз модельдерімізді күрделі математика және ғылым тапсырмаларында жетілдіріп, ғалымдарға олардан барынша пайда алуға көмектесетін құралдармен жұмыс істеп жатырмыз.
PhD дәрежесі бар сарапшылар жазған сұрақтардан тұратын «Google-Proof» ғылыми бенчмаркі GPQA(жаңа терезеде ашылады) 2023 жылғы қарашада жарияланған кезде, GPT‑4 39% жинады, бұл сарапшылардың 70% базалық деңгейінен төмен болды. Екі жылдан кейін GPT‑5.2 92% көрсетті. Модельдердің ой қорытуы мен білім қабілеттері ұлғая берген сайын, анағұрлым күрделі бенчмарктер ғылыми зерттеуді жеделдету қабілетін өлшеу және болжау үшін маңызды бола түседі. Алдыңғы ғылыми бенчмарктердің көбі көп таңдаулы сұрақтарға бағытталған, қаныққан немесе ғылымға тікелей шоғырланбаған.
Осы олқылықтың орнын толтыру үшін біз FrontierScience-ты ұсынып отырмыз: сарапшы деңгейіндегі ғылыми қабілеттерді өлшеуге арналған жаңа бенчмарк. FrontierScience-ты физика, химия және биология салаларындағы сарапшылар жазады және тексереді, әрі ол күрделі, түпнұсқа және мәнді болуға арналған жүздеген сұрақтан тұрады. FrontierScience сұрақтардың екі бағытын қамтиды: Olympiad — олимпиада стиліндегі ғылыми ой қорыту қабілеттерін өлшейді, ал Research — нақты әлемдегі ғылыми зерттеу қабілеттерін өлшейді. Модельдердің ғылыми қабілеттері туралы көбірек түсінік беру бізге прогресті бақылауға және AI жеделдеткен ғылымды ілгерілетуге көмектеседі.
Бастапқы бағалауларымызда GPT‑5.2 FrontierScience-Olympiad-та да (77%), Research-та да (25%) ең жоғары нәтиже көрсеткен модель болды және басқа озық модельдерден алда тұрды. Біз сарапшы деңгейіндегі сұрақтарды шешуде елеулі прогресті байқадық, сонымен бірге әрі қарай ілгерілеуге мүмкіндік әлі бар, әсіресе ашық зерттеу стиліндегі тапсырмаларда. Ғалымдар үшін бұл қазіргі модельдер құрылымды ой қорыту қажет ететін зерттеу бөліктерін қазірдің өзінде қолдай алатынын, бірақ олардың ашық ойлауды орындау қабілетін жақсарту үшін әлі де едәуір жұмыс қажет екенін көрсетеді. Бұл нәтижелер ғалымдардың бүгінгі модельдерді қалай қолданып жүргенімен сәйкес келеді: оларды зерттеу үдерістерін жеделдету үшін пайдаланып, мәселені тұжырымдау мен тексеруде адам пайымына сүйенеді, сондай-ақ әдетте әлдеқайда көп уақыт алатын идеялар мен байланыстарды зерттеу үшін барған сайын жиірек қолданады — кей жағдайларда сарапшылар кейін бағалап, тексеретін жаңа түсініктер ұсынуға дейін жетеді.
Түптеп келгенде, AI-дың ғылыми қабілеттеріне арналған ең маңызды бенчмарк — оның қандай жаңа ашылымдарды жасауға көмектесетіні; ғылым мен қоғам үшін ақырында маңыздысы — сол. FrontierScience осының алдындағы сатыда тұр. Ол бізге сарапшы деңгейіндегі ғылыми ой қорыту үшін бағдар береді, модельдерді стандартталған сұрақтар жиынтығында тексеруге, олардың қай жерде табысқа жететінін не қателесетінін көруге және қай тұстарын жақсарту қажет екенін анықтауға мүмкіндік береді. FrontierScience тар ауқымды және маңызды қырлар бойынша шектеулері бар (мысалы, шектеулі, сарапшылар жазған тапсырмаларға шоғырлануы) әрі ғалымдардың күнделікті жұмысында істейтін істерінің бәрін қамтымайды. Бірақ бұл салаға күрделірек, түпнұсқалау және мәндірек ғылыми бенчмарктер қажет, ал FrontierScience осы бағыттағы алға қадамды ұсынады.
FrontierScience-тың толық бағалауы физика, химия және биологияның әртүрлі ішкі салаларын қамтитын 700-ден астам мәтіндік сұрақты қамтиды (оның 160-ы gold жинағында). Бенчмарк Olympiad және Research болып екіге бөлінеді. FrontierScience-Olympiad халықаралық олимпиада жүлдегерлері әзірлеген 100 сұрақтан тұрады және шектеулі, қысқа жауап форматында ғылыми ой қорытуын бағалауға арналған. Olympiad жинағы теориялық сұрақтар халықаралық олимпиада жарыстарындағы тапсырмалардан кем түспейтіндей қиын болуы үшін жасалған. FrontierScience-Research 10 балдық рубрика бойынша бағаланатын, PhD дәрежелі ғалымдар (докторанттар, профессорлар немесе постдок зерттеушілер) әзірлеген 60 түпнұсқа зерттеу ішкі тапсырмасынан тұрады. Research жинағы PhD дәрежелі ғалым зерттеу барысында кездестіруі мүмкін қиындық деңгейіндегі, өз ішінде жеткілікті, көпқадамды ішкі тапсырмаларды қамту үшін жасалды.
FrontierScience-тегі әр тапсырманы физика, химия немесе биология саласының маманы жазады және тексереді. Олимпиада жинағында барлық сарапшылар кемінде бір халықаралық олимпиадада (көбіне бірнешеуінде) медаль алған. Research жинағында барлық сарапшылардың тиісті PhD дәрежесі бар.
Olympiad сұрақтары тиісті салалардағы 42 бұрынғы халықаралық жүлдегермен немесе ұлттық құрама жаттықтырушысымен бірлесіп жасалды; олардың жиынтығында 109 олимпиада медалі бар. Research сұрақтары 45 білікті ғалым және сала сарапшысымен бірлесіп жасалды. Барлық ғалымдар не докторанттар, не постдок зерттеушілер, не профессорлар болды. Олардың сараптама салалары кванттық электродинамикадан синтетикалық органикалық химияға, эволюциялық биологияға дейінгі маманданған әрі маңызды ғылыми пәндердің кең ауқымын қамтыды.
Екі жинақтағы тапсырмаларды жасау үдерісі OpenAI-дың ішкі модельдеріне қатысты белгілі бір іріктеуді де қамтыды (мысалы, модельдер сәтті дұрыс шешкен тапсырмалар алынып тасталды, сондықтан бұл бағалау осы модельдерге қатысты басқалармен салыстырғанда біршама бейім болуы мүмкін деп күтеміз). Біз Olympiad-тың 100 сұрақтан тұратын gold жинағын және Research-тің 60 сұрақтан тұратын gold жинағын ашық кодпен жариялаймыз, ал басқа сұрақтарды contamination-ды бақылау үшін жарияламай ұстап отырмыз.

Тапсырмалар төрт кезеңнен өтеді: Creation, Review, Resolution, Revision. Тәуелсіз сарапшылар критерийлерге сай келетінін тексеру үшін бір-бірінің тапсырмаларын қарайды.
Olympiad жинағы қысқа жауаппен бағаланады: сан, өрнек немесе шамалас жол сәйкестігі арқылы, бұл дұрыстықты тексеруге көмектеседі. Алайда мұндай тексеру көбіне мәселенің мәнерлілігі мен ашықтығының есебінен жүзеге асады. Research жинағы үшін біз неғұрлым ашық тапсырмаларды бағалауға арналған рубрикаға негізделген архитектураны ұсынамыз. Әр сұрақта бірнеше тәуелсіз және объективті бағаланатын тармақтары бар, жалпысы 10 ұпай болатын бағалау рубрикасы бар. Бағалау рубрикасы соңғы жауаптың дәлдігін ғана емес, аралық ой қорыту қадамдарының дұрыстығын да бағалайды, бұл модель жұмысы мен сәтсіздіктерін нәзік талдауға мүмкіндік береді. Егер шешім кемінде 7/10 рубрика ұпайын алса, ол «дұрыс» деп есептеледі.
Жауаптар модельге негізделген бағалаушы (GPT‑5) арқылы қысқа жауапқа немесе рубрика критерийлеріне қарсы бағаланады. Ең дұрысы әр жауапты адам-сарапшы бағалағанын қалар едік, бірақ бұл тәсіл ауқымданбайды, сондықтан біз рубриканы модель-бағалаушымен тексерілетін етіп жасадық. Рубрикалар мен сұрақтардың күрделік пен дұрыстық бойынша жақсы калибрленуін қамтамасыз етуге көмектесетін верификация құбырын әзірледік.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Сәтсіз 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Өту 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Өту 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Өту 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Сәтсіз 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Research жинағындағы әр тапсырма сарапшы немесе модель-бағалаушы қолдана алатын, жалпысы 10 ұпай болатын рубрикамен бағаланады. Модельдерді бағалау ауқымын кеңейту үшін жауаптарды бағалауға басқа модельді қолданамыз.
Біз бірнеше озық модельді бағаладық: GPT‑5.2, Claude Opus 4.5 және Gemini 3 Pro, GPT‑4o, OpenAI o4-mini және OpenAI o3 — FrontierScience-Olympiad пен FrontierScience-Research бойынша. GPT‑5.2 «xhigh» режимінен басқа, барлық ойлайтын модельдер «high» ой қорыту күшінде бағаланды. Бастапқы бағалауларымызда GPT‑5.2 FrontierScience-Olympiad-та (77%) және Research-та (25%) ең жоғары нәтиже көрсеткен модель болды, басқа озық модельдерден озып тұрды. Gemini 3 Pro Olympiad жинағында GPT‑5.2‑мен шамалас нәтиже көрсетті (76%).
Біз сарапшы деңгейіндегі сұрақтарды шешуде елеулі прогресті байқадық, әсіресе ашық зерттеу стиліндегі тапсырмаларда. Дегенмен, әлі де өсуге орын бар: сәтсіздіктердің транскрипттерін талдаудан көргеніміздей, озық модельдер кейде ой қорыту, логика және есептеу қателерін жіберді, сирек ғылыми ұғымдарды түсінбеді және фактілік қателіктер жасады.
Біз бірнеше озық модельдегі дәлдікті салыстырамыз. GPT‑5.2 — FrontierScience-Research және Olympiad жинақтарындағы ең жоғары нәтиже көрсеткен модель.
Біз GPT‑5.2 мен o3 үшін ой қорыту деңгейлері бойынша дәлдікті салыстырамыз. Ұзағырақ ойлану уақыты дәлдіктің артуына әкеледі.
FrontierScience ғылыми бенчмарктердің қиындығы тұрғысынан алға жасалған қадам болғанымен, әлі де көптеген шектеулер бар. FrontierScience шектеулі мәселе тұжырымы бар сұрақтардан тұрады, бұл соңғы жауапты бағалауға (Olympiad) немесе зерттеу тапсырмасын орындаудағы ой қорытуды бағалауға (Research) шоғырланады. Бұған қоса, ұзақ тапсырмаларда бірнеше құрамдас бөлігі бар рубрикаларды пайдалану соңғы жауапты тексеруге қарағанда азырақ объективті.
FrontierScience қиын, сарапшылар жазған сұрақтардағы модельдердің ой қорытуына жоғарырақ айқындамалықтағы сурет ұсынады, бірақ ғылымның практикада қалай жасалатынының толық көрінісін бермейді. Атап айтқанда, ол ғылыми зерттеудің маңызды бөлігін бағаламайды: модельдердің шынымен жаңа гипотезаларды қалай жасайтынын немесе бейне деректерін және физикалық әлемдегі нақты эксперименттік жүйелерді қоса алғанда, бірнеше модальдікпен қалай әрекеттесетінін.
Алға қарасақ, ғылыми ой қорытудағы прогресс әрі жақсырақ жалпы мақсаттағы ой қорыту жүйелерінен, әрі ғылыми қабілеттерді жетілдіруге бағытталған күш-жігерден туады деп күтеміз. FrontierScience — көптеген құралдың бірі ғана, және модельдер жақсарған сайын біз бұл бенчмаркті итерациялап, оны жаңа салаларға кеңейтуді және оны осы жүйелердің ғалымдарға іс жүзінде не істеуге мүмкіндік беретінін қарайтын нақты әлем бағалауларымен толықтыруды жоспарлаймыз. FrontierScience сияқты бенчмарктер бізге бүгінгі AI жүйелерінің әлсіз тұстарын түсінуге көмектеседі, осылайша жұмысымызды модельдерді ғылыми жаңалық ашуда сенімді серіктес етуге бағыттай аламыз.


