Az AI képességeinek értékelése a tudományos kutatási feladatok elvégzésére
Bemutatjuk a FrontierScience-t, egy új mércét, amely az AI képességeit értékeli szakértői szintű tudományos érveléshez a fizika, kémia és biológia területén.

Az érvelés a tudományos munka középpontját képezi. A puszta tényfelidézésen túl a tudósok hipotéziseket alkotnak, azokat tesztelik és finomítják, valamint különböző tudományterületek között összekapcsolják az ötleteket. Ahogy a modelljeink egyre képzettebbé válnak, a központi kérdés az, hogyan tudnak mély indoklást adni, hogy hozzájáruljanak a tudományos kutatáshoz.
Az elmúlt évben modelljeink jelentős mérföldköveket értek el, például aranyérmes teljesítményt nyújtottak a Nemzetközi Matematikai Olimpián és a Nemzetközi Informatikai Olimpián. Ezzel párhuzamosan kezdjük látni, hogy a legfejlettebb modelljeink, mint például a GPT‑5, jelentős mértékben felgyorsítják a valós tudományos munkafolyamatokat. A kutatók ezeket a rendszereket olyan feladatokhoz használják, mint például az irodalomkutatás különböző tudományágak és nyelvek között, valamint bonyolult matematikai bizonyítások kidolgozása. Sok esetben a modell órákra rövidít le olyan munkát, amely napokig vagy hetekig is eltarthatott volna. Ez a haladás dokumentálásra került a Korai tudományos gyorsítási kísérletek a GPT‑5‑tel című tanulmányunkban, amely 2025 novemberében jelent meg, és amely korai bizonyítékokat mutat be arra, hogy a GPT‑5 mérhetően képes felgyorsítani a tudományos munkafolyamatokat.
ÍrásMivel a tudományos fejlődés felgyorsítása az AI egyik legígéretesebb lehetősége az emberiség szolgálatában, folyamatosan fejlesztjük modelljeinket az összetett matematikai és természettudományos feladatok terén, és olyan eszközökön dolgozunk, amelyek abban segítik a kutatókat, hogy a lehető legtöbbet hozzák ki ezekből a képességekből.
Amikor 2023 novemberében megjelent a GPQA(új ablakban nyílik meg), egy „Google-biztos” tudományos mérce, amelyet PhD szakértők írtak, a GPT‑4 39%-ot ért el, ami alatta maradt a szakértői 70%-os szintnek. Két évvel később a GPT‑5.2 92%-ot ért el. Ahogy a modellek érvelési és tudásbeli képességei tovább bővülnek, egyre fontosabbá válnak az összetettebb mérőeszközök és benchmarkok, amelyekkel felmérhető és előre jelezhető a modellek képessége a tudományos kutatás felgyorsítására. A korábbi tudományos mérföldkövek nagyrészt többszörös válaszolós kérdésekre összpontosítanak, elfogytak az új kihívások, vagy nem közvetlenül a tudományra összpontosítanak.
Ennek a szakadéknak az áthidalására szántuk a FrontierScience-t: egy új mércét, amelyet a szakértői szintű tudományos képességek mérésére hoztunk létre. A FrontierScience-t fizika, kémia és biológia szakértők írták és ellenőrizték, és több száz kérdésből áll, amelyek nehezek, eredetiek és jelentőségteljesek. A FrontierScience két kérdéskört tartalmaz: az Olympiad, amely az olimpiád-stílusú tudományos érvelési képességeket méri, és a Research, amely a valós tudományos kutatási képességeket méri. A modellek tudományos képességeinek mélyebb megértése segít nyomon követni a fejlődést és előmozdítani az AI által felgyorsított tudományt.
Első értékeléseink szerint a GPT‑5.2 a legjobban teljesítő modellünk a FrontierScience-Olympiadon (77%-os eredménnyel) és a Research mércén (25%-os eredménnyel), megelőzve a többi élvonalbeli modellt. Jelentős előrelépést tapasztaltunk a szakértői szintű kérdések megoldásában, miközben még mindig van lehetőség további fejlődésre, különösen a nyitott végű, kutatás jellegű feladatok esetében. A tudósok számára ez azt sugallja, hogy a jelenlegi modellek már képesek támogatni a kutatás azon részeit, amelyek strukturált gondolkodást igényelnek, miközben rámutatnak arra, hogy jelentős munka szükséges még ahhoz, hogy javítsák a nyitott végű gondolkodási képességet. Ezek az eredmények összhangban állnak azzal, amiképpen a tudósok már ma is használják a jelenlegi modelleket: a kutatási munkafolyamatok felgyorsítására, miközben a problémameghatározás és az eredmények ellenőrzése továbbra is emberi szakértelmet igényel, valamint egyre inkább az ötletek és összefüggések feltárására, amelyek egyébként sokkal hosszabb idő alatt válnának nyilvánvalóvá – és bizonyos esetekben új, szakértők által később értékelt és tesztelt felismeréseket is eredményezhetnek.
Végül az AI tudományos képességeinek legfontosabb mércéjét azok az új felfedezések jelentik, amelyeket generálásában segédkezik; ezek azok, amelyek végső soron a tudomány és a társadalom számára fontosak. A FrontierScience ennél magasabb szinten helyezkedik el. Ez egyfajta iránytűként szolgál számunkra a szakértői szintű tudományos érveléshez, lehetővé téve, hogy a modelleket standardizált kérdéssorokon teszteljük, lássuk, hol teljesítenek jól és hol hibáznak, valamint azonosítsuk azokat a területeket, ahol fejlesztenünk kell őket. A FrontierScience szűk területet fed le, és kulcsfontosságú szempontokból korlátozott (például a korlátozott, szakértők által írt problémákra összpontosít), és nem fedi le mindazt, amit a tudósok a mindennapi munkájuk során csinálnak. De a témának nehezebb, eredetibb és értelmesebb tudományos mércékre van szüksége, és a FrontierScience egy lépést jelent ebben az irányban.
A teljes FrontierScience értékelés több mint 700 szöveges kérdést tartalmaz (ebből 160 az aranykészletben), amelyek a fizika, kémia és biológia különböző területeit fedik le. A mérőszám egy Olympiad és egy Research részből áll össze. A FrontierScience-Olympiad 100 kérdést tartalmaz, amelyeket nemzetközi olimpiai érmesek terveztek a tudományos érvelés felmérésére korlátozott, rövid válaszformátumban. Az Olympiad feladatsort úgy tervezték, hogy elméleti kérdéseket tartalmazzon, amelyek legalább olyan nehezek, mint a nemzetközi olimpiai versenyek feladatai. A FrontierScience-Research 60 eredeti kutatási alfeladatból áll, amelyeket PhD tudósok (doktori hallgatók, professzorok vagy posztdoktori kutatók) terveztek, és amelyeket egy 10 pontos értékelési skála alapján értékelnek. A Research feladatsor létrehozása azért történt, hogy önálló, többlépéses részfeladatokat tartalmazzon olyan nehézségi szinten, amellyel egy PhD tudós találkozhat a kutatása során.
A FrontierScience minden egyes feladatát fizika, kémia vagy biológia domain szakértő írja és ellenőrzi. Az Olympiad feladatsor esetében minden szakértő legalább egy (és gyakran több) nemzetközi olimpiai versenyen érmet nyert. A Research feladatsorban minden szakértő releváns PhD fokozattal rendelkezik.
Az Olympiad kérdéseket 42 korábbi nemzetközi érmes sportoló vagy nemzeti csapatedző közreműködésével dolgoztuk ki a megfelelő szakterületeken, összesen 109 olimpiai érmet képviselve. A kutatási kérdéseket 45 képzett tudós és domain szakértő közreműködésével létrehozás hozták létre. Minden tudós vagy doktori hallgató, posztdoktori kutató vagy professzor volt. Szakértelmük számos speciális és fontos tudományos területet ölelt fel, a kvantum elektrodinamikától a szintetikus szerves kémiáig és az evolúciós biológiáig.
A feladatok létrehozási folyamata mindkét készlet esetében magában foglalta az OpenAI belső modelljeivel szembeni bizonyos szelekciót (például olyan feladatok elvetését, amelyeket a modellek sikeresen megoldottak, így várható, hogy az értékelés némileg elfogult lesz ezekkel a modellekkel szemben másokhoz képest). Nyílt forráskódúvá tesszük az Olympiad 100 kérdésből álló aranyszintű feladatsorát és a Research 60 kérdésből álló feladatsorát, a többi kérdést visszatartva a szennyeződés nyomon követésére.

A feladatok négy szakaszból állnak: Létrehozás, Felülvizsgálat, Megoldás, Átdolgozás. Független szakértők felülvizsgálják egymás feladatait, hogy igazolják, azok megfelelnek-e a kritériumoknak.
Az Olympiad feladatsor rövid válasszal értékelhető: szám, kifejezés vagy közelítő szöveges egyezés formájában, ami megkönnyíti a helyesség ellenőrzését. Azonban ez az igazolás gyakran kompromisszumot jelent a probléma kifejezőképességével és nyitottságával szemben. A Research feladatsorhoz egy értékelési kritérium alapú architektúrát vezetünk be a nyitottabb feladatok értékelésére. Minden kérdéshez tartozik egy értékelési útmutató, amely több független és objektíven értékelhető elemet tartalmaz, összesen 10 pontot érve el. Az értékelési útmutató nemcsak a végső válasz pontosságát értékeli, hanem a köztes gondolatmenet lépéseinek helyességét is, lehetővé téve a modell teljesítményének és hibáinak árnyalt elemzését. Egy megoldás akkor tekinthető „helyesnek”, ha az értékelési útmutató szerint legalább 7/10 pontot kap.
A válaszokat egy modellalapú osztályozó (GPT‑5) értékeli, vagy a rövid válasz, vagy az értékelési kritériumok alapján. Bár ideális esetben egy szakértő értékelné a válaszokat, ez a megközelítés nem skálázható, ezért úgy terveztük meg az értékelési rendszert, hogy egy modellalapú osztályozóval is ellenőrizhető legyen. Megalkottuk az ellenőrzési folyamatot, amely segít biztosítani, hogy az értékelési útmutatók és a kérdések megfelelően legyenek kalibrálva a nehézségi szinthez és a helyességhez.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Sikertelen 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Sikeres 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Sikeres 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Sikeres 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Sikertelen 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
A kutatási feladatsor minden feladata egy 10 pontos értékelési útmutató alapján kerül értékelésre, amelyet szakértő vagy modellalapú osztályozó is használhat. A modellek értékelési képességének növelése érdekében egy másik modellt használunk a válaszok értékelésére.
Több modellt értékeltünk: a GPT‑5.2, Claude Opus 4.5, és Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, és OpenAI o3 a FrontierScience-Olympiad és a FrontierScience-Research modelleket. Minden érvelési modellt „magas” érvelési erőfeszítéssel értékeltünk, kivéve a GPT‑5.2‑t, amelyet „extra magas” szinten értékeltünk. Első értékeléseink szerint a GPT‑5.2 a legjobban teljesítő modellünk a FrontierScience-Olympiadon (77%-os eredménnyel) és a Research mércén (25%-os eredménnyel), megelőzve a többi élvonalbeli modellt. A Gemini 3 Pro összehasonlítható a GPT‑5.2‑vel az Olympiad készleten (76%-os eredménnyel).
Jelentős előrelépést tapasztaltunk a szakértői szintű kérdések megoldásában, különösen a nyitott végű, kutatási jellegű feladatok terén. Még mindig van hová fejlődni: a kudarcok elemzése során a csúcstechnológiás modellek néha következtetési, logikai és számítási hibákat követtek el, nem értették a rétegzett tudományos fogalmakat, és tényszerű pontatlanságokat követtek el.
Több élvonalbeli modell pontosságát hasonlítjuk össze. A GPT‑5.2 a legjobban teljesítő modellünk a FrontierScience-Research és az Olympiad feladatsoron.
Összehasonlítjuk a pontosságokat a GPT‑5.2 és az o3 érvelési folyamatainál. A hosszabb gondolkodási idő javítja a pontosságot.
Bár a FrontierScience előrelépést jelent a tudományos benchmarkok nehézségi szintjében, még mindig számos korláttal bír. A FrontierScience olyan kérdésekből áll, amelyek korlátozott problémafelvetéssel rendelkeznek, és amelyek az olimpiai versenyek esetében a végső válasz értékelésére (Olympiad), vagy a kutatási feladatok esetében az érvelés értékelésére összpontosítanak (Research). Ezenkívül a több összetevőből álló értékelési útmutatók használata hosszabb feladatok esetén kevésbé objektív, mint a végső válasz ellenőrzése.
A FrontierScience magasabb felbontású pillanatképet nyújt a modellek érveléséről nehéz, szakértők által írt kérdések esetén, de nem ad teljes képet arról, hogyan zajlik a tudomány a gyakorlatban. Különösképpen nem értékeli a tudományos kutatásnak azt a jelentős részét, hogy a modellek hogyan hoznak létre valóban új hipotéziseket, illetve hogyan lépnek kölcsönhatásba többféle modalitással, beleértve a videóadatokat és a fizikai világ valós kísérleti rendszereit.
Előre tekintve, arra számítunk, hogy a tudományos következtetés terén elért előrelépések mind a jobb általános célú következtetési rendszerekből, mind a tudományos képességek fejlesztésére irányuló célzott erőfeszítésekből származnak majd. A FrontierScience csak egy a sok eszköz közül, és ahogy a modellek fejlődnek, tervezzük, hogy továbbfejlesztjük ezt a benchmarkot, kiterjesztjük új területekre, és további valós világra vonatkozó értékelésekkel állítjuk párba, amelyek azt vizsgálják, valójában mit is tesznek lehetővé ezek a rendszerek a tudósok számára. Az olyan mércék, mint a FrontierScience, segítenek megérteni a mai AI-rendszerek gyengeségeit, hogy munkánkat arra összpontosíthassuk, hogy a modellek megbízható partnerek legyenek a tudományos felfedezésekben.


