Nivvalutaw il-kapaċità tal-AI biex twettaq kompiti ta’ riċerka xjentifika
Nintroduċu FrontierScience, benchmark ġdid li jevalwa l-kapaċitajiet tal-AI għal raġunament xjentifiku fil-livell ta’ espert fil-fiżika, il-kimika u l-bijoloġija.

Ir-raġunament jinsab fil-qalba tax-xogħol xjentifiku. Lil hinn milli jfakkru fatti, ix-xjenzati jiġġeneraw ipoteżijiet, jittestjawhom u jirfinawhom, u jisintetizzaw ideat bejn oqsma differenti. Hekk kif il-mudelli tagħna jsiru aktar kapaċi, il-mistoqsija ċentrali hija kif jistgħu jirraġunaw fil-fond biex jikkontribwixxu għar-riċerka xjentifika.
Matul l-aħħar sena, il-mudelli tagħna laħqu tragwardi ewlenin, inkluż li kisbu prestazzjoni fil-livell ta’ midalja tad-deheb fl-International Math Olympiad u fl-International Olympiad in Informatics. Fl-istess ħin, qed nibdew naraw lill-mudelli l-aktar kapaċi tagħna, bħal GPT‑5, jaċċelleraw b’mod sinifikanti l-flussi tax-xogħol xjentifiku reali. Ir-riċerkaturi qed jużaw dawn is-sistemi għal kompiti bħal tfittxija fil-letteratura bejn dixxiplini u lingwi differenti u biex jaħdmu fuq provi matematiċi kumplessi. F’ħafna każijiet, il-mudell iqassar xogħol li seta’ ħa jiem jew ġimgħat għal ftit sigħat. Dan il-progress huwa dokumentat fid-dokument tagħna Esperimenti bikrin dwar l-aċċellerazzjoni tax-xjenza b’GPT‑5, ippubblikat f’Novembru 2025, li jippreżenta evidenza bikrija li GPT‑5 jista’ jaċċellera b’mod li jitkejjel il-flussi tax-xogħol xjentifiku.
Peress li l-aċċellerazzjoni tal-progress xjentifiku hija waħda mill-aktar opportunitajiet promettenti biex l-AI tgħin lill-umanità, qed intejbu l-mudelli tagħna fuq kompiti diffiċli tal-matematika u x-xjenza u qed naħdmu fuq l-għodod li jgħinu lix-xjenzati jieħdu l-aħjar minnhom.
Meta GPQA(jinfetaħ f’tieqa ġdida), benchmark tax-xjenza “Google-Proof” ta’ mistoqsijiet miktuba minn esperti b’PhD, ġie rilaxxat f’Novembru 2023, GPT‑4 skorja 39%, taħt il-linja bażi tal-esperti ta’ 70%. Sentejn wara, GPT‑5.2 skorja 92%. Hekk kif il-kapaċitajiet ta’ raġunament u għarfien tal-mudelli jkomplu jeskalaw, benchmarks aktar diffiċli se jkunu importanti biex jitkejlu u jitbassru l-kapaċità tal-mudelli li jaċċelleraw ir-riċerka xjentifika. Benchmarks xjentifiċi preċedenti fil-parti l-kbira jiffokaw fuq mistoqsijiet b’għażla multipla, huma saturati, jew mhumiex iffukati b’mod ċentrali fuq ix-xjenza.
Biex innaqqsu din il-lakuna, qed nintroduċu FrontierScience: benchmark ġdid mibni biex ikejjel kapaċitajiet xjentifiċi fil-livell ta’ espert. FrontierScience jinkiteb u jiġi vverifikat minn esperti fil-fiżika, il-kimika u l-bijoloġija, u jikkonsisti f’mijiet ta’ mistoqsijiet imfassla biex ikunu diffiċli, oriġinali u sinifikanti. FrontierScience jinkludi żewġ binarji ta’ mistoqsijiet: Olympiad, li jkejjel kapaċitajiet ta’ raġunament xjentifiku fl-istil tal-olimpjadi, u Research, li jkejjel abbiltajiet ta’ riċerka xjentifika fid-dinja reali. Li nipprovdu aktar għarfien dwar il-kapaċitajiet xjentifiċi tal-mudelli jgħinna nsegwu l-progress u navvanzaw ix-xjenza aċċellerata mill-AI.
Fil-valutazzjonijiet inizjali tagħna, GPT‑5.2 huwa l-mudell bl-aqwa prestazzjoni tagħna fuq FrontierScience-Olympiad (bi skor ta’ 77%) u Research (bi skor ta’ 25%), qabel mudelli fruntiera oħra. Rajna progress sostanzjali fis-soluzzjoni ta’ mistoqsijiet fil-livell ta’ espert filwaqt li għad hemm spazju għal aktar progress, speċjalment fuq kompiti ta’ riċerka b’tarf miftuħ. Għax-xjenzati, dan jissuġġerixxi li l-mudelli attwali diġà jistgħu jappoġġjaw partijiet tar-riċerka li jinvolvu raġunament strutturat, filwaqt li jenfasizza li għad fadal xogħol sinifikanti biex tittejjeb il-kapaċità tagħhom li jwettqu ħsieb b’tarf miftuħ. Dawn ir-riżultati jaqblu ma’ kif ix-xjenzati diġà qed jużaw il-mudelli tal-lum: biex jaċċelleraw il-flussi tax-xogħol tar-riċerka filwaqt li jiddependu fuq il-ġudizzju uman biex jiffurmaw il-problema u jivvalidawha, u dejjem aktar biex jesploraw ideat u konnessjonijiet li inkella kienu jieħdu ħafna aktar żmien biex jinkixfu—inkluż, f’xi każijiet, billi jikkontribwixxu għarfien ġdid li mbagħad l-esperti jevalwaw u jittestjaw.
Fl-aħħar mill-aħħar, l-aktar benchmark importanti għall-kapaċitajiet xjentifiċi tal-AI huma l-iskoperti ġodda li tgħin tiġġenera; dawn huma dak li finalment jgħodd għax-xjenza u s-soċjetà. FrontierScience qiegħed qabel dan. Jagħtina stilla gwida għar-raġunament xjentifiku fil-livell ta’ espert, u jippermettilna nittestjaw il-mudelli fuq sett standardizzat ta’ mistoqsijiet, naraw fejn jirnexxu jew ifallu, u nidentifikaw fejn għandna ntejbuhom. FrontierScience huwa dejjaq u għandu limitazzjonijiet f’aspetti ewlenin (pereżempju, billi jiffoka fuq problemi ristretti miktuba minn esperti) u ma jaqbadx dak kollu li jagħmlu x-xjenzati fix-xogħol ta’ kuljum tagħhom. Iżda l-qasam jeħtieġ benchmarks tax-xjenza aktar diffiċli, oriġinali u sinifikanti, u FrontierScience jipprovdi pass ’il quddiem f’din id-direzzjoni.
Il-valutazzjoni sħiħa ta’ FrontierScience tkopri aktar minn 700 mistoqsija testwali (b’160 fis-sett gold) li jkopru suboqsma fil-fiżika, il-kimika u l-bijoloġija. Il-benchmark huwa magħmul minn qasma Olympiad u qasma Research. FrontierScience-Olympiad fih 100 mistoqsija mfassla minn rebbieħa ta’ medalji internazzjonali tal-olimpjadi biex jivvalutaw ir-raġunament xjentifiku f’format ristrett ta’ tweġiba qasira. Is-sett tal-Olimpjadi ġie mfassal biex jinkludi mistoqsijiet teoretiċi mill-inqas daqstant diffiċli daqs problemi f’kompetizzjonijiet internazzjonali tal-olimpjadi. FrontierScience-Research jikkonsisti f’60 subkompitu ta’ riċerka oriġinali mfassla minn xjenzati b’PhD (kandidati dottorali, professuri, jew riċerkaturi postdottorali) li jiġu vvalutati bl-użu ta’ rubrika ta’ 10 punti. Is-sett Research inħoloq biex ikun fih subkompiti awtonomi, b’diversi passi, fil-livell ta’ diffikultà li xjenzat b’PhD jista’ jiltaqa’ miegħu waqt ir-riċerka tiegħu.
Kull kompitu fi FrontierScience jinkiteb u jiġi vverifikat minn espert tad-dominju fil-fiżika, il-kimika jew il-bijoloġija. Għas-sett tal-Olimpjadi, l-esperti kollha rebħu medalja f’mill-inqas kompetizzjoni waħda internazzjonali tal-olimpjadi (u spiss f’aktar minn waħda). Għas-sett tar-Riċerka, l-esperti kollha għandhom lawrja ta’ PhD rilevanti.
Il-mistoqsijiet tal-Olimpjadi nħolqu b’kollaborazzjoni ma’ 42 eks rebbieħ ta’ medalji internazzjonali jew kowċis ta’ timijiet nazzjonali fid-dominji rilevanti, għal total ta’ 109 medalji tal-olimpjadi. Il-mistoqsijiet tar-riċerka nħolqu b’kollaborazzjoni ma’ 45 xjenzat kwalifikat u espert tad-dominju. Ix-xjenzati kollha kienu jew kandidati dottorali, jew riċerkaturi postdottorali, jew professuri. L-oqsma tal-kompetenza tagħhom kienu jkopru firxa ta’ dixxiplini xjentifiċi speċjalizzati u importanti, mill-elettrodinamika kwantistika sal-kimika organika sintetika sal-bijoloġija evoluzzjonarja.
Il-proċess tal-ħolqien tal-kompiti għaż-żewġ settijiet inkluda xi selezzjoni kontra mudelli interni ta’ OpenAI (eż., billi twarrbu kompiti li l-mudelli rnexxielhom isolvu sew, għalhekk nistennew li l-valutazzjoni tkun kemxejn preġudikata kontra dawn il-mudelli meta mqabbla ma’ oħrajn). Aħna nagħmlu open-source is-sett gold tal-Olimpjadi ta’ 100 mistoqsija u s-sett gold tar-Riċerka ta’ 60 mistoqsija, filwaqt li nżommu l-mistoqsijiet l-oħra barra biex insegwu l-kontaminazzjoni.

Il-kompiti jgħaddu minn erba’ stadji: Ħolqien, Reviżjoni, Riżoluzzjoni, Reviżjoni. Esperti indipendenti jirrevedu l-kompiti ta’ xulxin biex jivverifikaw li huma allinjati mal-kriterji.
Is-sett tal-Olimpjadi jista’ jiġi vvalutat b’tweġiba qasira: jew b’numru, espressjoni, jew tqabbil approssimattiv ta’ string, li jgħin biex tiġi vverifikata l-korrettezza. Madankollu, din il-verifika spiss tiġi bi skambju mal-espressività u n-natura b’tarf miftuħ tal-problema. Għas-sett Research, nintroduċu arkitettura bbażata fuq rubrika biex nivvalutaw kompiti aktar b’tarf miftuħ. Kull mistoqsija tinkludi rubrika ta’ punteġġ b’diversi elementi indipendenti u oġġettivament evalwabbli, għal total ta’ 10 punti. Ir-rubrika tal-valutazzjoni tevalwa mhux biss il-preċiżjoni tat-tweġiba finali, iżda wkoll il-korrettezza tal-passi intermedji tar-raġunament, u tippermetti analiżi sfumata tal-prestazzjoni u l-fallimenti tal-mudell. Soluzzjoni titqies “korretta” jekk tingħata mill-inqas 7/10 punti tar-rubrika.
It-tweġibiet jiġu evalwati minn grader ibbażat fuq mudell (GPT‑5) kontra jew it-tweġiba qasira jew il-kriterji tar-rubrika. Filwaqt li idealment nużaw espert uman biex jivvaluta kull tweġiba, dan l-approċċ ma jistax jeskala, għalhekk iddisinjajna r-rubrika biex tkun tista’ tiġi ċċekkjata bl-użu ta’ model grader. Żviluppajna pipeline ta’ verifika biex ngħinu niżguraw li r-rubriċi u l-mistoqsijiet kienu kkalibrati sew għad-diffikultà u l-korrettezza.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Falliment 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Għaddi 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Għaddi 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Għaddi 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Falliment 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Kull kompitu fis-sett tar-riċerka jiġi evalwat bl-użu ta’ rubrika li tammonta għal 10 punti u li tista’ tintuża minn espert jew minn model grader. Biex niskalaw il-kapaċità tagħna li nivvalutaw il-mudelli, nużaw mudell ieħor biex jivvaluta t-tweġibiet.
Evalwajna diversi mudelli fruntiera: GPT‑5.2, Claude Opus 4.5, u Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, u OpenAI o3 fuq FrontierScience-Olympiad u FrontierScience-Research. Il-mudelli kollha tar-raġunament ġew evalwati b’effort ta’ raġunament “high” bl-eċċezzjoni ta’ GPT‑5.2 f’“xhigh”. Fil-valutazzjonijiet inizjali tagħna, GPT‑5.2 huwa l-mudell bl-aqwa prestazzjoni tagħna fuq FrontierScience-Olympiad (bi skor ta’ 77%) u Research (bi skor ta’ 25%), qabel mudelli fruntiera oħra. Gemini 3 Pro huwa komparabbli ma’ GPT‑5.2 fuq is-sett tal-Olimpjadi (bi skor ta’ 76%).
Rajna progress sostanzjali fis-soluzzjoni ta’ mistoqsijiet fil-livell ta’ espert, speċjalment fuq kompiti ta’ riċerka b’tarf miftuħ. Għad hemm aktar spazju biex nikbru: mill-analiżi tat-traskrizzjonijiet tal-fallimenti, il-mudelli fruntiera xi drabi għamlu żbalji ta’ raġunament, loġika u kalkolu, ma fehmux kunċetti xjentifiċi niċċa, u għamlu ineżattezzi fattwali.
Inqabblu l-preċiżjoni bejn diversi mudelli fruntiera. GPT‑5.2 huwa l-mudell bl-aqwa prestazzjoni tagħna fuq FrontierScience-Research u s-sett tal-Olimpjadi.
Inqabblu l-preċiżjoni bejn l-isforzi tar-raġunament għal GPT‑5.2 u o3. Ħin itwal ta’ ħsieb iwassal għal preċiżjoni aħjar.
Filwaqt li FrontierScience jirrappreżenta pass ’il quddiem fid-diffikultà tal-benchmarks xjentifiċi, għad hemm ħafna limitazzjonijiet. FrontierScience huwa magħmul minn mistoqsijiet b’dikjarazzjoni tal-problema ristretta, li tiffoka fuq l-evalwazzjoni tat-tweġiba finali (Olympiad) jew fuq l-evalwazzjoni tar-raġunament biex jitlesta kompitu ta’ riċerka (Research). Barra minn hekk, l-użu ta’ rubriċi b’diversi komponenti fuq kompiti itwal huwa inqas oġġettiv milli tiċċekkja t-tweġiba finali.
FrontierScience joffri stampa aktar dettaljata tar-raġunament tal-mudelli fuq mistoqsijiet diffiċli miktuba minn esperti, iżda mhux stampa sħiħa ta’ kif issir ix-xjenza fil-prattika. B’mod partikolari, ma jevalwax parti sinifikanti mir-riċerka xjentifika: kif il-mudelli jiġġeneraw ipoteżijiet tassew ġodda, jew jinteraġixxu ma’ diversi modalitajiet, inklużi data tal-vidjo u sistemi sperimentali reali fid-dinja fiżika.
Meta nħarsu ’l quddiem, nistennew li l-progress fir-raġunament xjentifiku jiġi kemm minn sistemi aħjar ta’ raġunament għal skop ġenerali kif ukoll minn sforz iffukat fuq it-titjib tal-kapaċitajiet xjentifiċi. FrontierScience huwa għodda waħda fost ħafna, u hekk kif il-mudelli jitjiebu, biħsiebna nkomplu nirrepetu fuq dan il-benchmark, nespanduh għal oqsma ġodda, u ngħaqqduh ma’ aktar evalwazzjonijiet fid-dinja reali li jħarsu lejn dak li dawn is-sistemi fil-fatt jippermettu lix-xjenzati jagħmlu. Benchmarks bħal FrontierScience jgħinuna nifhmu d-dgħufijiet tas-sistemi tal-AI tal-lum biex niffokaw ix-xogħol tagħna fuq li nagħmlu l-mudelli sħab affidabbli fl-iskoperta xjentifika.


