16 dhjetor 2025

Vlerësimi i aftësisë së AI-së për të kryer detyra kërkimore shkencore

Ne prezantojmë FrontierScience, një standard të ri që vlerëson aftësitë e IA-së për arsyetim shkencor në nivel ekspert në fizikë, kimi dhe biologji.

Lexo letrën

Grafikë e pjesshme me një sfond gradient të butë jeshil dhe të verdhë, një fjalë e madhe e prerë që fillon me “Fro…” dhe blloqe të shtresuara teksti në të djathtë që rendisin kriteret e rishikimit si “Faktual,” “I vlerësueshëm,” “Objektiv,” dhe “I vështirë.”

Duke ngarkuar…

Arsyetimi është në thelb të punës shkencore. Përtej rikujtimit të fakteve, shkencëtarët përftojnë hipoteza, i testojnë dhe i përmirësojnë ato, dhe sintetizojnë ide nëpër fusha të ndryshme. Ndërsa modelet tona bëhen më të afta, pyetja kryesore është se si ato mund të arsyetojnë në mënyrë të thellë për të kontribuar në kërkime shkencore.

Gjatë vitit të kaluar, modelet tona kanë arritur suksese të mëdha, duke përfshirë fitimin e medaljes së artë në olimpiadën ndërkombëtare të matematikës dhe olimpiadën ndërkombëtare të informatikës. Në të njëjtën kohë, po fillojmë të vërejmë se modelet tona më të afta, si GPT‑5, po përshpejtojnë në mënyrë të ndjeshme rrjedhat reale të punës shkencore. Studiuesit po përdorin këto sisteme për detyra të tilla si kërkimi i literaturës nëpër disiplina dhe gjuhë të ndryshme dhe për të zgjidhur prova matematikore komplekse. Në shumë raste, modeli shkurton punën që mund të kishte marrë ditë ose javë në vetëm disa orë. Ky përparim është dokumentuar në punimin tonë Eksperimentet e hershme të përshpejtimit të shkencës me GPT‑5⁠, i publikuar në nëntor 2025, që paraqet dëshmi të hershme se GPT‑5 mund të përshpejtojë në mënyrë të matshme flukset e punës shkencore.

Prezantimi i FrontierScience

Duke qenë se përshpejtimi i përparimit shkencor është një nga mundësitë më premtuese që njerëzimi të përfitojë nga AI-ja, ne po përmirësojmë modelet tona për detyra të vështira në matematikë dhe shkencë dhe po punojmë për mjetet që do t'i ndihmojnë shkencëtarët të përfitojnë sa më shumë prej tyre.

Kur GPQA⁠(hapet në një dritare të re), një standard shkencor “i papërshkueshëm nga Google” me pyetje të shkruara nga ekspertë me doktoraturë, u publikua në nëntor 2023, GPT‑4 arriti një rezultat prej 39%, nën nivelin bazë të ekspertëve prej 70%. Dy vjet më vonë, GPT‑5.2 arriti 92%. Ndërsa aftësitë e arsyetimit dhe njohurive të modeleve vazhdojnë të rriten, standarde më të vështira do të jenë të rëndësishme për të matur dhe parashikuar aftësinë e modeleve për të përshpejtuar kërkimet shkencore. Pikat e mëparshme të referimit shkencor kryesisht fokusohen në pyetje me zgjedhje të shumëfishta, janë të ngopura, ose nuk janë të përqendruara kryesisht në shkencë.

Për të kapërcyer këtë hendek, po prezantojmë FrontierScience: një standard i ri i krijuar për të matur aftësitë shkencore në nivel ekspertësh. FrontierScience është shkruar dhe verifikuar nga ekspertë në fushat e fizikës, kimisë dhe biologjisë, dhe përbëhet nga qindra pyetje të dizajnuara për të qenë të vështira, origjinale dhe kuptimplota. FrontierScience përfshin dy drejtime pyetjesh: olimpiada, që mat aftësitë e arsyetimit shkencor në stilin e olimpiadës, dhe kërkimi, që mat aftësitë e kërkimit shkencor në botën reale. Sigurimi i më shumë njohurive mbi aftësitë shkencore të modeleve na ndihmon të ndjekim progresin dhe të avancojmë shkencën e përshpejtuar nga AI-ja.

Në vlerësimet tona fillestare, GPT‑5.2 është modeli ynë me performancën më të lartë në FrontierScience-Olympiad (duke shënuar 77%) dhe Research (duke shënuar 25%), përpara modeleve të tjera të avancuara. Kemi parë përparim të konsiderueshëm në zgjidhjen e pyetjeve të nivelit ekspert, duke lënë hapësirë për më shumë përparim, veçanërisht në detyrat e hapura të stilit kërkimor. Për shkencëtarët, kjo sugjeron që modelet aktuale tashmë mund të mbështesin pjesë të kërkimit që përfshijnë arsyetim të strukturuar, ndërsa thekson se mbetet punë e rëndësishme për të përmirësuar aftësinë e tyre për të kryer mendim të hapur. Këto rezultate përputhen me mënyrën se si shkencëtarët tashmë po përdorin modelet e sotme: për të përshpejtuar flukset e punës kërkimore duke u mbështetur në gjykimin njerëzor për kornizimin dhe verifikimin e problemeve, dhe gjithnjë e më shumë për të eksploruar ide dhe lidhje që përndryshe do të kërkonin shumë më tepër kohë për t'u zbuluar, duke përfshirë, në disa raste, kontributin e njohurive të reja që ekspertët më pas i vlerësojnë dhe i testojnë.

Në fund, standardi më i rëndësishëm për aftësitë shkencore të AI-së janë zbulimet e reja që ajo ndihmon të përftohen; ato janë ato që në fund të fundit kanë rëndësi për shkencën dhe shoqërinë. FrontierScience është më lart se ajo. Na ofron një yll polar për arsyetimin shkencor në nivel ekspertësh, duke na lejuar të testojmë modelet mbi një grup të standardizuar pyetjesh, të shohim ku ato kanë sukses ose dështojnë, dhe të identifikojmë ku duhet t'i përmirësojmë. FrontierScience është e ngushtë dhe ka kufizime në aspekte kyçe (për shembull, duke u fokusuar në probleme të kufizuara, të shkruara nga ekspertë) dhe nuk përfshin gjithçka që shkencëtarët bëjnë në punën e tyre të përditshme. Por fusha ka nevojë për standarde shkencore më të vështira, origjinale dhe kuptimplota, dhe FrontierScience ofron një hap përpara në këtë drejtim.

Çfarë mat FrontierScience dhe si e ndërtuam atë

Vlerësimi i plotë i FrontierScience përfshin mbi 700 pyetje tekstuale (me 160 në grupin e artë) që mbulojnë nënfusha në fizikë, kimi dhe biologji. Standardi përbëhet nga një olimpiadë dhe një pjesë kërkimore. FrontierScience-Olympiad përmban 100 pyetje të krijuara nga medalistë të olimpiadave ndërkombëtare për të vlerësuar arsyetimin shkencor në një format të kufizuar, me përgjigje të shkurtra. Seti i Olimpiadës ishte projektuar të përmbante pyetje teorike të paktën po aq të vështira sa problemet në garat ndërkombëtare të olimpiadave. FrontierScience-Research përbëhet nga 60 nën-detyrime kërkimore origjinale të krijuara nga shkencëtarë me doktoraturë (kandidatët për doktoraturë, profesorë ose studiues postdoktoralë) që vlerësohen me një rubrikë prej 10 pikësh. Seti i Kërkimit u krijua për të përmbajtur nën-detyrat e pavarura, me shumë hapa, në nivelin e vështirësisë që një shkencëtar me PhD mund të hasë gjatë kërkimit të tij.

Pyetje shembull

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Çdo detyrë në FrontierScience është shkruar dhe verifikuar nga një ekspert i domenit në fizikë, kimi ose biologji. Për grupin e olimpiadës, të gjithë ekspertët u shpërblyen me një medalje në të paktën një (dhe shpesh në disa) gara ndërkombëtare të olimpiadave. Për grupin e kërkimit, të gjithë ekspertët kanë një PhD përkatëse.

Pyetjet e olimpiadës u krijuan në bashkëpunim me 42 ish-medalistë ndërkombëtarë ose trajnerë të ekipit kombëtar në domenet përkatëse, duke arritur gjithsej 109 medalje olimpike. Pyetjet e kërkimit u krijuan në bashkëpunim me 45 shkencëtarë të kualifikuar dhe ekspertë të domenit. Të gjithë shkencëtarët ishin ose kandidatë për doktoraturë, studiues postdoktoralë, ose profesorë. Fushat e tyre të ekspertizës përfshinin një gamë disiplinash shkencore të specializuara dhe të rëndësishme, nga elektrodinamika kuantike te kimia organike sintetike deri te biologjia evolucionare.

Procesi i krijimit të detyrave për të dy grupet përfshinte disa përzgjedhje kundër modeleve të brendshme të OpenAI (p.sh., hedhja poshtë e detyrave që modelet i zgjidhën me sukses, kështu që presim që vlerësimi të jetë disi i anuar kundër këtyre modeleve në krahasim me të tjerët). Ne e bëjmë me burim të hapur setin e artë të olimpiadës me 100 pyetje dhe setin e artë të Kërkimit me 60 pyetje, duke mbajtur pyetjet e tjera për të ndjekur kontaminimin.

Diagramë rrjedhjeje që tregon katër faza të një procesi zhvillimi detyre–krijimi, shqyrtimi, zgjidhja dhe rishikimi–me përshkrime të shkurtra për secilin hap dhe shenja kontrolli për kriteret faktuale, të vlerësueshme, objektive dhe të vështira.

Detyrat kalojnë nëpër katër faza: krijimi, shqyrtimi, zgjidhja, rishikimi përfundimtar. Ekspertët e pavarur rishikojnë detyrat e njëri-tjetrit për të verifikuar që ato përputhen me kriteret.

Si e vlerësojmë performancën e modelit

Seti i olimpiadës mund të vlerësohet me një përgjigje të shkurtër: qoftë me një numër, shprehje, ose përputhje të paqartë të vargut, që ndihmon të verifikojë saktësinë. Megjithatë, ky verifikim shpesh bën kompromis me shprehshmërinë dhe hapësinë e pakufizuar të problemit. Për grupin e Kërkimit, ne prezantojmë një arkitekturë të bazuar në rubrikë për vlerësimin e detyrave më të hapura. Çdo pyetje përfshin një rubrikë vlerësimi me disa elemente të pavarura dhe objektivisht të vlerësueshme, duke arritur një total prej 10 pikësh. Rubrika e vlerësimit vlerëson jo vetëm saktësinë e përgjigjes përfundimtare, por edhe korrektësinë e hapave të ndërmjetëm të arsyetimit, duke lejuar një analizë të nuancuar të performancës dhe dështimeve të modelit. Një zgjidhje konsiderohet "e saktë" nëse merr të paktën 7/10 pikë sipas rubrikës.

Përgjigjet vlerësohen nga një vlerësues i bazuar në model (GPT‑5) sipas përgjigjes së shkurtër ose kritereve të rubrikës. Ndërsa idealisht do të përdornim një ekspert njerëzor për të vlerësuar çdo përgjigje, kjo qasje nuk është e shkallëzueshme, kështu që ne projektuam kriteret e vlerësimit që të jenë të kontrollueshme duke përdorur një model vlerësues. Ne zhvilluam një proces verifikimi për të ndihmuar në sigurimin që rubrikat dhe pyetjet të ishin të kalibruara mirë për vështirësinë dhe saktësinë.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Çdo detyrë në grupin e kërkimit vlerësohet duke përdorur një rubrikë me gjithsej 10 pikë që mund të përdoret nga një ekspert ose një vlerësues model. Për të shkallëzuar aftësinë tonë për të vlerësuar modelet, ne përdorim një model tjetër për të vlerësuar përgjigjet.

Performanca e modelit

Ne vlerësuam disa modele kufitare: GPT‑5.2, Claude Opus 4.5, dhe Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, dhe OpenAI o3 në FrontierScience-Olympiad dhe FrontierScience-Research. Të gjitha modelet e arsyetimit u vlerësuan me përpjekje të lartë arsyetimi, me përjashtim të GPT‑5.2 që u vlerësua me përpjekje shumë të lartë (xhigh). Në vlerësimet tona fillestare, GPT‑5.2 është modeli ynë me performancën më të lartë në FrontierScience-Olympiad (duke shënuar 77%) dhe Research (duke shënuar 25%), përpara modeleve të tjera të avancuara. Gemini 3 Pro është i krahasueshëm me GPT‑5.2 në setin Olympiad (me një rezultat prej 76%).

Kemi parë përparim të konsiderueshëm në zgjidhjen e pyetjeve të nivelit ekspert, veçanërisht në detyrat e hapura të stilit kërkimor. Ka ende hapësirë për rritje: nga analizimi i transkripteve për dështime, modelet kufitare ndonjëherë bënin gabime në arsyetim, logjikë dhe llogaritje, nuk kuptonin koncepte shkencore të specializuara dhe bënin pasaktësi faktike.

Ne krahasojmë saktësitë nëpër disa modele kufitare. GPT‑5.2 është modeli ynë me performancën më të lartë në FrontierScience-Research dhe setin Olympiad.

Ne krahasojmë saktësitë në përpjekjet e arsyetimit për GPT‑5.2 dhe o3. Koha më e gjatë e mendimit çon në përmirësimin e saktësisë.

Kufizimet dhe çfarë do të ndodhë më pas

Ndërsa FrontierScience përfaqëson një hap përpara në vështirësinë e standardeve shkencore, ka ende shumë kufizime. FrontierScience përbëhet nga pyetje me një deklaratë problemi të kufizuar, që përqendrohet në vlerësimin e përgjigjes përfundimtare (Olympiad) ose në vlerësimin e arsyetimit për të përfunduar një detyrë kërkimore (Research). Përveç kësaj, përdorimi i rubrikave me komponentë të shumtë në detyra më të gjata është më pak objektiv sesa kontrollimi i përgjigjes përfundimtare.

FrontierScience ofron një pamje çasti me rezolucion më të lartë të arsyetimit të modeleve mbi pyetjet e vështira të shkruara nga ekspertët, por jo një pamje të plotë të mënyrës se si realizohet shkenca në praktikë. Në veçanti, nuk vlerëson një pjesë të rëndësishme të kërkimit shkencor: si modelet përftojnë hipoteza vërtet të reja, ose ndërveprojnë me modalitete të shumta, duke përfshirë të dhëna video dhe sisteme reale eksperimentale në botën fizike.

Duke parë përpara, presim që përparimi në arsyetimin shkencor të vijë si nga sistemet më të mira të arsyetimit për qëllime të përgjithshme ashtu edhe nga përpjekjet e fokusuara për të përmirësuar aftësitë shkencore. FrontierScience është një mjet ndër shumë të tjerë, dhe ndërsa modelet përmirësohen, ne planifikojmë të përsërisim këtë pikë referimi, ta zgjerojmë atë në domenë të reja dhe ta kombinojmë me më shumë vlerësime të botës reale që tregojnë se çfarë këto sisteme në të vërtetë aktivizojnë shkencëtarët të bëjnë. Pikat e referencës si FrontierScience na ndihmojnë të kuptojmë dobësitë e sistemeve të sotme të AI-së për të përqendruar punën tonë në bërjen e modeleve partnerë të besueshëm në zbulimet shkencore.

Autor

OpenAI

Vazhdo të lexosh

Shiko të gjitha

GPT-Red: Çlirimi i përmirësimit automatik për qëndrueshmërinë

Siguria15 korr 2026

Ndarja e sinjalit nga zhurma në vlerësimet e kodimit

Kërkime8 korr 2026

Prezantimi i GeneBench-Pro

Kërkime30 qer 2026