16 Nollaig 2025

Measúnú ar chumas AI tascanna taighde eolaíochta a dhéanamh

Tugaimid isteach FrontierScience, tagarmharc nua a mheasann cumais AI do réasúnaíocht eolaíochta ar leibhéal saineolaithe trasna fisice, ceimice, agus bitheolaíochta.

Léigh an páipéar

Grafaic pháirteach le cúlra bog grádáin glas-buí, focal mór gearrtha ag tosú le “Fro…,” agus bloic chisealaithe téacs ar dheis a liostaíonn critéir athbhreithnithe mar “Fíorasach,” “Ingrádaithe,” “Oibiachtúil,” agus “Deacair.”

Ag lódáil…

Tá an réasúnaíocht i gcroílár na hoibre eolaíche. Seachas fíricí a thabhairt chun cuimhne, gineann eolaithe hipitéisí, déanann siad iad a thástáil agus a mhionchoigeartú, agus sintéisíonn siad smaointe thar réimsí éagsúla. De réir mar a éiríonn ár samhlacha níos cumasaí, is í an cheist lárnach ná conas is féidir leo réasúnú go domhain chun cur le taighde eolaíochta.

Le bliain anuas, tá garspriocanna móra bainte amach ag ár samhlacha, lena n-áirítear feidhmíocht ar leibhéal bonn óir a bhaint amach ag an International Math Olympiad agus an International Olympiad in Informatics. Ag an am céanna, táimid ag tosú ag feiceáil go bhfuil ár samhlacha is cumasaí, amhail GPT‑5, ag luasghéarú sreafaí oibre eolaíochta fíor ar bhealach suntasach. Tá taighdeoirí ag úsáid na gcóras seo do thascanna amhail cuardach litríochta trasna disciplíní agus teangacha agus obair ar chruthúnais chasta mhatamaiticiúla. I mórán cásanna, giorraíonn an tsamhail obair a d’fhéadfadh laethanta nó seachtainí a thógáil go cúpla uair an chloig. Tá an dul chun cinn seo doiciméadaithe inár bpáipéar Turgnaimh luatha ar luasghéarú eolaíochta le GPT‑5⁠, a eisíodh i mí na Samhna 2025, a chuireann fianaise luath i láthair gur féidir le GPT‑5 sreafaí oibre eolaíochta a luasghéarú go hinmheasartha.

FrontierScience á thabhairt isteach

Ós rud é gurb é luasghéarú an dul chun cinn eolaíochta ceann de na deiseanna is geallta atá ag AI chun tairbhe a dhéanamh don chine daonna, táimid ag feabhsú ár samhlacha ar thascanna deacra matamaitice agus eolaíochta agus ag obair ar na huirlisí a chabhróidh le heolaithe an tairbhe is mó a bhaint astu.

Nuair a eisíodh GPQA⁠(osclaíonn i bhfuinneog nua), tagarmharc eolaíochta “Google-Proof” de cheisteanna a scríobh saineolaithe PhD, i mí na Samhna 2023, scóráil GPT‑4 39%, faoi bhun bhunlíne na saineolaithe de 70%. Dhá bhliain ina dhiaidh sin, scóráil GPT‑5.2 92%. De réir mar a leanann cumais réasúnaíochta agus eolais na samhlacha de scálú, beidh tagarmharcanna níos deacra tábhachtach chun cumas na samhlacha taighde eolaíochta a luasghéarú a thomhas agus a thuar. Díríonn tagarmharcanna eolaíochta roimhe seo den chuid is mó ar cheisteanna ilrogha, tá siad sáithithe, nó níl siad dírithe go príomha ar an eolaíocht.

Chun an bhearna seo a líonadh, táimid ag tabhairt isteach FrontierScience: tagarmharc nua a tógadh chun cumais eolaíochta ar leibhéal saineolaithe a thomhas. Scríobhann agus fíoraíonn saineolaithe ar fud na fisice, na ceimice, agus na bitheolaíochta FrontierScience, agus tá sé comhdhéanta de na céadta ceist atá deartha le bheith deacair, bunaidh, agus bríoch. Áirítear le FrontierScience dhá rian ceisteanna: Oilimpiad, a thomhaiseann cumais réasúnaíochta eolaíochta i stíl Oilimpeaid, agus Taighde, a thomhaiseann cumais taighde eolaíochta sa saol fíor. Cuidíonn léargas níos fearr ar chumais eolaíochta na samhlacha linn dul chun cinn a rianú agus eolaíocht luathaithe ag AI a chur chun cinn.

Inár measúnuithe tosaigh, is é GPT‑5.2 an tsamhail is fearr feidhmíochta againn ar FrontierScience-Olympiad (ag scóráil 77%) agus ar Research (ag scóráil 25%), chun tosaigh ar shamhlacha teorainn eile. Tá dul chun cinn suntasach feicthe againn maidir le ceisteanna ar leibhéal saineolaithe a réiteach agus fós fágtha spás le haghaidh tuilleadh dul chun cinn, go háirithe ar thascanna oscailte i stíl taighde. D’eolaithe, tugann sé seo le fios gur féidir leis na samhlacha reatha codanna den taighde a thacaíonn le réasúnaíocht struchtúrtha cheana féin, agus ag an am céanna léirítear go bhfuil obair shuntasach fós le déanamh chun a gcumas smaointeoireacht oscailte a dhéanamh a fheabhsú. Tagann na torthaí seo leis an gcaoi a bhfuil eolaithe ag úsáid samhlacha an lae inniu cheana féin: chun sreafaí oibre taighde a luasghéarú agus iad ag brath ar bhreithiúnas daonna le haghaidh frámaithe fadhbanna agus bailíochtaithe, agus níos mó agus níos mó chun smaointe agus nascanna a iniúchadh a thógfadh i bhfad níos faide murach sin le nochtadh—lena n-áirítear, i gcásanna áirithe, léargais nua a chur leis a mheasann agus a thástálann saineolaithe ansin.

Sa deireadh, is é an tagarmharc is tábhachtaí do chumais eolaíochta AI na fionnachtana nua a chabhraíonn sé a ghiniúint; is iad sin a bhfuil tábhacht acu don eolaíocht agus don tsochaí ar deireadh thiar. Tá FrontierScience roimh sin sa slabhra. Tugann sé réalta thuaidh dúinn do réasúnaíocht eolaíochta ar leibhéal saineolaithe, rud a ligeann dúinn samhlacha a thástáil ar thacar caighdeánaithe ceisteanna, a fheiceáil cá n-éiríonn leo nó cá dteipeann orthu, agus a aithint cá bhfuil gá againn iad a fheabhsú. Tá FrontierScience cúng agus tá teorainneacha aige i bpríomhghnéithe áirithe (mar shampla, díriú ar fhadhbanna srianta a scríobh saineolaithe) agus ní ghabhann sé gach rud a dhéanann eolaithe ina gcuid oibre laethúla. Ach tá gá ag an réimse le tagarmharcanna eolaíochta níos deacra, níos bunaidh, agus níos bríomhaire, agus cuireann FrontierScience céim chun cinn ar fáil sa treo seo.

Cad a thomhaiseann FrontierScience agus conas a thógamar é

Cuimsíonn an mheastóireacht iomlán FrontierScience níos mó ná 700 ceist théacsúla (le 160 sa tacar órga) a chlúdaíonn fo-réimsí ar fud na fisice, na ceimice, agus na bitheolaíochta. Tá an tagarmharc comhdhéanta de scoilt Oilimpiad agus Taighde. Tá 100 ceist in FrontierScience-Olympiad a dhear buaiteoirí bonn in oilimpiadaí idirnáisiúnta chun measúnú a dhéanamh ar réasúnaíocht eolaíochta i bhformáid srianta freagra gairid. Dearadh an tacar Oilimpiad chun ceisteanna teoiriciúla a chuimsiú atá ar a laghad chomh deacair le fadhbanna i gcomórtais oilimpeacha idirnáisiúnta. Tá 60 fo-thasc taighde bunaidh in FrontierScience-Research a dhear eolaithe PhD (iarrthóirí dochtúireachta, ollúna, nó taighdeoirí iardhochtúireachta) agus a ghrádáiltear ag úsáid rúibric 10 bpointe. Cruthaíodh an tacar Taighde chun fo-thascanna féinchuimsitheacha, ilchéime a chuimsiú ar leibhéal deacrachta a d’fhéadfadh eolaí PhD teacht air le linn a thaighde.

Ceisteanna samplacha

B1 reacts with aqueous bromine (Br2) to form B2. B2 reacts with potassium nitrite (KNO2) to form B3. B3 is nitrated in nitric acid (HNO3) and sulfuric acid (H2SO4) to form B4.

B1 contains a monosubstituted aromatic 5-membered heterocycle and has a molar mass of 96.08 g/mol. It may be produced by dehydrating 5-carbon sugars (e.g. xylose) in an acid catalyst.
B2 has the molecular formula C4H2Br2O3 and contains a tetrasubstituted alkene with 2 substituents being bromines cis to each other.
B3 is a dipotassium salt with a molar mass of 269.27 g/mol. It contains 1 hydrogen.
B4 is an achiral pseudohalogen dimer with 2 carbons, no hydrogens and a molar mass of 300. g/mol.

When B4 decomposes in solution, it forms an intermediate B5 and 1 equivalent of dinitrogen tetroxide (N2O4) as a side product. Intermediate B5 can be trapped and detected as a Diels-Alder adduct.

Provide the structures of B1, B2, B3, B4, and B5 in the following format, "B1: X; B2: X; B3: X; B4: X; B5: X".

Is saineolaí fearainn i bhfisic, i gceimic, nó i mbitheolaíocht a scríobhann agus a fhíoraíonn gach tasc in FrontierScience. Don tacar Oilimpiad, bronnadh bonn ar gach saineolaí i gcomórtas oilimpeach idirnáisiúnta amháin ar a laghad (agus go minic i roinnt comórtas). Don tacar Taighde, tá céim PhD ábhartha ag gach saineolaí.

Cruthaíodh na ceisteanna Oilimpiad i gcomhar le 42 iarbhuaiteoir bonn idirnáisiúnta nó cóitseálaí foirne náisiúnta sna fearainn ábhartha, 109 mbonn oilimpeach san iomlán acu. Cruthaíodh na ceisteanna taighde i gcomhar le 45 eolaí cáilithe agus saineolaí fearainn. Ba iarrthóirí dochtúireachta, taighdeoirí iardhochtúireachta, nó ollúna iad na heolaithe go léir. Shín a réimsí saineolais thar raon disciplíní eolaíochta speisialaithe agus tábhachtacha, ó leictridinimic chandamach go ceimic orgánach shintéiseach go bitheolaíocht éabhlóideach.

Áiríodh i bpróiseas cruthaithe tascanna an dá thacar roinnt roghnúcháin i gcoinne samhlacha inmheánacha OpenAI (m.sh., tascanna a cuireadh ar leataobh ar éirigh leis na samhlacha iad a fhreagairt i gceart, mar sin táimid ag súil go mbeidh an mheastóireacht claonta go pointe i gcoinne na samhlacha seo i gcomparáid le cinn eile). Cuirimid an tacar órga Oilimpiad de 100 ceist agus an tacar órga Taighde de 60 ceist ar fáil mar fhoinse oscailte, agus coimeádaimid na ceisteanna eile siar chun truailliú a rianú.

Sreabhchairt a léiríonn ceithre chéim de phíblíne forbartha tascanna—Cruthú, Athbhreithniú, Réiteach, agus Athchóiriú—le cur síos gairid ar gach céim agus ticmharcanna do na critéir fhíorasach, ingrádaithe, oibiachtúil, agus deacair.

Téann tascanna trí cheithre chéim: Cruthú, Athbhreithniú, Réiteach, Athchóiriú. Déanann saineolaithe neamhspleácha athbhreithniú ar thascanna a chéile chun a fhíorú go bhfuil siad ag teacht leis na critéir.

Conas a ghrádaímid feidhmíocht samhlacha

Is féidir an tacar Oilimpiad a ghrádú le freagra gairid: bíodh sé le huimhir, slonn, nó meaitseáil doiléir teaghráin, rud a chuidíonn le cruinneas a fhíorú. Mar sin féin, is minic a dhéantar malartú leis an bhfíorú seo i gcoinne sainléiritheachta agus oscailteachta na faidhbe. Don tacar Taighde, tugaimid isteach ailtireacht bunaithe ar rúibric chun tascanna níos oscailte a ghrádú. Tá rúibric scórála i ngach ceist le míreanna iolracha neamhspleácha agus oibiachtúla inmheasúnaithe, 10 bpointe san iomlán. Déanann an rúibric ghrádaithe measúnú ní hamháin ar chruinneas an fhreagra dheiridh, ach freisin ar chruinneas na gcéimeanna idirmheánacha réasúnaíochta, rud a cheadaíonn anailís mhionsonraithe ar fheidhmíocht agus ar theipeanna na samhla. Meastar réiteach a bheith “ceart” má bhronntar 7/10 bpointe rúibrice ar a laghad air.

Déanann grádóir bunaithe ar shamhail (GPT‑5) freagraí a mheas i gcoinne an fhreagra ghairid nó na gcritéar rúibrice. Cé gurbh fhearr linn go hidéalach saineolaí daonna a úsáid chun gach freagra a ghrádú, níl an cur chuige sin inscálaithe, mar sin dhearamar an rúibric ionas gur féidir í a sheiceáil ag úsáid grádóra samhla. D’fhorbraíomar píblíne fíorúcháin chun cabhrú lena chinntiú go raibh rúibricí agus ceisteanna dea-chalabraithe ó thaobh deacrachta agus cruinnis de.

Sample chemistry research problem

Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.

Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.

Sample response

1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?

Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.

2. Effect on Electronic Structure and Aromaticity

π-Electron Count and Ring Currents

Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
Charge Distribution and Frontier Orbitals

Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.

3. Spectroscopic Consequences

UV-Vis Absorption (Q and B Bands)

The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).

Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
NMR Spectroscopy and Aromatic Ring Currents

Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.

More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.

4. Reactivity and Coordination Chemistry

Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:

Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.

(... shortened for the purposes of this figure)

Sample grading rubric

Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)

1.0 point: Correctly explains that traditional phthalocyanine synthesis involves one-step condensation with simultaneous formation of all meso-nitrogen bridges, providing limited control over substitution patterns at these positions.

0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.

0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.

Thiolate-Mediated Tetramerization Process (1 point)

1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.

0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.

0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.

Analysis of NMR Spectroscopic Features (1 point)

1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.

0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.

0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.

Electrochemical Property Analysis (1 point)

1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.

0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.

0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.

Analysis of Absorption Spectroscopy (1 point)

1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.

0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.

0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.

Reactivity Analysis of Antiaromatic System (1 point)

1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.

0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.

0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.

(... and more)

Déantar gach tasc sa tacar taighde a ghrádú ag úsáid rúibric 10 bpointe ar féidir le saineolaí nó le grádóir samhla í a úsáid. Chun ár gcumas samhlacha a mheas a inscálú, úsáidimid samhail eile chun freagraí a ghrádú.

Feidhmíocht samhlacha

Rinneamar measúnú ar roinnt samhlacha teorainn: GPT‑5.2, Claude Opus 4.5, agus Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, agus OpenAI o3 ar FrontierScience-Olympiad agus FrontierScience-Research. Rinneadh measúnú ar gach samhail réasúnaíochta ag leibhéal iarrachta réasúnaíochta “high” cé is moite de GPT‑5.2 ag “xhigh”. Inár measúnuithe tosaigh, is é GPT‑5.2 an tsamhail is fearr feidhmíochta againn ar FrontierScience-Olympiad (ag scóráil 77%) agus ar Research (ag scóráil 25%), chun tosaigh ar shamhlacha teorainn eile. Tá Gemini 3 Pro inchomparáide le GPT‑5.2 ar an tacar Oilimpiad (ag scóráil 76%).

Tá dul chun cinn suntasach feicthe againn maidir le ceisteanna ar leibhéal saineolaithe a réiteach, go háirithe ar thascanna oscailte i stíl taighde. Tá níos mó spáis fós le fás: ó anailís ar na tras-scríbhinní do theipeanna, rinne samhlacha teorainn botúin réasúnaíochta, loighce, agus ríofa uaireanta, níor thuig siad coincheapa eolaíochta nideoige, agus rinne siad míchruinneas fíorasach.

Déanaimid comparáid idir cruinneas roinnt samhlacha teorainn. Is é GPT‑5.2 an tsamhail is fearr feidhmíochta againn ar FrontierScience-Research agus ar an tacar Oilimpiad.

Déanaimid comparáid idir cruinneas thar iarrachtaí réasúnaíochta do GPT‑5.2 agus o3. Bíonn cruinneas níos fearr mar thoradh ar am smaointeoireachta níos faide.

Teorainneacha agus an chéad rud eile

Cé go léiríonn FrontierScience céim chun cinn i ndeacracht tagarmharcanna eolaíochta, tá go leor teorainneacha fós ann. Tá FrontierScience comhdhéanta de cheisteanna le ráiteas faidhbe srianta, a dhíríonn ar an bhfreagra deiridh a mheas (Oilimpiad) nó ar an réasúnaíocht chun tasc taighde a chur i gcrích a mheas (Taighde). Ina theannta sin, is lú oibiachtúlacht a bhaineann le húsáid rúibricí le comhpháirteanna iolracha ar thascanna níos faide ná mar a bhaineann le seiceáil an fhreagra dheiridh.

Tugann FrontierScience léargas níos mionsonraithe ar réasúnaíocht samhlacha ar cheisteanna deacra a scríobh saineolaithe, ach ní thugann sé pictiúr iomlán de conas a dhéantar eolaíocht i gcleachtas. Go háirithe, ní dhéanann sé measúnú ar chuid shuntasach den taighde eolaíochta: conas a ghineann samhlacha hipitéisí fíor-nua, nó conas a idirghníomhaíonn siad le módúlachtaí iolracha, lena n-áirítear sonraí físe agus córais turgnamhacha fhíora sa domhan fisiciúil.

Ag breathnú chun cinn, táimid ag súil go dtiocfaidh dul chun cinn sa réasúnaíocht eolaíochta ó chórais réasúnaíochta ghinearálta níos fearr agus ó iarracht dhírithe ar chumais eolaíochta a fheabhsú. Is uirlis amháin i measc go leor é FrontierScience, agus de réir mar a fheabhsaíonn samhlacha, tá sé beartaithe againn an tagarmharc seo a atriall, é a leathnú chuig fearainn nua, agus é a phéireáil le níos mó meastóireachtaí sa saol fíor a fhéachann ar a gcumasaíonn na córais seo eolaithe i ndáiríre a dhéanamh. Cabhraíonn tagarmharcanna cosúil le FrontierScience linn laigí chórais AI an lae inniu a thuiscint chun ár gcuid oibre a dhíriú ar shamhlacha a dhéanamh ina gcomhpháirtithe iontaofa i bhfionnachtain eolaíochta.

Údar

OpenAI

Lean ort ag léamh

Féach gach rud

GPT-Red: Féinfheabhsú don stóinseacht a scaoileadh

Sábháilteacht15 Iúil 2026

Comhartha a scaradh ó thorann i measúnuithe códaithe

Taighde8 Iúil 2026

Ag cur GeneBench-Pro i láthair

Taighde30 Meith 2026