AI-ийн шинжлэх ухааны судалгааны даалгавар гүйцэтгэх чадварыг үнэлэх нь
Бид физик, хими, биологийн хүрээнд AI-ийн мэргэжилтний түвшний шинжлэх ухааны сэтгэн бодох чадварыг үнэлдэг шинэ жишиг болох FrontierScience-ийг танилцуулж байна.

Сэтгэн бодох нь шинжлэх ухааны ажлын гол цөм юм. Баримтыг санахаас цааш, эрдэмтэд таамаглал дэвшүүлж, тэдгээрийг шалгаж, сайжруулан, салбар хоорондын санааг нэгтгэдэг. Манай загварууд илүү чадвартай болохын хэрээр шинжлэх ухааны судалгаанд хувь нэмэр оруулахын тулд тэд хэр гүнзгий сэтгэн бодож чадах вэ гэдэг нь төв асуулт болж байна.
Сүүлийн нэг жилийн хугацаанд манай загварууд Олон улсын математикийн олимпиад болон Олон улсын информатикийн олимпиадад алтан медалийн түвшний гүйцэтгэл үзүүлэх зэрэг томоохон амжилтад хүрсэн. Үүний зэрэгцээ GPT‑5 зэрэг хамгийн чадварлаг загварууд маань бодит шинжлэх ухааны ажлын урсгалыг мэдэгдэхүйц хурдасгаж эхэлж байгааг бид харж байна. Судлаачид эдгээр системийг салбар, хэл дамнасан ном зүйн хайлт хийх, мөн төвөгтэй математик баталгаануудыг боловсруулах зэрэг ажлуудад ашиглаж байна. Олон тохиолдолд загвар нь хэдэн өдөр, эсвэл долоо хоног шаардах байсан ажлыг хэдхэн цаг болгон богиносгодог. Энэ ахиц дэвшлийг 2025 оны 11-р сард нийтэлсэн, GPT‑5 шинжлэх ухааны ажлын урсгалыг хэмжигдэхүйц хурдасгаж чадна гэсэн эхний нотолгоог танилцуулсан манай GPT‑5‑тай хийсэн шинжлэх ухааны хурдатгалын эрт үеийн туршилтууд өгүүлэлд баримтжуулсан.
Шинжлэх ухааны ахицыг хурдасгах нь AI хүн төрөлхтөнд ашиг тусаа өгөх хамгийн ирээдүйтэй боломжуудын нэг учраас бид загваруудаа хэцүү математик, шинжлэх ухааны даалгаврууд дээр сайжруулж, эрдэмтдэд тэдгээрээс хамгийн ихийг авахад туслах хэрэгслүүд дээр ажиллаж байна.
PhD мэргэжилтнүүдийн бичсэн асуултуудаас бүрдсэн, “Google-Proof” шинжлэх ухааны жишиг болох GPQA(шинэ цонхонд нээгдэнэ) 2023 оны 11-р сард гарч ирэхэд GPT‑4 39% оноо авч, мэргэжилтний суурь түвшин болох 70%-аас доогуур байв. Хоёр жилийн дараа GPT‑5.2 92% авсан. Загваруудын сэтгэн бодох болон мэдлэгийн чадвар улам өргөжихийн хэрээр шинжлэх ухааны судалгааг хурдасгах чадварыг хэмжих, урьдчилан таамаглахад илүү хэцүү жишгүүд чухал болно. Өмнөх шинжлэх ухааны жишгүүд нь ихэвчлэн олон сонголттой асуултад төвлөрсөн, ханасан, эсвэл шинжлэх ухаанд төвлөрөөгүй байдаг.
Энэ хоосон зайг нөхөхийн тулд бид FrontierScience-ийг танилцуулж байна: мэргэжилтний түвшний шинжлэх ухааны чадварыг хэмжихээр бүтээгдсэн шинэ жишиг. FrontierScience-ийг физик, хими, биологийн мэргэжилтнүүд бичиж, баталгаажуулсан бөгөөд хэцүү, эх, утга учиртай байхаар зохиогдсон хэдэн зуун асуултаас бүрдэнэ. FrontierScience нь хоёр төрлийн асуулттай: Олимпиад нь олимпиадын хэв маягийн шинжлэх ухааны сэтгэн бодох чадварыг, Судалгаа нь бодит ертөнцийн шинжлэх ухааны судалгааны чадварыг хэмжинэ. Загваруудын шинжлэх ухааны чадварын талаар илүү их ойлголт өгөх нь бидэнд ахицыг хянаж, AI-гаар хурдасгасан шинжлэх ухааныг урагшлуулахад тусалдаг.
Бидний анхны үнэлгээнүүдэд GPT‑5.2 нь FrontierScience-Olympiad (77% оноо) болон Research (25% оноо) дээр бусад хил хязгаар загваруудаас түрүүлсэн хамгийн өндөр гүйцэтгэлтэй загвар байлаа. Мэргэжилтний түвшний асуултуудыг шийдэх тал дээр мэдэгдэхүйц ахиц гарсан ч, ялангуяа нээлттэй судалгааны хэв маягийн даалгаврууд дээр цааш ахих зай үлдсээр байна. Эрдэмтдийн хувьд энэ нь өнөөгийн загварууд бүтэцтэй сэтгэн бодох шаардлагатай судалгааны зарим хэсгийг аль хэдийн дэмжиж чадна гэдгийг харуулахын зэрэгцээ, нээлттэй сэтгэлгээг хэрэгжүүлэх чадварыг нь сайжруулахад ихээхэн ажил үлдсэнийг онцолж байна. Эдгээр үр дүн нь эрдэмтэд өнөөгийн загваруудыг хэрхэн ашиглаж байгаатай нийцэж байна: асуудлын хүрээг тогтоох, баталгаажуулахад хүний дүгнэлтэд түшиглэн судалгааны ажлын урсгалыг хурдасгахын тулд, мөн өөрөөр бол олж нээхэд илүү удаан хугацаа шаардах санаа, холбоосыг судлахын тулд улам бүр ашиглаж байна—зарим тохиолдолд мэргэжилтнүүд дараа нь үнэлж, туршдаг шинэ ойлголтод хувь нэмэр оруулан.
Эцсийн дүндээ AI-ийн шинжлэх ухааны чадварын хамгийн чухал жишиг бол түүний тусламжтайгаар бий болох шинэ нээлтүүд юм; шинжлэх ухаан, нийгэмд эцэстээ чухал нь тэр. FrontierScience үүнээс өмнөх шатанд байрладаг. Энэ нь мэргэжилтний түвшний шинжлэх ухааны сэтгэн бодох “чиг баримжаа” болж, загваруудыг стандартчилсан асуултын багц дээр турших, хаана амжилттай, хаана бүтэлгүйтэж байгааг харах, хаана сайжруулах хэрэгтэйг тодорхойлох боломж олгодог. FrontierScience нь явцуу бөгөөд чухал хэд хэдэн талаараа хязгаарлалттай (жишээлбэл, хязгаарлагдмал, мэргэжилтний бичсэн асуудлуудад төвлөрдөг) бөгөөд эрдэмтдийн өдөр тутмын ажилд хийдэг бүхнийг хамарч чаддаггүй. Гэхдээ энэ салбарт илүү хэцүү, эх, утга учиртай шинжлэх ухааны жишиг хэрэгтэй бөгөөд FrontierScience энэ чиглэлд нэг алхам урагшлуулж байна.
FrontierScience-ийн бүрэн үнэлгээ нь физик, хими, биологийн дэд салбаруудыг хамарсан 700 гаруй текстэн асуултаас (үүнээс 160 нь алтан багцад) бүрдэнэ. Энэхүү жишиг нь Олимпиад болон Судалгааны хуваалтаас бүрддэг. FrontierScience-Olympiad нь олон улсын олимпиадын медальтнуудын боловсруулсан, хязгаарлагдмал богино хариултын форматаар шинжлэх ухааны сэтгэн бодох чадварыг үнэлэхэд зориулагдсан 100 асуулт агуулна. Олимпиадын багцыг олон улсын олимпиадын тэмцээний бодлогуудаас дутахааргүй хэцүү онолын асуултуудтай байхаар зохиосон. FrontierScience-Research нь PhD зэрэгтэй эрдэмтдийн (докторын оюутан, профессор, эсвэл докторын дараах судлаачид) боловсруулсан, 10 онооны рубрикаар үнэлэгддэг 60 эх судалгааны дэд даалгавраас бүрдэнэ. Судалгааны багцыг PhD зэрэгтэй эрдэмтэн судалгааныхаа явцад тулгарч болох түвшний хэцүү, бие даасан, олон алхамт дэд даалгавруудыг агуулсан байхаар бүтээсэн.
FrontierScience дахь даалгавар бүрийг физик, хими эсвэл биологийн тухайн салбарын мэргэжилтэн бичиж, баталгаажуулдаг. Олимпиадын багцын хувьд бүх мэргэжилтэн дор хаяж нэг, ихэнхдээ хэд хэдэн олон улсын олимпиадаас медаль хүртсэн. Судалгааны багцын хувьд бүх мэргэжилтэн холбогдох PhD зэрэгтэй.
Олимпиадын асуултуудыг холбогдох салбаруудын 42 хуучин олон улсын медальтан эсвэл үндэсний шигшээ багийн дасгалжуулагчтай хамтран бүтээсэн бөгөөд нийт 109 олимпиадын медальтай байв. Судалгааны асуултуудыг 45 мэргэшсэн эрдэмтэн, салбарын мэргэжилтэнтэй хамтран бүтээсэн. Бүх эрдэмтэд докторын оюутан, докторын дараах судлаач, эсвэл профессор байв. Тэдний мэргэшлийн чиглэлүүд нь квант электродинамикаас синтетик органик хими, хувьслын биологи хүртэлх төрөл бүрийн нарийн мэргэшсэн, чухал шинжлэх ухааны салбарыг хамарч байв.
Хоёр багцын даалгавар бүтээх үйл явцад OpenAI-ийн дотоод загваруудын эсрэг тодорхой сонгон шалгаруулалт орсон (жишээ нь, загварууд амжилттай зөв хийсэн даалгавруудыг хассан тул энэ үнэлгээ бусадтай харьцуулахад эдгээр загваруудын эсрэг бага зэрэг хэлбийсэн байхыг бид хүлээж байна). Бид бохирдлыг хянахын тулд бусад асуултуудыг нууцлан, Олимпиадын 100 асуулттай алтан багц болон Судалгааны 60 асуулттай алтан багцыг нээлттэй эх болгодог.

Даалгаврууд Бүтээх, Хянах, Шийдвэрлэх, Засварлах гэсэн дөрвөн үе шатаар дамжина. Хараат бус мэргэжилтнүүд шалгуурт нийцэж байгаа эсэхийг баталгаажуулахын тулд бие биенийхээ даалгаврыг хянадаг.
Олимпиадын багцыг тоо, илэрхийлэл, эсвэл бүдэг мөрийн тааруулалтаар богино хариултаар үнэлж болдог бөгөөд энэ нь зөв эсэхийг баталгаажуулахад тусалдаг. Гэвч энэ баталгаажуулалт нь ихэвчлэн асуудлын илэрхийлэх чадвар, нээлттэй байдлын эсрэг солилцоо үүсгэдэг. Судалгааны багцын хувьд бид илүү нээлттэй даалгавруудыг үнэлэх рубрикт суурилсан архитектурыг танилцуулж байна. Асуулт бүр олон бие даасан, объективоор үнэлж болох зүйлтэй онооны рубрик агуулдаг бөгөөд нийт 10 оноотой. Үнэлгээний рубрик нь зөвхөн эцсийн хариултын нарийвчлалыг бус, мөн дундын сэтгэн бодох алхмуудын зөв эсэхийг үнэлдэг тул загварын гүйцэтгэл болон алдааны нарийн шинжилгээ хийх боломж олгодог. Хэрэв шийдэл нь рубрикийн дор хаяж 7/10 оноо авбал “зөв” гэж үзнэ.
Хариултуудыг богино хариулт эсвэл рубрикийн шалгуурын эсрэг загварт суурилсан үнэлэгч (GPT‑5) үнэлдэг. Идеал хувилбарт бид хариулт бүрийг хүний мэргэжилтнээр үнэлүүлэхийг хүсэх ч энэ арга нь өргөтгөх боломжгүй тул рубрикийг загвар үнэлэгч ашиглан шалгаж болохоор бид зохиосон. Бид рубрик, асуултуудын хэцүү байдал болон зөв байдлыг сайн тохируулсан эсэхийг баталгаажуулахад туслах шалгах шугамыг боловсруулсан.
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
Амжилтгүй 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
Дамжуулах 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
Дамжуулах 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
Дамжуулах 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
Амжилтгүй 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
Судалгааны багц дахь даалгавар бүрийг нийт 10 оноотой, мэргэжилтэн эсвэл загвар үнэлэгч ашиглаж болох рубрикаар үнэлдэг. Загваруудыг үнэлэх чадвараа өргөтгөхийн тулд бид хариултуудыг үнэлэхэд өөр нэг загвар ашигладаг.
Бид FrontierScience-Olympiad болон FrontierScience-Research дээр GPT‑5.2, Claude Opus 4.5, Gemini 3 Pro, GPT‑4o, OpenAI o4-mini, OpenAI o3 зэрэг хэд хэдэн хил хязгаар загварыг үнэлсэн. Бүх сэтгэн бодох загваруудыг “high” сэтгэн бодох хүчин чармайлтаар, харин GPT‑5.2‑ыг “xhigh” дээр үнэлсэн. Бидний анхны үнэлгээнүүдэд GPT‑5.2 нь FrontierScience-Olympiad (77% оноо) болон Research (25% оноо) дээр бусад хил хязгаар загваруудаас түрүүлсэн хамгийн өндөр гүйцэтгэлтэй загвар байв. Gemini 3 Pro нь Олимпиадын багц дээр GPT‑5.2‑той ойролцоо (76% оноо) үзүүлэлттэй.
Ялангуяа нээлттэй судалгааны хэв маягийн даалгаврууд дээр мэргэжилтний түвшний асуултуудыг шийдэхэд мэдэгдэхүйц ахиц гарсныг бид харсан. Гэсэн ч өсөх зай байсаар байна: бүтэлгүйтлийн бичлэгүүдийг шинжлэхэд хил хязгаар загварууд заримдаа сэтгэн бодох, логик, тооцооллын алдаа гаргаж, нарийн мэргэшсэн шинжлэх ухааны ойлголтуудыг ойлгоогүй, мөн бодит алдаанууд гаргасан.
Бид хэд хэдэн хил хязгаар загварын нарийвчлалыг харьцуулдаг. GPT‑5.2 нь FrontierScience-Research болон Олимпиадын багц дээр хамгийн өндөр гүйцэтгэлтэй манай загвар юм.
Бид GPT‑5.2 болон o3‑ын сэтгэн бодох хүчин чармайлтын дагуух нарийвчлалыг харьцуулдаг. Илүү урт хугацаанд бодох нь нарийвчлалыг сайжруулдаг.
FrontierScience нь шинжлэх ухааны жишгүүдийн хэцүү байдлыг нэг шат ахиулж байгаа ч олон хязгаарлалт байсаар байна. FrontierScience нь хязгаарлагдмал асуудлын томьёолол бүхий асуултуудаас бүрдэх бөгөөд энэ нь эцсийн хариултыг (Олимпиад) эсвэл судалгааны даалгаврыг гүйцээх сэтгэн бодох үйл явцыг (Судалгаа) үнэлэхэд төвлөрдөг. Үүнээс гадна урт даалгавруудад олон бүрэлдэхүүнтэй рубрик ашиглах нь эцсийн хариултыг шалгахаас бага объектив байдаг.
FrontierScience нь загваруудын хэцүү, мэргэжилтний бичсэн асуултууд дээрх сэтгэн бодох чадварын илүү өндөр нягтралтай агшныг өгдөг ч шинжлэх ухаан практикт хэрхэн хийгддэгийн бүрэн дүр зургийг өгдөггүй. Тодруулбал, шинжлэх ухааны судалгааны чухал хэсгийг үнэлдэггүй: загварууд үнэхээр шинэ таамаглал хэрхэн гаргадаг, эсвэл видео өгөгдөл болон бодит дэлхийн туршилтын системүүд зэрэг олон төрлийн горимтой хэрхэн харилцдагийг.
Цаашид бид шинжлэх ухааны сэтгэн бодох ахиц нь ерөнхий зориулалтын илүү сайн сэтгэн бодох системүүд болон шинжлэх ухааны чадварыг сайжруулахад чиглэсэн төвлөрсөн хүчин чармайлтаас хоёулангаас нь гарна гэж үзэж байна. FrontierScience нь олон хэрэгслийн нэг бөгөөд загварууд сайжрахын хэрээр бид энэ жишгийг давтан сайжруулж, шинэ салбаруудад өргөжүүлж, эдгээр системүүд эрдэмтдэд бодитоор юу хийх боломж олгож байгааг хардаг илүү бодит үнэлгээнүүдтэй хослуулах төлөвлөгөөтэй байна. FrontierScience шиг жишгүүд нь өнөөгийн AI системүүдийн сул талыг ойлгоход тусалж, шинжлэх ухааны нээлтэд загваруудыг найдвартай түнш болгоход чиглэсэн ажлаа төвлөрүүлэх боломж олгодог.


