የሳይንሳዊ ምርምር ተግባራትን የማከናወን የአዕምሮ ህክምና ሰው ሠራሽ አስተውሎት (AI) ችሎታ መገምገም
በፊዚክስ፣ በኬሚስትሪ እና በባዮሎጂ ውስጥ በባለሙያ ደረጃ ሳይንሳዊ አመክንዮ ላይ የሰው ሠራሽ አስተውሎት (AI) ችሎታዎችን የሚገመግም አዲስ መለኪያ የሆነውን FrontierScienceን እናስተዋውቃለን።

ማመዛዘን በሳይንሳዊ ሥራ ማህበረሰብ ውስጥ ዋነኛ ነገር ነው። ሳይንቲስቶች እውነታዎችን ከማስታወስ ባለፈ መላምቶችን ያመነጫሉ፣ ይፈትኗቸዋል፣ ያሻሽሏቸዋል፣ እና በተለያዩ ዘርፎች ሀሳቦችን ያመነጫሉ። ሞዴሎቻችን የበለጠ ብቃት ሲያገኙ የሚቀር ዋነኛ ጥያቄ እነሱ እንዴት በጥልቅ አመዛዝን ማድረግ እንደሚችሉ እና ለሳይንሳዊ ምርምር እንዴት እንደሚያስተዋውቁ ነው።
ባለፈው ዓመት፣ ሞዴሎቻችን በዓለም አቀፍ የሂሳብ ኦሊምፒያድ እና በዓለም አቀፍ ኦሊምፒያድ በኢንፎርማቲክስ የወርቅ ሜዳሊያ አፈፃፀምን ጨምሮ ዋና ዋና ደረጃዎችን አሳክተዋል። በተመሳሳይ መልኩ፣ እንደ GPT‑5 ያሉ በጣም ብቃት ያላቸው ሞዴሎቻችን እውነተኛ ሳይንሳዊ የሥራ ፍሰቶችን ትርጉም ባለው መልኩ ማፋጠን ጀምረናል። ተመራማሪዎች እነዚህን ስርዓቶች እንደ ሥነ ጽሑፍ ፍለጋ ባሉ ዘርፎችና ቋንቋዎች እንዲሁም ውስብስብ የሂሳብ ማስረጃዎችን በመጠቀም ለመሳሰሉ ተግባራት እየተጠቀሙባቸው ነው። በብዙ አጋጣሚዎች፣ ሞዴሉ ቀናትን፣ ሳምንታትን እና ሰዓታትን የሚወስድ ሥራን ያሳጥራል። ይህ እድገት በኖቬምበር እ.ኤ.አ 2025 በወጣው የGPT‑5 የመጀመሪያ የሳይንስ ማጣደፊያ ሙከራዎች ላይ ተመዝግቧል፣ ይህም GPT‑5 የሳይንሳዊ የሥራ ፍሰቶችን በተመጣጣኝ ሁኔታ ማፋጠን እንደሚችል የሚያሳይ የመጀመሪያ ማስረጃ ያቀርባል።
የሳይንስ እድገትን ማፋጠን የሰው ልጅን የሚጠቅም እጅግ ተስፋ ሰጪ ከሆኑ የአዕምሮ ህክምና ሰው ሠራሽ አስተውሎት (AI) እድሎች አንዱ ስለሆነ፣ አስቸጋሪ የሂሳብ እና የሳይንስ ሥራዎችን በተመለከተ ሞዴሎቻችንን እያሻሻልን እና ሳይንቲስቶች ከፍተኛውን ጥቅም እንዲያገኙ የሚረዱ መሳሪያዎችን እየሠራን ነው።
በዶክትሬት ባለሙያዎች የተጻፉ የጥያቄዎች መለኪያ የሆነው «ጉግል-ፕሮፍ» የሳይንስ መለኪያ የሆነው GPQA(በአዲስ መስኮት ውስጥ ይክፈታል) በኖቬምበር እ.ኤ.አ 2023 ሲወጣ፣ GPT‑4 ከባለሙያዎች መነሻ 70% በታች 39% ውጤት አስመዝግቧል። ከሁለት ዓመት በኋላ፣ GPT‑5.2 92% ውጤት አስመዝግቧል። የሞዴሎች የማመዛዘን እና የእውቀት ችሎታዎች መስፋፋታቸውን ሲቀጥሉ፣ የሞዴሎች ሳይንሳዊ ምርምርን ለማፋጠን ያላቸውን አቅም ለመለካት እና ለመተንበይ የበለጠ አስቸጋሪ መለኪያዎች አስፈላጊ ይሆናሉ። ቀደም ሲል የተደረጉ ሳይንሳዊ መለኪያዎች በአብዛኛው የሚያተኩሩት በብዙ ምርጫ ጥያቄዎች ላይ ነው፣ የተሞሉ ወይም ማዕከላዊ በሆነ ሳይንስ ላይ ያተኮሩ አይደሉም።
ይህንን ክፍተት ለማስተካከል፣ FrontierScienceን እያስተዋወቅን ነው፦ ይህም በባለሙያ ደረጃ ሳይንሳዊ ችሎታዎችን ለመለካት የተገነባ አዲስ መለኪያ ነው። FrontierScience በፊዚክስ፣ በኬሚስትሪ እና በባዮሎጂ ባለሙያዎች የተጻፈ እና የተረጋገጠ ሲሆን አስቸጋሪ፣ ኦሪጅናል እና ትርጉም ያላቸው እንዲሆኑ የተነደፉ በመቶዎች የሚቆጠሩ ጥያቄዎችን ያካትታል። FrontierScience ሁለት የጥያቄ ዱካዎችን ያካትታል፦ እነሱም የኦሊምፒያድ አይነት ሳይንሳዊ የማመዛዘን ችሎታዎችን የሚለካው ኦሊምፒያድ፣ እና የእውነተኛ ዓለም ሳይንሳዊ የምርምር ችሎታዎችን የሚለካው ሪሰርች ናቸው። ስለ ሞዴሎቹ ሳይንሳዊ አቅም የበለጠ ግንዛቤ መስጠት እድገትን ለመከታተል እና በሰው ሠራሽ አስተውሎት (AI) የተፋጠነ ሳይንስን ለማራመድ ይረዳናል።
በመጀመሪያ ግምገማዎቻችን፣ GPT‑5.2 በFrontierScience-Olympiad (77%) እና በምርምር (25%) ከፍተኛ አፈጻጸም ያለው ሞዴላችን ሲሆን ከሌሎች የፍሮንቲር ሞዴሎች በልጧል። በባለሙያ ደረጃ ጥያቄዎች መፍታት ላይ አስፈላጊ እድገት እንደረስን ሲሆን፣ በተለይም በክፍት ዓይነት የምርምር ተግባሮች ላይ ተጨማሪ እድገት ለማድረግ ቦታ እንዳለ ተመልክቷል። ለሳይንቲስቶች፣ ይህ የሚያሳየው አሁን ያሉት ሞዴሎች የተዋቀሩ አመክንዮዎችን የሚያካትቱ የምርምር ክፍሎችን አስቀድመው ሊደግፉ እንደሚችሉ ሲሆን፣ ክፍት የሆነ አስተሳሰብን የማከናወን ችሎታቸውን ለማሻሻል ጉልህ የሆነ ሥራ እንደቀረው ያጎላል። እነዚህ ውጤቶች ከዚህ በፊት ተመራማሪዎች የሚጠቀሙባቸውን ሞዴሎች ጋር ይዛመዳሉ፦ ምርምር ሥርዓቶችን ማፋጠን ለማድረግ እና ለችግሮች መስመር እና ማረጋገጥ ሰው ስሜት ላይ ተመርከበን ሳለ፣ እንዲሁም በአንዳንድ ጉዳዮች ውስጥ አዲስ ግንዛቤዎችን ማስተዋል የሚያስችል ሀሳቦችን እና ግንኙነቶችን ማሰስ የሚያስችል ሲሆን በሌላ መንገድ ብዙ ጊዜ የሚወስድ ነበር።
በመጨረሻም፣ ለሳይንስ ሰው ሠራሽ አስተውሎት (AI) ሳይንሳዊ አቅም በጣም አስፈላጊው መለኪያ ለማመንጨት የሚያግዘው አዳዲስ ግኝቶች ናቸው፤ እነዚህ ግኝቶች ለሳይንስና ለኅብረተሰብ በጣም አስፈላጊ ናቸው። FrontierScience ከዚያ በላይ ይገኛል። በባለሙያ ደረጃ ሳይንሳዊ ማመዛዘን ላይ የሰሜን ኮከብ ይሰጠናል፣ ሞዴሎችን በመደበኛ የጥያቄዎች ስብስብ ላይ እንድንፈትሽ፣ የት እንደሚሳኩ ወይም እንደማይሳኩ እንድናይ እና የት ማሻሻል እንዳለብን እንድንለይ ያስችለናል። FrontierScience ጠባብ እና በዋና ዋና ጉዳዮች ላይ ገደቦች አሉት (ለምሳሌ፣ በተገደቡ፣ በባለሙያዎች የተጻፉ ችግሮች ላይ ማተኮር) እና ሳይንቲስቶች በዕለት ተዕለት ሥራቸው የሚያደርጉትን ሁሉ አይዘረዝርም። ነገር ግን መስኩ የበለጠ አስቸጋሪ፣ ኦሪጅናል እና ትርጉም ያለው የሳይንስ መለኪያዎችን ይፈልጋል፣ እናም FrontierScience በዚህ አቅጣጫ ወደፊት አንድ እርምጃን ያቀርባል።
ሙሉው የFrontierScience ግምገማ ከ700 በላይ የጽሑፍ ጥያቄዎችን (በወርቅ ስብስብ ውስጥ 160 የሚሆኑት) በፊዚክስ፣ በኬሚስትሪ እና በባዮሎጂ ውስጥ ንዑስ መስኮችን ይሸፍናል። መለኪያው ኦሊምፒያድ እና የምርምር ክፍፍልን ያካትታል። FrontierScience-Olympiad ሳይንሳዊ ማመዛዘንን በተገደበ እና አጭር መልስ ቅርጸት ለመገምገም በዓለም አቀፍ የኦሊምፒያድ ሜዳሊያ አሸናፊዎች የተነደፉ 100 ጥያቄዎችን ይዟል። የኦሊምፒያድ ስብስብ የተዘጋጀው ቢያንስ በዓለም አቀፍ የኦሊምፒያድ ውድድሮች ላይ እንደታዩት ችግሮች አስቸጋሪ የሆኑ የቲዎሬቲካል ጥያቄዎችን ለማካተት ነው። FrontierScience-Research በዶክትሬት ሳይንቲስቶች (የዶክትሬት እጩዎች፣ ፕሮፌሰሮች ወይም የድህረ ዶክትሬት ተመራማሪዎች) የተነደፉ 60 የመጀመሪያ የምርምር ንዑስ ተግባራትን ያቀፈ ሲሆን እነዚህም በ10-ነጥብ መመሪያ መሰረት ደረጃ ተሰጥቷቸዋል። የምርምር ስብስቡ የተፈጠረው አንድ የዶክትሬት ሳይንቲስት በምርምር ወቅት ሊያጋጥመው በሚችለው የችግር ደረጃ ላይ ራሳቸውን የቻሉ፣ ባለብዙ ደረጃ ንዑስ ተግባራትን እንዲይዝ ነው።
በFrontierScience ውስጥ ያለው እያንዳንዱ ተግባር የተጻፈው እና የተረጋገጠው በፊዚክስ፣ በኬሚስትሪ፣ ወይም በባዮሎጂ የጎራ ባለሙያ ነው። ለኦሊምፒያድ ስብስብ፣ ሁሉም ባለሙያዎች ቢያንስ በአንድ (እና ብዙ ጊዜ በበርካታ) ዓለም አቀፍ የኦሊምፒያድ ውድድሮች ሜዳሊያ ተሸልመዋል። ለምርምር ቡድኑ፣ ሁሉም ባለሙያዎች ተዛማጅ የሆነ የPhD ዲግሪ አላቸው።
የኦሎምፒያድ ጥያቄዎች በተዛማጅ ጎራዎች ውስጥ ከ42 የቀድሞ አለም አቀፍ ሜዳሊያ አሸናፊዎች ወይም የብሄራዊ ቡድን አሰልጣኞች ጋር በመተባበር በድምሩ 109 የኦሎምፒያድ ሜዳሊያዎችን አግኝተዋል። የምርምር ጥያቄዎቹ የተፈጠሩት ከ45 ብቁ ሳይንቲስቶችና ከጎራ ባለሙያዎች ጋር በመተባበር ነው። ሁሉም ሳይንቲስቶች የዶክትሬት እጩዎች፣ የድህረ-ዶክትሬት ተመራማሪዎች ወይም ፕሮፌሰሮች ነበሩ። የልምድ ልምዳቸው ከኳንተም ኤሌክትሮዳይናሚክስ እስከ ሰው ሠራሽ ኦርጋኒክ ኬሚስትሪ እስከ ዝግመተ ለውጥ ባዮሎጂ ድረስ የተለያዩ ልዩ እና አስፈላጊ የሳይንስ ዘርፎችን ያካተተ ነበር።
የሁለቱም ስብስቦች የተግባር ፈጠራ ሂደት ከOpenAI ውስጣዊ ሞዴሎች ጋር ሲነጻጸር የተወሰነ ምርጫን ያካትታል (ለምሳሌ፣ ሞዴሎቹ በትክክል ያገኟቸውን ተግባራት ማስወገድ፣ ስለዚህ ግምገማው ከእነዚህ ሞዴሎች ጋር ሲነጻጸር በተወሰነ መልኩ አድልዎ እንደሚፈጥር እንጠብቃለን)። የኦሊምፒያድ የወርቅ ስብስብን 100 ጥያቄዎችን ክፍት ምንጭ እናደርጋለን እና የ60 ጥያቄዎችን የወርቅ ስብስብ እንመረምራለን፣ ብክለትን ለመከታተል ሌሎች ጥያቄዎችን እናቀርባለን።

ተግባራት በአራት ደረጃዎች ያልፋሉ፦ ፈጠራ፣ ግምገማ፣ ጥራት እና ክለሳ። ገለልተኛ ባለሙያዎች እርስ በእርሳቸው የሚገመገሙትን ተግባራት ከመመዘኛዎቹ ጋር የሚጣጣም መሆኑን ለማረጋገጥ ነው።
የኦሊምፒያድ ስብስብ በአጭር መልስ ሊስተካከል ይችላል፦ በቁጥር፣ በገለፃ ወይም በድብቅ የክር ግጥሚያ፣ ይህም ትክክለኛነትን ለማረጋገጥ ይረዳል። ይሁን እንጂ፣ ይህ ማረጋገጫ ብዙውን ጊዜ ከችግሩ ግልጽነት እና ክፍትነት ጋር ይለዋወጣል። ለምርምር ስብስብ፣ ተጨማሪ ክፍት የሆኑ ተግባራትን ደረጃ ለመስጠት በራሪ ጽሑፍ ላይ የተመሠረተ አርክቴክቸር እናስተዋውቃለን። እያንዳንዱ ጥያቄ ከ10 ነጥቦች የተደረገ የማረጋገጫ መርህ እና በተለያዩ እና በተመሳሳይ ሁኔታ የሚመዘነው ዕቃ ይካተታል። የደረጃ አሰጣጥ ረቂቅ የመጨረሻውን መልስ ትክክለኛነት ብቻ ሳይሆን የመካከለኛ የማመዛዘን ደረጃዎችን ትክክለኛነትም ይገመግማል፣ ይህም የተራቀቀ የሞዴል አፈጻጸም እና የውድቀት ትንተና ያስችላል። አንድ መፍትሔ ቢያንስ 7/10 የሩብሪክ ነጥቦች ከተሰጡ «ትክክል» እንደሆነ ይቆጠራል።
ምላሾች የሚገመገሙት በሞዴል ላይ በተመሠረተ ግሬደር (GPT‑5) ሲሆን አጭር መልስ ወይም የሪብል መስፈርትን ከግምት ውስጥ በማስገባት ነው። እያንዳንዱን ምላሽ ደረጃ ለመስጠት ባለሙያ ሰው መጠቀም ቢመረጥም፣ ይህ አካሄድ ሊሰፋ የሚችል አይደለም፣ ስለዚህ የርዕሰ ጉዳዩን ሞዴል ግሬደር በመጠቀም ማረጋገጥ የሚቻል እንዲሆን አድርገነዋል። እኛ መርህና ጥያቄዎች በተገቢነት እንዲሰናዳ ለማረጋገጥ የሚረዳ የማረጋገጥ መስመር አንድ አበጃጅተናል።
Sample chemistry research problem
Phthalocyanines are important macrocyclic compounds widely utilized in material and life sciences due to their outstanding physicochemical properties, including intense absorption in the visible-near-IR region and high electron-accepting ability. However, unlike porphyrins, the structural diversity of phthalocyanines has been limited by traditional synthetic methods that rely on one-step condensation of isoindoline units. The development of methodologies that allow controlled modification of the phthalocyanine framework, particularly at the meso-positions, represents a significant advancement in expanding the structural and electronic diversity of these compounds.
Analyze how the modification of meso-nitrogen atoms in nickel(II) phthalocyanine affects the electronic structure, aromaticity, spectroscopic properties, and reactivity of the resulting macrocycles. Explain the synthetic methodology that enables these modifications, the relationship between π-electron count and observed properties, and how these systems compare to traditional phthalocyanines and related porphyrinoids.
Sample response
1. Introduction: Why Modify the meso-Nitrogens of Phthalocyanines?
Phthalocyanines (Pc) are a class of macrocyclic dyes known for their remarkable chemical, electronic, and optical properties. Their widespread use in materials science, catalysis, and biology stems from strong absorptions in the visible/near-IR regions, exceptional redox characteristics (i.e., high electron affinity), and rigid π-conjugation. Traditional synthetic methods, however, typically form the macrocycle in a single step from phthalonitrile or isoindoline precursors, restricting the ability to introduce substitutions selectively at key ring positions-especially the "meso" (bridging) nitrogens. Recently, methodologies allowing targeted modification of the meso-nitrogen atoms in Ni(II) phthalocyanines have emerged as a powerful means to expand the structural and electronic diversity of these macrocycles.
2. Effect on Electronic Structure and Aromaticity
-
π-Electron Count and Ring Currents
Phthalocyanines are classical 18-electron aromatic systems, conferring high stability and planarity. Altering the meso-nitrogens through substitution or ring expansion can shift the effective π-electron count. For example, introducing additional unsaturated moieties or heteroatoms may expand the cyclic conjugation to 20 or 22 electrons, moving the molecule between Hückel aromaticity and other regimes that affect ring currents and magnetic properties.
-
Charge Distribution and Frontier Orbitals
Meso-substitution can tune the electron density distribution around the macrocycle. Electron-donating groups can push electron density toward the ring center, lowering the energy of the lowest unoccupied molecular orbital (LUMO). Electron-withdrawing groups, conversely, stabilize the highest occupied molecular orbital (HOMO) and shift redox potentials toward more positive values, altering both the electrochemical profile and the Q- and B-band positions in the UV-vis spectrum.
3. Spectroscopic Consequences
-
UV-Vis Absorption (Q and B Bands)
The principal absorption features of phthalocyanines lie in the visible (Q-band, typically 600-700 nm) and near-UV (B-band, typically 300-400 nm).
Substitution that expands the ring conjugation or introduces strong electron-donating/withdrawing groups can:
- Shift the Q-band to longer wavelengths (bathochromic shift), reaching into the near-IR, which is highly desirable for optoelectronic and photodynamic applications.
- Alter relative intensities of these bands and merge or split them, reflecting changes in orbital symmetries and energies.
-
NMR Spectroscopy and Aromatic Ring Currents
Modifications to the π-electron count and distribution are directly observed in 1H and 13C NMR chemical shifts.
More highly conjugated (or expanded) aromatic rings exhibit distinct downfield shifts for protons located within induced ring currents, while any partial loss of aromaticity or incorporation of antiaromatic segments can cause atypical shielding/deshielding patterns.
4. Reactivity and Coordination Chemistry
Because phthalocyanines are often used as redox catalysts or sensors, the meso-nitrogen modifications can significantly influence reactivity:
- Electron-rich meso substituents facilitate nucleophilic or electrophilic attacks at the ring periphery, enabling site-selective functionalizations that are otherwise difficult.
(... shortened for the purposes of this figure)
Sample grading rubric
Analysis of Traditional Phthalocyanine Synthesis Limitations (1 point)
0.5 point: Mentions limitations of traditional methods but without specific focus on meso-position control challenges.
0.0 point: Fails to identify key limitations of traditional synthetic approaches or provides incorrect analysis.
Thiolate-Mediated Tetramerization Process (1 point)
1.0 point: Correctly describes the thiolate-mediated reductive tetramerization and explains how counter cation size (K+ or Cs+ vs. Na+) affects selectivity between tetramer formation and direct macrocyclization.
0.5 point: Mentions thiolate-mediated tetramerization but without explaining factors controlling selectivity.
ወድቋል 0.0 point: Incorrectly describes the oligomerization process or omits critical details about selectivity control.Analysis of NMR Spectroscopic Features (1 point)
1.0 point: Correctly explains that upfield shifts in the 16π system indicate paratropic ring current (antiaromaticity), contrasts this with the broad signals in 17π systems due to paramagnetism, and connects these observations to the underlying electronic structures.
አልፈዋል 0.5 point: Identifies basic NMR patterns but without clear connection to ring currents or electronic structure.0.0 point: Incorrectly interprets NMR data or fails to connect spectral features to electronic properties.
Electrochemical Property Analysis (1 point)
1.0 point: Correctly explains that the 16π system shows two reversible reductions reflecting conversion to 17π radical and 18π aromatic states, while 17π systems show narrow redox gaps due to facile interconversion between 16π, 17π, and 18π states, and relates these patterns to the underlying electronic structures.
አልፈዋል 0.5 point: Describes redox patterns without clearly connecting them to specific electronic state changes.0.0 point: Incorrectly interprets electrochemical data or fails to connect redox behavior to electronic properties.
Analysis of Absorption Spectroscopy (1 point)
1.0 point: Correctly explains that the 16π system shows weak/broad absorption due to symmetry-forbidden HOMO-LUMO transitions in antiaromatic systems, while 17π systems show Q-like bands plus NIR-II absorptions characteristic of radical species, and contrasts these with typical phthalocyanine spectral features.
አልፈዋል 0.5 point: Describes absorption features but provides limited connection to underlying electronic structures.0.0 point: Incorrectly interprets absorption data or fails to relate spectral features to electronic properties.
Reactivity Analysis of Antiaromatic System (1 point)
1.0 point: Correctly explains the high reactivity of the 16π system toward nucleophiles, details specific reactions with hydroxide (ring opening) and hydrazine (ring expansion), and explains how these transformations relieve antiaromatic destabilization.
0.5 point: Mentions reactivity but provides limited analysis of specific transformations or the driving forces behind them.
ወድቋል 0.0 point: Incorrectly analyzes reactivity patterns or fails to connect them to the antiaromatic character of the 16π system.(... and more)
በምርምር ስብስቡ ውስጥ ያለው እያንዳንዱ ተግባር በባለሙያ ወይም በሞዴል ደረጃ ሰጪ ሊጠቀምበት በሚችል 10 ነጥቦች አጠቃላይ ዝርዝር በመጠቀም ደረጃ ይሰጠዋል። ሞዴሎችን የመገምገም ችሎታችንን ለማሳደግ፣ ምላሾችን ደረጃ ለመስጠት ሌላ ሞዴል እንጠቀማለን።
በርካታ የድንበር ሞዴሎችን ገምግመናል፦ GPT‑5.2፣ Claude Opus 4.5፣ እና Gemini 3 Pro፣ GPT‑4o፣ OpenAI o4-mini፣ እና OpenAI o3 በFrontierScience-Olympiad እና FrontierScience-ምርምር ላይ። ሁሉም የማመዛዘን ሞዴሎች «በxhigh» ላይ ከGPT‑5.2 በስተቀር «በከፍተኛ» የማመዛዘን ጥረት ተገምግመዋል። በመጀመሪያ ግምገማዎቻችን፣ GPT‑5.2 በFrontierScience-Olympiad (77%) እና በምርምር (25%) ከፍተኛ አፈጻጸም ያለው ሞዴላችን ሲሆን ከሌሎች የፍሮንቲር ሞዴሎች በልጧል። Gemini 3 Pro በኦሊምፒያድ ስብስብ ላይ ከGPT‑5.2 ጋር ተመሳሳይ ነው (76% ውጤት አስመዝግቧል)።
በተለይም ክፍት በሆኑ የምርምር ተግባሮች ላይ በባለሙያ ደረጃ ጥያቄዎችን በመፍታት ረገድ ከፍተኛ እድገት አይተናል። ለማደግ አሁንም ተጨማሪ ቦታ አለ፦ የውድቀቶችን ግልባጭ ከመተንተን ጀምሮ፣ የድንበር ሞዴሎች አንዳንድ ጊዜ የማመዛዘን፣ የሎጂክ እና የስሌት ስህተቶችን ያደርጋሉ፣ ልዩ ሳይንሳዊ ፅንሰ ሀሳቦችን አይረዱም እና የእውነታ ስህተቶችን ያደርጉ ነበር።
ትክክለኛነትን በበርካታ የድንበር ሞዴሎች ላይ እናነፃፅራለን። GPT‑5.2 በFrontaryScience-ምርምር እና በኦሊምፒያድ ስብስብ ላይ ከፍተኛ አፈጻጸም ያለው ሞዴላችን ነው።
ለGPT‑5.2 እና o3 በማመዛዘን ጥረቶች ላይ ትክክለኛነትን እናነፃፅራለን። ረዘም ያለ የማሰብ ጊዜ ወደ ትክክለኛነት መሻሻል ይመራል።
FrontierScience በሳይንሳዊ መመዘኛዎች አስቸጋሪነት ውስጥ ወደፊት የሚራመድ እርምጃን የሚወክል ቢሆንም፣ አሁንም ብዙ ገደቦች አሉ። FrontierScience የተገደበ የችግር መግለጫ ያላቸው ጥያቄዎችን ያቀፈ ሲሆን፣ ይህም የመጨረሻውን መልስ (ኦሊምፒያድ) በመገምገም ወይም የምርምር ተግባርን ለማጠናቀቅ ምዘናን በመገምገም ላይ ያተኩራል። በተጨማሪም፣ ረዘም ባሉ ተግባራት ላይ በርካታ ክፍሎች ያሏቸውን ሩብሪኮች መጠቀም የመጨረሻውን መልስ ከመፈተሽ ያነሰ ተጨባጭ ነው።
FrontierScience ሞዴሎች አስቸጋሪ በሆኑ እና በባለሙያ በተጻፉ ጥያቄዎች ላይ ያላቸውን አመክንዮ ከፍ ያለ ጥራት ያለው ቅጽበታዊ ገጽ እይታ ያቀርባል፣ ነገር ግን ሳይንስ በተግባር እንዴት እንደሚከናወን ሙሉ ምስል አይደለም። በተለይም፣ የሳይንሳዊ ምርምር ጉልህ ክፍልን አይገመግምም፦ ሞዴሎች እንዴት እውነተኛ አዳዲስ መላምቶችን እንደሚያመነጩ ወይም ከብዙ ዘዴዎች ጋር እንደሚገናኙ፣ የቪዲዮ ውሂቦችን እና በአካላዊው ዓለም ውስጥ እውነተኛ የሙከራ ስርዓቶችን ጨምሮ።
ወደፊት ስንመለከት፣ በሳይንሳዊ ማመዛዘን ውስጥ እድገት ከተሻሉ አጠቃላይ ዓላማ ያላቸው የማመዛዘን ሥርዓቶች እና በሳይንሳዊ ችሎታዎች ላይ በተመሠረተ ጥረት እንደሚመጣ እንጠብቃለን። FrontierScience ከብዙዎች አንዱ መሳሪያ ነው፣ እና ሞዴሎች እየተሻሻሉ ሲሄዱ፣ በዚህ መለኪያ ላይ እንደገና ለመድገም፣ ወደ አዳዲስ ጎራዎች ለማስፋት እና እነዚህ ስርዓቶች ሳይንቲስቶች ምን እንዲያደርጉ የሚያስችሏቸውን ተጨማሪ የእውነተኛ ዓለም ግምገማዎችን ለማጣመር አቅደናል። እንደ FrontierScience ያሉ መለኪያዎች የዛሬዎቹን የሰው ሠራሽ አስተውሎት (AI) ስርዓቶች ድክመቶች እንድንረዳ እና ሞዴሎች በሳይንሳዊ ግኝት ውስጥ አስተማማኝ አጋሮች እንዲሆኑ ለማድረግ ሥራችንን እንድናተኩር ይረዱናል።


