20 ፌብሩዋሪ 2026

እኛ First Proof ላይ ያስገባናቸው

ኤ.አይ በተወሰኑ የትምህርት ዘርፎች ጥያቄዎች ላይ ሊረጋገጡ የሚችሉ የሒሳብ ማረጋገጫዎችን ማቅረብ ይችል እንደሆነ ለመፈተሽ ለተዘጋጀው First Proof የተሰኘ የሒሳብ ፈተና ያቀረብናቸውን የማረጋገጫ ሙከራዎች እያጋራን ነው።

የእኛን የማረጋገጫ ሙከራዎች ስብስብን ለመመልከት

በመጫን ላይ…

የኤ.አይ ሥርዓቶች ትክክለኛ እና ሊረጋገጡ የሚችሉ የማረጋገጫ ሙከራዎችን ማቅረብ ይችሉ እንደሆነ ለመፈተሽ ተብሎ የተዘጋጀውን እና በምርምር ደረጃ ያለውን First Proof⁠(በአዲስ መስኮት ውስጥ ይክፈታል) የተሰኘውን አሥሩንም የሒሳብ ጥያቄዎች በውስጣዊ ሞዴላችን አስልተናል። አጭር መልስ ከሚጠይቁ ወይም የውድድር ዓይነት ከሆኑ የሒሳብ ጥያቄዎች በተለየ መልኩ እነዚህ ጥያቄዎች በተወሰኑ የትምህርት ዘርፎች ላይ ከመጀመሪያ-እስከ-መጨረሻ የተገነቡ መከራከሪያዎችን የሚፈልጉ ሲሆን ያለ ባለሙያ ምርመራ ትክክለኛነታቸውን ለማረጋገጥ አስቸጋሪ ነው። First Proof ጥያቄዎች ደራሲዎች በየዘርፋቸው ቀዳሚ የሆኑ ባለሙያዎች ሲሆኑ ቢያንስ ጥቂቶቹ ጥያቄዎች ደራሲዎቹ መፍትሔ እስኪያገኙላቸው ድረስ ለዓመታት ሳይፈቱ የቆዩ ነበሩ። ከእነዚህ የትምህርት ዘርፎች ጋር ሰፊ ተያያዥነት ያለው አንድ የዩኒቨርሲቲ የትምህርት መምሪያ፣ ብዙዎቹን ጥያቄዎች በአንድ ሳምንት ጊዜ ውስጥ ሊፈታቸው እንደሚችል ይታሰባል።

ቅዳሜ፣ ፌብሯሪ 14 2026 ከሰዓት 6:00 ላይ ያቀረብናቸውን የማረጋገጫ ሙከራዎች አጋርተናል⁠(በአዲስ መስኮት ውስጥ ይክፈታል)። ከባለሙያዎች በተገኘ ግብረ-መልስ መሠረት፣ ከሞዴሉ የማረጋገጫ ሙከራዎች ውስጥ ቢያንስ አምስቱ (ጥያቄዎች 4፣ 5፣ 6፣ 9 እና 10) ትክክለኛ የመሆን ዕድላቸው ከፍተኛ እንደሆነ የምናምን ሲሆን የቀሩት ደግሞ አሁንም በግምገማ ላይ ናቸው። መጀመሪያ ላይ ለጥያቄ 2 ያቀረብነው ሙከራ ትክክለኛ ሊሆን እንደሚችል አምነን ነበር። ከFirst Proof ይፋዊ ትንታኔ እና ከተጨማሪ የማኅበረሰቡ ጥናት በመነሳት፣ አሁን ያቀረብነው ሙከራ ትክክል እንዳልሆነ እናምናለን። ለተደረገው ተሳትፎ እናመሰግናለን፣ እንዲሁም የቀጣይ ግምገማዎችን ውጤት በጉጉት እንጠባበቃለን። ሙሉ የማረጋገጫ ሙከራዎቻችንን እዚህ⁠(በአዲስ መስኮት ውስጥ ይክፈታል)ማግኘት ይቻላል። ይህ ቅድመ-ህትመት አሥሩንም የማረጋገጫ ሙከራዎች የያዘ ሲሆን በተጨማሪም በሂደቱ ወቅት ከሞዴሎቹ ጋር የነበረን በእጅ የሚሰሩ መስተጋብሮች ለመምሰል ታስበው የተዘጋጁ የጥያቄ ንድፎፍ እና ምሳሌዎችን የያዘ አዲስ ተጨማሪ አባሪ ተካቶበታል።

አዳዲስ እና ግንባር ቀደም የሆኑ ምርምሮች የሚቀጥለውን ትውልድ የኤ.አይ ሞዴሎችን ብቃት ለመገምገም ምናልባትም በጣም አስፈላጊው መንገድ እንደሆኑ እናምናለን። መመዘኛዎች ጠቃሚ ቢሆኑም የምርምር ሥራን እጅግ ፈታኝ የሆኑ ክፍሎችን ሊዘነጉ ይችላሉ፣ እነሱም፦ ረጅም የማመዛዘን ሰንሰለቶችን ጠብቆ መቆየት፣ ትክክለኛ የሆኑ ረቂቅ ጽንሰ-ሐሳቦችን መምረጥ፣ በጥያቄ መግለጫዎች ውስጥ የሚታዩ ብዥታዎችን ማስተናገድ እና የባለሙያዎችን ጥብቅ ፍተሻ ሊቋቋሙ የሚችሉ መከራከሪያዎችን ማቅረብ ናቸው። እንደ First Proof ያሉ ግንባር ቀደም ፈተናዎች፣ ትክክለኛነትን ማረጋገጥ ቀላል ባልሆነባቸው እና የስህተት ሁነቶቹ ጠቃሚ መረጃ በሚሰጡባቸው ሁኔታዎች ውስጥ የኤ.አይ ብቃቶችን በጥብቅ ለመፈተሽ ይረዱናል።

“በአሁኑ ወቅት አዲስ ሞዴል በማሰልጠን ላይ እንገኛለን፤ የዚህ ሞዴል ዋነኛ ትኩረት በአስተሳሰብ ሂደቱ ውስጥ ያለውን ጥንካሬ ማሳደግ ሲሆን ግቡም ሞዴሉ ለብዙ ሰዓታት ያለማቋረጥ ማሰብ እንዲችል እና በደረሰባቸው ድምዳሜዎች ላይ ከፍተኛ እምነት እንዲኖረው ማድረግ ነው። First Proof ጥያቄዎች ይፋ ሲደረጉ፣ እንደ ፍጹም መፈተኛ መድረክ መስለው ስለታዩኝ በሳምንቱ መጨረሻ ላይ ሞከርኳቸው። ወዲያውኑ ከጥያቄዎች ውስጥ ሁለቱን (#9 እና #10) መፍታት ችሏል። ሰልጠናውን እየቀጠለ ሲሄድ፣ ችሎታው በከፍተኛ ሁኔታ እየጨመረ መጣ፣ በመጨረሻም—በእኛ ግምት—ቢያንስ ተጨማሪ ሶስት ጥያቄዎችን መፍታት ችሏል። በተለይ #6ን፣ ከሁለት ቀናት በኋላ ደግሞ #4ን መፍታት በመቻሉ እጅግ ተደስተን ነበር፣ ምክንያቱም እነዚህ ጥያቄዎች ለብዙዎቻችን ከሚታወቁ የጥናት ዘርፎች የተገኙ ነበሩ። አንድ ሞዴል በየቀኑ በግልጽ በሚታይ ሁኔታ ብልህ እየሆነ ሲሄድ ማየት በጣም አስገራሚ ነገር ነው።"

– James R. Lee (OpenAI ተመራማሪ፣ ማመዛዘን)

እኛ ሞዴሉን ያካሄድነው በተገደበ የሰው ቁጥጥር ነው። በስልጠናው ሂደት ወቅት የተለያዩ የሞዴሉን ስሪቶች ስንጠይቅ፣ ቀደም ባሉ ሙከራዎች ውጤታማ ሆነው የታዩ ስልቶችን መልሰው እንዲሞክሩ አንዳንድ ጊዜ እንጠቁም ነበር። ለአንዳንድ ሙከራዎች፣ ከባለሙያዎች አስተያየት ካገኘን በኋላ ምክንያታዊነቱን ለማረጋገጥ ቀላል እንዲሆን በሚል ሞዴሉ ማረጋገጫዎቹን በዝርዝር እንዲያብራራ ወይም ግልጽ እንዲያደርግ ጠይቀነዋል። ለማረጋገጫ፣ ለቅርጸት እና ለቅጥ ዝግጅት እንዲረዳ፣ በዚህ ሞዴል እና በChatGPT መካከል የሁለትዮሽ ልውውጥ እንዲኖር አመቻችተናል። ለአንዳንድ ጥያቄዎች፣ በሰው ማመዛዘን የተመረጡትን ጥቂት ምርጥ ሙከራዎች አቅርበናል። ይህ ፈጣን እና አጭር የሥራ ሂደት ስለነበር፣ አሠራራችን በአግባቡ ቁጥጥር እንደሚደረግበት ግምገማ ያህል እኛ እንደምንፈልገው የጠራ አልነበረም። ለወደፊት ድግግሞሽ ስራዎች፣ ይበልጥ ጥብቅ ስለሆነ የሙከራ እና የግምገማ ማዕቀፍ ከFirst Proof አዘጋጆች ጋር ለመወያየት እንጓጓለን።

ይህ ሥራ ቀደም ባሉት የሂሳብ እና የሳይንስ ግንባር ቀደም የማመዛዘን ሞዴሎች ውጤቶች ላይ የተመሰረተ ነው። በጁላይ 2025፣ አጠቃላይ ዓላማ ባለው የማመዛዘን ሞዴል በመታገዝ በዓለም አቀፍ የሂሳብ ኦሊምፒያድ ላይ የወርቅ ሜዳሊያ ደረጃን⁠(በአዲስ መስኮት ውስጥ ይክፈታል) አስመዝግበናል (35/42 ነጥቦች)። በኖቬምበር 2025፣ “በGPT‑5 ሳይንስን ለማፋጠን የተደረጉ የመጀመሪያ ሙከራዎች” የሚል፣ GPT‑5 ተመራማሪዎች በሂሳብ፣ ፊዚክስ፣ ባዮሎጂ እና በሌሎች ዘርፎች ተጨባጭ እድገት እንዲያደርጉ የረዳቸውን የጉዳይ ጥናቶች ስብስብ እንዲሁም የታዘብናቸውን ገደቦች አጋርተናል። በቅርቡ ደግሞ፣ GPT‑5.2 የግሉዎን-አምፕሊቲዩድ ቀመር ሊሆን የሚችል ሃሳብ ያቀረበበትን የፊዚክስ ትብብር ሪፖርት ያደረግን ሲሆን ይህም ሃሳብ በውስጣዊ ሞዴል በመደበኛ መንገድ የተረጋገጠ እንዲሁም በጸሐፊዎቹ ትክክለኛነቱ የተረጋገጠ ሆኗል።

በሙከራዎቹ ላይ የሚሰጡ የባለሙያ አስተያየቶችን ጨምሮ የምርምር-ደረጃ ማመዛዘንን እንዴት መገምገም እንደሚቻል ከማህበረሰቡ ጋር ጥልቅ ተሳትፎ ለማድረግ እንጓጓለን፣ እንዲሁም እነዚህን አዳዲስ ብቃቶች ወደፊት ለሕዝብ በሚለቀቁ ሞዴሎች ውስጥ ለማካተት በጉጉት እንጠብቃለን።

2026

ደራሲ

OpenAI

ማንበብዎን ይቀጥሉ

ሁሉንም ይመልከቱ

ሁለት ቅንብሮችን ማንቃት የARC-AGI-3 ውጤታችንን እንዴት በሦስት እጥፍ እንዳሳደገው

ምርምርጁላይ 29 2026

oai Science Academic Research Academic Research 1x1

በChatGPT for Academic Researchers ሳይንሳዊ ግኝትን ማፋጠን

ኩባንያጁላይ 29 2026

Scientific computing agentic AI card image (1x1)

በኤጀንቲክ ኤ.አይ ዘመን ሳይንሳዊ ስሌት

ሕትመትጁላይ 28 2026