ወደ ዋና ይዘት እለፍ
OpenAI

11 ዲሴምበር 2025

ሕትመትምርትኩባንያ

ሳይንስን እና ሒሳብን በGPT‑5.2 ማሻሻል

GPT‑5.2 ለሒሳብ እና ለሳይንስ ስራ እስካሁን ያገኘነው በጣም ጠንካራ ሞዴል ነው።

በመጫን ላይ…

ጠንካራ AI ለማግኘት ካሉን ተስፋዎች አንዱ ለሁሉም ሰው ጥቅም ሲባል ሳይንሳዊ ምርምር ማፋጠን፣ ተመራማሪዎች ተጨማሪ ሐሳቦች እንዲያስሱ፣ በፍጥነት እንዲሞክሯቸው፣ እና ግኝቶችን ወደ ተጽዕኖ እንዲቀይሩ መርዳት ነው። 

ባለፈው ዓመት፣ በሒሳብ፣ በፊዚክስ፣ በባዮሎጂ፣ እና በኮምፒውተር ሳይንስ ውስጥ ካሉ ሳይንቲስቶች ጋር በቅርበት በመስራት AI የት ሊረዳ እንደሚችል—እና አሁንም የት እጥረት እንዳለበት ለመረዳት እየሠራን ነው። ባለፈው ወር፣ በሒሳብ፣ ፊዚክስ፣ ባዮሎጂ፣ ኮምፒውተር ሳይንስ፣ የጠፈር ምርምር፣ እና በቁሳቁስ ሳይንስ ላይ ቀደምት የጉዳይ ጥናቶችን የሚያጠናቅር ጽሑፍ አሳትመናል፣ ይህም GPT‑5 እንዴት GPT‑5 በእውነተኛ የሳይንስ ሥራ እንዴት አስተዋጽኦ ማድረግ እንደጀመረ እንዲያሳዩ ረድቷቸዋል። በ GPT‑5.2፣ እነዚያ ግኝቶች የበለጠ ወጥነት ያላቸው እና የበለጠ አስተማማኝ እየሆኑ መምጣታቸውን ማየት ጀምረናል።

ትክክለኛነት አስፈላጊ በሚሆንበት ጊዜ ጠንካራ አፈጻጸም

GPT‑5.2 Pro እና GPT‑5.2 ማሰብ እስካሁን ለሳይንሳዊ እና ሒሳብ ሥራ ያሉን ጠንካራ ሞዴሎች ናቸው።

ጠንካራ የሒሳብ ማመዛዘን ለሳይንሳዊ እና ለቴክኒካዊ ሥራ አስተማማኝነት መሠረት ነው። ሞዴሎች ባለብዙ-ደረጃ አመክንዮ እንዲያነቁ፣ መጠኖች ወጥነት እንዲኖራቸው፣ እና—ከምናባዊ ሙከራዎች እና ከስታቲስቲክስ እስከ ትንበያ እና ሞዴሊንግ ያሉ በእውነተኛ ትንታኔዎች ውስጥ ሊባባሱ የሚችሉ ስውር ስህተቶችን እንዲያስወግዱ ያስችላቸዋል። እንደ FrontierMath ባሉ መለኪያዎች ላይ የተደረጉ ማሻሻያዎች ውስን ችሎታ የሚያንፀባርቁ ሳይሆን፣ ጠንካራ አጠቃላይ ማመዛዘን እና ረቂቅነት ያንፀባርቃሉ፣ እነዚህም እንደ ኮድ ማድረግ፣ የdata ትንተና፣ እና የሙከራ ንድፍ ባሉ ሳይንሳዊ የሥራ ፍሰቶች ውስጥ በቀጥታ የሚካተቱ ችሎታዎች ያንፀባርቃሉ።

እነዚህ ችሎታዎች እንዲሁም ከአጠቃላይ የማከናወን ችሎታ እድገት ጋር በቅርበት የተያያዙ ናቸው። በረቂቅነት አማካኝነት በአስተማማኝ ሁኔታ ማመዛዘን የሚችል፣ ረጅም የአስተሳሰብ ሰንሰለቶችን ወጥነት መጠበቅ እና በተለያዩ ጎራዎች አጠቃላይ ማድረግ የሚችል ሥርዓት ለAGI መሰረታዊ የሆኑ ባህሪያትን ያሳያል—ለተግባር የተወሰኑ ዘዴዎች ሳይሆን፣ በሳይንስ፣ በምህንድስና፣ እና በእውነተኛው ዓለም ውሳኔ አሰጣጥ ላይ አስፈላጊ የሆኑ ሰፊ፣ ሊተላለፉ የሚችሉ የማመዛዘን ችሎታዎች።

እኛ GPT‑5.2ን እናምናለን Pro እና GPT‑5.2 ማሰብ ሳይንቲስቶችን ለመርዳት እና ለማፋጠን የዓለም ተመራጭ ሞዴሎች ናቸው። በ GPQA Diamond ላይ፣ በ Google የተረጋገጠ የድህረ-ምረቃ ደረጃ የQ&A መለኪያ ፣ GPT‑5.2 Pro 93.2% የሚያሳካ ሲሆን፣ GPT‑5.2 በቅርበት ይከተለዋል 92.4% ነው ብዬ አስባለሁ።

GPQA Diamond(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ሞዴሎች ስለ ፊዚክስ፣ ኬሚስትሪ፣ እና ባዮሎጂ የተለያዩ ምርጫዎች ያሏቸው ጥያቄዎች ይመልሳሉ። ምንም መሣሪያዎች አልነቁም እና የማመዛዘን ጥረት ከፍተኛ ላይ ተደርጎ ነበር።

FrontierMath (ደረጃ 1–3) ላይ፣ የባለሙያ ደረጃ የሒሳብ ግምገማ፣ GPT‑5.2 ማሰብ 40.3% ችግሮችን በመፍታት፣ አዲስ የኪነ ጥበብ ደረጃን አስቀምጧል።

FrontierMath(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ሞዴሎች የባለሙያ ደረጃ ያላቸው የሒሳብ ችግሮችን ይፈታሉ። የPython መሣሪያ ነቅቶ የማመዛዘን ጥረት ከፍተኛ ላይ ተደርጎ ነበር።

የጉዳይ ጥናት

GPT‑5.2 is not only strong at graduate-level science problems. We now regularly see our frontier models contributing solutions to previously unsolved—and increasingly subtle—questions in mathematics and the sciences.

In this case study, we describe how GPT‑5.2 Pro helped resolve an open research problem in statistical learning theory, documented in a new paper, On Learning-Curve Monotonicity for Maximum Likelihood Estimators(በአዲስ መስኮት ውስጥ ይክፈታል).

The question (“If you collect more data, do your results reliably get better?”) shows up any time you fit a model from data. You can draw a learning curve that tracks average error as you add more examples. In the best case, the curve is monotone. More data means less error, every step of the way. That is the behavior people hope for, and often assume.

But over the last few years, researchers have learned that this intuition can fail. A line of work kicked off by an open problem posed at the Conference on Learning Theory (COLT) in 2019 by Viering, Mey, and Loog showed that the answer is often no. Even very simple, well-behaved toy setups can have non-monotonic learning curves, where adding data increases expected error. That surprise triggered a wave of follow-up papers. They expanded the list of settings where these reversals happen and proposed increasingly elaborate methods designed to restore monotone behavior.

Still, one of the most basic cases remained unresolved. What happens in the cleanest textbook situation, where the statistical model is actually correct and the data follow the familiar bell curve pattern, with a known mean but unknown standard deviation? Researchers already knew that small changes to this setup could break monotonic behavior. But the answer remained unknown in this core case.

Our new paper demonstrates that in this clean setting, intuition prevails: learning is predictably improved by more data, rather than behaving in surprising or unstable ways. What makes this paper unusual is how the proof was obtained. The authors did not work out a strategy and then ask the model to fill in steps. They did not provide intermediate arguments or a proof outline. Instead, they asked GPT‑5.2 Pro to solve the open problem directly, and then carefully verified the proof, including review and validation by external subject-matter experts.

The authors then asked simple follow-up questions to see how far the idea could go. GPT‑5.2 Pro extended the result beyond the original problem to higher dimensional settings and other common statistical models. Throughout, the human role stayed focused on verification and clear writing, rather than supplying mathematical scaffolding.

ወደ ፊት ስንመለከት

ይህ ውጤት የAI ሥርዓቶች በተለይም እንደ ሒሳብ እና የጽንሰ ሐሳብ ኮምፒውተር ሳይንስ ባሉ አዚዮማቲክ የጽንሰ ሐሳብ መሠረቶች ባላቸው ጎራዎች፣ ሳይንሳዊ ምርምርን እንዴት ሊደግፉ እንደሚችሉ ጠቃሚ መመሪያ ይጠቁማል። እንደዚህ ባሉ ሁኔታዎች ውስጥ፣ የድንበር ሞዴሎች ማረጋገጫዎች ለማሰስ፣ መላምቶችን ለመመርመር፣ እና ለመለየት ብዙ የሰው ጥረት የሚጠይቁ ትስስሮችን ለመለየት ሊረዱ ይችላሉ።

ይሁን እንጂ፣ እነዚህ ሥርዓቶች ገለልተኛ ተመራማሪዎች አይደሉም። የባለሙያ ፍርድ፣ ማረጋገጫ፣ እና የጎራ ግንዛቤ አሁንም አስፈላጊ ናቸው። ከፍተኛ ችሎታ ያላቸው ሞዴሎች እንኳ ስህተት ሊሠሩ ወይም ባልተገለጹ ግምቶች ሊተማመኑ ይችላሉ። ነገር ግን ጥንቃቄ የተሞላ የሰው ልጅ ጥናት እና ማሻሻያ የሚያስፈልጋቸው ዝርዝር፣ የተዋቀሩ ክርክሮች ሊያቀርቡ ይችላሉ። ስለዚህ በAI አማካኝነት አስተማማኝ እድገት ማድረግ የሚወሰነው ማረጋገጫን፣ ግልጽነትን፣ እና ትብብርን በጥብቅ የሚከተሉ የሥራ ፍሰቶች ላይ ነው።

ይህ ውጤት እንደ ጉዳይ ጥናት ተደርጎ ሲወሰድ፣ አሁን እየተለመደ የመጣውን የምርምር ዘዴ ያመለክታል። እንደ GPT‑5.2 ያሉ ሞዴሎች የሒሳብ ማመዛዘን ለመደገፍ እና የቀደም-ደረጃ አሰሳን ለማፋጠን እንደ መሣሪያዎች ሆነው ሊያገለግሉ ይችላሉ፣ ነገር ግን ትክክለኛነት፣ አተረጓጎምን፣ እና አውድ የመወሰን ኃላፊነት በሰው ተመራማሪዎች ላይ ይቀራል። እንደዚህ ያሉ ሥርዓቶች በጥንቃቄ ጥቅም ላይ ሲውሉ፣ የሰው ልጅ ፍርድ በሳይንሳዊ ምርምር ውስጥ ያለውን ማዕከላዊ ሚና ሳይቀይሩ የጽንሰ ሐሳብ ሥራን ጉልህ ገጽታዎች ለማቃለል ይረዳሉ።