7 ኦገስት 2025

GPT‑5 ለአበልፃጊዎች ማስተዋወቅ

ለኮዲንግ እና ለወኪል ተግባራት ምርጡ ሞዴል።

በመጫን ላይ…

መግቢያ

ዛሬ፣ GPT‑5ን በAPI መድረካችን ላይ እየለቀቅን ነው—እስካሁን ድረስ ለኮዲንግ እና ለወኪል ተግባራት ምርጡ ሞዴላችን።

GPT‑5 በዋና የኮዲንግ መለኪያዎች ላይ ምርጡ (SOTA) ሲሆን በSWE-bench Verified ላይ 74.9% እና በAider polyglot ላይ 88% አስመዝግቧል። GPT‑5ን እውነተኛ የኮዲንግ ተባባሪ እንዲሆን አድርገን አሰልጥነናል። ከፍተኛ ጥራት ያለው ኮድ በማመንጨት እና እንደ በግስ ማስተካከል፣ ኮድ ማርትዕ ያሉ ተግባሮችን በመስራት እና ውስብስብ የኮድቤዝ ጥያቄዎችን በመመለስ ረገድ የላቀ ነው። ሞዴሉ መመራት የሚችል እና ተባባሪ ነው—በጣም ዝርዝር መመሪያዎችን በከፍተኛ ትክክለኛነት መከተል ይችላል እና ከመሳሪያ ጥሪዎች በፊት እና መካከል ስለ ድርጊቶቹ ግልጽ ማብራሪያዎችን መስጠት ይችላል። ሞዴሉ በፍሮንት-ኤንድ ኮዲንግ ረገድም የላቀ ሲሆን በፍሮንት-ኤንድ የድህረ ገጽ ግንባታ OpenAI o3ን በውስጣዊ ምርመራ ጊዜ 70% ይበልጣል።

በጀማሪ ኩባንያዎች እና ኢንተርፕራይዞች ውስጥ ካሉ የቅድሚያ ሞካሪዎች ጋር በመተባበር በእውነተኛ ዓለም የኮዲንግ ተግባሮች ላይ GPT‑5ን አሰልጥነናል። Cursor፣ GPT‑5 "ከተጠቀሙባቸው ሞዴሎች ሁሉ እጅግ ብልህ" እና "በሚያስደንቅ ሁኔታ አስተዋይ የሆነ፣ ለመምራት ቀላል እና በሌሎች ሞዴሎች ውስጥ እንኳን ያላዩት ስብዕና እንዳለው" ተናግሯል። Windsurf፣ GPT‑5 በግምገማዎቻቸው ላይ SOTA እንደሆነ እና "ከሌሎች ዋና ሞዴሎች ጋር ሲነጻጸር ግማሽ የመሳሪያ ጥሪ ስህተት መጠን እንዳለው አጋርቷል።" Vercel፣ "ይህ ምርጡ የፍሮንት-ኢንድ ሰው ሰራሽ አስተውሎት (AI) ሞዴል ነው፣ በውበት ስሜት እና በኮድ ጥራት ላይ ከፍተኛ አፈጻጸምን በማሳየት በራሱ ምድብ ውስጥ ያስቀምጠዋል" ይላል።

GPT‑5 እንዲሁም ለረጅም ጊዜ በተከናወኑ የወኪል ተግባራት የላቀ ነው—ከሁለት ወራት በፊት በተለቀቀው የመሳሪያ ጥሪ መለኪያ τ²-ቤንች ቴሌኮም ላይ የSOTA ውጤቶችን (96.7%) አሳክቷል። የተሻሻለው የGPT‑5 የመሳሪያ ብልህነት መንገዱን ሳይስት በደርዘን የሚቆጠሩ የመሳሪያ ጥሪዎችን—በቅደም ተከተልም ሆነ በትይዩ—በአስተማማኝ ሁኔታ እንዲያስተሳስር የሚያስችለው ሲሆን ይህም ውስብስብ እና እውነተኛ ተግባራትን ከጫፍ እስከ ጫፍ ለማከናወን በጣም የተሻለ ያደርገዋል። እንዲሁም የመሳሪያ መመሪያዎችን በትክክል ይከተላል፣ የመሳሪያ ስህተቶችን በማስተናገድ የተሻለ ነው፣ እና ረጅም አውድ ያለው ይዘት መልሶ ማግኘት ላይ የላቀ ነው። Manus፣ GPT‑5 “በውስጣዊ መለኪያዎቻቸው ላይ ከአንድ ሞዴል ያዩትን ምርጥ አፈጻጸም አስመዝግቧል” ብለዋል። Notion፣ "[የሞዴሉ] ፈጣን ምላሾች፣ በተለይም በዝቅተኛ የማመዛዘን ሁኔታ፣ ውስብስብ ተግባራት በአንድ ጊዜ መፍታት ሲፈልጉ GPT‑5 ተስማሚ ሞዴል ያደርገዋል" ይላል። Inditex፣ “[GPT‑5]ን በእውነት የሚለየው የአስተሳሰቡ ጥልቀት ነው፡- እውነተኛ የርዕሰ ጉዳይ ግንዛቤን የሚያንፀባርቁ ጥልቅ፣ ባለብዙ ደረጃ መልሶች” ሲል አጋርቷል።

አበልጻጊዎች በሞዴል ምላሾች ላይ የበለጠ ቁጥጥር እንዲኖራቸው በእኛ API ውስጥ አዳዲስ ባህሪያትን እያስተዋወቅን ነው። GPT‑5 መልሶቹ አጭር እና ቀጥተኛ ወይም ረጅም እና ሁሉን አቀፍ መሆናቸውን ለመቆጣጠር የሚረዳ አዲስ የቃላት ብዛት መለኪያ (ዋጋዎች፦ ዝቅተኛ፣ መካከለኛ፣ ከፍተኛ) ይደግፋል። የGPT‑5 reasoning_effort መለኪያ አሁን ሰፊ ማመዛዘን ሳይኖር መልሶችን በፍጥነት ለማግኘት አነስተኛ ዋጋ ሊወስድ ይችላል። እንዲሁም GPT‑5 ከJSON ይልቅ በቀላል ጽሑፍ የተጻፉ መሳሪያዎችን እንዲጠራ የሚያስችል አዲስ የመሳሪያ አይነት—ብጁ መሳሪያዎችን—አክለናል። ብጁ መሳሪያዎች በአበልጻጊው የቀረቡ ከአውድ-ነጻ ሰዋሰዎችን በመጠቀም መገደብን ይደግፋሉ።

አበልጻጊዎች አፈጻጸምን፣ ወጪን እና መዘግየትን ለመለዋወጥ የበለጠ ተለዋዋጭነት እንዲኖራቸው GPT‑5ን በAPI ውስጥ በሦስት መጠኖች—gpt-5፣ gpt-5-mini እና gpt-5-nano—እየለቀቅን ነው። በChatGPT ውስጥ ያለው GPT‑5 የማመዛዘን፣ ያለ-ማመዛዘን እና የራውተር ሞዴሎች ስርዓት ቢሆንም፣ በAPI መድረክ ውስጥ ያለው GPT‑5 በChatGPT ውስጥ ከፍተኛ አፈጻጸምን የሚያጎለብት የማመዛዘን ሞዴል ነው። በተለይም፣ አነስተኛ ማመዛዘን ያለው GPT‑5 በChatGPT ውስጥ ካለው የማያመዛዝን ሞዴል የተለየ ሞዴል ሲሆን ለአበልጻጊዎች የተሻለ ማስተካከያ አለው። በChatGPT ውስጥ ጥቅም ላይ የዋለው የማያመዛዝነው ሞዴል እንደ gpt-5-chat-latest ይገኛል።

በChatGPT ውስጥ ስለ GPT‑5 ለማንበብ እና ስለ ሌሎች የChatGPT ማሻሻያዎች የበለጠ ለማወቅ፣ የእኛ ምርምር ብሎግ ይመልከቱ። ድርጅቶች GPT‑5ን ለመጠቀም እንዴት እንደጓጉ የበለጠ ለማወቅ የእኛ የኢንተርፕራይዝ ብሎግ⁠ ይመልከቱ።

ኮዲንግ

GPT‑5 እስካሁን ከለቀቅናቸው እጅግ በጣም ጠንካራ የኮዲንግ ሞዴል ነው። በኮዲንግ መለኪያዎች እና በእውነተኛ ዓለም አጠቃቀም ጉዳዮች ላይ ከo3 በላይ ውጤታማ ሲሆን እንደ Cursor፣ Windsurf፣ GitHub Copilot እና Codex CLI ባሉ ወኪሎች የኮዲንግ ምርቶች ላይ እንዲታይ በጥሩ ሁኔታ ተስተካክሏል። GPT‑5 የአልፋ ሞካሪዎቻችንን በብዙ የግል ውስጣዊ ገምጋሚዎቻቸው ላይ ሪከርድ በማስመዝገብ አስገርሟል።

Early feedback on GPT‑5 for real-world coding tasks

“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”

Michael Truell, Co-Founder & CEO at Cursor

በእውነተኛው ዓለም የሶፍትዌር ምህንድስና ተግባራት ላይ የተመሠረተ ግምገማ፣ በሆነው SWE-bench Verified ላይ፣ GPT‑5፣ ከo3 69.1% የበለጠ 74.9% ውጤት አስመዝግቧል። በተለይም፣ GPT‑5 ከፍተኛ ውጤቱን በከፍተኛ ቅልጥፍና እና ፍጥነት አስመዝግቧል፦ በከፍተኛ የማመዛዘን ጥረት ከo3 ጋር ሲነጻጸር፣ GPT‑5 22% ያነሰ የውጤት ቶከኖችን እና 45% ያነሰ የመሳሪያ ጥሪዎችን ይጠቀማል።

በ SWE-bench Verified⁠ ውስጥ፣ አንድ ሞዴል የኮድ ማከማቻ እና የችግር መግለጫ ይሰጠዋል፣ እና ችግሩን ለመፍታት ፓች ማመንጨት አለበት። የጽሑፍ መለያዎች የማመዛዘን ጥረትን ያመለክታሉ። ውጤቶቻችን ከ500 ችግሮች ውስጥ 23ቱን የሚያወጡ ሲሆን እነዚህም መፍትሄዎቻቸው በመሠረተ ልማታችን ላይ አስተማማኝ በሆነ መንገድ ያላለፉ ናቸው። GPT‑5 መፍትሄዎችን በጥልቀት ማረጋገጥ ላይ አፅንዖት የሚሰጥ አጭር ጥያቄ ተሰጥቶታል፤ ተመሳሳዩ ጥያቄ ለo3 አልጠቀመም።

የኮድ አርትዖት ግምገማ በሆነው Aider polyglot ላይ፣ GPT‑5 አዲስ የ88% ሪከርድ ያስመዘገበ ሲሆን፣ ይህም ከo3 ጋር ሲነጻጸር የስህተት መጠን አንድ ሶስተኛ ቅነሳ ነው።

በ Aider polygot⁠(በአዲስ መስኮት ውስጥ ይክፈታል) (diff) ውስጥ፣ አንድ ሞዴል ከExercism የኮዲንግ ፈተኛ ይሰጠዋል እና መፍትሄውን እንደ ኮድ diff መጻፍ አለበት። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።

እንዲሁም የተለያዩ ክፍሎች እንዴት እንደሚሰሩ ወይም እርስ በእርስ እንዴት እንደሚሰሩ ለሚነሱ ጥያቄዎች መልስ ለመስጠት GPT‑5 የኮድ ቤዝዎችን በጥልቀት በመፈለግ ረገድ በጣም ጥሩ ሆኖ አግኝተነዋል። እንደ OpenAI የማጠናከሪያ ትምህርት ንብርብር ውስብስብ በሆነ የኮድቤዝ ውስጥ፣ GPT‑5 ስለ ኮዳችን ጥያቄዎችን በማመዛዘን እና በመመለስ የራሳችንን የዕለት ተዕለት ሥራ በማፋጠን ሊረዳን እንደሚችል እየተረዳን ነው።

የፍሮንት-ኤንድ ምህንድስና

ለድህረ ገጽ መተግበሪያዎች የፍሮንት-ኤንድ ኮድ ሲያዘጋጁ፣ GPT‑5 የበለጠ ውበት ያለው፣ ትልቅ ፍላጎት ያለው እና ትክክለኛ ነው። ከo3 ጋር ጎን ለጎን ሲነጻጸሩ፣ GPT‑5 በሞካሪዎቻችን ዘንድ በ70% ጊዜ ተመራጭ ነበር።

GPT‑5 በአንድ ነጠላ ጥያቄ ምን ማድረግ እንደሚችል የሚያሳዩ አንዳንድ አስደሳች እና የተመረጡ ምሳሌዎች እነሆ፦

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

በእኛ ማዕከለ ስእላት እዚህ⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ የGPT‑5 ተጨማሪ ምሳሌዎችን ይመልከቱ።

የኮዲንግ ትብብር

GPT‑5 በተለይ እንደ Cursor፣ Windsurf፣ GitHub Copilot እና Codex CLI ባሉ ወኪሎች የኮዲንግ ምርቶች ውስጥ የተሻለ ተባባሪ ነው። በሚሰራበት ጊዜ፣ GPT‑5 በመሳሪያ ጥሪዎች መካከል እቅዶችን፣ ዝማኔዎችን እና ማጠቃለያዎችን ሊያወጣ ይችላል። ከቀደሙት ሞዴሎቻችን ጋር ሲነጻጸር፣ GPT‑5 ለቅድመ ዝግጅትዎ ሳይቆም ወይም ከፍተኛ ውስብስብነት ሳይጠይቅ ትልቅ ስራዎችን ለማጠናቀቅ የበለጠ ንቁ ነው።

ውስብስብ ተግባር ሲያከናውን GPT‑5 ምን ሊመስል እንደሚችል የሚያሳይ ምሳሌ እነሆ (በዚህ ሁኔታ፣ ለምግብ ቤት ድህረ ገጽ መፍጠር)፦

After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.

የወኪል ተግባራት

ከወኪል ኮዲንግ በተጨማሪ፣ GPT‑5 በአጠቃላይ በወኪል ተግባራት የተሻለ ነው። GPT‑5 በመመሪያ መከተል መለኪያዎች (በo3‑mini ደረጃ እንደተሰጠው በScale MultiChallenge ላይ 69.6%) እና በመሳሪያ ጥሪ (በτ²-bench telecom ላይ 96.7%) አዳዲስ ሪከርዶችን አስመዝግቧል። የተሻሻለ የመሳሪያ ብልህነት GPT‑5 በእውነተኛ ዓለም ውስጥ ያሉ ተግባራትን ለማከናወን እርምጃዎችን ይበልጥ አስተማማኝ በሆነ መንገድ እንዲያጣምር ያስችለዋል።

ለተወካይ ተግባራት በGPT‑5 ላይ ቀደምት ግብረ መልስ

«GPT-5 ትልቅ ዕድገት ነው። በውስጣዊ መመዘኛዎቻችን ላይ ከአንድ ሞዴል ያየነው ምርጥ አፈጻጸም አስመዝግቧል። GPT-5 በተለያዩ ተግባራት የላቀ ነበር—አንድ የኮድ መስመር ሳንለዋወጥ ወይም እርምጃ ሳንለብስ በፊት እንኳን። አዲስ መግቢያዎች እና በመሳሪያ አጠቃቀም ላይ የበለጠ ትክክለኛ ቁጥጥር ወኪሎቻችን በማንቃት እና በመሪነት ላይ አስፈላጊ ዝላይ እንዲያደርሱ አስችሏቸዋል።

Yichao ‹Peak› Ji፣ ተባባሪ መስራች እና ዋና ሳይንቲስት (የሳይንስ ሊቅ) በManus

የሚከተለው መመሪያ

GPT‑5 ከቀደሙት ሁሉ በበለጠ አስተማማኝ መመሪያዎችን የሚከተል ሲሆን፣ ከግምገማው በኋላ በCOLLIE፣ Scale MultiChallenge እና ውስጣዊ መመሪያዎቻችን ላይ ከፍተኛ ውጤት አስመዝግቧል።

በ COLLIE⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ሞዴሎች የተለያዩ ገደቦችን የሚያሟላ ጽሑፍ መጻፍ አለባቸው። በ Scale MultiChallenge⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ሞዴሎች ባለብዙ ዙር ውይይቶች ላይ ከቀደሙት መልዕክቶች አራት አይነት መረጃዎችን በአግባቡ እንዲጠቀሙ ይፈተናሉ። ውጤቶቻችን የመጡት o3‑mini እንደ መለኪያ በመጠቀም ሲሆን ይህም ከGPT‑4o የበለጠ ትክክለኛ ነበር። በእኛ ውስጣዊ የOpenAI API መመሪያ የመከተል ግምገማ ውስጥ፣ ሞዴሎች ከእውነተኛ የአበልጻጊ ግብረመልስ የተገኙ አስቸጋሪ መመሪያዎችን መከተል አለባቸው። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።

የመሣሪያ ጥሪ

ለአበልጻጊዎች አስፈላጊ በሆኑ መንገዶች የመሳሪያ ጥሪን ለማሻሻል ጠንክረን ሰርተናል። GPT‑5 የመሳሪያ መመሪያዎችን በመከተል፣ የመሳሪያ ስህተቶችን በመፍታት የተሻለ እና ብዙ የመሳሪያ ጥሪዎችን በቅደም ተከተል ወይም በትይዩ በማድረግ የተሻለ ነው። በሚታዘዝበት ጊዜ፣ GPT‑5 ከመሳሪያ ጥሪዎች በፊት እና በረጅም ጊዜ በተከናወኑ ተግባራት ወቅት ተጠቃሚዎች ስለሂደታቸው ለማዘመን የቅድመ-መግለጫ መልዕክቶችን ማውጣት ይችላል።

ከሁለት ወራት በፊት፣ τ²-bench telecom በSierra.ai እንደ ፈታኝ የመሳሪያ አጠቃቀም መለኪያ ሆኖ ይፋ የወጣ ሲሆን ይህም በተጠቃሚዎች ሊለወጥ ከሚችል የአካባቢ ሁኔታ ጋር በሚገናኝበት ጊዜ የቋንቋ ሞዴል አፈፃፀም እንዴት በከፍተኛ ሁኔታ እንደሚቀንስ አጉልቶ ያሳያል። በህትመታቸው⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ከ49% በላይ ያስመዘገበ ሞዴል አልነበረም። GPT‑5 97% አስመዝግቧል።

በ τ2-bench⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ አንድ ሞዴል የደንበኛ አገልግሎት ተግባርን ለማከናወን መሳሪያዎችን መጠቀም ያለበት ሲሆን፣ እዚያም መግባባት የሚችል እና በዓለም ሁኔታ ላይ እርምጃ መውሰድ የሚችል ተጠቃሚ ሊኖር ይችላል። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።

GPT‑5 በረጅም አውድ አፈፃፀም ላይም ጠንካራ ማሻሻያዎችን ያሳያል። የረጅም አውድ መረጃ ማግኛ መለኪያ በሆነው OpenAI-MRCR ላይ፣ GPT‑5 ከረጅም የግቤት ርዝመት ጋር በከፍተኛ ሁኔታ በሚያድግ ህዳግ ከo3 እና ከGPT‑4.1 በተሻለ ሁኔታ ይሰራል።

በ OpenAI-MRCR⁠(በአዲስ መስኮት ውስጥ ይክፈታል) (ባለብዙ ዙር የጋራ ማጣቀሻ ጥራት)፣ በርካታ ተመሳሳይ “መርፌ” የተጠቃሚ ጥያቄዎች የተመሳሳይ ጥያቄዎች እና ምላሾች ባሉ ረጅም “የሣር ክምር” ውስጥ ይገባሉ፣ እና ሞዴሉ ለiኛ መርፌ የሚሰጠውን ምላሽ እንደገና እንዲደግም ይጠየቃል። አማካይ የመዛመድ ጥምርታ በሞዴሉ ምላሽ እና በትክክለኛው መልስ መካከል ያለውን አማካይ የመዛመድ ጥምርታ ይለካል። በ256k ከፍተኛ የግቤት ቶከኖች ላይ ያሉት ነጥቦች ከ128k–256k የግቤት ቶከኖች አማካይ እንደሆኑ ይወክላሉ፣ እና እንዲሁ ይቀጥላል። እዚህ 256k 256 * 1,024 = 262,114 ቶከኖችን ይወክላል። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።

እንዲሁም የረጅም ጊዜ ጥያቄዎችን እና መልሶችን ለመገምገም አዲስ መለኪያ የሆነውን BrowseComp Long Context⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ኦፕን ሶርስ እያደረግን ነው። በዚህ መለኪያ ውስጥ፣ ሞዴሉ የተጠቃሚ ጥያቄ፣ ረጅም ተዛማጅ የፍለጋ ውጤቶች ዝርዝር ተሰጥቶታል፣ እና በፍለጋ ውጤቶቹ ላይ በመመስረት ለጥያቄው መልስ መስጠት አለበት። የBrowseComp Long Contextን ተጨባጭ፣ አስቸጋሪ እና አስተማማኝ የሆነ የእውነት መልስ እንዲኖረው አድርገን ነድፈነዋል። በ128K–256K ቶከኖች የሆኑ ግቤቶች ላይ GPT‑5 ትክክለኛውን መልስ 89% ጊዜ ይሰጣል።

በAPI ውስጥ፣ ሁሉም የGPT‑5 ሞዴሎች ቢበዛ 272,000 የግቤት ቶከኖችን መቀበል እና ቢበዛ 128,000 የማመዛዘን እና የውጤት ቶከኖችን መልቀቅ ይችላሉ፣ ይህም በአጠቃላይ 400,000 ቶከኖች የአውድ ርዝመት ነው።

እውነታዊነት

GPT‑5 ከቀደሙት ሞዴሎቻችን የበለጠ አስተማማኝ ነው። ከLongFact እና FactScore መለኪያዎች በሚመጡ ጥያቄዎች ላይ፣ GPT‑5 ከo3 ጋር ሲነጻጸር ~80% ያነሰ የእውነታ ስህተቶችን ያደርጋል። ይህ በተለይ በኮድ፣ በመረጃ እና በውሳኔ አሰጣጥ ረገድ—ትክክለኛነት አስፈላጊ ለሆኑ የወኪል አጠቃቀም ጉዳዮች የተሻለ ተስማሚ ያደርገዋል።

ከፍተኛ ውጤቶች የባሱ ናቸው። LongFact⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እና FActScore⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ክፍት የሆኑ እውነታ ፈላጊ ጥያቄዎችን ይዟል። ከእነዚህ እርምጃዎች በሚመጡ እርምጃዎች ላይ ምላሾችን ለመፈተሽ እና የተሳሳቱ የይገባኛል እርምጃዎችን ክፍልፋይ ለመለካት በኤልኤልኤም ላይ የተመሰረተ ክፍል በአሰሳ እንጠቀማለን። የተግበራ እና የደረጃ አሰጣጥ ዝርዝሮችን በስርዓት ካርድ⁠ ውስጥ ማግኘት ይቻላል። የማመዛዘን ሞዴሎች ከፍተኛ የማመዛዘን ጥረት ይጠቀሙ ነበር። ፍለጋ አልነቃም ነበር።

በአጠቃላይ፣ GPT‑5 የራሱን ውስንነቶች የበለጠ እንዲያውቅ እና ያልተጠበቁ ሁኔታዎችን በተሻለ ሁኔታ እንዲቋቋም ስልጠና ተሰጥቶታል። GPT‑5 በጤና ጥያቄዎች ላይ የበለጠ ትክክለኛ እንዲሆን አሰልጥነናል (በእኛ ምርምር ብሎግ ላይ ተጨማሪ ያንብቡ)። ልክ እንደሌሎች የቋንቋ ሞዴሎች፣ ጉዳቶቹ ከፍተኛ በሚሆኑበት ጊዜ የGPT‑5ን ስራ እንዲያረጋግጡ እንመክራለን።

አዳዲስ ባህሪያት

ዝቅተኛ የማመዛዘን ጥረት

አበልጻጊዎች የGPT‑5ን የአስተሳሰብ ጊዜ በAPI ውስጥ ባለው reasoning_effort መለኪያ በኩል መቆጣጠር ይችላሉ። ከቀደሙት ዋጋዎች በተጨማሪ—ዝቅተኛ፣ መካከለኛ (ነባሪ) እና ከፍተኛ—GPT‑5 ዝቅተኛ የሚደግፍ ሲሆን ይህም የGPT‑5ን መልስ በፍጥነት ለመመለስ ያለውን ማመዛዘን ይቀንሳል።

ከፍተኛ reasoning_effort ዋጋዎች ጥራትን ከፍ ያደርጋሉ እና ዝቅተኛ ዋጋዎች ፍጥነትን ከፍ ያደርጋሉ። ሁሉም ተግባራት ከተጨማሪ የማመዛዘን ችሎታ እኩል ጥቅም አያገኙም፣ ስለዚህ የትኛው ለእርስዎ ፍላጎት ላላቸው የአጠቃቀም ጉዳዮች በተሻለ ሁኔታ እንደሚሰራ ለማየት እንዲሞክሩ እንመክራለን።

ለምሳሌ፣ ከ ዝቅተኛ በላይ ያለው የማመዛዘን ችሎታ በአንጻራዊነት ቀላል የሆነ የረጅም አውድ መልሶ ማግኛን ብዙም አያክልም፣ ነገር ግን ለ CharXiv Reasoning⁠(በአዲስ መስኮት ውስጥ ይክፈታል) የእይታ የማመዛዘን ችሎታ መለኪያ ጥቂት መቶኛ ነጥቦችን ይጨምራል።

የGPT‑5 የማመዛዘን ጥረት በተለያዩ ተግባራት ላይ ተለያዩ ጥቅሞችን ያስገኛል። ለCharXiv Reasoning፣ GPT‑5 የpython መሳሪያ መዳረሻ ተሰጥቶታል።

ብዙ ቃላት መጠቀም

የGPT‑5 መልሶችን ነባሪ ርዝመት ለመምራት፣ አዲስ የAPI መለኪያ፣ ብዙ ቃላት መጠቀም አስተዋውቀናል፣ ይህም ዝቅተኛ፣ መካከለኛ (ነባሪ) እና ከፍተኛ ዋጋዎችን ይወስዳል። ግልጽ መመሪያዎች ከብዙ ቃላት መጠቀም መለኪያዎች ጋር የሚጋጩ ከሆነ ግልጽ መመሪያዎች ቀዳሚ ይሆናሉ። ለምሳሌ፣ GPT‑5ን “ባለ 5 አንቀጽ ድርሰት እንዲጽፍ” ከጠየቁ፣ የቃላት ደረጃው ምንም ይሁን ምን፣ የሞዴሉ ምላሽ ሁልጊዜ 5 አንቀጾች መሆን አለበት (ይሁን እንጂ አንቀጾቹ እራሳቸው ረጅም ወይም አጭር ሊሆኑ ይችላሉ)።

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

ከመሳሪያ ጥሪዎች በፊት መልእክቶችን አስቀድመው ያዘጋጁ

መመሪያ ከተሰጠው፣ GPT‑5 ከመሳሪያ ጥሪዎች በፊት እና መካከል በተጠቃሚ የሚታዩ ቅድመ-መልዕክቶችን ያወጣል። ከተደበቁ የማመዛዘን መልዕክቶች በተለየ፣ እነዚህ የሚታዩ መልዕክቶች GPT‑5 እቅዶችን እና እድገትን ለተጠቃሚው እንዲያስተላልፍ ያስችለዋል፣ ይህም የመጨረሻ ተጠቃሚዎች የመሳሪያ ጥሪዎችን አቀራረብ እና ዓላማ እንዲረዱ ያግዛቸዋል።

ብጁ መሳሪያዎች

አዲስ የመሳሪያ አይነት—ብጁ መሳሪያዎችን—እያስተዋወቅን ሲሆን፣ ይህም GPT‑5 ከJSON ይልቅ ግልጽ ጽሑፍ ያለው መሳሪያ እንዲጠራ ያስችለዋል። GPT‑5 ብጁ የመሳሪያ ቅርጸቶችን እንዲከተል ለመገደብ፣ አበልጻጊዎች regex ወይም የበለጠ ሙሉ በሙሉ የተገለጸ ከአውድ-ነጻ ሰዋሰው⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ማቅረብ ይችላሉ።

ቀደም ሲል፣ በአበልጻጊዎች የተገለጹ መሳሪያዎች በይነገጻችን JSON እንዲጠሩ ይፈልግ የነበረ ሲሆን፣ ይህም በአጠቃላይ በድህረ ገጽ APIዎች እና በአበልጻጊዎች የሚጠቀሙበት የተለመደ ቅርጸት ነው። ሆኖም፣ ትክክለኛ JSON ማውጣት ሞዴሉ ሁሉንም የጥቅስ ምልክቶች፣ የኋላ ሰረዝ፣ አዲስ መስመሮች እና ሌሎች የቁጥጥር ቁምፊዎችን በትክክል እንዲያመልጥ ይፈልጋል። ሞዴሎቻችን JSONን ለማውጣት በሚገባ የሰለጠኑ ቢሆኑም፣ እንደ በመቶዎች የሚቆጠሩ የኮድ መስመሮች ወይም ባለ 5 ገጽ ሪፖርት ባሉ ረጅም ግቤቶች ላይ፣ የስህተት እድሉ ይጨምራል። በተበጁ መሳሪያዎች፣ ማምለጥ የሚያስፈልጋቸውን ሁሉንም ቁምፊዎች ማምለጥ ሳያስፈልግ፣ GPT‑5 የመሳሪያ ግቤቶችን እንደ ተራ ጽሑፍ መጻፍ ይችላል።

በSWE-bench Verified ላይ ከJSON መሳሪያዎች ይልቅ ብጁ መሳሪያዎችን በመጠቀም፣ GPT‑5 በግምት ተመሳሳይ ውጤት አስመዝግቧል።

ደህንነት

GPT‑5 በደህንነት ላይ ያለውን ድንበር ያራዝማል እና የበለጠ ጠንካራ፣ አስተማማኝ እና አጋዥ ሞዴል ነው። GPT‑5 ከቀደሙት ሞዴሎቻችን ጋር ሲነጻጸር የመቃዠት ዕድሉ በእጅጉ ያነሰ ነው፣ ተግባሮቹን እና ችሎታዎቹን ለተጠቃሚው በሐቀኝነት ያስተላልፋል እና በተቻለ መጠን የደህንነት ገደቦችን ሳይጥስ በጣም ጠቃሚውን መልስ ይሰጣል። በእኛ ምርምር ብሎጋችን ላይ የበለጠ ማንበብ ይችላሉ።

ተገኝነት እና የዋጋ አወጣጥ

GPT‑5 አሁን በAPI መድረክ በሦስት መጠኖች ይገኛል፦ gpt-5፣ gpt-5-mini እና gpt-5-nano። በResponses API፣ Chat Completions API ላይ ይገኛል፣ እና በCodex CLI ውስጥ ነባሪው ነው። GPT‑5 ዋጋው $1.25/በ1 ሚሊዮን የግቤት ቶከኖች እና $10/1 ሚሊዮን የውጤት ቶከኖች፣ GPT‑5 mini ዋጋው $0.25/በ1 ሚሊዮን የግቤት ቶከኖች እና $2/በ1 ሚሊዮን የውጤት ቶከኖች፣ እና GPT‑5 nano ዋጋው $0.05/በ1 ሚሊዮን የግቤት ቶከኖች እና $0.40/በ1 ሚሊዮን የውጤት ቶከኖች ነው።

እነዚህ ሞዴሎች የ reasoning_effort እና ብዙ ቃላት መጠቀም API መለኪያዎችን እንዲሁም ብጁ መሳሪያዎችን ይደግፋሉ። እንዲሁም ትይዩ የመሳሪያ ጥሪን፣ አብሮ የተሰሩ መሳሪያዎችን (የድህረ ገጽ ፍለጋ፣ የፋይል ፍለጋ፣ የምስል ማመንጨት እና ሌሎችንም)፣ ዋና የAPI ባህሪያትን (በቀጥታ ስርጭት መከታተል፣ የተዋቀሩ ውጤቶች እና ሌሎችንም) እና እንደ ጥያቄ መሸጎጫ እና የባች API ያሉ ወጪ ቆጣቢ ባህሪያትን ይደግፋሉ።

በChatGPT ውስጥ ጥቅም ላይ የዋለው የማመዛዘን ችሎታ የሌለው የGPT‑5 ስሪት በAPI ውስጥ እንደ gpt-5-chat-latest የሚገኝ ሲሆን ይህም እንዲሁ $1.25/በ1 ሚሊዮን የግቤት ቶከኖች እና $10/በ1 ሚሊዮን የውጤት ቶከኖች ዋጋ ይገኛል።

GPT‑5 በMicrosoft መድረኮች ላይም እየተጀመረ ሲሆን ከእነዚህም ውስጥ Microsoft 365 Copilot፣ Copilot፣ GitHub Copilot እና Azure AI Foundry ይገኙበታል።

ለመጀመር የGPT‑5 ሰነድ⁠(በአዲስ መስኮት ውስጥ ይክፈታል)፣ የዋጋ አወጣጥ ዝርዝሮች⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እና የማበረታቻ መመሪያን⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።

ዝርዝር መለኪያዎች

አስተውሎት

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	94.6%	91.1%	85.2%	88.9%	92.7%	46.4%	40.2%	-
FrontierMath(with python tool only)	26.3%	22.1%	9.6%	15.8%	15.4%	-	-	-
GPQA diamond(no tools)	85.7%	82.3%	71.2%	83.3%	81.4%	66.3%	65.0%	50.3%
HLE^[1](no tools)	24.8%	16.7%	8.7%	20.2%	14.7%	5.4%	3.7%	-
HMMT 2025(no tools)	93.3%	87.8%	75.6%	81.7%	85.0%	28.9%	35.0%	-

[1] በቀድሞው የብሎግ ልጥፋችን ላይ ከተዘገቡት ቁጥሮች ጋር ትንሽ ልዩነት አለ፣ ምክንያቱም እነዚያ ቁጥሮች በቀድሞው የHLE ስሪት ላይ ስለተሰሩ ነው።

አይነተ ብዙ

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	84.2%	81.6%	75.6%	82.9%	81.6%	74.8%	72.7%	55.4%
MMMU-Pro(avg across standard and vision sets)	78.4%	74.1%	62.6%	76.4%	73.4%	60.3%	58.9%	33.0%
CharXiv reasoning(python enabled)	81.1%	75.5%	62.7%	78.6%	72.0%	56.7%	56.8%	40.5%
VideoMMMU, max frame 256	84.6%	82.5%	66.8%	83.3%	79.4%	60.9%	55.1%	30.2%
ERQA	65.7%	62.9%	50.1%	64.0%	56.5%	44.3%	42.3%	26.5%

ኮዲንግ

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	US$112 ሺ	US$75 ሺ	US$49 ሺ	US$86 ሺ	US$66 ሺ	US$34 ሺ	US$31 ሺ	US$9 ሺ
SWE-bench Verified^[2]	74.9%	71.0%	54.7%	69.1%	68.1%	54.6%	23.6%	-
Aider polyglot(diff)	88.0%	71.6%	48.4%	79.6%	58.2%	52.9%	31.6%	6.2%

[2] በመሠረተ ልማታችን ላይ ሊሰሩ የማይችሉ 23/500 ችግሮችን እናስወግዳለን። ሙሉ ዝርዝር የተመረጡት 23 ተግባራት የሚከተሉት ናቸው፦ 'astropy__astropy-7606'፣ 'astropy__astropy-8707'፣ 'astropy__astropy-8872'፣ 'django__django-10097'፣ 'django__django-7530'፣ 'matplotlib__matplotlib-20488'፣ 'matplotlib__matplotlib-20676'፣ 'matplotlib__matplotlib-20826'፣ 'matplotlib__matplotlib-23299'፣ 'matplotlib__matplotlib-24970'፣ 'matplotlib__matplotlib-25479'፣ 'matplotlib__matplotlib-26342'፣ 'psf__requests-6028'፣ 'pylint-dev__pylint-6528'፣ 'pylint-dev__pylint-7080'፣ 'pylint-dev__pylint-7277'፣ 'pytest-dev__pytest-5262'፣ 'pytest-dev__pytest-7521'፣ 'scikit-learn__scikit-learn-12973'፣ 'sphinx-doc__sphinx-10466'፣ 'sphinx-doc__sphinx-7462'፣ 'sphinx-doc__sphinx-8265'፣ እና 'sphinx-doc__sphinx-9367'።

መመሪያን መከተል

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	69.6%	62.3%	54.9%	60.4%	57.5%	46.2%	42.2%	31.1%
Internal API instruction following eval(hard)	64.0%	65.8%	56.1%	47.4%	44.7%	49.1%	45.1%	31.6%
COLLIE	99.0%	98.5%	96.9%	98.4%	96.1%	65.8%	54.6%	42.5%

[3] ማሳሰቢያ፡ በMultiChallenge (GPT-4o) ውስጥ ያለው ነባሪ ደረጃ መዳቢ ብዙውን ጊዜ የሞዴል ምላሾችን ውጤት እንደሚያዛባ ተገንዝበናል። ደረጃ መዳቢውን እንደ o3-mini ወዳለ የማመዛዘን ሞዴል መቀየር፣ በመረመርናቸው ናሙናዎች ላይ የደረጃ አሰጣጥ ትክክለኛነትን በእጅጉ እንደሚያሻሽል ተገንዝበናል።

ተግባር መጥራት

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	62.6%	60.0%	41.0%	64.8%	60.2%	56.0%	51.0%	14.0%
Tau²-bench retail	81.1%	78.3%	62.3%	80.2%	70.5%	74.0%	66.0%	21.5%
Tau²-bench telecom	96.7%	74.1%	35.5%	58.2%	40.5%	34.0%	44.0%	12.1%

ረጅም አውድ

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	95.2%	84.3%	43.2%	55.0%	56.4%	57.2%	47.2%	36.6%
OpenAI-MRCR: 2 needle 256k	86.8%	58.8%	34.9%	-	-	56.2%	45.5%	22.6%
Graphwalks bfs <128k	78.3%	73.4%	64.0%	77.3%	62.3%	61.7%	61.7%	25.0%
Graphwalks parents <128k	73.3%	64.3%	43.8%	72.9%	51.1%	58.0%	60.5%	9.4%
BrowseComp Long Context 128k	90.0%	89.4%	80.4%	88.3%	80.0%	85.9%	89.0%	89.4%
BrowseComp Long Context 256k	88.8%	86.0%	68.4%	-	-	75.5%	81.6%	19.1%
VideoMME(long, with subtitle category)	86.7%	78.5%	65.7%	84.9%	79.5%	78.7%	68.4%	55.2%

ቅዠቶች

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	1.0%	0.7%	1.0%	5.2%	3.0%	0.7%	1.1%	-
LongFact-Objects hallucination rate(no tools)[lower is better]	1.2%	1.3%	2.8%	6.8%	8.9%	1.1%	1.8%	-
FActScore hallucination rate(no tools)[lower is better]	2.8%	3.5%	7.3%	23.5%	38.7%	6.7%	10.9%	-

2025

ደራሲ

OpenAI

ማንበብዎን ይቀጥሉ

ሁሉንም ይመልከቱ

Introducing OpenAI Presence

ምርትጁላይ 22 2026

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 አሁን በMicrosoft 365 Copilot ተመራጭ ሞዴል ሆኗል

ምርትጁላይ 9 2026

GPT-5.6፦ ከፍላጎትዎ ጋር የሚዛመድ ግንባር ቀደም አስተውሎት

ምርትጁላይ 9 2026