ዛሬ፣ GPT‑5ን በAPI መድረካችን ላይ እየለቀቅን ነው—እስካሁን ድረስ ለኮዲንግ እና ለወኪል ተግባራት ምርጡ ሞዴላችን።
GPT‑5 በዋና የኮዲንግ መለኪያዎች ላይ ምርጡ (SOTA) ሲሆን በSWE-bench Verified ላይ 74.9% እና በAider polyglot ላይ 88% አስመዝግቧል። GPT‑5ን እውነተኛ የኮዲንግ ተባባሪ እንዲሆን አድርገን አሰልጥነናል። ከፍተኛ ጥራት ያለው ኮድ በማመንጨት እና እንደ በግስ ማስተካከል፣ ኮድ ማርትዕ ያሉ ተግባሮችን በመስራት እና ውስብስብ የኮድቤዝ ጥያቄዎችን በመመለስ ረገድ የላቀ ነው። ሞዴሉ መመራት የሚችል እና ተባባሪ ነው—በጣም ዝርዝር መመሪያዎችን በከፍተኛ ትክክለኛነት መከተል ይችላል እና ከመሳሪያ ጥሪዎች በፊት እና መካከል ስለ ድርጊቶቹ ግልጽ ማብራሪያዎችን መስጠት ይችላል። ሞዴሉ በፍሮንት-ኤንድ ኮዲንግ ረገድም የላቀ ሲሆን በፍሮንት-ኤንድ የድህረ ገጽ ግንባታ OpenAI o3ን በውስጣዊ ምርመራ ጊዜ 70% ይበልጣል።
በጀማሪ ኩባንያዎች እና ኢንተርፕራይዞች ውስጥ ካሉ የቅድሚያ ሞካሪዎች ጋር በመተባበር በእውነተኛ ዓለም የኮዲንግ ተግባሮች ላይ GPT‑5ን አሰልጥነናል። Cursor፣ GPT‑5 "ከተጠቀሙባቸው ሞዴሎች ሁሉ እጅግ ብልህ" እና "በሚያስደንቅ ሁኔታ አስተዋይ የሆነ፣ ለመምራት ቀላል እና በሌሎች ሞዴሎች ውስጥ እንኳን ያላዩት ስብዕና እንዳለው" ተናግሯል። Windsurf፣ GPT‑5 በግምገማዎቻቸው ላይ SOTA እንደሆነ እና "ከሌሎች ዋና ሞዴሎች ጋር ሲነጻጸር ግማሽ የመሳሪያ ጥሪ ስህተት መጠን እንዳለው አጋርቷል።" Vercel፣ "ይህ ምርጡ የፍሮንት-ኢንድ ሰው ሰራሽ አስተውሎት (AI) ሞዴል ነው፣ በውበት ስሜት እና በኮድ ጥራት ላይ ከፍተኛ አፈጻጸምን በማሳየት በራሱ ምድብ ውስጥ ያስቀምጠዋል" ይላል።
GPT‑5 እንዲሁም ለረጅም ጊዜ በተከናወኑ የወኪል ተግባራት የላቀ ነው—ከሁለት ወራት በፊት በተለቀቀው የመሳሪያ ጥሪ መለኪያ τ2-ቤንች ቴሌኮም ላይ የSOTA ውጤቶችን (96.7%) አሳክቷል። የተሻሻለው የGPT‑5 የመሳሪያ ብልህነት መንገዱን ሳይስት በደርዘን የሚቆጠሩ የመሳሪያ ጥሪዎችን—በቅደም ተከተልም ሆነ በትይዩ—በአስተማማኝ ሁኔታ እንዲያስተሳስር የሚያስችለው ሲሆን ይህም ውስብስብ እና እውነተኛ ተግባራትን ከጫፍ እስከ ጫፍ ለማከናወን በጣም የተሻለ ያደርገዋል። እንዲሁም የመሳሪያ መመሪያዎችን በትክክል ይከተላል፣ የመሳሪያ ስህተቶችን በማስተናገድ የተሻለ ነው፣ እና ረጅም አውድ ያለው ይዘት መልሶ ማግኘት ላይ የላቀ ነው። Manus፣ GPT‑5 “በውስጣዊ መለኪያዎቻቸው ላይ ከአንድ ሞዴል ያዩትን ምርጥ አፈጻጸም አስመዝግቧል” ብለዋል። Notion፣ "[የሞዴሉ] ፈጣን ምላሾች፣ በተለይም በዝቅተኛ የማመዛዘን ሁኔታ፣ ውስብስብ ተግባራት በአንድ ጊዜ መፍታት ሲፈልጉ GPT‑5 ተስማሚ ሞዴል ያደርገዋል" ይላል። Inditex፣ “[GPT‑5]ን በእውነት የሚለየው የአስተሳሰቡ ጥልቀት ነው፡- እውነተኛ የርዕሰ ጉዳይ ግንዛቤን የሚያንፀባርቁ ጥልቅ፣ ባለብዙ ደረጃ መልሶች” ሲል አጋርቷል።
አበልጻጊዎች በሞዴል ምላሾች ላይ የበለጠ ቁጥጥር እንዲኖራቸው በእኛ API ውስጥ አዳዲስ ባህሪያትን እያስተዋወቅን ነው። GPT‑5 መልሶቹ አጭር እና ቀጥተኛ ወይም ረጅም እና ሁሉን አቀፍ መሆናቸውን ለመቆጣጠር የሚረዳ አዲስ የቃላት ብዛት መለኪያ (ዋጋዎች፦ ዝቅተኛ፣ መካከለኛ፣ ከፍተኛ) ይደግፋል። የGPT‑5 reasoning_effort መለኪያ አሁን ሰፊ ማመዛዘን ሳይኖር መልሶችን በፍጥነት ለማግኘት አነስተኛ ዋጋ ሊወስድ ይችላል። እንዲሁም GPT‑5 ከJSON ይልቅ በቀላል ጽሑፍ የተጻፉ መሳሪያዎችን እንዲጠራ የሚያስችል አዲስ የመሳሪያ አይነት—ብጁ መሳሪያዎችን—አክለናል። ብጁ መሳሪያዎች በአበልጻጊው የቀረቡ ከአውድ-ነጻ ሰዋሰዎችን በመጠቀም መገደብን ይደግፋሉ።
አበልጻጊዎች አፈጻጸምን፣ ወጪን እና መዘግየትን ለመለዋወጥ የበለጠ ተለዋዋጭነት እንዲኖራቸው GPT‑5ን በAPI ውስጥ በሦስት መጠኖች—gpt-5፣ gpt-5-mini እና gpt-5-nano—እየለቀቅን ነው። በChatGPT ውስጥ ያለው GPT‑5 የማመዛዘን፣ ያለ-ማመዛዘን እና የራውተር ሞዴሎች ስርዓት ቢሆንም፣ በAPI መድረክ ውስጥ ያለው GPT‑5 በChatGPT ውስጥ ከፍተኛ አፈጻጸምን የሚያጎለብት የማመዛዘን ሞዴል ነው። በተለይም፣ አነስተኛ ማመዛዘን ያለው GPT‑5 በChatGPT ውስጥ ካለው የማያመዛዝን ሞዴል የተለየ ሞዴል ሲሆን ለአበልጻጊዎች የተሻለ ማስተካከያ አለው። በChatGPT ውስጥ ጥቅም ላይ የዋለው የማያመዛዝነው ሞዴል እንደ gpt-5-chat-latest ይገኛል።
በChatGPT ውስጥ ስለ GPT‑5 ለማንበብ እና ስለ ሌሎች የChatGPT ማሻሻያዎች የበለጠ ለማወቅ፣ የእኛ ምርምር ብሎግ ይመልከቱ። ድርጅቶች GPT‑5ን ለመጠቀም እንዴት እንደጓጉ የበለጠ ለማወቅ የእኛ የኢንተርፕራይዝ ብሎግ ይመልከቱ።
GPT‑5 እስካሁን ከለቀቅናቸው እጅግ በጣም ጠንካራ የኮዲንግ ሞዴል ነው። በኮዲንግ መለኪያዎች እና በእውነተኛ ዓለም አጠቃቀም ጉዳዮች ላይ ከo3 በላይ ውጤታማ ሲሆን እንደ Cursor፣ Windsurf፣ GitHub Copilot እና Codex CLI ባሉ ወኪሎች የኮዲንግ ምርቶች ላይ እንዲታይ በጥሩ ሁኔታ ተስተካክሏል። GPT‑5 የአልፋ ሞካሪዎቻችንን በብዙ የግል ውስጣዊ ገምጋሚዎቻቸው ላይ ሪከርድ በማስመዝገብ አስገርሟል።
Early feedback on GPT‑5 for real-world coding tasks
“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”
በእውነተኛው ዓለም የሶፍትዌር ምህንድስና ተግባራት ላይ የተመሠረተ ግምገማ፣ በሆነው SWE-bench Verified ላይ፣ GPT‑5፣ ከo3 69.1% የበለጠ 74.9% ውጤት አስመዝግቧል። በተለይም፣ GPT‑5 ከፍተኛ ውጤቱን በከፍተኛ ቅልጥፍና እና ፍጥነት አስመዝግቧል፦ በከፍተኛ የማመዛዘን ጥረት ከo3 ጋር ሲነጻጸር፣ GPT‑5 22% ያነሰ የውጤት ቶከኖችን እና 45% ያነሰ የመሳሪያ ጥሪዎችን ይጠቀማል።
በ SWE-bench Verified ውስጥ፣ አንድ ሞዴል የኮድ ማከማቻ እና የችግር መግለጫ ይሰጠዋል፣ እና ችግሩን ለመፍታት ፓች ማመንጨት አለበት። የጽሑፍ መለያዎች የማመዛዘን ጥረትን ያመለክታሉ። ውጤቶቻችን ከ500 ችግሮች ውስጥ 23ቱን የሚያወጡ ሲሆን እነዚህም መፍትሄዎቻቸው በመሠረተ ልማታችን ላይ አስተማማኝ በሆነ መንገድ ያላለፉ ናቸው። GPT‑5 መፍትሄዎችን በጥልቀት ማረጋገጥ ላይ አፅንዖት የሚሰጥ አጭር ጥያቄ ተሰጥቶታል፤ ተመሳሳዩ ጥያቄ ለo3 አልጠቀመም።
የኮድ አርትዖት ግምገማ በሆነው Aider polyglot ላይ፣ GPT‑5 አዲስ የ88% ሪከርድ ያስመዘገበ ሲሆን፣ ይህም ከo3 ጋር ሲነጻጸር የስህተት መጠን አንድ ሶስተኛ ቅነሳ ነው።
በ Aider polygot(በአዲስ መስኮት ውስጥ ይክፈታል) (diff) ውስጥ፣ አንድ ሞዴል ከExercism የኮዲንግ ፈተኛ ይሰጠዋል እና መፍትሄውን እንደ ኮድ diff መጻፍ አለበት። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።
እንዲሁም የተለያዩ ክፍሎች እንዴት እንደሚሰሩ ወይም እርስ በእርስ እንዴት እንደሚሰሩ ለሚነሱ ጥያቄዎች መልስ ለመስጠት GPT‑5 የኮድ ቤዝዎችን በጥልቀት በመፈለግ ረገድ በጣም ጥሩ ሆኖ አግኝተነዋል። እንደ OpenAI የማጠናከሪያ ትምህርት ንብርብር ውስብስብ በሆነ የኮድቤዝ ውስጥ፣ GPT‑5 ስለ ኮዳችን ጥያቄዎችን በማመዛዘን እና በመመለስ የራሳችንን የዕለት ተዕለት ሥራ በማፋጠን ሊረዳን እንደሚችል እየተረዳን ነው።
ለድህረ ገጽ መተግበሪያዎች የፍሮንት-ኤንድ ኮድ ሲያዘጋጁ፣ GPT‑5 የበለጠ ውበት ያለው፣ ትልቅ ፍላጎት ያለው እና ትክክለኛ ነው። ከo3 ጋር ጎን ለጎን ሲነጻጸሩ፣ GPT‑5 በሞካሪዎቻችን ዘንድ በ70% ጊዜ ተመራጭ ነበር።
GPT‑5 በአንድ ነጠላ ጥያቄ ምን ማድረግ እንደሚችል የሚያሳዩ አንዳንድ አስደሳች እና የተመረጡ ምሳሌዎች እነሆ፦
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
በእኛ ማዕከለ ስእላት እዚህ(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ የGPT‑5 ተጨማሪ ምሳሌዎችን ይመልከቱ።
GPT‑5 በተለይ እንደ Cursor፣ Windsurf፣ GitHub Copilot እና Codex CLI ባሉ ወኪሎች የኮዲንግ ምርቶች ውስጥ የተሻለ ተባባሪ ነው። በሚሰራበት ጊዜ፣ GPT‑5 በመሳሪያ ጥሪዎች መካከል እቅዶችን፣ ዝማኔዎችን እና ማጠቃለያዎችን ሊያወጣ ይችላል። ከቀደሙት ሞዴሎቻችን ጋር ሲነጻጸር፣ GPT‑5 ለቅድመ ዝግጅትዎ ሳይቆም ወይም ከፍተኛ ውስብስብነት ሳይጠይቅ ትልቅ ስራዎችን ለማጠናቀቅ የበለጠ ንቁ ነው።
ውስብስብ ተግባር ሲያከናውን GPT‑5 ምን ሊመስል እንደሚችል የሚያሳይ ምሳሌ እነሆ (በዚህ ሁኔታ፣ ለምግብ ቤት ድህረ ገጽ መፍጠር)፦
After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.
ከወኪል ኮዲንግ በተጨማሪ፣ GPT‑5 በአጠቃላይ በወኪል ተግባራት የተሻለ ነው። GPT‑5 በመመሪያ መከተል መለኪያዎች (በo3‑mini ደረጃ እንደተሰጠው በScale MultiChallenge ላይ 69.6%) እና በመሳሪያ ጥሪ (በτ2-bench telecom ላይ 96.7%) አዳዲስ ሪከርዶችን አስመዝግቧል። የተሻሻለ የመሳሪያ ብልህነት GPT‑5 በእውነተኛ ዓለም ውስጥ ያሉ ተግባራትን ለማከናወን እርምጃዎችን ይበልጥ አስተማማኝ በሆነ መንገድ እንዲያጣምር ያስችለዋል።
ለተወካይ ተግባራት በGPT‑5 ላይ ቀደምት ግብረ መልስ
«GPT-5 ትልቅ ዕድገት ነው። በውስጣዊ መመዘኛዎቻችን ላይ ከአንድ ሞዴል ያየነው ምርጥ አፈጻጸም አስመዝግቧል። GPT-5 በተለያዩ ተግባራት የላቀ ነበር—አንድ የኮድ መስመር ሳንለዋወጥ ወይም እርምጃ ሳንለብስ በፊት እንኳን። አዲስ መግቢያዎች እና በመሳሪያ አጠቃቀም ላይ የበለጠ ትክክለኛ ቁጥጥር ወኪሎቻችን በማንቃት እና በመሪነት ላይ አስፈላጊ ዝላይ እንዲያደርሱ አስችሏቸዋል።
GPT‑5 ከቀደሙት ሁሉ በበለጠ አስተማማኝ መመሪያዎችን የሚከተል ሲሆን፣ ከግምገማው በኋላ በCOLLIE፣ Scale MultiChallenge እና ውስጣዊ መመሪያዎቻችን ላይ ከፍተኛ ውጤት አስመዝግቧል።
በ COLLIE(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ሞዴሎች የተለያዩ ገደቦችን የሚያሟላ ጽሑፍ መጻፍ አለባቸው። በ Scale MultiChallenge(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ሞዴሎች ባለብዙ ዙር ውይይቶች ላይ ከቀደሙት መልዕክቶች አራት አይነት መረጃዎችን በአግባቡ እንዲጠቀሙ ይፈተናሉ። ውጤቶቻችን የመጡት o3‑mini እንደ መለኪያ በመጠቀም ሲሆን ይህም ከGPT‑4o የበለጠ ትክክለኛ ነበር። በእኛ ውስጣዊ የOpenAI API መመሪያ የመከተል ግምገማ ውስጥ፣ ሞዴሎች ከእውነተኛ የአበልጻጊ ግብረመልስ የተገኙ አስቸጋሪ መመሪያዎችን መከተል አለባቸው። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።
ለአበልጻጊዎች አስፈላጊ በሆኑ መንገዶች የመሳሪያ ጥሪን ለማሻሻል ጠንክረን ሰርተናል። GPT‑5 የመሳሪያ መመሪያዎችን በመከተል፣ የመሳሪያ ስህተቶችን በመፍታት የተሻለ እና ብዙ የመሳሪያ ጥሪዎችን በቅደም ተከተል ወይም በትይዩ በማድረግ የተሻለ ነው። በሚታዘዝበት ጊዜ፣ GPT‑5 ከመሳሪያ ጥሪዎች በፊት እና በረጅም ጊዜ በተከናወኑ ተግባራት ወቅት ተጠቃሚዎች ስለሂደታቸው ለማዘመን የቅድመ-መግለጫ መልዕክቶችን ማውጣት ይችላል።
ከሁለት ወራት በፊት፣ τ2-bench telecom በSierra.ai እንደ ፈታኝ የመሳሪያ አጠቃቀም መለኪያ ሆኖ ይፋ የወጣ ሲሆን ይህም በተጠቃሚዎች ሊለወጥ ከሚችል የአካባቢ ሁኔታ ጋር በሚገናኝበት ጊዜ የቋንቋ ሞዴል አፈፃፀም እንዴት በከፍተኛ ሁኔታ እንደሚቀንስ አጉልቶ ያሳያል። በህትመታቸው(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ ከ49% በላይ ያስመዘገበ ሞዴል አልነበረም። GPT‑5 97% አስመዝግቧል።
በ τ2-bench(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ፣ አንድ ሞዴል የደንበኛ አገልግሎት ተግባርን ለማከናወን መሳሪያዎችን መጠቀም ያለበት ሲሆን፣ እዚያም መግባባት የሚችል እና በዓለም ሁኔታ ላይ እርምጃ መውሰድ የሚችል ተጠቃሚ ሊኖር ይችላል። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።
GPT‑5 በረጅም አውድ አፈፃፀም ላይም ጠንካራ ማሻሻያዎችን ያሳያል። የረጅም አውድ መረጃ ማግኛ መለኪያ በሆነው OpenAI-MRCR ላይ፣ GPT‑5 ከረጅም የግቤት ርዝመት ጋር በከፍተኛ ሁኔታ በሚያድግ ህዳግ ከo3 እና ከGPT‑4.1 በተሻለ ሁኔታ ይሰራል።
በ OpenAI-MRCR(በአዲስ መስኮት ውስጥ ይክፈታል) (ባለብዙ ዙር የጋራ ማጣቀሻ ጥራት)፣ በርካታ ተመሳሳይ “መርፌ” የተጠቃሚ ጥያቄዎች የተመሳሳይ ጥያቄዎች እና ምላሾች ባሉ ረጅም “የሣር ክምር” ውስጥ ይገባሉ፣ እና ሞዴሉ ለiኛ መርፌ የሚሰጠውን ምላሽ እንደገና እንዲደግም ይጠየቃል። አማካይ የመዛመድ ጥምርታ በሞዴሉ ምላሽ እና በትክክለኛው መልስ መካከል ያለውን አማካይ የመዛመድ ጥምርታ ይለካል። በ256k ከፍተኛ የግቤት ቶከኖች ላይ ያሉት ነጥቦች ከ128k–256k የግቤት ቶከኖች አማካይ እንደሆኑ ይወክላሉ፣ እና እንዲሁ ይቀጥላል። እዚህ 256k 256 * 1,024 = 262,114 ቶከኖችን ይወክላል። የማመዛዘን ሞዴሎች በከፍተኛ የማመዛዘን ጥረት ይሰራሉ።
እንዲሁም የረጅም ጊዜ ጥያቄዎችን እና መልሶችን ለመገምገም አዲስ መለኪያ የሆነውን BrowseComp Long Context(በአዲስ መስኮት ውስጥ ይክፈታል) ኦፕን ሶርስ እያደረግን ነው። በዚህ መለኪያ ውስጥ፣ ሞዴሉ የተጠቃሚ ጥያቄ፣ ረጅም ተዛማጅ የፍለጋ ውጤቶች ዝርዝር ተሰጥቶታል፣ እና በፍለጋ ውጤቶቹ ላይ በመመስረት ለጥያቄው መልስ መስጠት አለበት። የBrowseComp Long Contextን ተጨባጭ፣ አስቸጋሪ እና አስተማማኝ የሆነ የእውነት መልስ እንዲኖረው አድርገን ነድፈነዋል። በ128K–256K ቶከኖች የሆኑ ግቤቶች ላይ GPT‑5 ትክክለኛውን መልስ 89% ጊዜ ይሰጣል።
በAPI ውስጥ፣ ሁሉም የGPT‑5 ሞዴሎች ቢበዛ 272,000 የግቤት ቶከኖችን መቀበል እና ቢበዛ 128,000 የማመዛዘን እና የውጤት ቶከኖችን መልቀቅ ይችላሉ፣ ይህም በአጠቃላይ 400,000 ቶከኖች የአውድ ርዝመት ነው።
GPT‑5 ከቀደሙት ሞዴሎቻችን የበለጠ አስተማማኝ ነው። ከLongFact እና FactScore መለኪያዎች በሚመጡ ጥያቄዎች ላይ፣ GPT‑5 ከo3 ጋር ሲነጻጸር ~80% ያነሰ የእውነታ ስህተቶችን ያደርጋል። ይህ በተለይ በኮድ፣ በመረጃ እና በውሳኔ አሰጣጥ ረገድ—ትክክለኛነት አስፈላጊ ለሆኑ የወኪል አጠቃቀም ጉዳዮች የተሻለ ተስማሚ ያደርገዋል።
ከፍተኛ ውጤቶች የባሱ ናቸው። LongFact(በአዲስ መስኮት ውስጥ ይክፈታል) እና FActScore(በአዲስ መስኮት ውስጥ ይክፈታል) ክፍት የሆኑ እውነታ ፈላጊ ጥያቄዎችን ይዟል። ከእነዚህ እርምጃዎች በሚመጡ እርምጃዎች ላይ ምላሾችን ለመፈተሽ እና የተሳሳቱ የይገባኛል እርምጃዎችን ክፍልፋይ ለመለካት በኤልኤልኤም ላይ የተመሰረተ ክፍል በአሰሳ እንጠቀማለን። የተግበራ እና የደረጃ አሰጣጥ ዝርዝሮችን በስርዓት ካርድ ውስጥ ማግኘት ይቻላል። የማመዛዘን ሞዴሎች ከፍተኛ የማመዛዘን ጥረት ይጠቀሙ ነበር። ፍለጋ አልነቃም ነበር።
በአጠቃላይ፣ GPT‑5 የራሱን ውስንነቶች የበለጠ እንዲያውቅ እና ያልተጠበቁ ሁኔታዎችን በተሻለ ሁኔታ እንዲቋቋም ስልጠና ተሰጥቶታል። GPT‑5 በጤና ጥያቄዎች ላይ የበለጠ ትክክለኛ እንዲሆን አሰልጥነናል (በእኛ ምርምር ብሎግ ላይ ተጨማሪ ያንብቡ)። ልክ እንደሌሎች የቋንቋ ሞዴሎች፣ ጉዳቶቹ ከፍተኛ በሚሆኑበት ጊዜ የGPT‑5ን ስራ እንዲያረጋግጡ እንመክራለን።
አበልጻጊዎች የGPT‑5ን የአስተሳሰብ ጊዜ በAPI ውስጥ ባለው reasoning_effort መለኪያ በኩል መቆጣጠር ይችላሉ። ከቀደሙት ዋጋዎች በተጨማሪ—ዝቅተኛ፣ መካከለኛ (ነባሪ) እና ከፍተኛ—GPT‑5 ዝቅተኛ የሚደግፍ ሲሆን ይህም የGPT‑5ን መልስ በፍጥነት ለመመለስ ያለውን ማመዛዘን ይቀንሳል።
ከፍተኛ reasoning_effort ዋጋዎች ጥራትን ከፍ ያደርጋሉ እና ዝቅተኛ ዋጋዎች ፍጥነትን ከፍ ያደርጋሉ። ሁሉም ተግባራት ከተጨማሪ የማመዛዘን ችሎታ እኩል ጥቅም አያገኙም፣ ስለዚህ የትኛው ለእርስዎ ፍላጎት ላላቸው የአጠቃቀም ጉዳዮች በተሻለ ሁኔታ እንደሚሰራ ለማየት እንዲሞክሩ እንመክራለን።
ለምሳሌ፣ ከ ዝቅተኛ በላይ ያለው የማመዛዘን ችሎታ በአንጻራዊነት ቀላል የሆነ የረጅም አውድ መልሶ ማግኛን ብዙም አያክልም፣ ነገር ግን ለ CharXiv Reasoning(በአዲስ መስኮት ውስጥ ይክፈታል) የእይታ የማመዛዘን ችሎታ መለኪያ ጥቂት መቶኛ ነጥቦችን ይጨምራል።
የGPT‑5 የማመዛዘን ጥረት በተለያዩ ተግባራት ላይ ተለያዩ ጥቅሞችን ያስገኛል። ለCharXiv Reasoning፣ GPT‑5 የpython መሳሪያ መዳረሻ ተሰጥቶታል።
የGPT‑5 መልሶችን ነባሪ ርዝመት ለመምራት፣ አዲስ የAPI መለኪያ፣ ብዙ ቃላት መጠቀም አስተዋውቀናል፣ ይህም ዝቅተኛ፣ መካከለኛ (ነባሪ) እና ከፍተኛ ዋጋዎችን ይወስዳል። ግልጽ መመሪያዎች ከብዙ ቃላት መጠቀም መለኪያዎች ጋር የሚጋጩ ከሆነ ግልጽ መመሪያዎች ቀዳሚ ይሆናሉ። ለምሳሌ፣ GPT‑5ን “ባለ 5 አንቀጽ ድርሰት እንዲጽፍ” ከጠየቁ፣ የቃላት ደረጃው ምንም ይሁን ምን፣ የሞዴሉ ምላሽ ሁልጊዜ 5 አንቀጾች መሆን አለበት (ይሁን እንጂ አንቀጾቹ እራሳቸው ረጅም ወይም አጭር ሊሆኑ ይችላሉ)።
Verbosity=low
Verbosity=medium
Verbosity=high
መመሪያ ከተሰጠው፣ GPT‑5 ከመሳሪያ ጥሪዎች በፊት እና መካከል በተጠቃሚ የሚታዩ ቅድመ-መልዕክቶችን ያወጣል። ከተደበቁ የማመዛዘን መልዕክቶች በተለየ፣ እነዚህ የሚታዩ መልዕክቶች GPT‑5 እቅዶችን እና እድገትን ለተጠቃሚው እንዲያስተላልፍ ያስችለዋል፣ ይህም የመጨረሻ ተጠቃሚዎች የመሳሪያ ጥሪዎችን አቀራረብ እና ዓላማ እንዲረዱ ያግዛቸዋል።
አዲስ የመሳሪያ አይነት—ብጁ መሳሪያዎችን—እያስተዋወቅን ሲሆን፣ ይህም GPT‑5 ከJSON ይልቅ ግልጽ ጽሑፍ ያለው መሳሪያ እንዲጠራ ያስችለዋል። GPT‑5 ብጁ የመሳሪያ ቅርጸቶችን እንዲከተል ለመገደብ፣ አበልጻጊዎች regex ወይም የበለጠ ሙሉ በሙሉ የተገለጸ ከአውድ-ነጻ ሰዋሰው(በአዲስ መስኮት ውስጥ ይክፈታል) ማቅረብ ይችላሉ።
ቀደም ሲል፣ በአበልጻጊዎች የተገለጹ መሳሪያዎች በይነገጻችን JSON እንዲጠሩ ይፈልግ የነበረ ሲሆን፣ ይህም በአጠቃላይ በድህረ ገጽ APIዎች እና በአበልጻጊዎች የሚጠቀሙበት የተለመደ ቅርጸት ነው። ሆኖም፣ ትክክለኛ JSON ማውጣት ሞዴሉ ሁሉንም የጥቅስ ምልክቶች፣ የኋላ ሰረዝ፣ አዲስ መስመሮች እና ሌሎች የቁጥጥር ቁምፊዎችን በትክክል እንዲያመልጥ ይፈልጋል። ሞዴሎቻችን JSONን ለማውጣት በሚገባ የሰለጠኑ ቢሆኑም፣ እንደ በመቶዎች የሚቆጠሩ የኮድ መስመሮች ወይም ባለ 5 ገጽ ሪፖርት ባሉ ረጅም ግቤቶች ላይ፣ የስህተት እድሉ ይጨምራል። በተበጁ መሳሪያዎች፣ ማምለጥ የሚያስፈልጋቸውን ሁሉንም ቁምፊዎች ማምለጥ ሳያስፈልግ፣ GPT‑5 የመሳሪያ ግቤቶችን እንደ ተራ ጽሑፍ መጻፍ ይችላል።
በSWE-bench Verified ላይ ከJSON መሳሪያዎች ይልቅ ብጁ መሳሪያዎችን በመጠቀም፣ GPT‑5 በግምት ተመሳሳይ ውጤት አስመዝግቧል።
GPT‑5 በደህንነት ላይ ያለውን ድንበር ያራዝማል እና የበለጠ ጠንካራ፣ አስተማማኝ እና አጋዥ ሞዴል ነው። GPT‑5 ከቀደሙት ሞዴሎቻችን ጋር ሲነጻጸር የመቃዠት ዕድሉ በእጅጉ ያነሰ ነው፣ ተግባሮቹን እና ችሎታዎቹን ለተጠቃሚው በሐቀኝነት ያስተላልፋል እና በተቻለ መጠን የደህንነት ገደቦችን ሳይጥስ በጣም ጠቃሚውን መልስ ይሰጣል። በእኛ ምርምር ብሎጋችን ላይ የበለጠ ማንበብ ይችላሉ።
GPT‑5 አሁን በAPI መድረክ በሦስት መጠኖች ይገኛል፦ gpt-5፣ gpt-5-mini እና gpt-5-nano። በResponses API፣ Chat Completions API ላይ ይገኛል፣ እና በCodex CLI ውስጥ ነባሪው ነው። GPT‑5 ዋጋው $1.25/በ1 ሚሊዮን የግቤት ቶከኖች እና $10/1 ሚሊዮን የውጤት ቶከኖች፣ GPT‑5 mini ዋጋው $0.25/በ1 ሚሊዮን የግቤት ቶከኖች እና $2/በ1 ሚሊዮን የውጤት ቶከኖች፣ እና GPT‑5 nano ዋጋው $0.05/በ1 ሚሊዮን የግቤት ቶከኖች እና $0.40/በ1 ሚሊዮን የውጤት ቶከኖች ነው።
እነዚህ ሞዴሎች የ reasoning_effort እና ብዙ ቃላት መጠቀም API መለኪያዎችን እንዲሁም ብጁ መሳሪያዎችን ይደግፋሉ። እንዲሁም ትይዩ የመሳሪያ ጥሪን፣ አብሮ የተሰሩ መሳሪያዎችን (የድህረ ገጽ ፍለጋ፣ የፋይል ፍለጋ፣ የምስል ማመንጨት እና ሌሎችንም)፣ ዋና የAPI ባህሪያትን (በቀጥታ ስርጭት መከታተል፣ የተዋቀሩ ውጤቶች እና ሌሎችንም) እና እንደ ጥያቄ መሸጎጫ እና የባች API ያሉ ወጪ ቆጣቢ ባህሪያትን ይደግፋሉ።
በChatGPT ውስጥ ጥቅም ላይ የዋለው የማመዛዘን ችሎታ የሌለው የGPT‑5 ስሪት በAPI ውስጥ እንደ gpt-5-chat-latest የሚገኝ ሲሆን ይህም እንዲሁ $1.25/በ1 ሚሊዮን የግቤት ቶከኖች እና $10/በ1 ሚሊዮን የውጤት ቶከኖች ዋጋ ይገኛል።
GPT‑5 በMicrosoft መድረኮች ላይም እየተጀመረ ሲሆን ከእነዚህም ውስጥ Microsoft 365 Copilot፣ Copilot፣ GitHub Copilot እና Azure AI Foundry ይገኙበታል።
ለመጀመር የGPT‑5 ሰነድ(በአዲስ መስኮት ውስጥ ይክፈታል)፣ የዋጋ አወጣጥ ዝርዝሮች(በአዲስ መስኮት ውስጥ ይክፈታል) እና የማበረታቻ መመሪያን(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።
አስተውሎት
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] በቀድሞው የብሎግ ልጥፋችን ላይ ከተዘገቡት ቁጥሮች ጋር ትንሽ ልዩነት አለ፣ ምክንያቱም እነዚያ ቁጥሮች በቀድሞው የHLE ስሪት ላይ ስለተሰሩ ነው።
አይነተ ብዙ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
ኮዲንግ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | US$112 ሺ | US$75 ሺ | US$49 ሺ | US$86 ሺ | US$66 ሺ | US$34 ሺ | US$31 ሺ | US$9 ሺ |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] በመሠረተ ልማታችን ላይ ሊሰሩ የማይችሉ 23/500 ችግሮችን እናስወግዳለን። ሙሉ ዝርዝር የተመረጡት 23 ተግባራት የሚከተሉት ናቸው፦ 'astropy__astropy-7606'፣ 'astropy__astropy-8707'፣ 'astropy__astropy-8872'፣ 'django__django-10097'፣ 'django__django-7530'፣ 'matplotlib__matplotlib-20488'፣ 'matplotlib__matplotlib-20676'፣ 'matplotlib__matplotlib-20826'፣ 'matplotlib__matplotlib-23299'፣ 'matplotlib__matplotlib-24970'፣ 'matplotlib__matplotlib-25479'፣ 'matplotlib__matplotlib-26342'፣ 'psf__requests-6028'፣ 'pylint-dev__pylint-6528'፣ 'pylint-dev__pylint-7080'፣ 'pylint-dev__pylint-7277'፣ 'pytest-dev__pytest-5262'፣ 'pytest-dev__pytest-7521'፣ 'scikit-learn__scikit-learn-12973'፣ 'sphinx-doc__sphinx-10466'፣ 'sphinx-doc__sphinx-7462'፣ 'sphinx-doc__sphinx-8265'፣ እና 'sphinx-doc__sphinx-9367'።
መመሪያን መከተል
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] ማሳሰቢያ፡ በMultiChallenge (GPT-4o) ውስጥ ያለው ነባሪ ደረጃ መዳቢ ብዙውን ጊዜ የሞዴል ምላሾችን ውጤት እንደሚያዛባ ተገንዝበናል። ደረጃ መዳቢውን እንደ o3-mini ወዳለ የማመዛዘን ሞዴል መቀየር፣ በመረመርናቸው ናሙናዎች ላይ የደረጃ አሰጣጥ ትክክለኛነትን በእጅጉ እንደሚያሻሽል ተገንዝበናል።
ተግባር መጥራት
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
ረጅም አውድ
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
ቅዠቶች
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


