5 ማርች 2026

GPT‑5.4 ማስተዋወቅ

ለሙያዊ ሥራ ዲዛይን የተደረገ

በመጫን ላይ…

ዛሬ፣ GPT‑5.4ን በChatGPT (እንደ GPT‑5.4 Thinking)፣ API፣ እና Codex ላይ ተምንለቅ ይሆናል። ለሙያዊ ሥራ እጅግ በጣም ችሎታ ያለው እና ቀልጣፋ የሆነው ግንባር ቀደም ሞዴላችን ነው። በተጨማሪም፣ ውስብስብ ለሆኑ ተግባራት ከፍተኛ አፈጻጸም ለሚፈልጉ ሰዎች GPT‑5.4 Proን በChatGPT እና በAPI ላይ የምንለቅ ይሆናል።

GPT‑5.4 የቅርብ ጊዜ የማመዛዘን፣ የኮዲንግ እና የወኪላዊ የሥራ ፍሰቶች እድገቶቻችንን በአንድ ግንባር ቀደም ሞዴል ውስጥ ያቀናጃል። በዘርፉ ቀዳሚ የሆነውን GPT‑5.3‑Codex⁠ የኮዲንግ ብቃት ያካተተ ሲሆን፣ ሞዴሉ በተለያዩ መሣሪያዎች፣ በሶፍትዌር አካባቢዎች፣ እንዲሁም እንደ የተመን ሉህ፣ አቀራረቦች እና ሰነዶች ባሉ ሙያዊ ተግባራት ላይ የሚሠራበትን መንገድ ያሻሽላል። ውጤቱም ውስብስብ የሆኑ ትክክለኛ የሥራ ተግባራትን በጥራት፣ በውጤታማነት እና በብቃት የሚወጣ ሞዴል ነው—ያለ ብዙ ምልልስ የጠየቁትን በትክክል ያቀርባል።

በChatGPT ውስጥ፣ GPT‑5.4 Thinking አሁን የሚያስብበትን የቅድሚያ ዕቅድ ሊያቀርብ የሚችል ሲሆን ይህም ሞዴሉ እየሠራ ባለበት ወቅት በምላሹ መሃል ላይ ማስተካከያ በማድረግ፣ ተጨማሪ ምልልስ ሳያስፈልግ ከሚፈልጉት ውጤት ጋር ይበልጥ የተጣጣመ ፍሬ ነገር ላይ ለመድረስ ያስችላል። GPT‑5.4 Thinking በተለይ ለየት ያሉ እና ዝርዝር ለሆኑ ጥያቄዎች ጥልቅ የድረ-ገጽ ምርምር የማድረግ ብቃቱን ያሻሽላል፣ እንዲሁም ረዘም ያለ የማሰቢያ ጊዜ የሚጠይቁ ጥያቄዎችን ሲመልስ አውዱን በተሻለ ሁኔታ የሚጠብቅ ይሆናል። እነዚህ ማሻሻያዎች በአንድ ላይ ሲሆኑ፣ ፈጣን የሆኑ፣ ከፍተኛ ጥራት ያላቸው እና ከሚከናወነው ተግባር ጋር ቀጥተኛ ግንኙነት ያላቸውን ምላሾች ማግኘት ያስችላሉ።

በCodex እና በAPI፣ GPT‑5.4 ወኪሎች ኮምፒውተሮችን እንዲያዙ እና በተለያዩ መተግበሪያዎች ውስጥ ውስብስብ የሥራ ፍሰቶችን እንዲያከናውኑ የሚያስችል፣ የመጀመሪያው ሀገር-በቀል እና ዘመናዊ የኮምፒውተር አጠቃቀም ብቃት ያለው ጠቅላላ አገልግሎት ሰጪ ሞዴላችን ነው። እስከ 1M የአውድ ቶከኖችን የመያዝ አቅም ያለው ሲሆን፣ ይህም ወኪሎች ረዘም ላለ ጊዜ የሚቆዩ ተግባራትን እንዲያቅዱ፣ እንዲተገብሩ እና እንዲያረጋግጡ ያስችላቿል። GPT‑5.4 በተጨማሪም ሞዴሎች በተለያዩ ሰፊ የመሣሪያዎች እና የአገናኞች ሥርዓቶች ውስጥ ያላቸውን የሥራ አፈጻጸም በመሣሪያዎች ፍለጋ አማካኝነት የሚያሻሽል ሲሆን ይህም ወኪሎች ብላሃታቸውን ሳይቀንሱ፣ ትክክለኛ መሣሪያዎችን ይበልጥ በብቃት እንዲያገኙ እና እንዲጠቀሙ ይረዳቿል። በመጨረሻም፣ GPT‑5.4 ከGPT‑5.2 ጋር ሲነጻጸር ችግሮችን ለመፍታት እጅግ አነስተኛ ቶከኖችን የሚጠቀም በመሆኑ እስካሁን ካዘጋጀናቸው ሞዴሎች በቶከን አጠቃቀም ረገድ እጅግ ቀልጣፋው የማመዛዘን ሞዴል ነው—ይህም የቀነሰ የቶከን አጠቃቀምን እና የበለጠ ፍጥነትን ያስገኛል።

ከአጠቃላይ የማመዛዘን፣ የኮዲንግ እና የሙያዊ እውቀት ሥራዎች እድገቶች ጋር ሲሆን፣ GPT‑5.4 ይበልጥ አስተማማኝ ወኪሎችን፣ ፈጣን የገንቢ የሥራ ፍሰቶችን እና በChatGPT፣ በAPI እንዲሁም በCodex ላይ ከፍተኛ ጥራት ያላቸው ውጤቶችን የምናገኝበትን መንገድ ያመቻቻል።

	GPT‑5.4	GPT‑5.3‑Codex	GPT‑5.2
GDPval (አሸናፊዎች ወይም ማሻሻያዎች)	83.0%	70.9%	70.9%
SWE-Bench Pro (የህዝብ)	57.7%	56.8%	55.6%
OSWorld የተረጋገጠ	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

*ከዚህ ቀደም 64.7% ተብሎ ተዘግቧል። GPT‑5.3‑Codex ኦሪጅናል የምስል ጥራት ጠብቆ የሚያቆይ አዲስ API መለኪያ በመጠቀም 74.0% ውጤት አስመዝግቧል።

የእውቀት ሥራ

በGPT‑5.2 አጠቃላይ የማመዛዘን ብቃቶች ላይ በመመሥረት፣ GPT‑5.4 ለባለሙያዎች አስፈላጊ በሆኑ እውነተኛ-ዓለም ተግባራት ላይ ይበልጥ ወጥ እና የተሟሉ ውጤቶችን ያቀርባል።

በ44 የሥራ ዘርፎች ላይ የወኪሎችን ጥራት ያለው የእውቀት ሥራ የመሥራት ብቃት በሚለካው GDPval⁠ ላይ GPT‑5.4 አዲስ የቴክኖሎጂ ከፍታ ያስመዘገበ ሲሆን በንጽጽርም በ83.0% ከዘርፉ ባለሙያዎች ጋር እኩል ወይም የተሻለ ውጤት አሳይቷል፣ ይህም ለGPT‑5.2 ከነበረው 71.0% የላቀ ነው።

በGDPval ውስጥ፣ ሞዴሎች ለU.S. GDP ከፍተኛ አስተዋፅኦ ከሚያደርጉ 9 ዋና ዋና ኢንዱስትሪዎች የተመረጡ የ44 የሥራ ዘርፎችን ዝርዝር የዕውቀት ሥራዎች ይሞክራሉ። ተግባራቱ እንደ የሽያጭ ማቅረቢያዎች፣ የሂሳብ አያያዝ የተመን ሉሆች፣ አስቸኳይ እንክብካቤ መርሃ ግብሮች፣ የማምረቻ ሥዕላዊ መግለጫዎች ወይም አጫጭር ቪዲዮዎች ያሉ ትክክለኛ የሥራ ውጤቶችን ይጠይቃሉ። የማመዛዘን ጥረት ለGPT‑5.4 ወደ xhigh፣ ለGPT‑5.2 ደግሞ ወደ ከባድ ተስተካክሏል (በChatGPT ውስጥ በመጠኑ ዝቅ ያለ ደረጃ)።

“GPT-5.4 እስካሁን ከሞከርናቸው ሞዴሎች ሁሉ ምርጡ ነው። ለሙያዊ አገልግሎት ሥራዎች የሞዴሎችን ብቃት በሚለካው በAPEX-Agents ደረጃ መለኪያችን ላይ በአሁኑ ወቅት በአንደኛ ደረጃ ላይ ይገኛል። እንደ የስላይድ ዴኮች፣ የፋይናንስ ሞዴሎች እና የሕግ ትንተናዎች ያሉ የረጅም ጊዜ ውጤቶችን በማዘጋጀት ረገድ እጅግ የላቀ ሲሆን ከተፎካካሪዎቹ ግንባር ቀደም ሞዴሎች በተሻለ ፍጥነት እና በዝቅተኛ ወጪ ከፍተኛ ብቃትን ያሳያል።"

— Brendan Foody፣ በMercor ዋና ሥራ አስፈፃሚ

እኛ በተለየ ሁኔታ ትኩረት ያደረግነው የGPT‑5.4 የተመን ሉሆችን፣ አቀራረቦችን እና ሰነዶችን የመፍጠር እና የማረም ችሎታ በማሻሻል ላይ ነው። አነስተኛ የኢንቨስትመንት ባንክ ተንታኝ ሊያከናውናቸው በሚችሉ የተመን ሉህ ሞዴሊንግ ተግባራት ላይ በተደረገ የውስጥ ደረጃ መለኪያ፣ GPT‑5.4 በአማካይ 87.5% ውጤት ያስመዘገበ ሲሆን፣ GPT‑5.2 ግን 68.4% ብቻ ነበር ያስመዘገበው። በተከታታይ የአቀራረብ ግምገማ ጥያቄዎች ላይ፣ የሰው ገምጋሚዎች 68.0% ያህሉን ጊዜ ከGPT‑5.2 ይልቅ የGPT‑5.4 አቀራረቦችን የመረጡ ሲሆን ይህም በላቀ ውበት፣ በበለጸገ የእይታ ልዩነት እና ምስል ማመንጨት ብቃቱን ይበልጥ ውጤታማ በሆነ መንገድ በመጠቀሙ ነው።

የGPT5.2 እና የGPT-5.4 የተመን ሉህ ውጤቶች ጎን ለጎን ንፅፅር

ሰነዶቹ የተዘጋጁት የማመዛዘን ጥረት xhigh ደረጃ ላይ ተደርጎ ነው

እነዚህን ብቃቶች በChatGPT ውስጥ GPT‑5.4 Thinking ወይም Proን በመጠቀም መሞከር ይችላሉ። የEnterprise ደንበኛ ከሆኑ፣ ዛሬውኑ በሥራ ላይ የዋሉትን አዲሶቹ ChatGPT for Excel እና Google Sheets ተሰኪዎች⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እንዲጠቀሙ እንመክራለን። በተጨማሪም በCodex እና በAPI ላይ የሚገኙትን የተመን ሉህ⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እና የአቀራረብ ክህሎቶቻችንን⁠(በአዲስ መስኮት ውስጥ ይክፈታል) አሻሽለናል።

GPT‑5.4 በእውነተኛ-ዓለም ሥራ ላይ ይበልጥ የተሻለ እንዲሆን፣ ያልተረጋገጡ መረጃዎችን መፍጠርን እና ስህተቶችን የመቀነስ ጥረታችንን ቀጥለናል። GPT‑5.4 እስካሁን ካዘጋጀናቸው ሞዴሎች ሁሉ ይበልጥ በእውነታዎች ላይ የተመሠረተ ሞዴል ነው፦ ተጠቃሚዎች የእውነታ ስህተቶችን በጠቆሙባቸው ማንነታቸው ባልተገለጸ የጥያቄ ስብስቦች ላይ፣ የGPT‑5.4 ነጠላ መረጃዎች ከGPT‑5.2 ጋር ሲነፃፀሩ በ33% የተሳሳቱ የመሆን እድላቸው አነስተኛ ሲሆን፣ ሙሉ ምላሾቹ ደግሞ ማንኛውንም ዓይነት ስህተት የመያዝ እድላቸው በ18% የቀነሰ ነው።

“GPT-5.4 ሰነድ በሚበዛባቸው የሕግ ሥራዎች ላይ አዲስ ከፍተኛ ደረጃን አስቀምጧል። BigLaw Bench ግምገማችን ላይ 91% ውጤት አስመዝግቧል። ከሌሎች ሞዴሎች ጋር ሲነጻጸር፣ GPT-5.4 በአሁኑ ወቅት ውስብስብ የግብይት ትንተናዎችን በሥርዓት በማደራጀት፣ ረጅም ውሎችን በትክክለኛነት በመተንተን እና የሕግ ባለሙያዎች የሚፈልጉትን ከፍተኛ የዝርዝር ደረጃ በማቅረብ ረገድ የተሻለ ነው።"

— Niko Grupen፣ በHarvey ውስጥ የተግባራዊ ምርምር ኃላፊ

የኮምፒውተር አጠቃቀም እና እይታ

GPT‑5.4 ሀገር-በቀል የኮምፒውተር አጠቃቀም ብቃት ያለው የመጀመሪያው አጠቃላይ አገልግሎት ሰጪ ሞዴላችን ሲሆን፣ ይህም ለገንቢዎችም ሆነ ለወኪሎች ትልቅ እርምጃን ያሳያል። እውነተኛ ተግባራትን በድረ-ገጾች እና በሶፍትዌር ስርዓቶች ላይ የሚያከናውኑ ወኪሎችን ለሚገነቡ ገንቢዎች፣ በአሁኑ ወቅት የሚገኝ ምርጡ ሞዴል ነው።

GPT‑5.4 በተለያዩ የኮምፒውተር አጠቃቀም የሥራ ጫናዎች ላይ ከፍተኛ ብቃት እንዲኖረው አድርገን ዲዛይን አድርገነዋል። እንደ Playwright ያሉ ቤተ-መጻህፍትን በመጠቀም ኮምፒውተሮችን የሚያዙ የኮድ ጽሁፎችን በመጻፍ፣ እንዲሁም ቅጽበታዊ ገጽ እይታዎች መሠረት በማድረግ የመዳፊት እና የቁልፍ ሰሌዳ ትዕዛዞችን በመስጠት ረገድ እጅግ በጣም ምርጥ ነው። ባህሪው በገንቢ መልእክቶች አማካኝነት የሚመራ በመሆኑ፣ ገንቢዎች ሞዴሉን ለተወሰኑ የጥቅም ዘርፎች እንዲስማማ አድርገው ባህሪውን ማስተካከል ይችላሉ። ገንቢዎች ብጁ የማረጋገጫ ፖሊሲዎችን ግልጽ በማድረግ፣ ሞዴሉ ለተለያዩ የሥጋት ደረጃዎች ጋር በመቻቻል እንዲስማማ አድርገው የደህንነት ባህሪውን ማስተካከል ይችላሉ።

የሞዴሉ ብቃት እና ተለዋዋጭነት፣ በተለያዩ ሁኔታዎች ውስጥ የኮምፒውተር አጠቃቀምን በሚለኩ የደረጃ መለኪያዎች ላይ ተንጸባርቋል። የቅጽበታዊ ገጽ እይታዎችን እንዲሁም የቁልፍ ሰሌዳ/የመዳፊት ድርጊቶችን በመጠቀም አንድ ሞዴል የዴስክቶፕ አካባቢን የመምራት ብቃቱን በሚለካው OSWorld-Verified ላይ፣ GPT‑5.4 በዘርፉ የመሪነት ደረጃን የያዘ 75.0% የስኬት መጠን በማስመዝገብ ከGPT‑5.2 47.3% ውጤት በእጅጉ የላቀ ሲሆን፣ ከሰው 72.4% የሥራ አፈጻጸምም በላይ ነው።¹

የድረ-ገጽ አሰሳን በሚለካው WebArena-Verified ላይ፣ GPT‑5.4 በDOM እና በቅጽበታዊ ገጽ እይታ የሚመራ መስተጋብርን በአንድ ላይ በመጠቀም፣ 67.3% የሆነ የመሪነት የስኬት መጠን ያስመዘገበ ሲሆን ይህም ከGPT‑5.2 65.4% ውጤት ጋር ሲነፃፀር ብልጫ አለው። የድረ-ገጽ አሰሳን በሚለካው Online-Mind2Web ላይ፣ GPT‑5.4 በቅጽበታዊ ገጽ እይታ የሚመራ ምልከታዎችን ብቻ በመጠቀም 92.8% የስኬት መጠን ያስመዘገበ ሲሆን ይህም 70.9% የስኬት መጠን ካለው የChatGPT Atlas Agent Mode አስተማማኝነት የላቀ መሻሻል የታየበት ነው።

የመሣሪያ እጅ መስጠት ረዳቱ የመሣሪያውን ምላሾች ለመጠበቅ ሥራውን የሚያቆምበት ሂደት ነው። 3 መሣሪያዎች በተመሳሳይ ጊዜ ቢጠሩ እና ተከታትለው ሌሎች 3 መሣሪያዎች በተመሳሳይ ጊዜ ቢጠሩ፣ የእጅ መስጠት ብዛት 2 ይሆናል። የመሣሪያ እጅ መስጠቶች የተጓዳኝ አሠራርን ጥቅም የሚያሳዩ በመሆናቸው፣ ከመሣሪያ ጥሪዎች ይልቅ ለመዘግየት ጊዜ የተሻለ መለኪያ ናቸው።

GPT‑5.4 የአሳሽ በይነገጽ ቅጽበታዊ ገጽ እይታዎች በመተርጎም እና የኢሜይል መልዕክቶችን ለመላክ እና የቀን መቁጠሪያ ኩነትን ለማቀድ በቅንጅት ላይ የተመሠረተ ጠቅታ አማካኝነት ከUI አካላት ጋር ይገናኛል።

የGPT‑5.4 የተሻሻለ የኮምፒውተር አጠቃቀም የተገነባው፣ ሞዴሉ ባለው የተሻሻለ አጠቃላይ የእይታ ግንዛቤ ብቃት ላይ ነው። የሞዴሉን የእይታ ግንዛቤ እና ማመዛዘንን በሚለካው MMMU-Pro ላይ፣ GPT‑5.4 ምንም ዓይነት መሣሪያ ሳይጠቀም 81.2% የስኬት መጠን ያስመዘገበ ሲሆን ይህም ከGPT‑5.2 79.5%። የተሻሻለ የእይታ ግንዛቤ ወደ ተሻለ የሰነድ ትንተና ብቃቶችም የሚተረጎም ይሆናል። የተለያዩ ሰነዶችን የመተንተን ብቃትን በሚለካው OmniDocBench ላይ፣ GPT‑5.4 ያለ ማመዛዘን ጥረት 0.109 አማካይ ስህተት (በሞዴሉ ግምት እና በትክክለኛው መረጃ መካከል ባለው የተመጣጠነ የጽሁፍ ልዩነት የሚለካ) ያስመዘገበ ሲሆን ይህም ከGPT‑5.2 0.140 ውጤት ጋር ሲነፃፀር መሻሻል የታየበት ነው።

MMMUPro የተካሄደው የማመዛዘን ጥረት xhigh ደረጃ ላይ ተደርጎ ነው። OmniDocBench የተካሄደው የማመዛዘን ጥረት በምንም ደረጃ ላይ ተደርጎ ነው፣ ይህም አነስተኛ-ወጪ እና አነስተኛ-መዘግየት አፈጻጸምን ለማንጸባረቅ ነው።

ሙሉ ታማኝነት ትልቅ ቦታ የሚሰጠውን፣ ጥቅጥቅ ያሉ እና ከፍተኛ ጥራት ያላቸውን ምስሎች የመረዳት የእይታ ግንዛቤ ብቃታችንን እያሻሻልን እንገኛለን። ከGPT‑5.4 በመጀመር፣ እስከ 10.24M አጠቃላይ ፒክስሎች ወይም 6000-ፒክስል ከፍተኛ መጠን (ከሁለቱ ዝቅተኛ የሆነውን በመጠቀም) ሙሉ ታማኝነትን የሚደግፍ አዲስ ኦሪጅናል የምስል ግብዓት ዝርዝር⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ደረጃን እያስተዋወቅን ሲሆን ከፍተኛ የምስል ግብዓት ዝርዝር ደረጃ አሁን እስከ 2.56M አጠቃላይ ፒክስሎችን ወይም 2048-ፒክስል ከፍተኛ መጠንን መደገፍ ይችላል። ከAPI ተጠቃሚዎች ጋር በተደረገ የመጀመሪያ ደረጃ ሙከራ፣ የኦሪጅናል ወይም ከፍተኛ የዝርዝር ደረጃን በሚጠቀሙበት ጊዜ ከአካባቢ ጋር የመመሳሰል ብቃት፣ በምስል ግንዛቤ እና በጠቅ ማድረግ ትክክለኛነት ላይ ከፍተኛ መሻሻሎችን ተመልክተናል።

“በግምት እስከ 30K HOA እና የንብረት ግብር መግቢያዎች ላይ የኮምፒውተር አጠቃቀም ብቃትን በለካንበት ግምገማ፣ GPT-5.4 በመጀመሪያው ሙከራ 95% እንዲሁም በሶስት ሙከራዎች ውስጥ 100% ስኬት ያስመዘገበ ሲሆን ይህ ውጤት ከቀደሙት የCUA ሞዴሎች ~ከ73–79% ጋር ሲነጻጸር የላቀ ነው። በተጨማሪም፣ ~70% ያነሱ ቶከኖችን በመጠቀም ተግባራትን ~3x በበለጠ ፍጥነት ያጠናቀቀ ሲሆን ይህም በአጠቃላይ አስተማማኝነትን እና የወጪ ቆጣቢነትን በከፍተኛ ደረጃ ያሻሽላል።"

— Dod Fraser፣ በMainstay ዋና ሥራ አስፈፃሚ

በAPI ውስጥ፣ ገንቢዎች የተዘመነውን የኮምፒውተር መሣሪያ በመጠቀም እነዚህን ብቃቶች ማግኘት ይችላሉ። ለሚመከሩ የተሻሉ የአሠራር መመሪያዎች፣ እባክዎ የተዘመነው ሰነዳችንን⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ይመልከቱ።

ኮዲንግ

GPT‑5.4 የGPT‑5.3‑Codexን የኮዲንግ ጥንካሬዎች፣ ከዋነኛ የዕውቀት ሥራ እና የኮምፒውተር አጠቃቀም ብቃቶች ጋር የሚያጣምር ሲሆን ይህም ሞዴሉ መሣሪያዎችን መጠቀም፣ መድገም እና በትንሽ የሰው ጣልቃ ገብነት ሥራዎችን ወደፊት መግፋት በሚችልባቸው ረጅም ጊዜ በሚወስዱ ተግባራት ላይ ትልቅ ፋይዳ አለው። GPT‑5.4 በSWE-Bench Pro ላይ ከGPT‑5.3‑Codex ጋር እኩል ወይም የተሻለ ውጤት ያስመዘገበ ሲሆን፣ በሁሉም የማመዛዘን ጥረቶች ላይ ዝቅተኛ የሥራ መዘግየት አለው።

የሞዴሎቻችንን በምርት ላይ ያለውን ባህሪ በማየት እና ይህንኑ ከመስመር ውጪ በማስመሰል የመዘግየት ጊዜን የምንገምት ይሆናል። የመዘግየት ጊዜ ግምቱ የመሣሪያ ጥሪ ቆይታን (የኮድ ማስፈጸሚያ ጊዜ)፣ ናሙና የተወሰደባቸውን ቶከኖች እና የገቡ ቶከኖችን ያካትታል። የእውነተኛ-ዓለም የመዘግየት ጊዜ በከፍተኛ ሁኔታ ሊለያይ የሚችል ሲሆን በእኛ ማስመሰያ ውስጥ ባልተካተቱ በርካታ ምክንያቶች ላይ የሚወሰን ይሆናል። የማመዛዘን ጥረቶች ከምንም ወደ xhigh ተሸጋግረዋል።

በCodex ውስጥ የፈጣን ሁነታ ሲበራ፣ ከ GPT‑5.4 ጋር እስከ 1.5x የሚደርስ ፈጣን የቶከን ፍጥነት ይሰጣል። ይህ ተመሳሳይ ሞዴል እና ተመሳሳይ ብልህነት ሲሆን፣ ፍጥነቱ ብቻ የጨመረ ነው። ይህ ማለት ተጠቃሚዎች በሥራ መካከል ሳያቋርጡ የኮዲንግ ተግባራትን፣ ስህተቶችን የመለየት እና የድግግሞሽ ሂደቶችን በፍጥነት ማከናወን ይችላሉ ማለት ነው። ገንቢዎች የቅድሚያ አገልግሎት⁠(በአዲስ መስኮት ውስጥ ይክፈታል) በመጠቀም በAPI በኩል GPT‑5.4ን በተመሳሳይ ፍጥነት ማግኘት ይችላሉ።

በግምገማ እና በውስጥ የሙከራ ሂደቶች ወቅት፣ GPT‑5.4 ውስብስብ የሆኑ የፊት-ለፊት ገጽታ ተግባራትን በመከወን ረገድ እጅግ የላቀ መሆኑን ያረጋገጥን ሲሆን ይህም ቀደም ብለን ካወጣናቸው ማናቸውም ሞዴሎች ይልቅ ይበልጥ ማራኪ እና ይበልጥ ተግባራዊ የሆኑ ውጤቶችን ይሰጣል።

የሞዴሉ የተሻሻለ የኮምፒውተር አጠቃቀም እና የኮዲንግ ብቃቶች ተቀናጅተው መስራታቸውን ለማሳየት፣ "Playwright (መስተጋብራዊ)⁠(በአዲስ መስኮት ውስጥ ይክፈታል)” የተሰኘ የሙከራ ደረጃ ላይ ያለ የCodex ክህሎት እየለቀቅን እንገኛለን። ይህም Codex የድረ-ገጽ እና የElectron መተግበሪያዎችን በእይታ እንዲያርም የሚያስችለው ሲሆን እንዲያውም አንድን መተግበሪያ በመገንባት ላይ እያለ፣ እየገነባው ያለውን መተግበሪያ ራሱ ወዲያውኑ ለመፈተሽ ሊጠቀምበት ይችላል።

በGPT‑5.4 የተሰራ የጭብጥ ፓርክ ማስመሰያ ጨዋታ በአንድ ቀላል እና አጭር ጥያቄ ብቻ የተመሰረተ ሆኖ፣ ለሙከራ Playwright Interactive አሳሽ ራስ-ሰር አሠራርን፣ እንዲሁም ለባለ አራት ማዕዘን እይታ የግብዓት ስብስቦች ምስል ማመንጨት ቴክኖሎጂን የተጠቀመ ነው። ማስመሰያው የንጣፍ-ተኮ የመንገድ አቀማመጥን፣ የመዝናኛ መሣሪያዎች እና የጌጣጌጥ ግንባታን፣ የጎብኝዎች መንገድ ፍለጋ፣ የሰልፍ አያያዝን እና የመሽከርከር ዑደቶች የሚያካትት ሲሆን፣ በተጨማሪም እንደ ገንዘብ፣ የጎብኝዎች ብዛት፣ ደስታ፣ ንጽህና እና ደረጃ ያሉ የፓርኩ መለኪያዎች በፓርኩ አቀማመጥ ብቃት እና በጎብኝዎች ምላሽ ላይ በመመስረት ከፍ ወይም ዝቅ የሚሉ ይሆናል። ፓርኩን በመገንባት እና በማስፋፋት፣ መንገዶችን እና መዝናኛዎችን በማስቀመጥ እና በማንሳት፣ የካሜራ አሰሳን በመፈተሽ፣ እንዲሁም ጎብኝዎች፣ ሰልፎች፣ የመዝናኛ መሣሪያዎች ሁኔታ እና የUI መለኪያዎች በበርካታ የጨዋታ ዙሮች ውስጥ በትክክል መዘመናቸውን ለማረጋገጥ Playwright የአሳሽ የሙከራ ሂደቶችን በራስ-ሰር ለማድረግ ጥቅም ላይ ውሏል።

ጥያቄ፦ $playwright-interactive እና $imagegen በመጠቀም በአሳሽ ውስጥ መገንባት እና መንቀሳቀስ የምችልበት፣ ባለ አራት ማዕዘን እይታ ያለው መስተጋብራዊ የጭብጥ ፓርክ ማስመሰያ ጨዋታ ፍጠር። አጠቃላይ የእይታ እቅዱን ለመቅረጽ እና የመዝናኛ መሣሪያዎችን፣ መንገዶችን፣ መሬትን፣ ዛፎችን፣ ውሃን፣ የምግብ ድንኳኖችን፣ ጌጣጌጦችን፣ ሕንፃዎችን፣ ምልክቶችን እና የUI ስዕላዊ መግለጫዎችን ጨምሮ የጨዋታውን ግብዓቶች ለማመንጨት $imagegenን ተጠቀም። ዓለሙ የተቀናጀ፣ የሚያንጸባርቅ እና በምስል የበለፀገ ሆኖ፣ ከባለ አራት ማዕዘን እይታ ጋር በሚገባ የሚሄድ ጥራት ያለው የጥበብ አመራር ሊኖረው ይገባል። የጎብኝዎችን እንቅስቃሴ፣ የመዝናኛዎችን ሁኔታ እና የፓርኩን እድገት እየተከታተልኩ መንገዶችን እንዳስቀምጥ እና እንዳነሳ፣ መስህቦችን እንድጨምር፣ ጌጣጌጦችን ቦታ እንድሰጥ እና በፓርኩ ውስጥ ያለ ችግር እንድጓዝ አድርግ። አሳማኝ የጎብኝዎች እንቅስቃሴን፣ እንዲሁም እንደ ገንዘብ፣ ንጽህና፣ ሰልፍ እና ደስታ ያሉ ቀላል የፓርክ አስተዳደር ሥርዓቶችን አካትት፣ ተሞክሮውም እንደ ፕሮቶታይፕ ሳይሆን ጨዋታነት ያለው፣ ግልጽ እና የተሟላ እንዲመስል አድርግ። ከእውነታዊነት ይልቅ ለውበት፣ ለንባብ ምቹነት እና ለጠንካራ የጨዋታ ስሜት ቅድሚያ ስጥ።

በጨዋታ በምትፈትሽበት ወቅት፣ በበርካታ የጨዋታ ዙሮች ውስጥ ፓርኩን መገንባት እና ማስፋፋትህን አረጋግጥ፣ አቀማመጥ እና አሰሳ በስርዓቱ መስራታቸውን አረጋግጥ፣ ጎብኝዎች ለፓርኩ አቀማመጥ እና ለመዝናኛ መስህቦች ምላሽ መስጠታቸውን አረጋግጥ፣ እንዲሁም ምስሎቹ፣ UI እና መስተጋብሮቹ የተረጋጉ እና የተቀናጁ መሆናቸውን አረጋግጥ።

“የእኛ መሃንዲሶች GPT-5.4 ከቀደሙት ሞዴሎች ይልቅ ይበልጥ ተፈጥሯዊ እና በራሱ የሚተማመን ሆኖ አግኝተውታል። አሻሚነት ያለባቸውን ችግሮች ራሱን ሳይጠራጠር ይፈታል፣ እንዲሁም ሥራዎችን በፍጥነት ለማከናወን የተለያዩ ተግባራትን ጎን ለጎን በማከናወን ረገድ ንቁ ተሳትፎ ያደርጋል።"

— Lee Robinson፣ በCursor የገንቢ ትምህርት ምክትል ፕሬዝዳንት

የመሣሪያ አጠቃቀም

ከGPT‑5.4 ጋር፣ ሞዴሎች ከውጫዊ መሣሪያዎች ጋር የሚሠሩበትን መንገድ በከፍተኛ ሁኔታ አሻሽለናል። አሁን ላይ ወኪሎች ሰፋ ባሉ የመሣሪያ ሥነ-ምህዳሮች ውስጥ መሥራት፣ ትክክለኛ መሣሪያዎችን ይበልጥ በአስተማማኝ ሁኔታ መምረጥ እና ባለ ብዙ ደረጃ የሥራ ፍሰቶችን በዝቅተኛ ወጪ እና ፍጥነት ማከናወን ይችላሉ።

መሣሪያ ፍለጋ

በAPI ውስጥ፣ GPT‑5.4 ብዙ መሣሪያዎች በሚሰጣቸው ጊዜ ሞዴሎቹ በብቃት እንዲሠሩ የሚያስችላቸውን የመሣሪያ ፍለጋ⁠(በአዲስ መስኮት ውስጥ ይክፈታል) አስተዋውቋል።

ቀደም ሲል፣ ለአንድ ሞዴል መሣሪያዎች በሚሰጡበት ጊዜ፣ ሁሉም የመሣሪያ ትርጓሜዎች ገና ከመጀመሪያው በጥያቄ ውስጥ ተካተው ይቀርቡ ነበር። ብዙ መሣሪያዎች ላሉት ስርዓቶች፣ ይህ በእያንዳንዱ ጥያቄ ላይ በሺዎች—ወይም እንኳን በአስር ሺዎች—ቶከን ሊጨምር የሚችል ሲሆን ይህም ወጪን ይጨምራል፣ ምላሾችን ያዘገያል እንዲሁም ሞዴሉ ምናልባት በፍጹም ላይጠቀምበት የማይችል መረጃ በማስገባት አውዱን ያጨናንቃል።

በመሣሪያ ፍለጋ አማካኝነት፣ GPT‑5.4 በምትኩ የቀለለ የዝርዝር መሣሪያዎችን ከፍለጋ ብቃት ጋር አብሮ ያገኛል። ሞዴሉ አንድን መሣሪያ መጠቀም በሚያስፈልገው ጊዜ፣ የዚያን መሣሪያ ትርጓሜ ፈልጎ በማግኘት በዚያው ቅጽበት ከውይይቱ ጋር ማያያዝ ይችላል።

ይህ አቀራረብ መሣሪያዎችን አብዝተው ለሚጠቀሙ የሥራ ፍሰቶች የሚያስፈልጉትን የቶከኖች ቁጥር በከፍተኛ ሁኔታ የሚቀንስ ሲሆን፣ የተሸጎጠ መረጃን በአግባቡ ይይዛል፣ ይህም ጥያቄዎችን ይበልጥ ፈጣን እና ርካሽ ያደርጋቸዋል። ይህም ወኪሎች ይበልጥ ሰፋ ባሉ የመሣሪያ ሥነ-ምህዳሮች ውስጥ በአስተማማኝ ሁኔታ እንዲሠሩ ያስችላቿል። በሺዎች የሚቆጠሩ የቶከን የመሣሪያ ትርጓሜዎችን ሊይዙ ለሚችሉ የMCP ሰርቨሮች፣ የሚገኘው የብቃት መሻሻል በጣም ከፍተኛ ሊሆን ይችላል።

የብቃት መሻሻሉን ለማሳየት፣ 36ቱም የMCP ሰርቨሮች በሁለት መንገዶች እንዲሠሩ በማድረግ ከScale MCP Atlas⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ደረጃ መለኪያ 250 ተግባራትን ገምግመናል፦ (1) እያንዳንዱን የMCP ተግባር በቀጥታ በአውዱ ውስጥ በማካተት፣ እና (2) ሁሉንም የMCP ሰርቨሮች በመሣሪያ ፍለጋ ስር እንዲሆኑ በማድረግ። የመሣሪያ ፍለጋ አወቃቀር፣ ተመሳሳይ የሆነ ትክክለኛነት በማስመዝገብ፣ አጠቃላይ የቶከን አጠቃቀምን በ47% ቀንሷል።

የናሙና የቶከን መጠኖች የተገኙት በMCP-Atlas ሕዝባዊ የውሂብ ስብስብ ውስጥ ያሉ 250 ተግባራትን በአማካይ በማስላት ነው።

ወኪላዊ የመሣሪያ ጥሪ

GPT‑5.4 በተለይም በAPI ውስጥ፣ በማመዛዘን ወቅት መሣሪያዎችን መቼ እና እንዴት መጠቀም እንዳለበት የሚወስንበትን መንገድ ይበልጥ ትክክለኛ እና ቀልጣፋ በማድረግ፣ የመሣሪያ ጥሪ ብቃቱን አሻሽሏል። ከGPT‑5.2 ጋር ሲነፃፀር፣ GPT‑5.4 በToolathlon፣ የኤ.አይ ወኪሎች ባለብዙ ደረጃ ተግባራትን ለማከናወን የእውነተኛ-ዓለም መሣሪያዎችን እና APIዎችን ምን ያህል በብቃት መጠቀም እንደሚችሉ የሚፈትን የደረጃ መለኪያ፣ ላይ በትንሽ ዙሮች የላቀ ትክክለኛነትን ያስመዘግባል። ለምሳሌ፣ አንድ ወኪል ኢሜይሎችን ማንበብ፣ የተያያዙ ምደባዎችን ለይቶ ማውጣት፣ እነርሱን መስቀል፣ ማረም እና ውጤቶችን በተመን ሉህ ላይ መመዝገብ ሊያስፈልገው ይችላል።

የማመዛዘን ጥረት እንዲኖር ለማይፈለግባቸው እና ለመዘግየት-ስሜታዊ ለሆኑ የአጠቃቀም ጉዳዮች፣ GPT‑5.4 ከቀደሙት ሞዴሎች በበለጠ መሻሻል የሚያሳይ ሆኗል።

በ τ2-bench⁠⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ላይ፣ አንድ ሞዴል የደንበኞች አገልግሎት ተግባርን ለማከናወን መሣሪያዎችን መጠቀም የሚኖርበት ሲሆን በዚህ ሂደት ውስጥ፣ ከሞዴሉ ጋር መገናኘት እና በዓለም ሁኔታ ላይ እርምጃዎችን መውሰድ የሚችል አስመሳይ ተጠቃሚ ሊኖር ይችላል። የማመዛዘን ጥረት በ None ላይ ተቀናብሮ ነበር።

የተሻሻለ የድር ፍለጋ

GPT‑5.4 በወኪላዊ ድር ፍለጋ የተሻለ ብቃት አለው። የኤ.አይ ወኪሎች በቀላሉ የማይገኙ መረጃዎችን ለማግኘት ድረ-ገጾችን ምን ያህል አጥብቀው መፈለግ እንደሚችሉ በሚለካ BrowseComp መለኪያ ላይ GPT‑5.4 ከGPT‑5.2 ጋር ሲነፃፀር በ17% _abs ብልጫ አሳይቷል፣ እንዲሁም GPT‑5.4 Pro በ89.3% አዲስ ከፍተኛ የብቃት ደረጃ አስመዝግቧል።

በተግባር፣ ይህ ማለት GPT‑5.4 Thinking ከተለያዩ የድር ምንጮች መረጃዎችን በማሰባሰብ ለሚቀርቡ ጥያቄዎች ምላሽ በመስጠት ረገድ የላቀ ብቃት አለው ማለት ነው። በተለይም "በገለባ ውስጥ ያለች መርፌን" የመፈለግ ያህል አዳጋች ለሆኑ ጥያቄዎች፣ በጣም ተዛማጅ የሆኑ ምንጮችን ለይቶ ለማወቅ በተደጋጋሚ ዙሮች አጥብቆ መፈለግ ይችላል፣ እንዲሁም የተገኙትን መረጃዎች በማቀናጀት ግልጽ እና በምክንያት የተደገፈ ምላሽ ይሰጣል።

በBrowseComp ውስጥ፣ ብክለት እንዳይከሰት ለመከላከል እና ፍትሃዊ የአፈጻጸም ደረጃ መለኪያን ለማረጋገጥ፣ የመለኪያ መልሶችን የያዙ ድረ-ገጾችን ከግምገማው ውጪ የሚያደርግ የፍለጋ እገዳ ዝርዝር ተጠቅመናል። GPT‑5.4 ልኬቱ የተካሄደው ከGPT‑5.2 በኋላ ባለው ቀን ስለሆነ፣ ውጤቶቹ በሞዴሉ፣ በፍለጋ ስርዓታችን እና በበይነመረብ ወቅታዊ ሁኔታ ላይ የሚከሰቱ ለውጦችን ያንጸባርቃሉ። GPT‑5.4 የተፈተነው ረዘም ባለ እና ወቅታዊ በሆነ የእገዳ ዝርዝር ነው። ሞዴሎች የChatGPT ፍለጋ መሣሪያን የሚጠቀሙ ሲሆን ይህም በAPI በኩል ከሚደረግ ፍለጋ መጠነኛ ልዩነቶች ሊኖሩት ይችላል።

“GPT-5.4 xhigh ለተከታታይ የመሣሪያዎች አጠቃቀም አዲስ የቴክኖሎጂ ደረጃ ሆኗል። Zapier ሞዴሎችን በመቶዎች በሚቆጠሩ ውስብስብ እና እውነተኛ-ዓለም የሥራ ፍሰቶች ላይ በመፈተሽ፣ በኢንዱስትሪው ውስጥ ካሉ እጅግ ጥብቅ የሆኑ የመሣሪያዎች አጠቃቀም የደረጃ መለኪያዎች ያካሂዳል። GPT-5.4 የቀደሙት ሞዴሎች ያቋረጡበት ቦታ ላይ ሥራውን ያጠናቀአ ሲሆን ይህም እስካሁን ካየናቸው ሁሉ እጅግ ጽኑ ሞዴል ያደርጓል።”

— Wade፣ በZapier ዋና ሥራ አስፈፃሚ

የመመራት ችሎታ

ልክ Codex ሥራ ሲጀምር አቀራረቡን እንደሚያብራራ ሁሉ፣ በChatGPT ውስጥ የሚገኘው GPT‑5.4 Thinking ረዘም ያሉ እና ውስብስብ ለሆኑ ጥያቄዎች አሁን የሥራውን ሂደት በመግቢያ ላይ ይገልጻል። እንዲሁም ምላሽ በመስጠት ላይ እያለ ተጨማሪ መመሪያዎችን ማከል ወይም አቅጣጫውን ማስተካከል ይችላሉ። ይህም መጀመሪያ ላይ ሳይመለሱ ወይም ተጨማሪ ዙር ጥያቄዎች ሳይፈልጉ፣ ሞዴሉን በትክክል ወደሚፈልጉት ውጤት ለመምራት ይበልጥ ቀላል ያደርጓል። ይህ ተግባር አሁን chatgpt.com⁠(በአዲስ መስኮት ውስጥ ይክፈታል) እና Android መተግበሪያ ላይ የሚገኝ ሲሆን በቅርቡም iOS መተግበሪያ ላይ ይቀርባል።

ሞዴሉ አስቸጋሪ በሆኑ ተግባራት ላይ ረዘም ላለ ጊዜ ማሰብ የሚችል ሲሆን፣ በንግግሩ መጀመሪያ ላይ የተከናወኑ እርምጃዎችን የማስታወስ ብቃቱም የላቀ ነው። ይህም መልሶች ከመጀመሪያ እስከ መጨረሻ ድረስ ወጥ እና ተዛማጅ ሆነው እንዲቀጥሉ በማድረግ፣ ረዣዥም የሥራ ፍሰቶችን እና ይበልጥ ውስብስብ የሆኑ ጥያቄዎችን ለማስተናገድ ያስችሏል።

ይህ ቪዲዮ ለማብራሪያ እንዲረዳ በፍጥነት እንዲሄድ ተደርጓል።

ደህንነት

ባለፉት ጥቂት ወራት፣ GPT‑5.4ን ለስምሪት ዝግጁ ለማድረግ እየተዘጋጀን ሳለ፣ ከGPT‑5.3‑Codex ጋር ያስተዋወቅናቸውን የደህንነት መጠበቂያዎች ማሻሻላችንን ቀጥለናል። ከGPT‑5.3‑Codex ጋር በተመሳሳይ መልኩ፣ GPT‑5.4ን በዝግጁነት ማዕቀፋችን መሠረት ከፍተኛ የሳይበር ብቃት እንዳለው አድርገን እየያዝነው ሲሆን የሥርዓት ካርድ⁠ ላይ በተገለጸው መሠረት አግባብነት ካላቸው ጥበቃዎች ጋር እያሰማራነው እንገኛለን። እነዚህም የተስፋፋ የሳይበር ደህንነት ስብስብን የሚያካትቱ ሲሆን ይህም የክትትል ሥርዓቶችን፣ የታመኑ የመዳረሻ ቁጥጥሮችን እና ዜሮ ውሂብ ማቆየት (ZDR) አገልግሎት ለሚጠቀሙ ደንበኞች ከፍተኛ ስጋት ላላቸው ጥያቄዎች የሚደረግ ተከታታይ እገዳን ከሰፊው የደኅንነት ሥርዓት ጋር ያቀናጃል።

የሳይበር ደኅንነት ብቃቶች በተፈጥሯቸው ለበጎም ሆነ ለክፉ ተግባር ሊውሉ የሚችሉ በመሆናቸው፣ መመሪያዎቻችንን እና መለያዎቻችንን ማመጣጠን በምንቀጥልበት ወቅት፣ ሞዴሉን ሥራ ላይ ለማዋል ጥንቃቄ የተሞላበት አካሄድን እንከተላለን። ለተወሰኑ ZDR ገጽታ ላይ ላሉ ደንበኞች፣ የጥያቄ-ደረጃ እገዳ አሁንም የሳይበር ስጋት ቅነሳ አካል ሆኖ የሚቀጥል ሲሆን መለያዎቹ ገና በማሻሻያ ላይ ስለሆኑ፣ እነዚህን የደህንነት መጠበቂያዎች ይበልጥ እያጠራን በምንቀጥልበት ወቅት አንዳንድ የተሳሳቱ እገዳዎች ሊከሰቱ ይችላሉ። እነዚህ ማሻሻያዎች፣ አላግባብ መጠቀም ላይ ጠንካራ የደህንነት ጥበቃዎችን ሳይቀንሱ፣ በተግባር ላይ ያሉ የደህንነት መጠበቂያዎች የሚሰሩበትን መንገድ ለማሻሻል ያለሙ ሲሆኑ ይህም አላስፈላጊ እምቢታዎችን እና ከመጠን ያለፈ ማስጠንቀቂያ የበዛባቸውን ምላሾች መቀነስን ያካትታል።

በሞዴሎች የአስተሳሰብ ሂደት ላይ የተሻለ ግንዛቤ ለማግኘት እና ሊከሰቱ የሚችሉ የተሳሳቱ ባህሪያትን ለመለየት እንዲረዳን፣ ተከታታይ ሀሳብ (CoT) ክትትል ላይ የምናደርገውን የደህንነት ምርምር ቀጥለናል። የዚህ ሥራ አካል እንደመሆኑ፣ ሞዴሎች ክትትልን ለማምለጥ ሲሉ ሆን ብለው ማመዛዘናቸውን ደብቅው ማቅረብ መቻላቸውን የሚለካ CoT የቁጥጥር አቅም⁠ የተሰኘ አዲስ የክፍት-ምንጭ ግምገማ አስተዋውቀናል። GPT‑5.4 Thinking CoTውን የመቆጣጠር ብቃቱ ዝቅተኛ ሆኖ ያገኘነው ሲሆን ይህም ለደህንነት ሲባል እንደ መልካም ባህሪ የሚወሰድ ነው፣ ምክንያቱም ሞዴሉ ማመዛዘኑን የመደበቅ ብቃት እንደሌለው እና የCoT ክትትል አሁንም ውጤታማ የደህንነት መሣሪያ መሆኑን ያመለክታል።

ተገኝነት እና የዋጋ አወጣጥ

GPT‑5.4 ዛሬ በChatGPT እና በCodex ላይ ቀስ በቀስ መለቀቅ ጀምሯል። በAPI ውስጥ፣ GPT‑5.4 አሁን እንደ gpt-5.4 ይገኛል። GPT‑5.4 Pro ደግሞ በAPI ውስጥ እንደ gpt-5.4-pro ይገኛል ይህም በጣም ውስብስብ በሆኑ ተግባራት ላይ ከፍተኛ ብቃትን ለሚፈልጉ ገንቢዎች ታስቦ የቀረበ ነው።

በChatGPT ውስጥ፣ GPT‑5.4 Thinking ከዛሬ ጀምሮ ለChatGPT Plus፣ Team፣ እና Pro ተጠቃሚዎች የሚገኝ ሲሆን፣ GPT‑5.2 Thinkingን ይተካል። GPT‑5.2 Thinking ለክፍያ ደንበኞች በሞዴል መምረጫው ውስጥ በLegacy ሞዴሎች ክፍል ስር ለሦስት ወራት የሚቆይ ሲሆን፣ ከዚያም ጁን 5፣ 2026 ላይ ከአገልግሎት ውጪ ይሆናል። በEnterprise እና Edu ዕቅዶች ላይ ያሉ ተጠቃሚዎች፣ በአስተዳዳሪ ቅንብሮች በኩል የቅድመ-መዳረሻን ማንቃት የሚችሉ ይሆናል። GPT‑5.4 Pro ለPro እና Enterprise እቅድ ተጠቃሚዎች ይገኛል። በChatGPT ውስጥ ለGPT‑5.4 Thinking የሚሰጠው የአውድ መስኮት⁠(በአዲስ መስኮት ውስጥ ይክፈታል) ከGPT‑5.2 Thinking ጋር ተመሳሳይ ሆኖ ሳይለወጥ ይቆያል።

GPT‑5.4 የGPT‑5.3‑codexን ግንባር ቀደም የኮዲንግ ብቃቶች አካቶ የያዘ የመጀመሪያው ዋናው የማመዛዘን ሞዴላችን ሲሆን በChatGPT፣ API እና Codex ላይ በስፋት በመሰራጨት ላይ ይገኛል። ያንን ከፍተኛ እድገት ለማንፀባረቅ እና በCodex ላይ በሚሰሩበት ጊዜ በሞዴሎች መካከል ያለውን ምርጫ ለማቃለል ሲባል GPT‑5.4 ብለን ጠርተነዋል። ጊዜ እያለፈ ሲሄድ፣ የእኛ Instant ሞዴሎች እና Thinking ሞዴሎች በተለያዩ ፍጥነቶች እድገት እንደሚያሳዩ ሊጠብቁ ይችላሉ።

በCodex ውስጥ የሚገኘው GPT‑5.4 1M የአውድ መስኮት የሙከራ ደረጃ ድጋፍን ያካትታል። ገንቢዎች ይህንን model_context_window እና model_auto_compact_token_limit በማዋቀር መሞከር ይችላሉ። ከመደበኛው 272K የአውድ መስኮት በላይ የሆኑ ጥያቄዎች፣ ከጥቅም ገደቡ ላይ በመደበኛው 2x ተመን ይታሰባሉ።

በAPI በኩል፣ GPT‑5.4 የተሻሻሉ ብቃቶቹን ለማንፀባረቅ ሲባል በአንድ ቶከን ዋጋው ከGPT‑5.2 ከፍ ያለ ቢሆንም፣ ከፍተኛ የቶከን አጠቃቀም ብቃቱ ግን ለብዙ ተግባራት የሚያስፈልጉትን አጠቃላይ የቶከኖች ብዛት ለመቀነስ ይረዳል። የBatch እና የFlex ዋጋዎች ከመደበኛው API ክፍያ በግማሽ ቅናሽ የሚቀርቡ ሲሆን፣ የቅድሚያ አገልግሎት ደግሞ ከመደበኛው API ክፍያ እጥፍ በሆነ ዋጋ ይገኛል።

API ሞዴል	የግብዓት ዋጋ	የተሸጎጠ የግብዓት ዋጋ	የውጤት ዋጋ
gpt-5.2	$1.75 / M ቶከኖች	$0.175 / M ቶከኖች	$14 / M ቶከኖች
gpt-5.4	$2.50 / M ቶከኖች	$0.25 / M ቶከኖች	$15 / M ቶከኖች
gpt-5.2-pro	$21 / M ቶከኖች	-	$168 / M ቶከኖች
gpt-5.4-pro	$30 / M ቶከኖች	-	$180 / M ቶከኖች

ግምገማዎች

ሙያዊ

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
GDPval	83.0%	82.0%	70.9%	70.9%	74.1%
የፋይናንስ ወኪል v1.1	56.0%	61.5%	54.0%	59.5%	—
የኢንቨስትመንት ባንክ ሞዴሊንግ ተግባራት (ውስጣዊ)	87.3%	83.6%	79.3%	68.4%	71.7%
OfficeQA	68.1%	—	65.1%	63.1%	—

ኮዲንግ

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
SWE-Bench Pro (የህዝብ)	57.7%	—	56.8%	55.6%	—
Terminal-Bench 2.0	75.1%	—	77.3%	62.2%	—

የኮምፒውተር አጠቃቀም እና እይታ

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
OSWorld የተረጋገጠ	75.0%	—	74.0%	47.3%	—
MMMU Pro (ያለ መሣሪያዎች)	81.2%	—	—	79.5%	—
MMMU Pro (ከመሣሪያዎች ጋር)	82.1%	—	—	80.4%	—

የመሣሪያ አጠቃቀም

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
BrowseComp	82.7%	89.3%	77.3%	65.8%	77.9%
MCP Atlas	67.2%	—	—	60.6%	—
Toolathlon	54.6%	—	51.9%	45.7%	—
Tau2-bench ቴሌኮም	98.9%	—	—	98.7%	—

አካዳሚክ

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ግንባር ቀደም የሳይንስ ምርምር	33.0%	36.7%	—	25.2%	—
FrontierMath ደረጃ 1–3	47.6%	—	—	40.7%	—
FrontierMath ደረጃ 4	27.1%	38.0%	—	18.8%	31.3%
GPQA Diamond	92.8%	94.4%	92.6%	92.4%	93.2%
የሰው ልጅ የመጨረሻው ፈተና (ያለ መሣሪያዎች)	39.8%	42.7%	—	34.5%	36.6%
የሰው ልጅ የመጨረሻው ፈተና (ከመሣሪያዎች ጋር)	52.1%	58.7%	—	45.5%	50.0%

ረጅም አውድ

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
Graphwalks BFS 0K–128K	93.0%	—	—	94.0%	—
Graphwalks BFS 256K–1M	21.4%	—	—	—	—
Graphwalks ወላጆች 0–128K (ትክክለኛነት)	89.8%	—	—	89.0%	—
Graphwalks ወላጆች 256K–1M (ትክክለኛነት)	32.4%	—	—	—	—
OpenAI MRCR v2 8-መርፌ 4K–8K	97.3%	—	—	98.2%	—
OpenAI MRCR v2 8-መርፌ 8K–16K	91.4%	—	—	89.3%	—
OpenAI MRCR v2 8-መርፌ 16K–32K	97.2%	—	—	95.3%	—
OpenAI MRCR v2 8-መርፌ 32K–64K	90.5%	—	—	92.0%	—
OpenAI MRCR v2 8-መርፌ 64K–128K	86.0%	—	—	85.6%	—
OpenAI MRCR v2 8-መርፌ 128K–256K	79.3%	—	—	77.0%	—
OpenAI MRCR v2 8-መርፌ 256K–512K	57.5%	—	—	—	—
OpenAI MRCR v2 8-መርፌ 512K–1M	36.6%	—	—	—	—

ረቂቅ የማመዘን ችሎታ

ግምገማ	GPT‑5.4	GPT‑5.4 Pro	GPT‑5.3-Codex	GPT‑5.2	GPT‑5.2 Pro
ARC-AGI-1 (የተረጋገጠ)	93.7%	94.5%	—	86.2%	90.5%
ARC-AGI-2 (የተረጋገጠ)	73.3%	83.3%	—	52.9%	54.2% (ከፍተኛ)

ያለ ማመዛዘን የተከናወኑ ግምገማዎች

ግምገማ	GPT‑5.4 (ምንም)	GPT‑5.2 (ምንም)	GPT‑4.1
OmniDocBench (መደበኛ የአርትዖት ርቀት)	0.109	0.140	—
Tau2-bench ቴሌኮም	64.3%	57.2%	43.6%

የግምገማ ውጤቶቹ የተሰሉት የሞዴሉ የማመዛዘን ጥረት በxhigh ደረጃ ላይ ተቀምጦ ነው፣ በሌላ መልኩ ካልተገለጸ በስተቀር። የደረጃ መለኪያዎቹ የተከናወኑት በምርምር አካባቢ ውስጥ ስለሆነ፣ በአንዳንድ ሁኔታዎች በሥራ ላይ ካለው የChatGPT ስሪት መጠነኛ ልዩነት ያለው ውጤት ሊሰጡ ይችላሉ።