ዛሬ እስካሁን ካዘጋጀናቸው አነስተኛ ሞዴሎች ሁሉ የላቀ ብቃት ያላቸውን GPT‑5.4 mini እና nano እየለቀቅን ነው። እነዚህ ሞዴሎች የGPT‑5.4ን በርካታ ጠንካራ ጎኖች ለከፍተኛ የሥራ ጫና ተብለው ወደተዘጋጁ ፈጣን እና ቀልጣፋ ሞዴሎች ያመጣሉ።
GPT‑5.4 mini ከGPT‑5 mini ጋር ሲነጻጸር በኮዲንግ፣ በማመዛዘን፣ በባለብዙ-ዘርፍ ግንዛቤነት እና በመሣሪያዎች አጠቃቀም ረገድ ከፍተኛ መሻሻል የሚያሳይ ሲሆን በተመሳሳይ ጊዜም 2x በላይ በሆነ ፍጥነት ይሠራል። በተጨማሪም እንደ SWE-Bench Pro እና OSWorld-Verified ባሉ በርካታ የግምገማ መስፈርቶች፣ መጠኑ ትልቅ ከሆነው የGPT‑5.4 ሞዴል ብቃት ጋር የሚቀራረብ ውጤት ያስመዘግባል።
GPT‑5.4 nano ለፍጥነት እና ለወጪ ከፍተኛ ትኩረት ለሚሰጥባቸው ተግባራት ትንሹ እና በጣም ርካሹ የGPT‑5.4 ስሪት ነው። በተጨማሪም ከGPT‑5 nano ጋር ሲነፃጸር ከፍተኛ መሻሻል የሚታይበት ነው። መረጃን ለመመደብ፣ ውሂብ ለማውጣት፣ ደረጃ ለመስጠት እና ቀለል ያሉ ደጋፊ ተግባራትን ለሚያከናውኑ ኮድ የሚጽፉ ንዑስ-ወኪሎች እንዲያገለግል እንመክራለን።
እነዚህ ሞዴሎች የተገነቡት የቆይታ ጊዜ በምርቱ ተሞክሮ ላይ ቀጥተኛ ተጽዕኖ ለሚያሳድርባቸው የሥራ ዓይነቶች ሲሆን እነዚህም ፈጣን ምላሽ የሚሰጡ የኮዲንግ ረዳቶች፣ ደጋፊ ተግባራትን በፍጥነት የሚያከናውኑ ንዑስ-ወኪሎች፣ ቅጽበታዊ ገጽ እይታዎችን የሚቀርጹ እና የሚተረጉሙ የኮምፒውተር-አጠቃቀም ሥርዓቶች፣ እና በምስሎች ላይ በእውነተኛ-ጊዜ ማመዛዘን የሚችሉ ባለብዙ-ዘርፍ መተግበሪያዎችን ያካትታሉ። በእነዚህ ሁኔታዎች ውስጥ፣ ምርጡ ሞዴል የግድ ትልቁ ሞዴል አይደለም—ይልቁንም በፍጥነት ምላሽ መስጠት የሚችል፣ መሣሪያዎችን በአስተማማኝ ሁኔታ የሚጠቀም እና አሁንም ውስብስብ በሆኑ ሙያዊ ተግባራት ላይ ከፍተኛ ብቃት የሚያሳይ ነው።
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 ለGPT‑5 mini የሚገኝ ከፍተኛው የማመዛዘን_ጥረት 'ከፍተኛ' የሚለው ነው።
ደንበኞቻችን GPT‑5.4 mini እና nanoን በሥራ ፍሰቶቻቸው ውስጥ ከሞከሩ በኋላ ያላቸው አስተያየት እንደሚከተለው ነው፦
"GPT-5.4 mini በዚህ ዘርፍ ካሉ ሞዴሎች አንጻር ሲታይ እጅግ ጠንካራ የሆነ ከጫፍ-እስከ-ጫፍ ብቃት ያሳያል። በኛ ግምገማዎች መሠረት፣ ሞዴሉ በበርካታ የውጤት ተግባራት እና ማጣቀሻዎችን በማስታወስ ረገድ ከተወዳዳሪ ሞዴሎች ጋር እኩል ወይም የተሻለ ውጤት ያስመዘገበ ሲሆን ይህንንም ያከናወነው እጅግ ባነሰ ወጪ ነው። እንዲሁም ከትልቁ GPT-5.4 ሞዴል ይልቅ የተሻለ ከጫፍ-እስከ-ጫፍ የማለፍ መጠኖች እና ጠንካራ የመረጃ ምንጭ አጣቃሽነት አስመዝግቧል።"
GPT‑5.4 mini እና nano በተለይ ፈጣን ተደጋጋሚ ማሻሻያ ለሚጠይቁ የኮዲንግ የሥራ ፍሰቶች እጅግ ውጤታማ ናቸው። ሞዴሎቹ የተለዩ የኮድ አርትዖቶች፣ በኮድ ማከማቻ ውስጥ መፈለግን፣ የፊት-ገጽ ግንባታን እና የኮድ ስህተት ፍለጋ ዑደቶችን በዝቅተኛ የቆይታ ጊዜ ማከናወን የሚችሉ በመሆኑ ፈጣን እና አነስተኛ ወጪ ለሚጠይቁ የኮዲንግ ተግባራት እጅግ ተስማሚ ናቸው።
በደረጃ መለኪያዎች፣ GPT‑5.4 mini ተመሳሳይ የቆይታ ጊዜያትን በመጠቀም GPT‑5‑miniን በተከታታይ የሚበልጥ ሲሆን እንዲሁም እጅግ ፈጣን በሆነ ሁኔታ እየሠራ የGPT‑5.4ን የብቃት ደረጃ ይቃረባል፣ ይህም ለኮዲንግ የሥራ ፍሰቶች በቆይታ ጊዜ እና በአፈጻጸም መካከል ካሉ ምርጥ ልውውጦች አንዱን ያቀርባል።
የሞዴሎቻችንን በምርት ላይ ያለውን ባህሪ በማየት እና ይህንኑ ከመስመር ውጪ በማስመሰል የመዘግየት ጊዜን የምንገምት ይሆናል። የመዘግየት ጊዜ ግምቱ የመሣሪያ ጥሪ ቆይታን (የኮድ አፈጻጸም ጊዜ)፣ ናሙና የተወሰደባቸው ቶከኖችን እና የግብዓት ቶከኖችን ታሳቢ ያደርጋል። የእውነተኛ-ዓለም የመዘግየት ጊዜ እጅግ ሊለያይ የሚችል ሲሆን፣ በኛ ማስመሰያ ውስጥ ባልተካተቱ በርካታ ምክንያቶች ላይም የተመሰረተ ነው። በተመሳሳይ ሁኔታ፣ ወጪዎቹ የሚገመቱት ይህ ጽሁፍ በተጻፈበት ወቅት በነበረው የእነዚህ ሞዲሎች የAPI ዋጋ ላይ ተመስርቶ ነው። ወጪዎች ወደፊት ሊለወጡ ይችላሉ። የማመዛዘን ጥረቶች ከዝቅተኛ ወደ xከፍተኛ ተሸጋግረዋል።
GPT‑5.4 mini የተለያዩ መጠን ያላቸውን ሞዴሎች ለሚያዋህዱ ሥርዓቶችም እጅግ ተስማሚ ነው። ለምሳሌ በCodex ውስጥ፣ እንደ GPT‑5.4 ያለ ትልቅ ሞዴል ዕቅድን፣ ቅንጅትን እና የመጨረሻ ውሳኔን ማከናወን የሚችል ሲሆን በተመሳሳይ ጊዜም—እንደ የኮድ መሠረት መፈለግን፣ ግዙፍ ፋይሎችን መገምገምን ወይም ደጋፊ ሰነዶችን መመርመርን የመሰሉ ጠበብ ያሉ ንዑስ-ተግባራትን በትይዩ ለሚያከናውኑ የGPT‑5.4 mini ንዑስ-ወኪሎች ሥራን ያከፋፍላል። ንዑስ-ወኪሎች በCodex ውስጥ እንዴት እንደሚሠሩ በሰነዶች(በአዲስ መስኮት ውስጥ ይክፈታል) ውስጥ ይረዱ።
ትናንሽ ሞዴሎች ይበልጥ ፈጣን እና ብቁ እየሆኑ ሲመጡ ይህ የሥራ ሂደት ጥቅም ይበልጥ እየጨመረ ይሄዳል። ለማንኛውም ነገር አንድን ሞዴል ብቻ ከመጠቀም ይልቅ ገንቢዎች ትልልቅ ሞዴሎች ምን መደረግ እንዳለበት የሚወስኑባቸው እና ትናንሽ ሞዴሎች ደግሞ ተግባራቱን በከፍተኛ መጠን እና በፍጥነት የሚያከናውኑባቸውን ሥርዓቶች ማቀናጀት ይችላሉ። GPT‑5.4 mini ለእንደዚህ ዓይነቱ የሥራ ፍሰት እስካሁን ካቀረብናቸው አነስተኛ ሞዴሎች ሁሉ ጠንካራው ነው።
GPT‑5.4 mini በባለብዙ-ዘርፍ ተግባራት፣ በተለይም ከኮምፒውተር አጠቃቀም ጋር በተያያዙ ላይ እጅግ ጠንካራ ነው። ሞዴሉ ጥቅጥቅ ያሉ የተጠቃሚ በይነገጾች ቅጽበታዊ ገጽ እይታዎችን በፍጥነት በመተርጎም የኮምፒውተር አጠቃቀም ተግባራትን በፍጥነት ማከናወን ይችላል። በOSWorld-Verified፣ GPT‑5.4 mini ከGPT‑5‑mini እጅግ የላቀ ውጤት በማስመዝገብ የGPT‑5.4ን የብቃት ደረጃ ይቃረባል።
GPT‑5.4 mini ዛሬ በAPI፣ በCodex እና በChatGPT ላይ የሚገኝ ይሆናል።
በAPI ውስጥ፣ GPT‑5.4 mini የጽሑፍ እና የምስል ግብዓቶችን፣ የመሣሪያ አጠቃቀምን፣ የተግባር ጥሪን፣ የድረ-ገጽ ፍለጋን፣ የፋይል ፍለጋን፣ የኮምፒውተር አጠቃቀምን እና ክህሎቶችን ይደግፋል። ሞዴሉ 400k የአውድ መስኮት ያለው ሲሆን፣ ለ1M የግብዓት ቶከኖች $0.75 ዶላር፣ እንዲሁም ለ1M የውጤት ቶከኖች $4.50 ዶላር ያስከፍላል።
በCodex ውስጥ፣ GPT‑5.4 mini በCodex መተግበሪያ፣ በCLI፣ በIDE ቅጥያ እና በድረ-ገጽ ላይ ይገኛል። ይህ ሞዴል ከGPT‑5.4 ኮታ 30% ብቻ የሚጠቀም ሲሆን ገንቢዎች ቀለል ያሉ የኮዲንግ ተግባራትን በCodex ውስጥ በአንድ-ሶስተኛ ወጪ በፍጥነት እንዲያከናውኑ ያስችላቿል። Codex ያነሰ የማመዛዘን አቅም-የሚጠይቁ ሥራዎችን በርካሹ ስሪት ላይ እንዲከናወኑ ለGPT‑5.4 mini ንዑስ ወኪሎች ሊያስተላልፍ ይችላል።
በChatGPT ውስጥ፣ GPT‑5.4 mini ለFree እና Go ተጠቃሚዎች በ + ምናሌ ውስጥ ያለውን "Thinking" የተሰኘ ባህሪ በመጠቀም የሚገኝ ይሆናል። ለሌሎች ተጠቃሚዎች በሙሉ፣ GPT‑5.4 mini ለGPT‑5.4 Thinking እንደ ተመን ገደብ ተለዋጭ ሆኖ ያገለግላል።
GPT‑5.4 nano በAPI ላይ ብቻ የሚገኝ ሲሆን ለ1M የግብዓት ቶከኖች $0.20 ዶላር፣ እንዲሁም ለ1M የውጤት ቶከኖች $1.25 ዶላር ያስከፍላል።
ስለ ሞዴሎቹ የደህንነት ጥበቃ ተጨማሪ መረጃ ለማግኘት፣ እባክዎ በስምሪት ደህንነት ማዕከላችን(በአዲስ መስኮት ውስጥ ይክፈታል) ላይ የሚገኘውን የሥርዓት ካርድ ተጨማሪ መግለጫ ይመልከቱ።
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 ለGPT‑5 mini የሚገኝ ከፍተኛው የማመዛዘን_ጥረት 'ከፍተኛ' የሚለው ነው።
2 አጠቃላይ የአርትዖት ርቀት። OmniDocBench የተካሄደው የማመዛዘን_ጥረት 'የለም' ደረጃ ላይ ተደርጎ ሲሆን ይህም አነስተኛ-ወጪ እና አነስተኛ-መዘግየት አፈጻጸምን ለማንጸባረቅ ነው።


