نطلق اليوم GPT‑5.4 mini وGPT‑5.4 nano، وهما أكثر نماذجنا الصغيرة تطورًا حتى الآن. ويقدّمان كثيرًا من نقاط قوة GPT‑5.4 في نماذج أسرع وأكثر كفاءة، صُممت للتعامل مع أحمال العمل كبيرة الحجم.
يتفوّق GPT‑5.4 mini بشكل ملحوظ على GPT‑5 mini في البرمجة، والاستدلال، وفهم المحتوى متعدد الوسائط، واستخدام الأدوات، مع سرعة تشغيل تزيد على الضعف. كما يقترب من أداء النموذج الأكبر GPT‑5.4 في عدد من التقييمات، بما يشمل SWE-Bench Pro وOSWorld-Verified.
يأتي نموذج GPT‑5.4 nano بوصفه أصغر إصدارات GPT‑5.4 وأرخصها، وقد صُمّم للمهام التي تتصدر فيها السرعة والكلفة قائمة الأولويات. كما يشكّل قفزة ملحوظة مقارنةً بنموذج GPT‑5 nano. وننصح به لمهام التصنيف، واستخراج البيانات، والترتيب، ولوكلاء البرمجة الفرعيين الذين يتعاملون مع المهام الداعمة الأكثر بساطة.
وقد صُمّمت هذه النماذج لأنواع أعباء العمل التي تؤثر فيها سرعة الاستجابة مباشرةً في تجربة المنتج. ويشمل ذلك مساعدين برمجيين يُفترض أن يتسموا بسرعة التفاعل، ووكلاء فرعيين ينجزون المهام الداعمة بسرعة، وأنظمة تتعامل مع الحاسوب تلتقط لقطات الشاشة وتفسّرها، وتطبيقات متعددة الوسائط قادرة على الاستدلال على الصور في اللحظة. وفي مثل هذه الحالات، لا يكون أفضل نموذج بالضرورة هو الأكبر حجمًا، بل ذاك الذي يستجيب بسرعة، ويستخدم الأدوات بكفاءة موثوقة، ويحافظ في الوقت نفسه على أداء قوي في المهام المهنية المعقدة.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 أعلى جهد استدلال "reasoning_effort" متاح لنموذج GPT‑5 mini هو 'high'.
في ما يلي آراء عملائنا بعد اختبار GPT‑5.4 mini وGPT‑5.4 nano ضمن سير عملهم:
"يقدّم نموذج GPT-5.4 mini أداءً قويًا من البداية إلى النهاية ضمن فئته. ففي تقييماتنا، حقّق أداءً مماثلًا من لنماذج منافسة أو تفوّق عليها في عدد من مهام الإخراج وقياس الاسترجاع عند تكلفة أقل بكثير. كما حقق معدلات اجتياز أعلى من البداية إلى النهاية، ونَسبًا أقوى للمصادر، مقارنةً بنموذج GPT-5.4 الأكبر."
يتميّز النموذجان GPT‑5.4 mini وnano بفعالية خاصة في سير عمل البرمجة التي تستفيد من سرعة التكرار، إذ يتعاملان بكفاءة مع التعديلات المستهدفة، والتنقّل داخل قواعد الشفرة، وإنشاء الواجهات الأمامية، ودورات تصحيح الأخطاء منخفضة الكمون، ما يجعلهما خيارًا قويًا لمهام البرمجة التي تتطلب إنجازًا أسرع وتكلفة أقل.
في الاختبارات المعيارية، يتفوّق GPT‑5.4 mini باستمرار على GPT‑5‑mini عند مستويات زمن استجابة متقاربة، ويقترب من معدلات اجتياز GPT‑5.4، مع سرعة تشغيل أعلى بكثير، ما يقدّم واحدًا من أقوى توازنات الأداء مقابل زمن الاستجابة في سير عمل البرمجة.
نقدّر زمن الاستجابة من خلال تحليل سلوك نماذجنا في بيئة الإنتاج، ثم نحاكي هذا السلوك في اختبارات تُجرى دون اتصال. ويأخذ تقدير زمن الاستجابة في الحسبان مدة استدعاء الأدوات (زمن تنفيذ التعليمات البرمجية)، وعدد الرموز المولَّدة، إضافةً إلى الرموز المدخلة. ومع ذلك، قد يختلف زمن الاستجابة الفعلي في الواقع اختلافًا ملحوظًا، إذ يتأثر بعوامل عديدة لا تعكسها هذه المحاكاة بالكامل. وبالمثل، تُقدَّر التكاليف بناءً على أسعار واجهة API لهذه النماذج في وقت كتابة هذه المدونة. في حين، قد تتغير التكاليف في المستقبل. تم رفع جهود الاستدلال من low إلى xhigh.
يُعد نموذج GPT‑5.4 mini أيضًا خيارًا مناسبًا للأنظمة التي تجمع بين نماذج بأحجام مختلفة. ففي Codex مثلًا، يمكن لنموذج أكبر مثل GPT‑5.4 أن يتولى التخطيط والتنسيق وإصدار الأحكام النهائية، مع إسناد مهام فرعية أكثر تحديدًا إلى وكلاء فرعيين يعملون بالتوازي ويعتمدون على نموذج GPT‑5.4 mini، مثل البحث داخل قاعدة الشفرة، أو مراجعة ملف كبير، أو معالجة المستندات الداعمة. ويمكن التعرّف إلى كيفية عمل الوكلاء الفرعيين في Codex من خلال المستندات(يفتح في نافذة جديدة).
تزداد فائدة هذا النمط كلما أصبحت النماذج الأصغر أسرع وأكثر قدرة. فبدلًا من استخدام نموذج واحد لكل شيء، يمكن للمطورين بناء أنظمة تتولى فيها النماذج الأكبر تحديد ما يجب فعله، بينما تنفّذ النماذج الأصغر المهام بسرعة وعلى نطاق واسع. ويُعد GPT‑5.4 mini أقوى نموذج mini لدينا حتى الآن لهذا النوع من عمليات سير العمل.
يتميّز GPT‑5.4 mini أيضًا بأداء قوي في المهام متعددة الوسائط، ولا سيما تلك المرتبطة باستخدام الحاسوب. إذ يستطيع النموذج تفسير لقطات الشاشة لواجهات المستخدم المزدحمة بسرعة، بما يتيح إنجاز مهام استخدام الحاسوب بكفاءة عالية. وفي معيار OSWorld-Verified، يقترب أداء GPT‑5.4 mini من GPT‑5.4، مع تفوق واضح على GPT‑5 mini.
يتوفر GPT‑5.4 mini ابتداءً من اليوم عبر واجهة API وCodex وChatGPT.
في واجهة API، يدعم GPT‑5.4 mini إدخالات النصوص والصور، واستخدام الأدوات، واستدعاء الوظائف، والبحث على الويب، والبحث في الملفات، واستخدام الحاسوب، والمهارات. ويأتي مع نافذة سياق تبلغ 400 ألف رمز، وتبلغ تكلفته 0.75 دولار لكل مليون رمز إدخال و4.50 دولار لكل مليون رمز إخراج.
في Codex، يتوفر نموذج GPT‑5.4 mini عبر تطبيق Codex، وواجهة سطر الأوامر CLI، وإضافة IDE، والويب. وهو يستخدم 30% فقط من حصة GPT‑5.4، مما يتيح للمطورين إنجاز مهام برمجية أبسط في Codex مقابل نحو ثلث التكلفة. ويمكن أن يسند Codex أيضًا المهام إلى وكلاء فرعيين يعتمدون على نموذج GPT‑5.4 mini، بحيث يُعتمد على النموذج الأقل تكلفة في تشغيل الأعمال الأقل كثافة من حيث الاستدلال.
في ChatGPT، يتوفر GPT‑5.4 mini لمستخدمي الخطتين المجانية وGo عبر ميزة "Thinking" في قائمة +. أما بالنسبة إلى جميع المستخدمين الآخرين، فيتوفر GPT‑5.4 mini كخيار احتياطي عند بلوغ الحد الأقصى لمعدل استخدام GPT‑5.4 Thinking.
يتوفر GPT‑5.4 nano حصريًا عبر واجهة API، وتبلغ تكلفته 0.20 دولار لكل مليون رمز إدخال و1.25 دولار لكل مليون رمز إخراج.
لمزيد من المعلومات حول الضمانات الخاصة بالنماذج، يُرجى الاطلاع على ملحق بطاقة النظام في مركز سلامة النشر(يفتح في نافذة جديدة).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 أعلى جهد استدلال "reasoning_effort" متاح لنموذج GPT‑5 mini هو 'high'.
2 مسافة التحرير الإجمالية. تم تشغيل OmniDocBench مع تعيين جهد reasoning_effort على 'none'، ليعكس أداءً منخفض التكلفة ومنخفض زمن الاستجابة.


