تخطي إلى المحتوى الرئيسي
OpenAI

5 مارس 2026

المنتجإصدار

إطلاق GPT‑5.4

مصمّم لإنجاز الأعمال الاحترافية

جاري التحميل...

اليوم نطلق GPT‑5.4 في ChatGPT (باسم GPT‑5.4 Thinking)، وفي واجهة API، وفي Codex. وهو نموذجنا الرائد الأكثر قدرة وكفاءة حتى الآن المصمم للعمل الاحترافي. كما نطلق أيضًا GPT‑5.4 Pro في ChatGPT وواجهة API لمن يسعون إلى أقصى أداء في المهام المعقّدة.

يجمع GPT‑5.4 أفضل ما توصّلنا إليه مؤخرًا من تطورات في مهارات الاستدلال والبرمجة وسير العمل الوكيلية في نموذج رائد واحد. كما يدمج قدرات البرمجة الرائدة في القطاع التي يقدّمها GPT‑5.3‑Codex، مع تحسين طريقة عمل النموذج عبر الأدوات وبيئات البرمجيات والمهام المهنية التي تتضمن جداول البيانات والعروض التقديمية والمستندات. والنتيجة هي نموذج قادر على إنجاز الأعمال الواقعية المعقّدة بدقة وفعالية وكفاءة، ويقدّم ما طلبته مع قدر أقل من الأخذ والرد.

في ChatGPT يمكن لنموذج GPT‑5.4 Thinking الآن تقديم خطة أولية لتفكيره منذ البداية، ما يتيح لك تعديل المسار أثناء الاستجابة وهو يعمل، والوصول إلى ناتج نهائي أكثر توافقًا مع ما تحتاجه من دون جولات إضافية. كما يعزّز GPT‑5.4 Thinking قدرات البحث العميق على الويب، ولا سيما في الاستعلامات عالية التحديد، مع الحفاظ بصورة أفضل على السياق في الأسئلة التي تتطلب تفكيرًا أطول. وبمجملها، تؤدي هذه التحسينات إلى إجابات أعلى جودة تصل بسرعة أكبر وتظل وثيقة الصلة بالمهمة المطروحة.

في Codex وواجهة API، يُعد GPT‑5.4 أول نموذج متعدد الاستخدامات نطلقه مزوّدًا بقدرات أصلية ومتقدمة لاستخدام الحاسوب، ما يتيح للوكلاء تشغيل الحواسيب وتنفيذ عمليات سير عمل معقّدة عبر التطبيقات. كما يدعم ما يصل إلى مليون رمز من السياق، الأمر الذي يمكّن الوكلاء من التخطيط والتنفيذ والتحقق من المهام عبر آفاق زمنية طويلة. وإضافة إلى ذلك، يحسّن GPT‑5.4 طريقة عمل النماذج عبر منظومات واسعة من الأدوات والموصلات من خلال البحث عن الأدوات، مما يساعد الوكلاء على العثور على الأدوات المناسبة واستخدامها بكفاءة أكبر من دون التضحية بالقدرات الذكية. وأخيرًا، يُعد GPT‑5.4 أكثر نموذج استدلال كفاءة في استخدام الرموز لدينا حتى الآن، إذ يستخدم عددًا أقل بكثير من الرموز لحل المشكلات مقارنةً بـ GPT‑5.2، مما يؤدي إلى انخفاض في استخدام الرموز وسرعات أعلى.

إلى جانب التطورات في الاستدلال العام والبرمجة وأعمال المعرفة المهنية، يتيح GPT‑5.4 وكلاء أكثر موثوقية، وسير عمل أسرع للمطوّرين، ومخرجات أعلى جودة عبر ChatGPT وواجهة برمجة التطبيقات وCodex.


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (الفوز أو التعادل)

83.0%

70.9%

70.9%

SWE-Bench Pro (عام)

57,7%

56.8%

55.6%

OSWorld-Verified

75.0%

74.0%* 

47.3%

Toolathlon

54.6%

51.9%

46.3%

BrowseComp

82.7%

77.3%

65.8%

*سُجِّلت سابقًا بنسبة 64.7%. يحقق GPT‑5.3‑Codex نسبة 74.0% عند استخدام معلمة جديدة في واجهة API تحافظ على دقة الصورة الأصلية.

الأعمال المعرفية

استنادًا إلى قدرات الاستدلال العامة في GPT‑5.2، يقدّم GPT‑5.4 نتائج أكثر اتساقًا وإتقانًا في المهام الواقعية التي تهمّ المهنيين.

في اختبار GDPval، الذي يختبر قدرات الوكلاء على إنجاز مهام عمل معرفي محددة بدقة عبر 44 مهنة، يحقق GPT‑5.4 مستوى رائدًا جديدًا، إذ يضاهي أو يتفوق على المتخصصين في القطاع في 83,0% من المقارنات، مقارنةً بـ 71,0% لنموذج GPT‑5.2.

في اختبار GDPval، تحاول النماذج تنفيذ مهام عمل معرفي محددة بدقة وتشمل 44 مهنة من بين أكبر تسعة قطاعات تساهم في الناتج المحلي الإجمالي للولايات المتحدة. وتطلب هذه المهام إنتاج مخرجات عمل حقيقية، مثل عروض مبيعات تقديمية، وجداول محاسبية، وجداول مناوبات لمراكز الرعاية العاجلة، ومخططات تصنيع، أو مقاطع فيديو قصيرة. وقد جرى ضبط مستوى جهد الاستدلال على xhigh في GPT‑5.4، وعلى heavy في GPT‑5.2 (مستوى أدنى قليلًا في ChatGPT).

"يُعد GPT-5.4 أفضل نموذج جرّبناه حتى الآن. فقد تصدّر لوحة الصدارة في معيار APEX-Agents لدينا، الذي يقيس أداء النماذج في أعمال الخدمات المهنية. كما يتفوّق في إعداد مخرجات طويلة الأفق مثل العروض التقديمية، والنماذج المالية، والتحليل القانوني، مقدّمًا أداءً متقدمًا مع سرعة أعلى وتكلفة أقل مقارنةً بالنماذج الحدودية المنافسة."
— بريندان فودي، الرئيس التنفيذي في Mercor

ركّزنا بشكل خاص على تحسين قدرة GPT‑5.4 على إنشاء جداول البيانات والعروض التقديمية والمستندات وتحريرها. ففي معيار داخلي لنمذجة جداول البيانات يتضمن مهام قد ينفّذها محلّل مبتدئ في الخدمات المصرفية الاستثمارية، حقق GPT‑5.4 متوسط نتيجة بلغ 87.5% مقارنةً بـ 68.4% لدى GPT‑5.2. كما أظهرت مجموعة من مطالبات تقييم العروض التقديمية أن المقيّمين البشريين فضّلوا العروض التي أنشأها GPT‑5.4 في 68.0% من الحالات مقارنة بتلك التي أنشأها GPT‑5.2، وذلك بفضل جمالية أقوى وتنوّع بصري أكبر واستخدام أكثر فاعلية لتوليد الصور.

مثال يوضح مخرجات جداول البيانات جنبًا إلى جنب من GPT-5.2 مقارنة بـ GPT-5.4

تم إنشاء المستندات مع ضبط جهد الاستدلال على xhigh

يمكنك تجربة هذه القدرات في ChatGPT باستخدام GPT‑5.4 Thinking أو Pro. وإذا كنت عميلًا من فئة Enterprise، فنوصي باستخدام إضافات ChatGPT التي أُطلقت حديثًا لبرنامجي Excel وGoogle Sheets(يفتح في نافذة جديدة)، والتي أُعلن عنها أيضًا اليوم. كما قمنا أيضًا بتحديث جداول البيانات(يفتح في نافذة جديدة) ومهارات العروض التقديمية(يفتح في نافذة جديدة) المتاحة في Codex وواجهة API.

لجعل GPT‑5.4 أكثر كفاءة في إنجاز المهام الواقعية، واصلنا العمل على تقليل الهلوسة والأخطاء. ويُعد GPT‑5.4 نموذجنا الأكثر دقة واقعية حتى الآن؛ إذ أظهرت مجموعة من المطالبات مجهولة الهوية التي أبلغ فيها المستخدمون عن أخطاء واقعية أن الادعاءات الفردية في GPT‑5.4 أقل احتمالًا لأن تكون غير صحيحة بنسبة 33%، كما أن استجاباته الكاملة أقل احتمالًا لاحتواء أي أخطاء بنسبة 18% مقارنةً بـ GPT‑5.2.

"يرفع GPT-5.4 سقف الأداء في الأعمال القانونية التي تعتمد بكثافة على المستندات. ففي تقييم BigLaw Bench الذي نجريه، سجّل 91%. كما يتفوّق حاليًا على النماذج الأخرى في تنظيم التحليل المعقّد للمعاملات القانونية، والحفاظ على الدقة عبر العقود المطوّلة، وتقديم مستوى التفصيل الذي يتطلبه المتخصصون في المجال القانوني."
— نيكو جروبن، رئيس الأبحاث التطبيقية في Harvey

استخدام الحاسوب والرؤية

يُعد GPT‑5.4 أول نموذج عام الأغراض لدينا مزوّد بقدرات أصلية لاستخدام الحاسوب، ويمثّل خطوة كبيرة إلى الأمام للمطوّرين والوكلاء على حد سواء. وهو حاليًا أفضل نموذج متاح للمطوّرين الذين يبنون وكلاء قادرين على إنجاز مهام حقيقية عبر المواقع وأنظمة البرمجيات.

وقد صمّمنا GPT‑5.4 ليقدّم أداءً قويًا عبر مجموعة واسعة من أعباء العمل المرتبطة باستخدام الحاسوب. فهو يتفوّق في كتابة الشيفرة لتشغيل الحواسيب عبر مكتبات مثل Playwright، كما يمكنه إصدار أوامر الفأرة ولوحة المفاتيح استجابةً للقطات الشاشة. ويمكن توجيه سلوكه عبر مطالبات المطوّرين، ما يتيح للمطوّرين ضبط تصرّف النموذج بما يتناسب مع حالات استخدام محدّدة. بل ويمكنهم أيضًا تهيئة سلوك الأمان في النموذج ليتوافق مع مستويات مختلفة من تقبّل المخاطر من خلال تحديد سياسات تأكيد مخصّصة.

ينعكس أداء النموذج ومرونته عبر مجموعة من المعايير التي تختبر استخدام الحاسوب في سياقات مختلفة. ففي اختبار OSWorld-Verified، الذي يقيس قدرة النموذج على التنقّل داخل بيئة سطح المكتب باستخدام لقطات الشاشة وإجراءات لوحة المفاتيح والفأرة، يحقق GPT‑5.4 معدل نجاح متقدمًا يبلغ 75.0%، متجاوزًا بفارق كبير GPT‑5.2 الذي يحقق 47.3%، بل ومتفوّقًا على الأداء البشري البالغ 72.4%.1

وفي اختبار WebArena-Verified، الذي يختبر استخدام المتصفح، يحقق GPT‑5.4 معدل نجاح رائدًا يبلغ 67.3% عند استخدام التفاعل المعتمد على كلٍ من DOM ولقطات الشاشة، مقارنةً بـ 65.4% لدى GPT‑5.2. كما يحقق في Online-Mind2Web، وهو معيار آخر لاستخدام المتصفح، معدل نجاح بنسبة 92.8% عند الاعتماد على ملاحظات لقطات الشاشة فقط، وهو تحسّن مقارنةً بوضع الوكيل في ChatGPT Atlas، الذي يحقق معدل نجاح بنسبة 70.9%.

يحدث ما يُسمّى Tool yield "انتظار الأداة" عندما يتوقّف المساعد مؤقتًا لانتظار استجابات الأدوات. فعلى سبيل المثال، إذا جرى استدعاء ثلاث أدوات بالتوازي، ثم تبع ذلك استدعاء ثلاث أدوات أخرى بالتوازي، فإن عدد مرات التوقّف لانتظار النتائج سيكون مرتين. ويُعدّ Tool yield "انتظار الأداة" مؤشرًا أدق على زمن الاستجابة مقارنة بعدد استدعاءات الأدوات، لأنه يعكس الفوائد الناتجة عن تنفيذ العمليات بالتوازي.

يفسّر GPT‑5.4 لقطات شاشة لواجهة متصفح ويتفاعل مع عناصر واجهة المستخدم عبر النقر المستند إلى الإحداثيات لإرسال رسائل بريد إلكتروني وجدولة أحداث في التقويم.

يرتكز التحسّن في قدرات GPT‑5.4 على استخدام الحاسوب على التطوّر في قدراته العامة على الإدراك البصري. ففي MMMU-Pro، وهو اختبار يقيس فهم النموذج للمحتوى البصري وقدرته على الاستدلال، يحقق GPT‑5.4 معدل نجاح بنسبة 81.2% من دون استخدام الأدوات، وهو تحسن مقارنة بنسبة 79.5% التي سجلها GPT‑5.2. كما ينعكس تحسن الإدراك البصري في قدرات أفضل على تحليل المستندات. وفي OmniDocBench، يحقق GPT‑5.4 من دون جهد استدلالي متوسط خطأ (يُقاس بمسافة التحرير المعيارية بين تنبؤ النموذج والحقيقة المرجعية) يبلغ 0.109، وهو تحسّن مقارنةً بـ 0.140 لدى GPT‑5.2.

تم تشغيل MMMUPro مع ضبط جهد الاستدلال على xhigh. تم تشغيل OmniDocBench مع تعيين جهد الاستدلال على "None"، ليعكس أداءً منخفض التكلفة ومنخفض زمن الاستجابة.

وبالتوازي مع ذلك، نعمل أيضًا على تحسين الفهم البصري للصور الكثيفة وعالية الدقة حيث تكون الدقة الكاملة ضرورية؛ فابتداءً من GPT‑5.4 نقدّم مستوى original من تفاصيل إدخال(يفتح في نافذة جديدة) الصور يدعم الإدراك بدقة كاملة حتى 10.24M بكسل إجمالًا أو بُعدًا أقصى قدره 6000 بكسل، أيهما أقل؛ كما يدعم مستوى high من تفاصيل إدخال الصور الآن حتى 2.56M بكسل إجمالًا أو بُعدًا أقصى قدره 2048 بكسل. وفي الاختبارات الأولية مع مستخدمي API لاحظنا تحسّنات ملحوظة في قدرات تحديد المواقع داخل الصور، وفهمها، ودقة النقر عند استخدام original أو مستوى التفاصيل high.

"في تقييماتنا التي تقيس أداء استخدام الحاسوب عبر نحو 30 ألف بوابة لجمعيات المُلّاك (HOA) وبوابات ضرائب العقارات، حقق GPT-5.4 معدل نجاح بلغ 95% من المحاولة الأولى و100% خلال ثلاث محاولات، مقارنةً بنحو 73–79% في نماذج CUA السابقة. كما أتمّ الجلسات بسرعة تقارب ثلاثة أضعاف، مع استخدام عدد أقل من الرموز بنحو 70%، مما حسّن بشكل ملموس من الموثوقية وكفاءة التكلفة عند العمل على نطاق واسع."
— دود فريزر، الرئيس التنفيذي في Mainstay

في واجهة API يمكن للمطوّرين الوصول إلى هذه القدرات باستخدام أداة استخدام الحاسوب المحدّثة. ويُرجى الرجوع إلى الوثائق المحدّثة(يفتح في نافذة جديدة) للاطّلاع على أفضل الممارسات الموصى بها.

البرمجة

يجمع GPT‑5.4 بين نقاط القوة البرمجية في GPT‑5.3‑Codex وقدرات متقدمة في العمل المعرفي واستخدام الحاسوب، وهي قدرات تبرز أهميتها خصوصًا في المهام طويلة التنفيذ حيث يمكن للنموذج استخدام الأدوات والتكرار على الحلول ودفع العمل إلى الأمام مع قدر أقل من التدخل اليدوي. كما يضاهي أو يتفوق على GPT‑5.3‑Codex في معيار SWE-Bench Pro مع تحقيق زمن استجابة أقل عبر مهام الاستدلال.

نقدّر زمن الاستجابة من خلال تحليل سلوك نماذجنا في بيئة الإنتاج، ثم نحاكي هذا السلوك في اختبارات تُجرى دون اتصال. ويأخذ تقدير زمن الاستجابة في الحسبان مدة استدعاء الأدوات (زمن تنفيذ التعليمات البرمجية)، وعدد الرموز المولَّدة، إضافةً إلى الرموز المدخلة. ومع ذلك، قد يختلف زمن الاستجابة الفعلي في الواقع اختلافًا ملحوظًا، إذ يتأثر بعوامل عديدة لا تعكسها هذه المحاكاة بالكامل. تم رفع جهود الاستدلال من none إلى xhigh.

عند تشغيله، يوفّر وضع /fast في Codex سرعة رموز أسرع بما يصل إلى 1.5x مع GPT‑5.4. إنه نفس النموذج ونفس الذكاء، لكنه أسرع فحسب. هذا يعني أن المستخدمين يمكنهم التنقّل بين مهام البرمجة والتكرار وتصحيح الأخطاء مع البقاء في حالة تدفّق. ويمكن للمطورين الوصول إلى GPT‑5.4 بالسرعات السريعة نفسها عبر واجهة برمجة التطبيقات (API) باستخدام المعالجة ذات الأولوية(يفتح في نافذة جديدة).

في التقييمات والاختبارات الداخلية، وجدنا أن GPT‑5.4 يتفوق في المهام المعقّدة لواجهات المستخدم الأمامية، إذ يقدّم نتائج أكثر جمالية ووظيفية بشكل ملحوظ مقارنةً بأي نموذج أطلقناه سابقًا.

وكدليل على تحسّن قدرات النموذج في استخدام الحاسوب والبرمجة معًا، نطلق أيضًا مهارة تجريبية في Codex تُسمّى "Playwright (Interactive)(يفتح في نافذة جديدة)". تتيح لـ Codex تصحيح أخطاء تطبيقات الويب وتطبيقات Electron بصريًا؛ بل ويمكن استخدامها لاختبار التطبيق الذي يقوم ببنائه أثناء عملية البناء نفسها.

لعبة محاكاة مدينة ملاهٍ أُنشئت باستخدام GPT‑5.4 انطلاقًا من مطالبة واحدة محدودة التفاصيل، مع استخدام Playwright Interactive لاختبار التشغيل في المتصفح وتوليد الصور لإنشاء مجموعة الأصول الرسومية ذات المنظور الإيزومتري. تتضمن المحاكاة وضع المسارات بنظام البلاطات، وبناء الألعاب والعناصر الجمالية، وتوجيه حركة الزوار، وإدارة الطوابير، ودورات تشغيل الألعاب، بينما ترتفع أو تنخفض مؤشرات الحديقة—مثل المال وعدد الزوار ومستوى السعادة والنظافة والتقييم—بحسب أداء التخطيط واستجابة الزوار له. وقد استُخدم Playwright لأتمتة اختبارات اللعب في المتصفح عبر بناء الحديقة وتوسيعها، ووضع المسارات والمعالم وإزالتها، وفحص حركة الكاميرا والتنقل، والتحقق من أن الزوار والطوابير وحالات الألعاب ومؤشرات واجهة المستخدم تتحدث بصورة صحيحة عبر عدة جولات من اللعب.

مطالبة: Use $playwright-interactive and $imagegen. Create an interactive isometric theme park simulation game that I can build and navigate in the browser. Use imagegen to establish the overall visual vision and generate the game’s assets, including rides, paths, terrain, trees, water, food stalls, decorations, buildings, icons, and UI illustrations. The world should feel cohesive, polished, and visually rich, with a premium art direction that works well from an isometric perspective. Let me place and remove paths, add attractions, position scenery, and move around the park smoothly while monitoring guest activity, ride status, and park growth. Include believable guest movement, simple park management systems like money, cleanliness, queueing, and happiness, and make the experience feel playful, clear, and complete rather than like a rough prototype. Prioritize charm, readability, and strong game feel over realism. 

عند إجراء اختبارات اللعب، تأكد من بناء الحديقة وتوسيعها عبر عدة جولات من اللعب، والتحقق من أن وضع العناصر والتنقل يعملان بسلاسة، والتأكد من أن الزوار يتفاعلون مع تخطيط الحديقة ومعالمها، وضمان أن تبدو العناصر البصرية وواجهة المستخدم والتفاعلات مستقرة ومتماسكة.

"يشير مهندسونا إلى أن GPT-5.4 يتسم بطابع أكثر طبيعية وحسمًا مقارنة بالنماذج السابقة. فهو يعالج المشكلات الغامضة بثقة ومن دون التردد في استنتاجاته، كما يتبنى نهجًا استباقيًا في موازاة المهام لضمان استمرار العمل بسلاسة."
— لي روبنسون، نائب رئيس تعليم المطورين في Cursor

استخدام الأدوات

مع GPT‑5.4، حسّنّا بشكل ملحوظ طريقة عمل النماذج مع الأدوات الخارجية، حيث أصبح بإمكان الوكلاء الآن العمل عبر منظومات أدوات أوسع، واختيار الأدوات المناسبة بموثوقية أكبر، وإكمال سير عمل متعدد الخطوات بتكلفة أقل وزمن استجابة أقصر.

البحث عن الأدوات

في الواجهة البرمجية (API)، يقدّم GPT‑5.4 البحث عن الأدوات(يفتح في نافذة جديدة)، الذي يتيح للنماذج العمل بكفاءة عند تزويدها بعدد كبير من الأدوات.

في السابق، عندما كان يُزوَّد النموذج بالأدوات، كانت جميع تعريفات الأدوات تُدرج في الطلب منذ البداية. وبالنسبة للأنظمة التي تتضمن عددًا كبيرًا من الأدوات، يمكن أن يضيف ذلك آلافًا، وأحيانًا عشرات الآلاف، من الرموز إلى كل طلب، مما يزيد التكلفة ويبطئ الاستجابات ويملأ السياق بمعلومات قد لا يستخدمها النموذج أصلًا.

أما مع ميزة البحث عن الأدوات، فيتلقى GPT‑5.4 بدلًا من ذلك قائمة خفيفة بالأدوات المتاحة إلى جانب قدرة على البحث بينها. وعندما يحتاج النموذج إلى استخدام أداة معيّنة، يمكنه العثور على تعريفها وإضافته إلى المحادثة في تلك اللحظة.

يسهم هذا النهج في تقليل عدد الرموز المطلوبة بشكل كبير في سير العمل المعتمد بكثافة على الأدوات، كما يحافظ على الذاكرة المؤقتة، مما يجعل الطلبات أسرع وأقل تكلفة. كذلك يتيح للوكلاء العمل بموثوقية عبر منظومات أدوات أكبر بكثير. وبالنسبة لخوادم MCP التي قد تحتوي على عشرات الآلاف من الرموز الخاصة بتعريفات الأدوات، يمكن أن تكون مكاسب الكفاءة كبيرة.

ولإظهار هذه المكاسب في الكفاءة، قيّمنا 250 مهمة من معيار MCP Atlas(يفتح في نافذة جديدة) التابع لشركة Scale مع تفعيل جميع خوادم MCP البالغ عددها 36 في وضعين: (1) إتاحة كل وظيفة من وظائف MCP مباشرة ضمن سياق النموذج، و(2) وضع جميع خوادم MCP خلف ميزة البحث عن الأدوات. وقد أدى إعداد "البحث عن الأدوات" إلى خفض إجمالي استخدام الرموز بنسبة 47% مع الحفاظ على مستوى الدقة نفسه.

تأتي أعداد الرموز في الأمثلة من متوسط 250 مهمة في مجموعة البيانات العامة MCP-Atlas.

استدعاء الأدوات الوكيلية

يحسّن GPT‑5.4 أيضًا استدعاء الأدوات، مما يجعله أكثر دقة وكفاءة عند تحديد متى وكيف ينبغي استخدام الأدوات أثناء الاستدلال، لا سيما في واجهة API.  وبالمقارنة مع GPT‑5.2، يحقق دقة أعلى بعدد أقل من الجولات في معيار Toolathlon، وهو معيار يقيس مدى قدرة وكلاء الذكاء الاصطناعي على استخدام الأدوات وواجهات API في العالم الحقيقي لإنجاز مهام متعددة الخطوات. فعلى سبيل المثال، قد يحتاج الوكيل إلى قراءة رسائل البريد الإلكتروني، واستخراج مرفقات الواجبات، وتحميلها، وتقييمها، ثم تسجيل النتائج في جدول بيانات.

يحدث ما يُسمّى Tool yield "انتظار الأداة" عندما يتوقّف المساعد مؤقتًا لانتظار استجابات الأدوات. فعلى سبيل المثال، إذا جرى استدعاء ثلاث أدوات بالتوازي، ثم تبع ذلك استدعاء ثلاث أدوات أخرى بالتوازي، فإن عدد مرات التوقّف لانتظار النتائج سيكون مرتين. ويُعدّ Tool yield "انتظار الأداة" مؤشرًا أدق على زمن الاستجابة مقارنة بعدد استدعاءات الأدوات، لأنه يعكس الفوائد الناتجة عن تنفيذ العمليات بالتوازي.

في حالات الاستخدام الحسّاسة لزمن الاستجابة، حيث يُفضَّل أن يكون مستوى جهد الاستدلال None، يقدّم GPT‑5.4 تحسينات إضافية مقارنةً بالنماذج السابقة.

في τ2-bench⁠(يفتح في نافذة جديدة)، يتعين على النموذج استخدام الأدوات لإنجاز مهمة في خدمة العملاء، وذلك في وجود مستخدم مُحاكى قد يكون قادرًا على التواصل واتخاذ إجراءات تؤثر في حالة النظام. وقد تم ضبط إعداد جهد الاستدلال على None.

تحسين البحث على الويب

يتفوّق GPT‑5.4 في البحث الوكيلي على الويب. ففي BrowseComp، وهو معيار يقيس مدى قدرة وكلاء الذكاء الاصطناعي على تصفّح الويب بإصرار للعثور على معلومات يصعب الوصول إليها، يحقق GPT‑5.4 تحسنًا قدره 17%abs مقارنةً بـ GPT‑5.2، بينما يحقق GPT‑5.4 Pro مستوى أداء جديدًا يُعد الأفضل حتى الآن بنسبة 89.3%.

عمليًا، يعني ذلك أن GPT‑5.4 Thinking أصبح أقوى في الإجابة عن الأسئلة التي تتطلب جمع المعلومات من مصادر متعددة على الويب. إذ يمكنه البحث بإصرار أكبر عبر جولات متعددة لتحديد أكثر المصادر صلة بالموضوع، ولا سيما في الأسئلة التي تتطلب العثور على معلومات دقيقة وسط كم هائل من المصادر، ثم دمج هذه المعلومات في إجابة واضحة ومبنية على استدلال متماسك.

في BrowseComp استخدمنا قائمة حظر لنتائج البحث تستبعد المواقع التي تتضمن إجابات معايير التقييم، وذلك لمنع تلوّث البيانات وضمان قياس عادل للأداء. وقد جرى قياس GPT‑5.4 في وقت لاحق مقارنةً بـ GPT‑5.2؛ لذلك قد تعكس النتائج تغيّرات في النموذج نفسه، وفي نظام البحث لدينا، وكذلك في حالة الإنترنت. كما اختُبر GPT‑5.4 باستخدام قائمة حظر أطول ومحدَّثة. وتعتمد النماذج على أداة البحث في ChatGPT، والتي قد تختلف بشكل طفيف عن البحث المتاح عبر واجهة API.

"يُعد GPT-5.4 xhigh المستوى الأحدث والأكثر تقدمًا في استخدام الأدوات متعددة الخطوات. وتجري Zapier بعضًا من أكثر اختبارات استخدام الأدوات صرامة في القطاع، حيث تختبر النماذج عبر مئات من مسارات العمل المتقدمة في العالم الحقيقي. وقد تمكّن GPT-5.4 من إتمام المهام التي توقفت عندها النماذج السابقة، ليكون حتى الآن النموذج الأكثر مثابرة في إنجاز العمل."
— ويد، الرئيس التنفيذي في Zapier

قابلية التوجيه

وبالمثل، وكما يوضح Codex نهجه عند بدء العمل، سيعرض GPT‑5.4 Thinking في ChatGPT الآن مخطط عمله في مقدمة الاستجابة عند التعامل مع الاستفسارات الأطول والأكثر تعقيدًا، كما يمكنك إضافة تعليمات أو تعديل مساره أثناء الاستجابة، مما يسهل توجيه النموذج نحو النتيجة الدقيقة التي تريدها دون الحاجة إلى البدء من جديد أو إجراء جولات إضافية متعددة؛ وهذه الميزة متاحة الآن على chatgpt.com(يفتح في نافذة جديدة) وتطبيق Android، وستتوفر قريبًا على تطبيق iOS.

كما يستطيع النموذج التفكير لمدة أطول عند التعامل مع المهام الصعبة مع الحفاظ على وعي أقوى بالخطوات السابقة في المحادثة، الأمر الذي يمكّنه من إدارة سير عمل أطول والتعامل مع مطالبات أكثر تعقيدًا مع الحفاظ على ترابط الإجابات وصلتها بالمهمة طوال العملية.

تم تسريع هذا الفيديو لأغراض توضيحية.

السلامة

وخلال الأشهر الماضية، واصلنا تحسين إجراءات الحماية التي قدّمناها مع GPT‑5.3‑Codex أثناء إعداد GPT‑5.4 للنشر. وعلى غرار GPT‑5.3‑Codex، نتعامل مع GPT‑5.4 بوصفه يتحلّى بقدرات سيبرانية عالية ضمن إطار الاستعداد لدينا، وننشره مع الحمايات المقابلة كما هو موثق في بطاقة النظام. وتشمل هذه الحمايات توسيع منظومة الأمان السيبراني، بما في ذلك أنظمة المراقبة، وضوابط الوصول الموثوق، والحظر غير المتزامن للطلبات الأعلى خطورة للعملاء على أسطح عدم الاحتفاظ بالبيانات (ZDR)، إلى جانب الاستثمار المستمر في منظومة الأمان الأوسع.

ونظرًا لأن قدرات الأمن السيبراني بطبيعتها مزدوجة الاستخدام، فإننا نعتمد نهجًا احترازيًا في النشر مع الاستمرار في معايرة سياساتنا ومصنّفاتنا. وبالنسبة لبعض العملاء على واجهات ZDR، يظل حظر الطلبات على مستوى الطلب جزءًا من منظومة الحد من المخاطر السيبرانية؛ وبما أن المصنّفات لا تزال تتحسن، فقد تحدث بعض "الإيجابيات الكاذبة" بينما نواصل تحسين هذه الضوابط. وتهدف هذه التحديثات إلى تحسين كيفية عمل إجراءات الحماية في الواقع العملي، بما في ذلك تقليل حالات الرفض غير الضرورية والاستجابات المفرطة في التحفّظ، مع الحفاظ في الوقت نفسه على حماية قوية ضد إساءة الاستخدام.

واصلنا أبحاثنا في مجال السلامة حول قابلية مراقبة سلسلة الاستدلال (Chain-of-Thought – CoT) لفهم كيفية استدلال النماذج بشكل أفضل والمساعدة في رصد أي سلوك غير مرغوب فيه ومحتمل. وكجزء من هذا العمل، نقدّم معيار تقييم جديدًا مفتوح المصدر يُسمّى قابلية التحكم في سلسلة الاستدلال (CoT controllability)، ويقيس ما إذا كانت النماذج قادرة على إخفاء استدلالها عمدًا للتهرّب من المراقبة. وقد وجدنا أن قدرة GPT‑5.4 Thinking على التحكم في سلسلة الاستدلال منخفضة، وهو ما يُعد خاصية إيجابية من منظور السلامة، إذ يشير إلى أن النموذج يفتقر إلى القدرة على إخفاء استدلاله، وأن مراقبة CoT تظل أداة فعّالة للسلامة.

التوافر والأسعار

يبدأ طرح GPT‑5.4 تدريجيًا اليوم عبر ChatGPT وCodex. وفي واجهة API، أصبح GPT‑5.4 متاحًا الآن باسم gpt-5.4. كما يتوفر GPT‑5.4 Pro أيضًا في واجهة API باسم gpt-5.4-pro للمطورين الذين يحتاجون إلى أقصى أداء في أكثر المهام تعقيدًا.

وفي ChatGPT، يتوفر GPT‑5.4 Thinking ابتداءً من اليوم لمستخدمي ChatGPT Plus وTeam وPro، ليحل محل GPT‑5.2. Thinking. إلا أن نموذج GPT‑5.2 Thinking سيبقى متاحًا لمدة ثلاثة أشهر للمستخدمين في الخطط المدفوعة في منتقي النماذج ضمن قسم النماذج القديمة، وبعد ذلك سيتم إيقافه نهائيًا في 5 يونيو 2026. ويمكن لمستخدمي خطط Enterprise وEdu تفعيل الوصول المبكر عبر إعدادات المشرف. كما يتوفر GPT‑5.4 Pro لمشتركي Pro وEnterprise. تظل نوافذ السياق(يفتح في نافذة جديدة) في ChatGPT لنموذج GPT‑5.4 Thinking دون تغيير مقارنةً بـ GPT‑5.2 Thinking.

يُعد GPT‑5.4 أول نموذج استدلال رئيسي لدينا يدمج قدرات البرمجة الرائدة في GPT‑5.3‑codex ويجري طرحه عبر ChatGPT وAPI وCodex. وقد اخترنا تسميته GPT‑5.4 ليعكس هذا التقدم، ولتبسيط اختيار النماذج عند استخدام Codex. ومع مرور الوقت، يمكن توقّع تطوّر نماذج Instant ونماذج Thinking بسرعات مختلفة.

يتضمن GPT‑5.4 في Codex دعمًا تجريبيًا لنافذة سياق بسعة 1M. ويمكن للمطورين تجربة ذلك من خلال ضبط model_context_window و model_auto_compact_token_limit. أما الطلبات التي تتجاوز نافذة السياق القياسية البالغة 272K فتُحتسب ضمن حدود الاستخدام بمعدل يعادل ضعف المعدل المعتاد.

وفي واجهة API، يبلغ سعر GPT‑5.4 لكل رمز أعلى من GPT‑5.2 ليعكس قدراته المحسّنة، في حين تساعد كفاءته الأعلى في استخدام الرموز على تقليل إجمالي عدد الرموز المطلوبة في العديد من المهام. كما تتوفر تسعيرات Batch وFlex بنصف السعر القياسي لواجهة API، بينما تتوفر المعالجة ذات الأولوية (Priority processing) بسعر يعادل ضعف السعر القياسي.

نموذج API

سعر المدخلات

سعر الإدخال المخزن مؤقتًا

سعر المخرجات

gpt-5.2

$1.75 / مليون رمز

$0.175 / مليون رمز

$14 / مليون رمز

gpt-5.4

$2.50 / مليون رمز

$0.25 / مليون رمز

$15 / مليون رمز

gpt-5.2-pro

$21 / مليون رمز

-

$168 / مليون رمز

gpt-5.4-pro

$30 / مليون رمز

-

$180 / مليون رمز

التقييمات

احترافي

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83.0%

82.0%

70.9%

70.9%

74,1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

مهام نمذجة الخدمات المصرفية الاستثمارية (داخلي)

87.3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

البرمجة

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (عام)

57,7%

56.8%

55.6%

Terminal-Bench 2.0

75.1%

77.3%

62.2%

استخدام الحاسوب والرؤية

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld-Verified

75.0%

74.0%

47.3%

MMMU Pro (بدون أدوات)

81.2%

79.5%

MMMU Pro (مع أدوات)

82.1%

80.4%

استخدام الأدوات

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82.7%

89.3%

77.3%

65.8%

77.9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51.9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

أكاديمي

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

أبحاث العلوم الرائدة

33.0%

36.7%

25.2%

FrontierMath المستويات 1–3

47.6%

40.7%

FrontierMath المستوى 4

27.1%

38.0%

18.8%

31.3%

ماسة GPQA

92.8%

94.4%

92.6%

92.4%

93.2%

الاختبار الأخير للبشرية (بدون أدوات)

39.8%

42.7%

34.5%

36.6%

الاختبار الأخير للبشرية (مع الأدوات)

52.1%

58.7%

45.5%

50.0%

السياق الطويل

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94.0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks parents 0–128K (الدقة)

89.8%

89.0%

Graphwalks parents 256K–1M (الدقة)

32.4%

OpenAI MRCR v2 8-needle 4K–8K

97.3%

98,2%

OpenAI MRCR v2 8-needle 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8-needle 16K–32K

97.2%

95.3%

OpenAI MRCR v2 8-needle 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8-needle 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8-needle 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8-needle 256K–512K

57.5%

OpenAI MRCR v2 8-needle 512K–1M

36.6%

الاستدلال المجرد

تقييم

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Verified)

93.7%

94.5%

86.2%

90.5%

ARC-AGI-2 (Verified)

73.3%

83.3%

52.9%

54.2% (high)

تقييمات بدون الاستدلال

تقييم

GPT‑5.4
(none)

GPT‑5.2
(none)

GPT‑4.1

OmniDocBench (مسافة التحرير المعيارية)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43.6%

وقد أُجريت التقييمات مع ضبط جهد الاستدلال على xhigh، باستثناء الحالات التي يُذكر فيها خلاف ذلك. كما أُجريت المعايير في بيئة بحثية، وهو ما قد يؤدي في بعض الحالات إلى مخرجات تختلف قليلًا عمّا يظهر في ChatGPT ضمن بيئة الإنتاج.

المؤلف

OpenAI