اليوم، نعلن عن إطلاق نموذج GPT‑5 في منصتنا لواجهات برمجة التطبيقات—وهو أفضل نموذج لدينا حتى الآن للبرمجة ومهام الوكلاء الذكية.
يُعدّ نموذج GPT‑5 رائدًا تقنيًا في معايير البرمجة الرئيسية؛ حيث سجّل 74.9٪ في معيار SWE-bench Verified و88٪ في AiderAider Polyglot. لقد قمنا بتدريب نموذج GPT‑5 ليكون شريكًا حقيقيًا في البرمجة. إنه يتفوق في إنتاج أكواد عالية الجودة والتعامل مع مهام مثل إصلاح الأخطاء، وتعديل الأكواد، والإجابة عن الأسئلة المتعلقة بقواعد الأكواد المعقدة. النموذج قابل للتوجيه والتعاون—يمكنه اتباع تعليمات مفصلة للغاية بدقة عالية، ويمكنه تقديم تفسيرات مسبقة لإجراءاته قبل وفي أثناء استدعاء الأدوات. كما يتفوق النموذج في برمجة الواجهات الأمامية، متجاوزًا نموذج OpenAI o3 في 70٪ من الاختبارات الداخلية لتطوير واجهات الويب.
وقمنا بتدريب نموذج GPT‑5 على مهام البرمجة الواقعية بالتعاون مع المختبرين الأوائل من الشركات الناشئة والمؤسسات. صرحت شركة Cursor أن نموذج GPT‑5 هو "أذكى نموذج استخدموه" و"ذكي بشكل ملحوظ، وسهل التوجيه، وحتى أن لديه شخصية لم يروا مثلها في نماذج أخرى". كما أشارت شركة Windsurf إلى أن نموذج GPT‑5 رائد تقني في تقييماتهم و"يحقق نصف معدل أخطاء استدعاء الأدوات مقارنةً بالنماذج الرائدة الأخرى". وذكرت شركة Vercel : "أنه أفضل نموذج ذكاء اصطناعي لتطوير الواجهات الأمامية، إذ يحقق أداءً متميزًا من حيث الحس الجمالي وجودة الكود، ما يضعه في فئة خاصة به."
يتفوق نموذج GPT‑5 أيضًا في مهام الوكلاء الذكية طويلة الأمد—محققًا نتائج رائدة تقنيًا في معيار τ2-bench Telecom (96.7%)، وهو معيار لاستخدام الأدوات تم إصداره قبل شهرين فقط. يُتيح الذكاء المحسّن للأدوات في نموذج GPT‑5 ربط عشرات الاستدعاءات للأدوات بشكل موثوق—سواء أكان ذلك بالتتابع أم بالتوازي—دون أن يفقد مساره الصحيح، ما يجعله أكثر كفاءة في تنفيذ المهام المعقدة والواقعية من البداية إلى النهاية. كما يتبع تعليمات الأداة بدقة أكبر، ويتعامل بشكل أفضل في معالجة أخطاء الأداة، ويتفوق في استرجاع المحتوى ذي السياق الطويل. وذكرت شركة Manus أن نموذج GPT‑5 "حقق أفضل أداء رأوه على الإطلاق من نموذج واحد وفقًا لمعاييرهم الداخلية". وصرحت شركة Notion قائلةً: "الإجابات السريعة للنموذج، وخصوصًا في وضع المنطق المحدود، تجعل من نموذج GPT‑5 نموذجًا مثاليًا عندما تحتاج إلى حل المهام المعقدة دفعة واحدة". وأشارت شركة Inditex إلى أن "ما يميز نموذج GPT‑5 حقًا هو عمق استدلاله: إجابات دقيقة ومتعددة المستويات تعكس فهمًا حقيقيًا للموضوع".
نحن بصدد تقديم ميزات جديدة في واجهة برمجة التطبيقات الخاصة بنا لمنح المُطورين مزيدًا من التحكم في إجابات النماذج. يدعم نموذج GPT‑5 معلمة الإسهاب (verbosity) الجديدة (القيم: منخفضة، ومتوسطة، ومرتفعة) للمساعدة في التحكم في ما إذا كانت الإجابات قصيرة ومباشرة أم طويلة وشاملة. يمكن الآن للمعلمة reasoning_effort الخاصة بالنموذج GPT‑5 قبول قيمة دنيا للحصول على الإجابات بسرعة أكبر، دون إجراء استدلال مطوّل مسبقًا. لقد أضفنا أيضًا نوعًا جديدًا من الأدوات—الأدوات المخصصة—يُتيح لنموذج GPT‑5 استخدام الأدوات باستخدام نص عادي بدلاً من JSON. تدعم الأدوات المخصصة التقييد باستخدام القواعد النحوية الخالية من السياق التي يزوّدها المطوّر.
نحن بصدد إطلاق نموذج GPT‑5 بثلاثة أحجام في واجهة برمجة التطبيقات —GPT‑5، و GPT‑5‑mini، و GPT‑5‑nano— لمنح المطورين مرونة أكبر للموازنة بين الأداء، والتكلفة، وزمن الاستجابة. بينما يُعدّ نموذج GPT‑5 في ChatGPT نظامًا يضم نماذج للاستدلال، وغير الاستدلالية، والتوجيه، فإن نموذج GPT‑5 في منصة واجهة برمجة التطبيقات (API) هو نموذج الاستدلال الذي يدعم أقصى أداء في ChatGPT. ومن الجدير بالذكر أن نموذج GPT‑5 مع الحد الأدنى من الاستدلال هو نموذج مختلف عن النموذج غير الاستدلالي في ChatGPT، وهو أكثر ملاءمة للمطورين. النموذج غير الاستدلالي المستخدم في ChatGPT متاح كنموذج GPT‑5‑chat‑latest.
لقراءة المزيد عن نموذج GPT‑5 في ChatGPT، والتعرف على تحسينات ChatGPT الأخرى، يُرجى مراجعة مدونة البحث لدينا. لمزيد من المعلومات حول مدى حماس المؤسسات لاستخدام نموذج GPT‑5، يُرجى زيارة مدونة المؤسسات لدينا.
نموذج GPT‑5 هو أقوى نموذج برمجة أصدرناه على الإطلاق. يتفوق في الأداء على o3 في معايير البرمجة وحالات الاستخدام الواقعية، وقد تم تحسينه بدقة ليتألق في منتجات برمجة الوكلاء الذكية مثل Cursor و Windsurf و GitHub Copilot و Codex CLI. أثار نموذج GPT‑5 إعجاب مختبري النسخة التجريبية الأولى لدينا، محققًا أرقامًا قياسية في العديد من تقييماتهم الداخلية.
الملاحظات المبكرة على نموذج GPT‑5 في مهام البرمجة في العالم الواقعي
" نموذج GPT-5 هو أذكى نموذج استخدمناه على الإطلاق. وجد فريقنا أن نموذج GPT-5 ذكي بشكل ملحوظ، وسهل التوجيه، وحتى يمتلك أسلوبًا فريدًا لم نشهده في أي نموذج آخر. فهو لا يكتشف فقط الأخطاء المعقدة والخفية بعمق، بل يمكنه أيضًا تشغيل وكلاء خلفيين متعددي الجولات لمتابعة المهام المعقدة حتى النهاية—وهي نوعية المشكلات التي كانت النماذج الأخرى تتعثر عندها. لقد أصبح أداة عملنا اليومية لكل شيء، بدءًا من تحديد نطاق وتخطيط المشاريع إلى إتمام عمليات البناء الشاملة."
في معيار SWE-bench Verified، وهو تقييم قائم على مهام هندسة البرمجيات الواقعية، حقق نموذج GPT‑5 نسبة 74.9٪، متفوقًا على o3 الذي سجّل 69.1٪. ومن الجدير بالذكر أن نموذج GPT‑5 يحقق درجته العالية بكفاءة وسرعة أكبر: مقارنةً بنموذج o3 عند مستوى استدلال مرتفع، يستخدم نموذج GPT‑5 رموز مخرجات مميزة أقل بنسبة 22٪ وعمليات استدعاء للأدوات أقل بنسبة 45٪.
في SWE-bench Verified، يُقدَم للنموذج مستودع أكواد ووصف للمشكلة، ويجب عليه إنشاء تصحيح لحل المشكلة. تشير تسميات النص إلى الجهد المبذول في الاستدلال. لا تشمل نتائجنا 23 من أصل 500 مشكلة لم تنجح حلولها بشكل موثوق به في بنيتنا التحتية. تم تزويد النموذج GPT‑5 بطلب قصير يركز على التحقق الدقيق من الحلول؛ بينما لم تستفِد نسخة o3 من الطلب نفسه.
في Aider Polyglot، وهو تقييم لتعديل الأكواد، حقق نموذج GPT‑5 رقمًا قياسيًّا جديدًا بنسبة 88٪، ما يمثل انخفاضًا في معدل الخطأ بمقدار الثلث مقارنةً بنموذج o3.
في Aider Polygot(يفتح في نافذة جديدة) (الفروقات)، يُقدَم للنموذج تمرين برمجة من Exercism ويجب أن يكتب حله على شكل فَرق برمجي. وقد تم تشغيل نماذج الاستدلال بمستوى استدلال مرتفع.
لقد وجدنا أيضًا أن نموذج GPT‑5 ممتاز في التعمق في قواعد الشيفرة للإجابة عن أسئلة حول كيفية عمل الأجزاء المختلفة أو تفاعلها. في قاعدة شيفرة معقدة مثل بنية التعلم بالتعزيز الخاصة بـ OpenAI، نجد أن نموذج GPT‑5 قادر على مساعدتنا في الاستدلال للإجابة عن الأسئلة حول شيفرتنا، ما يسرع من عملنا اليومي.
عند إنتاج كود الواجهة الأمامية لتطبيقات الويب، يكون نموذج GPT‑5 أكثر مراعاة للجماليات، وأكثر طموحًا ودقة. في المقارنات المباشرة مع نموذج o3، فضّل المختبرون نموذج GPT‑5 بنسبة 70٪ من الحالات.
إليكم بعض الأمثلة الممتعة والمختارة بعناية لما يمكن أن يقدمه نموذج GPT‑5 بطلب واحد:
الطلب: يُرجى إنشاء صفحة تسويقية جذابة وواقعية لخدمة تقدّم لعشاق القهوة اشتراكًا شهريًا بقيمة 200 دولار، يشمل تأجير المعدات والإرشاد لتحميص القهوة وإعداد أفضل إسبريسو. الجمهور المستهدف أشخاص في منتصف العمر من منطقة خليج سان فرانسيسكو (Bay Area)، قد يعملون في قطاع التكنولوجيا، ومثقفون، ولديهم دخل متاح للإنفاق، وشغوفون بفن وعلوم القهوة. يُرجى تحسين الصفحة لتحقيق أعلى معدل تحويل لاشتراكات مدتها ستة أشهر.
يمكنكم الاطّلاع على المزيد من الأمثلة لنموذج GPT‑5 في معرضنا(يفتح في نافذة جديدة).
يُعد نموذج GPT‑5 شريكًا أفضل، وخصوصًا في منتجات برمجة الوكلاء الذكية مثل Cursor و Windsurf و GitHub Copilot و Codex CLI. وفي أثناء عمل الوكيل الذكي، يمكن لنموذج GPT‑5 أن ينتج خططًا، وتحديثات، وملخصات بين استدعاءات الأدوات. بالمقارنة مع نماذجنا السابقة، يتمتع GPT‑5 بمبادرة أكبر في إنجاز المهام الطموحة دون التوقف لانتظار موافقتكم أو التردد أمام التعقيد العالي.
فيما يلي مثالٌ على كيفية ظهور نموذج GPT‑5 في أثناء معالجة مهمة معقدة (في هذه الحالة، إنشاء موقع إلكتروني لمطعم):
بعد أن يطلب المستخدم إنشاء موقع ويب لمطعمه، يشارك نموذج GPT‑5 خطة سريعة، ويقوم بإعداد الهيكل الأولي للتطبيق، وتثبيت التبعيات، وإنشاء محتوى الموقع، وتشغيل عملية الإعداد للتحقق من أخطاء التجميع، ثم تلخيص ما تم إنجازه واقتراح الخطوات التالية المحتملة. تم تسريع هذا الفيديو بحوالي ثلاثة أضعاف لتقليل وقت الانتظار؛ وقد استغرقت عملية إنشاء الموقع بالكامل حوالي ثلاث دقائق.
بعيدًا عن برمجة الوكلاء الذكية، يتفوق نموذج GPT‑5 في مهام الوكلاء الذكية بشكل عام. يسجّل نموذج GPT‑5 أرقامًا قياسية جديدة في معايير اتباع التعليمات (بنسبة 69.6٪ في Scale MultiChallenge، وفق تقييم o3‑mini) واستدعاء الأدوات (بنسبة 96.7٪ على τ2-bench Telecom). كما يُتيح الذكاء المحسّن للأدوات لنموذج GPT‑5 ربط الإجراءات بشكل أكثر موثوقية لإتمام المهام الواقعية بكفاءة.
الملاحظات المبكرة على GPT‑5 في مهام الوكلاء الذكية.
"يُعدّ نموذج GPT-5 قفزة نوعية إلى الأمام. لقد حقق أفضل أداء رأيناه على الإطلاق من نموذج واحد وفقًا لمعاييرنا الداخلية. تفوق نموذج GPT-5 في مختلف مهام الوكلاء الذكية—حتى قبل أن نُجري أي تعديل على سطر واحد من الشيفرة أو نُخصص الطلب ليناسب حاجتنا. لقد مكّنت الرسائل التمهيدية الجديدة والتحكم الأكثر دقة في استخدام الأدوات من تحقيق قفزة كبيرة في استقرار وتوجيه وكلائنا."
يتبع نموذج GPT‑5 التعليمات بشكل أكثر موثوقية من أيٍّ من نماذجه السابقة؛ إذ حقق درجات عالية في COLLIE، و Scale MultiChallenge، وفي تقييمنا الداخلي لتتبُّع التعليمات.
في COLLIE(يفتح في نافذة جديدة)، يجب على النماذج كتابة نص يلتزم بقيود متنوعة. وفي Scale MultiChallenge(يفتح في نافذة جديدة)، تُختبر النماذج في محادثات متعددة الأدوار للتحقق من قدرتها على استخدام أربعة أنواع من المعلومات الواردة في الرسائل السابقة بشكل صحيح. وتعتمد نتائجنا على استخدام نموذج o3‑mini كمُقيّم؛ فقد تبيَّن أنه أدق من نموذج GPT‑4o. في تقييمنا الداخلي لمتابعة التعليمات فيOpenAI API، يُطلب من النماذج تنفيذ تعليمات معقدة مستمدة من ملاحظات حقيقية من المطورين. وقد تم تشغيل نماذج الاستدلال بمستوى استدلال مرتفع.
لقد عملنا بجد لتحسين استدعاء الأدوات بالطرق التي تهم المطورين. يتفوق GPT‑5 في اتباع تعليمات الأدوات، والتعامل مع أخطاء الأدوات، ويتميز بالمبادرة في تنفيذ العديد من استدعاءات الأدوات سواء بشكل متتابع أم متوازٍ. عند التوجيه، يستطيع نموذج GPT‑5 أيضًا إنتاج رسائل تمهيدية قبل وبين عمليات استدعاء الأدوات لإبقاء المستخدمين على اطّلاع على تقدُّم مهام الوكلاء الذكية الأطول.
قبل شهرين، نشرت Sierra.ai معيار τ2-bench للاتصالات كمعيار صعب لاستخدام الأدوات، يُظهر مدى انخفاض أداء نماذج اللغة بشكل كبير عند التفاعل مع حالة البيئة القابلة للتغيير من قِبل المستخدمين. في منشورهم(يفتح في نافذة جديدة)، لم يسجل أي نموذج أكثر من 49٪. بينما سجّل نموذج GPT‑5 نسبة 97٪.
في معيار τ2-bench(يفتح في نافذة جديدة)، يجب على النموذج استخدام الأدوات لإنجاز مهمة خدمة العملاء، وذلك في وجود مستخدم قد يكون قادرًا على التواصل واتخاذ إجراءات تؤثر في حالة النظام. وقد تم تشغيل نماذج الاستدلال بمستوى استدلال مرتفع.
يُظهر نموذج GPT‑5 أيضًا تحسينات قوية في الأداء في السياقات الطويلة. في معيار OpenAI-MRCR، وهو مقياس لاسترجاع المعلومات في السياقات الطويلة، يتفوق نموذج GPT‑5 على o3 و GPT‑4.1، بفارق يزداد بشكل كبير مع زيادة طول الإدخالات.
في معيار OpenAI-MRCR(يفتح في نافذة جديدة) (حل الإحالة المرجعية متعدد الجولات)، يتم إدراج عدة استفسارات متطابقة من المستخدم تُسمى "الإبرة" (needle) ضمن سلاسل طويلة من الطلبات والإجابات المتشابهة، والمعروفة باسم "أكوام القش" (haystacks)، ويُطلب من النموذج إعادة تقديم الإجابة على "الإبرة" رقم (1). يقيس متوسط نسبة المطابقة معدل تطابق النص بين استجابة النموذج والإجابة الصحيحة. تمثل النقاط عند 256 ألف رمز إدخال مميز كحد أقصى متوسطات لمدى 128 ألف –256 ألف رمز إدخال مميز، وهكذا. هنا، تمثل القيمة 256 ألف 256 × 1,024 = 262,114 رمزًا مميزًا. وقد تم تشغيل نماذج الاستدلال بمستوى استدلال مرتفع.
نقوم بإتاحة معيار BrowseComp Long Context(يفتح في نافذة جديدة) كمصدر مفتوح؛ وهو معيار جديد لتقييم الأسئلة والأجوبة في السياقات الطويلة. في هذا المعيار، يتلقى النموذج استفسارًا من المستخدم إلى جانب قائمة مطوّلة من نتائج البحث ذات الصلة، ويجب عليه الإجابة استنادًا إلى تلك النتائج. لقد صممنا BrowseComp Long Context ليكون واقعيًا وصعبًا ويقدّم إجابات مرجعية صحيحة وموثوق بها. وفي المدخلات التي تتراوح بين 128 ألف–256 ألف رمز مميز، يقدّم GPT‑5 الإجابة الصحيحة بنسبة 89%.
في واجهة برمجة التطبيقات (API)، يمكن لجميع نماذج GPT‑5 قبول ما يصل إلى 272,000 رمز إدخال مميز وإصدار ما يصل إلى 128,000 رمز مخرجات مميز للاستدلال والإخراج، ليصل إجمالي طول السياق إلى 400,000 رمز مميز.
يُعدّ نموذج GPT‑5 أكثر موثوقية مقارنةً بنماذجنا السابقة؛ إذ يُسجّل انخفاضًا يقارب 80٪ في الأخطاء الواقعية عند اختباره على محفّزات معياري LongFact و FactScore مقارنةً بـ o3. ونتيجة لذلك، يصبح النموذج أكثر ملاءمة لحالات استخدام الوكلاء الذكية التي تتطلّب أعلى درجات الدقّة—ولا سيّما في مجالات البرمجة ومعالجة البيانات واتخاذ القرارات.
كلما كانت النسبة المئوية أعلى، كان الأداء أسوأ. يتكون المعياران LongFact(يفتح في نافذة جديدة) و FactScore(يفتح في نافذة جديدة) من أسئلة مفتوحة تهدف إلى التحقق من الحقائق. نستخدم أداة تصنيف تعتمد على نموذج لغوي كبير (LLM) مع التصفح للتحقق من صحة الإجابات على المطالبات الواردة من هذه المعايير، وقياس نسبة الادعاءات غير الصحيحة من الناحية الواقعية. يمكن الاطّلاع على تفاصيل التنفيذ والتقييم في بطاقة النظام. استخدمت نماذج الاستدلال مستوى استدلال مرتفعًا، ولم يتم تفعيل البحث.
بشكل عام، تم تدريب نموذج GPT‑5 ليكون أكثر وعيًا بحدوده، ما يمنحه قدرة أكبر على التعامل مع المواقف غير المتوقعة. كما ركزنا على تدريبه ليقدّم إجابات أدق بكثير في الأسئلة الصحية (للاطّلاع على المزيد، يُرجى التفضّل بزيارة مدونة البحث). وكما هو الحال مع جميع النماذج اللغوية، نوصي بالتحقق من مخرجات نموذج GPT‑5 عندما تكون المخاطر عالية.
يمكن للمطورين التحكم في وقت استدلال نموذج GPT‑5 من خلال معلمة reasoning_effort في واجهة برمجة التطبيقات. بالإضافة إلى القيم السابقة—منخفضة، متوسطة (الافتراضي)، ومرتفعة—يقدم نموذج GPT‑5 أيضًا الحد الأدنى، ما يقلل من استدلال نموذج GPT‑5 لتسريع تقديم الإجابة.
تعمل القيم الأعلى للمعلمة reasoning_effort على تعظيم جودة النتائج، بينما تركز القيم الأدنى على تعظيم السرعة. ونظرًا لأن ليست كل المهام تستفيد بنفس القدر من زيادة الاستدلال، نوصي بتجربة القيم المختلفة لتحديد الأنسب لحالات الاستخدام التي تهمكم.
على سبيل المثال، فإن رفع مستوى الاستدلال عن القيمة المنخفضة يضيف قليلاً في مهام استرجاع المعلومات البسيطة في السياقات الطويلة، لكنه يحقق زيادة ملحوظة في النتائج عند استخدام معيار CharXiv Reasoning(يفتح في نافذة جديدة)، وهو معيار للاستدلال البصري.
يسفر جهد الاستدلال في نموذج GPT‑5 عن فوائد متفاوتة حسب نوع المهمة. في معيار CharXiv Reasoning، تم تزويد النموذج بإمكانية الوصول إلى أداة Python.
للمساعدة في ضبط الطول الافتراضي لإجابات GPT‑5، أضفنا معلمة جديدة في واجهة برمجة التطبيقات باسم الإسهاب، والتي تقبل القيم منخفضة، ومتوسطة (الافتراضية)، ومرتفعة. وفي حال تعارضت التعليمات الصريحة مع معلمات الإسهاب، تتقدّم التعليمات الصريحة على هذه المعلمات. على سبيل المثال، إذا طلبت من نموذج GPT‑5 "كتابة مقال من 5 فقرات"، يجب أن تتكون الإجابة دائمًا من 5 فقرات بغض النظر عن مستوى التفصيل (مع إمكانية أن تكون الفقرات نفسها أطول أو أقصر).
قيمة معلمة الإسهاب = منخفضة
قيمة معلمة الإسهاب = متوسطة
قيمة معلمة الإسهاب = مرتفعة
إذا طُلب منه ذلك، يقوم نموذج GPT‑5 بإرسال رسائل تمهيدية مرئية للمستخدم قبل وبين استدعاءات الأدوات. على عكس رسائل الاستدلال الخفية، تُتيح هذه الرسائل المرئية للنموذج عرض خططه وتوضيح تقدمه، ما يساعد المستخدم النهائي على فهم منهجه والغرض من استدعاءات الأدوات.
نقدّم نوعًا جديدًا من الأدوات—الأدوات المخصصة—التي تمكّن نموذج GPT‑5 من استدعاء الأدوات باستخدام نص عادي بدلاً من JSON. ولتقييد نموذج GPT‑5 بالامتثال لتنسيقات الأدوات المخصصة، يمكن للمطورين تزويده بتعبير نمطي (regex)، أو حتى قواعد خالية من السياق(يفتح في نافذة جديدة) محددة بشكل أكثر تفصيلاً.
في السابق، كانت واجهتنا للأدوات التي يحددها المطورون تتطلب استدعاءها باستخدام JSON، وهو تنسيق شائع الاستخدام في واجهات برمجة تطبيقات الويب وعلى نطاق واسع بين المطورين. ومع ذلك، لضمان الحصول على نتيجة JSON صالحة من النموذج، يجب التعامل بدقة مع جميع علامات الاقتباس، والشرطات المائلة العكسية، والأسطر الجديدة، وأحرف التحكم الأخرى. وعلى الرغم من أن نماذجنا مدرّبة جيدًا على تقديم نتيجة JSON، فإن احتمالية حدوث خطأ تزداد عند معالجة إدخالات طويلة مثل مئات أسطر الكود أو تقرير من 5 صفحات. باستخدام الأدوات المخصصة، يمكن لنموذج GPT‑5 كتابة مدخلات الأدوات كنص عادي، دون الحاجة للتعامل مع جميع الأحرف التي تتطلب معالجة الهروب.
في معيار SWE-bench Verified، يحقق نموذج GPT‑5 أداءً مماثلاً عند استخدام الأدوات المخصصة بدلاً من أدوات JSON.
يعزز نموذج GPT‑5 معايير السلامة، ويُعدّ نموذجًا أكثر قوة وموثوقية وفائدة. يقل احتمال تقديم محتوى غير دقيق (معلومات وهمية) في GPT‑5 بشكل كبير مقارنةً بالنماذج السابقة، كما ينقل إجراءاتَه وقدراتَه للمستخدم بصراحة أكبر، ويقدّم أفضل إجابة ممكنة ضمن حدود السلامة. يمكنكم قراءة المزيد في مدونة البحث.
يتوفر نموذج GPT‑5 الآن عبر منصة واجهة برمجة التطبيقات بثلاثة أحجام: GPT‑5 و GPT‑5‑mini و GPT‑5‑nano. وهو متاح عبر واجهة برمجة تطبيقات الاستجابات (Responses API)، وواجهة برمجة تطبيقات إكمال الدردشة (Chat Completions API)، كما يُعدّ الإعداد الافتراضي في أداة Codex CLI. تبلغ تكلفة استخدام GPT‑5 مقدار 1.25 دولار لكل مليون رمز إدخال مميز، و10 دولارات لكل مليون رمز إخراج مميز. أما GPT‑5‑mini فتبلغ تكلفته 0.25 دولار لكل مليون رمز إدخال مميز، ودولارين لكل مليون رمز إخراج مميز. وبالنسبة إلى GPT‑5‑nano فيبلغ سعره 0.05 دولار لكل مليون رمز إدخال مميز، و0.40 دولار لكل مليون رمز إخراج مميز.
تدعم هذه النماذج معلمات واجهة برمجة التطبيقات reasoning_effort و verbosity، بالإضافة إلى الأدوات المخصصة. كما تدعم استدعاء أدوات التوازي، والأدوات المدمجة (البحث على الويب، البحث في الملفات، إنشاء الصور، وغير ذلك)، وميزات واجهة برمجة التطبيقات الأساسية (البث المباشر، والمخرجات المهيكلة، وغير ذلك)، وميزات توفير التكاليف مثل التخزين المؤقت للطلبات وواجهة Batch API.
يتوفر الإصدار غير القائم على الاستدلال من نموذج GPT‑5 المستخدم في ChatGPT عبر واجهة برمجة التطبيقات باسم gpt-5-chat-latest، بسعر 1.25 دولار لكل مليون رمز إدخال مميز و10 دولارات لكل مليون رمز إخراج مميز.
يتم إطلاق نموذج GPT‑5 أيضًا عبر منصات Microsoft، بما في ذلك Microsoft 365 Copilot و Copilot و GitHub Copilot و Azure AI Foundry.
اطّلع على وثائق(يفتح في نافذة جديدة) نموذج GPT‑5، وتفاصيل الأسعار(يفتح في نافذة جديدة)، و دليل المطالبات(يفتح في نافذة جديدة) لبدء الاستخدام.
الذكاء
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94.6% | 91.1% | 85.2% | 88.9% | 92.7% | 46.4% | 40.2% | - |
| FrontierMath(with python tool only) | 26.3% | 22.1% | 9.6% | 15.8% | 15.4% | - | - | - |
| GPQA diamond(no tools) | 85.7% | 82.3% | 71.2% | 83.3% | 81.4% | 66.3% | 65.0% | 50.3% |
| HLE[1](no tools) | 24.8% | 16.7% | 8.7% | 20.2% | 14.7% | 5.4% | 3.7% | - |
| HMMT 2025(no tools) | 93.3% | 87.8% | 75.6% | 81.7% | 85.0% | 28.9% | 35.0% | - |
[1] هناك فرق طفيف في الأرقام مقارنةً بما ورد في منشورنا السابق على المدونة، إذ تم تنفيذ تلك الاختبارات على نسخة سابقة من HLE.
القدرات متعدّدة الوسائط
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84.2% | 81.6% | 75.6% | 82.9% | 81.6% | 74.8% | 72.7% | 55.4% |
| MMMU-Pro(avg across standard and vision sets) | 78.4% | 74.1% | 62.6% | 76.4% | 73.4% | 60.3% | 58.9% | 33.0% |
| CharXiv reasoning(python enabled) | 81.1% | 75.5% | 62.7% | 78.6% | 72.0% | 56.7% | 56.8% | 40.5% |
| VideoMMMU, max frame 256 | 84.6% | 82.5% | 66.8% | 83.3% | 79.4% | 60.9% | 55.1% | 30.2% |
| ERQA | 65.7% | 62.9% | 50.1% | 64.0% | 56.5% | 44.3% | 42.3% | 26.5% |
البرمجة
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 ألف US$ | 75 ألف US$ | 49 ألف US$ | 86 ألف US$ | 66 ألف US$ | 34 ألف US$ | 31 ألف US$ | 9 آلاف US$ |
| SWE-bench Verified[2] | 74.9% | 71.0% | 54.7% | 69.1% | 68.1% | 54.6% | 23.6% | - |
| Aider polyglot(diff) | 88.0% | 71.6% | 48.4% | 79.6% | 58.2% | 52.9% | 31.6% | 6.2% |
[2] نحن نستثني 23 من أصل 500 مشكلة لم يكن بالإمكان تشغيلها على بنيتنا التحتية. القائمة الكاملة للـ 23 مهمة التي تم استثناؤها هي: "astropy__astropy-7606"، و"astropy__astropy-8707"، و"astropy__astropy-8872"، و"django__django-10097"، و"django__django-7530"، و"matplotlib__matplotlib-20488"، و"matplotlib__matplotlib-20676"، و"matplotlib__matplotlib-20826"، و"matplotlib__matplotlib-23299"، و"matplotlib__matplotlib-24970"، و"matplotlib__matplotlib-25479"، "matplotlib__matplotlib-26342"، و"psf__requests-6028"، و"pylint-dev__pylint-6528"، و"pylint-dev__pylint-7080"، و"pylint-dev__pylint-7277"، و"pytest-dev__pytest-5262"، و"pytest-dev__pytest-7521"، و"scikit-learn__scikit-learn-12973"، و"sphinx-doc__sphinx-10466"، و"sphinx-doc__sphinx-7462"، و"sphinx-doc__sphinx-8265"، و"sphinx-doc__sphinx-9367".
اتباع التعليمات
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69.6% | 62.3% | 54.9% | 60.4% | 57.5% | 46.2% | 42.2% | 31.1% |
| Internal API instruction following eval(hard) | 64.0% | 65.8% | 56.1% | 47.4% | 44.7% | 49.1% | 45.1% | 31.6% |
| COLLIE | 99.0% | 98.5% | 96.9% | 98.4% | 96.1% | 65.8% | 54.6% | 42.5% |
[3] ملاحظة: نجد أن المُقيّم الافتراضي في MultiChallenge (GPT-4o) كثيرًا ما يقيم إجابات النماذج بشكل خاطئ. إن استبداله بنموذج استدلال مثل o3-mini يُحسّن دقة التقييم بشكل كبير على العينات التي تم فحصها.
استدعاء الوظائف
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62.6% | 60.0% | 41.0% | 64.8% | 60.2% | 56.0% | 51.0% | 14.0% |
| Tau2-bench retail | 81.1% | 78.3% | 62.3% | 80.2% | 70.5% | 74.0% | 66.0% | 21.5% |
| Tau2-bench telecom | 96.7% | 74.1% | 35.5% | 58.2% | 40.5% | 34.0% | 44.0% | 12.1% |
السياق الطويل
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95.2% | 84.3% | 43.2% | 55.0% | 56.4% | 57.2% | 47.2% | 36.6% |
| OpenAI-MRCR: 2 needle 256k | 86.8% | 58.8% | 34.9% | - | - | 56.2% | 45.5% | 22.6% |
| Graphwalks bfs <128k | 78.3% | 73.4% | 64.0% | 77.3% | 62.3% | 61.7% | 61.7% | 25.0% |
| Graphwalks parents <128k | 73.3% | 64.3% | 43.8% | 72.9% | 51.1% | 58.0% | 60.5% | 9.4% |
| BrowseComp Long Context 128k | 90.0% | 89.4% | 80.4% | 88.3% | 80.0% | 85.9% | 89.0% | 89.4% |
| BrowseComp Long Context 256k | 88.8% | 86.0% | 68.4% | - | - | 75.5% | 81.6% | 19.1% |
| VideoMME(long, with subtitle category) | 86.7% | 78.5% | 65.7% | 84.9% | 79.5% | 78.7% | 68.4% | 55.2% |
معلومات وهمية
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1.0% | 0.7% | 1.0% | 5.2% | 3.0% | 0.7% | 1.1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1.2% | 1.3% | 2.8% | 6.8% | 8.9% | 1.1% | 1.8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2.8% | 3.5% | 7.3% | 23.5% | 38.7% | 6.7% | 10.9% | - |


