تخطي إلى المحتوى الرئيسي
OpenAI

19 نوفمبر 2025

المنتجإصدار

حقبة جديدة من التصميم والابتكار مع GPT‑5.1‑Codex‑Max

جاري التحميل...

المقدمة

نطرح اليوم GPT‑5.1‑Codex‑Max، نموذج البرمجة الوكيلي المتقدّم لدينا، والمتوفر الآن داخل Codex.  يقوم هذا النموذج على إصدار محدَّث من نموذج الاستدلال الأساسي لدينا، والمُدرَّب على طيف واسع من المهام الوكيليّة في هندسة البرمجيات والرياضيات والبحث وغيرها. ونتيجة لذلك، يقدّم GPT‑5.1‑Codex‑Max سرعة أعلى، وذكاءً أعمق، وكفاءة أفضل في استخدام الرموز عبر جميع مراحل دورة التطوير، ليقترب خطوة إضافية من كونه شريكًا يعتمد عليه في كتابة الشيفرة.

صُمّم GPT‑5.1‑Codex‑Max للعمل على مهام طويلة ومفصّلة. وهو أول نموذج لدينا يُدرَّب أصلاً على العمل عبر عدة نوافذ سياقية من خلال عملية تُسمى compaction، مما يتيح له التعامل بسلاسة مع ملايين الرموز ضمن مهمة واحدة. وبفضل ذلك، يصبح بالإمكان تنفيذ عمليات إعادة هيكلة على مستوى المشروع بالكامل، وخوض جلسات تنقيح عميقة، وتشغيل حلقات وكيلة تمتدّ لعدة ساعات.

يتوفر نموذج GPT‑5.1‑Codex‑Max في Codex اليوم للاستخدام في واجهة الأوامر (CLI)، وامتداد بيئة التطوير المتكاملة (IDE)، والسحابة، ومراجعة التعليمات البرمجية، على أن يتاح الوصول عبر واجهة برمجة التطبيقات (API) قريبًا.

قدرات برمجية رائدة

جرت تهيئة GPT‑5.1‑Codex‑Max وتدريبه على مهام حقيقية في هندسة البرمجيات، مثل إنشاء طلبات الدمج (PR)، ومراجعة الشيفرة، وبرمجة الواجهات الأمامية، والإجابة عن الأسئلة، وهو يتفوق على نماذجنا السابقة في العديد من تقييمات البرمجة المتقدمة. ولا تقتصر مكاسب النموذج في اختبارات المعايير المرجعية على النتائج فحسب، بل ترافقها أيضًا تحسينات ملموسة في الاستخدام العملي؛ إذ يُعد GPT‑5.1‑Codex‑Max أول نموذج ندربه للعمل في بيئات Windows، كما تشمل بيانات تدريبه الآن مهام مصمَّمة ليكون متعاونًا أفضل ضمن Codex CLI.

* تم تشغيل جميع التقييمات مع تفعيل ضغط البيانات على مستوى الجهد الاستدلالي العالي جدًا
* جرى تشغيل Terminal-Bench2.0 باستخدام واجهة Codex CLI ضمن منظومة الاختبار
Laude Institute Harbor(يفتح في نافذة جديدة)

السرعة والتكلفة

يقدّم GPT‑5.1‑Codex‑Max تحسينات ملحوظة في كفاءة استخدام الرموز بفضل استدلال أكثر فاعلية. ففي اختبار SWE-bench Verified، يحقق GPT‑5.1‑Codex‑Max مع مستوى جهد استدلال "متوسط" أداءً أفضل من GPT‑5.1‑Codex بالمستوى نفسه، مع استخدام عدد أقل من رموز الاستدلال بنسبة 30%. وللمهام غير الحسّاسة لزمن الاستجابة، نقدّم أيضًا مستوى جهد استدلال جديدًا "مرتفع جدًا" (xhigh) يتيح للنموذج “الاستدلال” لمدة أطول للحصول على إجابة أفضل. ومع ذلك، ما زلنا نوصي بمستوى "متوسط" ليكون الإعداد اليومي لمعظم المهام.

نتوقع أن تُترجم تحسينات كفاءة استخدام الرموز إلى تكاليف تشغيلية منخفضة للمطورين.

فعلى سبيل المثال، يستطيع GPT‑5.1‑Codex‑Max إنتاج تصاميم واجهات أمامية عالية الجودة، مع مستوى مماثل من الوظائف والجماليات، ولكن بتكلفة أقل بكثير مقارنةً بـ GPT‑5.1‑Codex.

مطالبة: أنشئ تطبيق متصفح واحدًا مكتفيًا بذاته يقوم بعرض بيئة تفاعلية لتجربة CartPole في التعلم التعزيزي (RL)، باستخدام رسومات canvas، ومتحكّم صغير يعتمد على خوارزمية policy-gradient، ومجموعة من المقاييس التحليلية، إضافةً إلى مُصوّر شبكي بصيغة SVG.

الميزات

  • يجب أن يكون قادرًا فعليًا على تدريب سياسة (policy) لتحسين أداء النموذج في مهمة cart pole
  • مُصوّر (Visualizer) لتفعيلات النموذج/الأوزان أثناء التدريب أو أثناء الاستدلال
  • عرض عدد الخطوات في الحلقة (episode) والمكافآت في هذه الحلقة
  • عرض آخر زمن بقاء وأفضل زمن بقاء محسوب بالخطوات

الحفظ إلى index.html

المهام طويلة الأمد

تتيح تقنية compaction لـ GPT‑5.1‑Codex‑Max إكمال مهام كان من المتوقع أن تفشل سابقًا بسبب حدود نافذة السياق، مثل عمليات إعادة الهيكلة المعقدة (complex refactors) والحلقات الوكيلية الطويلة. ويحدث ذلك من خلال تقليص سجل العمل مع الحفاظ على السياق الأكثر أهمية عبر فترات ممتدة. وفي تطبيقات Codex، يقوم GPT‑5.1‑Codex‑Max بضغط جلسته تلقائيًا عند اقترابها من حد نافذة السياق، ليبدأ نافذة جديدة بنطاق سياقي متجدد. ويكرر النموذج هذه العملية إلى أن تُنجز المهمة بالكامل.

تمثل القدرة على الحفاظ على عمل مترابط عبر فترات زمنية طويلة إحدى القدرات الأساسية على طريق الوصول إلى أنظمة ذكاء اصطناعي أكثر عمومية وموثوقية. ويمكن لـ GPT‑5.1‑Codex‑Max العمل باستقلالية لساعات متواصلة. وقد لاحظنا في تقييماتنا الداخلية أن النموذج يعمل أحيانًا على مهام تتجاوز 24 ساعة، مستمرًا في تحسين التنفيذ، وتصحيح الإخفاقات أثناء الاختبار، إلى أن يقدّم في النهاية نتيجة ناجحة.

في هذا المثال، يقوم نموذج GPT‑5.1‑Codex‑Max بإعادة هيكلة مستودع Codex CLI مفتوح المصدر بشكل مستقل.

عندما يقترب طول الجلسة من نافذة السياق الخاصة بالنموذج، يقوم تلقائيًا بضغط الجلسة لتحرير مساحة لمتابعة المهمة دون فقدان التقدم.

تم تقليم الفيديو وتسريعه لتحقيق الوضوح.

تطوير وكلاء ذكاء اصطناعي آمنة وجديرة بالثقة

يحقق GPT‑5.1‑Codex‑Max أداءً أفضل بشكل ملموس في التقييمات التي تتطلب استدلالًا متماسكًا يمتدّ على مدى طويل. وبفضل قدرته على العمل بسلاسة عبر نوافذ سياقية متعددة باستخدام compaction، يقدّم النموذج نتائج محسّنة في مجالات صعبة مثل البرمجة طويلة الأمد والأمن السيبراني. وقد قمنا بتحليل أداء هذا النموذج في تقييمات داخلية وخارجية، وترد نتائجه في بطاقة النظام الخاصة بـ GPT‑5.1‑Codex‑Max.

لا يصل GPT‑5.1‑Codex‑Max إلى مستوى "مرتفع" في قدرات الأمن السيبراني ضمن إطار الجاهزية الخاص بنا، لكنه يظلّ أقوى نموذج أمني قمنا بنشره حتى الآن، كما أن قدراته الوكيلية في هذا المجال تتطور بوتيرة سريعة. وبناءً على ذلك، نعمل على الاستعداد للوصول إلى مستوى "مرتفع" في الأمن السيبراني، ونعزّز ضوابط الأمان في الفضاء الرقمي، ونسعى لضمان استفادة المدافعين من هذه التحسينات عبر برامج مثل Aardvark.

عند إطلاق GPT‑5‑Codex، طبّقنا مراقبة مخصّصة للأمن السيبراني للكشف عن الأنشطة الخبيثة وإيقافها. وعلى الرغم من عدم ملاحظتنا زيادة كبيرة في إساءة الاستخدام واسعة النطاق، فإننا نعدّ تدابير إضافية للقدرات المتقدمة. وقد تعاملت فرقنا بالفعل مع عمليات سيبرانية حاولت استغلال نماذجنا، بينما تُحوَّل أي نشاط مشبوه تلقائيًا إلى نظام المراقبة للمراجعة.

صُمّم Codex ليعمل افتراضيًا داخل بيئة sandbox آمنة؛ إذ تُقيَّد عمليات الكتابة بمساحة عمله، ويُمنع الوصول إلى الشبكة ما لم يقم المطور بتمكينه يدويًا. ونوصي بالإبقاء على Codex في هذا الوضع المقيّد، نظرًا لأن تفعيل الإنترنت أو البحث قد يعرّض النموذج لمخاطر حقن المطالبات من محتوى غير موثوق.

ومع تطور قدرات Codex على تنفيذ مهام طويلة الأمد، يصبح من المهم بشكل متزايد أن يراجع المطورون عمل الوكيل قبل إدخال أي تعديلات أو نشرها في بيئة الإنتاج. ولمساعدتهم في ذلك، ينتج Codex سجلات طرفية ويعرض استدعاءاته للأدوات ونتائج الاختبارات. ورغم أن مراجعات الشيفرة التي يجريها تقلل من مخاطر وصول أخطاء النموذج أو أخطاء الإنسان إلى بيئة الإنتاج، يجب التعامل مع Codex كمراجع إضافي وليس كبديل عن المراجعات البشرية.

يمكن توظيف قدرات الأمن السيبراني للدفاع والهجوم معًا، ولذلك نتبنى نهجًا تدريجيًا في النشر، بحيث: نتعلم من الاستخدام الواقعي، ونحدّث ضوابط الأمان باستمرار، ونحافظ على الأدوات الدفاعية الأساسية مثل فحص الثغرات الآلي والمساعدة في معالجتها.

التوفّر

GPT‑5.1‑Codex‑Max متاح في نظام Codex مع خطط ChatGPT Plus وPro وBusiness وEdu وEnterprise. للحصول على تفاصيل حول كيفية عمل حدود الاستخدام لخطتك، يُرجى الاطلاع على وثائقنا(يفتح في نافذة جديدة).

للمطورين الذين يستخدمون Codex CLI عبر مفتاح API، نخطط لإتاحة GPT‑5.1‑Codex‑Max في واجهة برمجة التطبيقات API قريبًا.

اعتبارًا من اليوم، سيحلّ GPT‑5.1‑Codex‑Max محلّ GPT‑5.1‑Codex بوصفه النموذج الافتراضي عبر واجهات Codex. وعلى عكس GPT‑5.1، الذي يُعدّ نموذجًا متعدد الاستخدامات، نوصي باستخدام GPT‑5.1‑Codex‑Max وعائلة نماذج Codex حصريًا للمهام البرمجية الوكيلية داخل Codex أو في بيئات مشابهة لـ Codex.

النتائج

يُظهر GPT‑5.1‑Codex‑Max مدى التقدم الذي وصلت إليه النماذج في قدرتها على إنجاز مهام البرمجة الممتدة زمنيًا، وإدارة مسارات العمل المعقدة، وإنتاج تطبيقات عالية الجودة باستخدام عدد أقل بكثير من الرموز. وقد لاحظنا داخليًا أن الجمع بين هذا النموذج والتحسينات المستمرة في CLI وامتداد IDE والتكامل السحابي وأدوات مراجعة الشيفرة، قد أفرز إنتاجية هندسية معزَّزة بصورة لافتة؛ إذ يستخدم 95% من مهندسي OpenAI نظام Codex أسبوعيًا، ويرسل هؤلاء المهندسون ما يقارب 70% من طلبات الدمج (Pull Requests) الإضافية منذ اعتماد Codex. ومع دفعنا حدود القدرات الممكنة للوكلاء، نتطلع بحماس إلى رؤية ما ستتمكن من بنائه باستخدام هذه الأدوات.

الملحق: تقييم أداء النماذج

GPT‑5.1‑Codex (مرتفع)

GPT‑5.1‑Codex‑Max (مرتفع جدًا)

SWE-bench Verified (n=500)

73.7%

77.9%

SWE-Lancer IC SWE

66.3%

79.9%

Terminal-Bench 2.0

52.8%

58.1%

المؤلف

OpenAI