تخطي إلى المحتوى الرئيسي
OpenAI

11 ديسمبر 2025

المنتجإصدار

إطلاق GPT‑5.2

النموذج الأكثر تطورًا، والمصمّم للعمل الاحترافي وتشغيل الوكلاء لتنفيذ مهام لفترات طويلة.

جاري التحميل...

نقدم لكم GPT‑5.2، السلسلة التي تمثل القفزة الأكبر حتى الآن في قدرات العمل المعرفي الاحترافي.

يشير مستخدم ChatGPT Enterprise المتوسط بالفعل إلى أن الذكاء الاصطناعي يوفر له ما بين 40 و60 دقيقة يوميًا، بينما يقول المستخدمون المكثّفون إنه يوفر لهم أكثر من 10 ساعات أسبوعيًا. وقد صُمّم GPT‑5.2 لتمكين المستخدمين من تحقيق قيمة اقتصادية أكبر، إذ يقدم أداءً أعلى في إنشاء الجداول، وبناء العروض التقديمية، وكتابة الشيفرات، وفهم الصور، والتعامل مع السياقات الطويلة، واستخدام الأدوات، ومعالجة المشاريع المعقدة متعددة الخطوات.

يحقق GPT‑5.2 مستوى رائدًا جديدًا عبر العديد من معايير التقييم، بما في ذلك GDPval، حيث يتفوق على المتخصصين في القطاع في مهام عمل معرفية محددة بدقة تشمل 44 مهنة.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (تفوق أو تعادل)
مهام العمل المعلوماتي

70.9%

38.8% (GPT‑5)

SWE-Bench Pro (عام)
هندسة البرمجيات

55.6%

50.8%

SWE-bench Verified
هندسة البرمجيات

80.0%

76.3%

GPQA Diamond (بدون أدوات)
أسئلة علمية

92.4%

88.1%

CharXiv Reasoning (مع Python)
أسئلة حول الأشكال العلمية

88.7%

80.3%

HMMT (فبراير 2025)
مسابقة الرياضيات

99.4%

96.3%

FrontierMath (المستويات 1–3)
الرياضيات المتقدمة

40.3%

31.0%

ARC-AGI-1 (Verified)
الاستدلال المجرد

86.2%

72.8%

ARC-AGI-2 (Verified)
الاستدلال المجرد

52.9%

17.6%

أشارت كل من Notion(يفتح في نافذة جديدة)، وBox(يفتح في نافذة جديدة)، وShopify(يفتح في نافذة جديدة)، وHarvey(يفتح في نافذة جديدة) وZoom(يفتح في نافذة جديدة) إلى أن GPT‑5.2 يقدّم أداءً رائدًا في الاستدلال طويل الأمد وتنفيذ الأدوات. كما وجدت Databricks(يفتح في نافذة جديدة)، وHex(يفتح في نافذة جديدة) وTriple Whale(يفتح في نافذة جديدة) أن GPT‑5.2 يتميّز في مهام علم البيانات القائمة على الوكلاء وتحليل المستندات. أما Cognition(يفتح في نافذة جديدة)، وWarp(يفتح في نافذة جديدة)، وCharlie Labs(يفتح في نافذة جديدة)، وJetBrains(يفتح في نافذة جديدة) وAugment Code(يفتح في نافذة جديدة) فتؤكد أن GPT‑5.2 يحقق أداءً متقدمًا في البرمجة المعتمدة على الوكلاء، مع تحسينات ملموسة في مجالات مثل البرمجة التفاعلية، ومراجعات الشيفرات، واكتشاف الأخطاء.

في ChatGPT، سيجري إطلاق النماذج GPT‑5.2 Instant وThinking وPro ابتداءً من اليوم، بدءًا من الخطط المدفوعة. أما في واجهة الـ API، فهي متاحة الآن لجميع المطوّرين.

بصورة عامة، يقدّم GPT‑5.2 تحسينات كبيرة في الذكاء العام، وفهم السياقات الطويلة، وقدرات استخدام الأدوات عبر الوكلاء، ومعالجة رؤية الحاسوب. ونتيجة لذلك، أصبح أكثر قدرة من أي نموذج سابق على تنفيذ المهام المعقّدة والواقعية بشكل متكامل من البداية إلى النهاية.

أداء النموذج

مهام ذات قيمة اقتصادية.

يُعد GPT‑5.2 Thinking أفضل نموذج لدينا حتى الآن للاستخدام المهني الواقعي. ففي اختبار GDPval، وهو تقييم يقيس مهام عمل معرفي محددة بدقة تشمل 44 مهنة، حقق GPT‑5.2 Thinking نتيجة رائدة جديدة، ليصبح أول نموذج يصل إلى مستوى أداء يماثل الخبراء البشر أو يتفوق عليهم. وبحسب تقييم خبراء متخصصين، يتفوّق GPT‑5.2 Thinking أو يتعادل مع أبرز المتخصصين في القطاع في 70.9% من المقارنات في مهام GDPval. وتشمل هذه المهام إعداد العروض التقديمية، والجداول، وغيرها من المخرجات العملية. وقد أنتج GPT‑5.2 Thinking مخرجات مهام GDPval بسرعة تزيد بأكثر من 11 مرة وبتكلفة تقل عن 1% مقارنة بالمتخصصين، مما يشير إلى أنه—عند استخدامه تحت إشراف بشري—يمكن أن يساهم في دعم العمل المهني. وتعتمد تقديرات السرعة والتكلفة على بيانات تاريخية؛ وقد تختلف السرعة ضمن ChatGPT.

في اختبار GDPval، تحاول النماذج تنفيذ مهام عمل معرفي محددة بدقة وتشمل 44 مهنة من بين أكبر تسعة قطاعات تساهم في الناتج المحلي الإجمالي للولايات المتحدة. وتشمل المهام إنتاج مخرجات عمل حقيقية، مثل عروض المبيعات، وجداول المحاسبة، وجداول مواعيد الرعاية العاجلة، ومخططات التصنيع، أو مقاطع فيديو قصيرة. وفي ChatGPT، تتوفر في GPT‑5.2 Thinking أدوات جديدة لا يمتلكها GPT‑5 Thinking.

عند مراجعة أحد المخرجات المميزة، علّق أحد محكّمي GDPval قائلًا: "إنه تطوّر لافت ومثير في جودة المخرجات… يبدو وكأنه عمل أُنجز بواسطة شركة متخصصة تضم فريقًا من الموظفين، ويتمتع بتصميم مُتقَن ونصائح عالية الجودة لكلا المخرجات، رغم أنّ هناك بعض الأخطاء البسيطة التي ما زلنا بحاجة إلى تصحيحها."

بالإضافة إلى ذلك، وفي معيارنا الداخلي الخاص بمهام النمذجة المالية في الجداول الإلكترونية لمحللي البنوك الاستثمارية المبتدئين، مثل إعداد نموذج البيانات المالية الثلاثية لشركة ضمن قائمة Fortune 500 مع الالتزام بالتنسيق الصحيح والمراجع، أو بناء نموذج استحواذ بالرافعة المالية لعملية خصخصة، جاء متوسط درجة GPT‑5.2 Thinking أعلى بنسبة 9.3% مقارنة بـ GPT‑5.1، مرتفعًا من 59.1% إلى 68.4%.

تُظهر المقارنات المباشرة تحسّنًا في مستوى الإتقان وجودة التنسيق في الجداول والعروض التقديمية التي يُنشئها GPT‑5.2 Thinking.

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

مطالبة: أنشئ نموذجًا لتخطيط القوى العاملة يشمل عدد الموظفين، وخطة التوظيف، ومعدل التسرب الوظيفي، وتأثير ذلك على الميزانية. ويجب أن يتضمن النموذج أقسام الهندسة، والتسويق، والشؤون القانونية، والمبيعات.

لاستخدام القدرات الجديدة الخاصة بالجداول والعروض التقديمية في ChatGPT، يجب أن تكون مشتركًا في خطة مدفوعة وأن تختار نموذج GPT‑5.2 Thinking أو GPT‑5.2 Pro. وقد تستغرق عمليات التوليد المعقدة عدة دقائق حتى تكتمل.

البرمجة

يقدّم GPT‑5.2 Thinking مستوى جديدًا من الأداء المتقدّم بنسبة 55.6% على اختبار SWE-bench Pro، وهو تقييم صارم لهندسة البرمجيات في سياقات واقعية. وعلى خلاف SWE-bench Verified الذي يختبر لغة Python فقط، يقوم SWE-bench Pro بتقييم أربع لغات برمجية، ويهدف إلى أن يكون أكثر مقاومة للتلوث البياني، وأكثر تحدّيًا وتنوعًا وارتباطًا بالاحتياجات الصناعية.

في SWE-bench Pro(يفتح في نافذة جديدة)، يتم تزويد النموذج ببيئة أكواد وعليه إنشاء تصحيح لحل مهمة هندسة برمجيات حقيقية.

وعلى معيار SWE-bench Verified (غير مبيّن في المخطط)، سجّل GPT‑5.2 Thinking رقمًا قياسيًا جديدًا بلغ 80%.

أما في الاستخدام العملي اليومي، فيترجم هذا إلى نموذج قادر على تصحيح الأكواد الإنتاجية بثبات أكبر، وتنفيذ الميزات المطلوبة، وإعادة هيكلة المشاريع البرمجية الضخمة، وتقديم الإصلاحات بشكل متكامل مع تقليل الحاجة للتدخل اليدوي.

يُظهر GPT‑5.2 Thinking أداءً أفضل أيضًا في هندسة البرمجيات للواجهات الأمامية مقارنةً بـ GPT‑5.1 Thinking. وقد وجد المجرّبون الأوائل أنه أقوى بدرجة ملحوظة في تطوير الواجهة الأمامية والعمل على واجهات معقدة أو غير تقليدية، وخاصة تلك التي تتضمن عناصر ثلاثية الأبعاد، مما يجعله شريكًا يوميًا قويًا للمهندسين في مختلف طبقات التطوير. وفيما يلي بعض الأمثلة على ما يمكن أن ينتجه من خلال مطالبة واحدة فقط:

المطالبة: يرجى إنشاء تطبيق من صفحة واحدة في ملف HTML واحد مع المتطلبات التالية:
- الاسم: Ocean Wave Simulation
- الهدف: عرض أمواج متحركة بشكل واقعي.
- الميزات: إمكانية تغيير سرعة الرياح، وارتفاع الموج، والإضاءة.
- يجب أن تكون واجهة المستخدم هادئة وواقعية.

شارك المستخدمون الأوائل ملاحظاتهم حول قدرات GPT‑5.2 في البرمجة.

"GPT-5.2 "يمثّل GPT-5.2 أكبر قفزة في قدرات البرمجة الوكيلية ضمن سلسلة نماذج GPT منذ GPT-5، وهو نموذج برمجة متقدّم على مستوى فئته السعرية. وترقية رقم الإصدار لا تعكس فعليًا القفزة الكبيرة في مستوى الذكاء. ونحن متحمسون لاعتماده بوصفه النموذج الافتراضي في Windsurf وعدد من مهام Devin الأساسية."
جيف وانغ، الرئيس التنفيذي لشركة Windsurf

الدقة

يُظهر GPT‑5.2 Thinking معدلًا أقل من الهلوسات مقارنةً بـ GPT‑5.1 Thinking. فعلى مجموعة من الاستفسارات مجهولة الهوية من ChatGPT، كانت الاستجابات التي تتضمن أخطاء أقل بنسبة 38% نسبيًا. وبالنسبة للمحترفين، يعني ذلك عددًا أقل من الأخطاء عند استخدام النموذج في البحث والكتابة والتحليل ودعم اتخاذ القرار، مما يجعل النموذج أكثر موثوقية في مهام العمل المعرفي اليومية.

تم ضبط إعداد جهد الاستدلال على أعلى مستوى متاح، وتم تفعيل أداة للبحث. وقد جرى كشف الأخطاء بواسطة نماذج أخرى، مع الإشارة إلى أن هذه النماذج قد ترتكب أخطاء هي نفسها. وتكون معدلات الخطأ على مستوى الادعاء الواحد أقل بكثير من معدلات الخطأ على مستوى الاستجابة الكاملة، لأن معظم الاستجابات تتضمن عددًا كبيرًا من الادعاءات.

كغيره من النماذج، GPT‑5.2 Thinking ليس معصومًا عن الخطأ. وللأمور المهمة والحساسة، من الأفضل مراجعة إجاباته والتأكد منها.

السياق الطويل

يقدّم GPT‑5.2 Thinking مستوى جديدًا من الأداء المتقدّم في الاستدلال على السياقات الطويلة، إذ يحقق نتائج رائدة في OpenAI MRCRv2، وهو تقييم يقيس قدرة النموذج على دمج المعلومات الموزعة عبر مستندات طويلة. وفي المهام الواقعية مثل التحليل العميق للمستندات، التي تتطلب تجميع معلومات مترابطة عبر مئات الآلاف من الرموز، يظهر GPT‑5.2 Thinking دقة أعلى بكثير مقارنةً بـ GPT‑5.1 Thinking. ولا سيما أنه أول نموذج لدينا يحقق دقة تقترب من 100% في نسخة 4-needle MRCR حتى حدود 256 ألف رمز.

ومن الناحية العملية، يمكّن هذا التطور المحترفين من استخدام GPT‑5.2 للعمل مع المستندات الطويلة، مثل التقارير والعقود والأبحاث والنصوص المنقولة والمشاريع متعددة الملفات، مع الحفاظ على الاتساق والدقة عبر مئات الآلاف من الرموز. وهذا يجعل GPT‑5.2 مناسبًا بصورة خاصة للتحليل العميق والدمج المعرفي وسير العمل المعقّد متعدد المصادر.

في اختبار OpenAI-MRCR⁠(يفتح في نافذة جديدة) v2 (حل الإحالات المرجعية عبر جولات متعددة)، يتم إدراج عدة طلبات متطابقة تسمى needles داخل مقاطع طويلة من طلبات واستجابات متشابهة تُعرف باسم haystacks، ويُطلب من النموذج إعادة إنتاج الاستجابة الخاصة بالـ needle رقم n. وتقوم النسخة الثانية من التقييم بإصلاح نحو 5% من المهام التي كانت تحتوي على قيم مرجعية غير دقيقة. ويقيس متوسط نسبة التطابق مقدار التطابق النصي بين استجابة النموذج والإجابة الصحيحة. أما النقاط عند حد 256 ألف رمز إدخال كحد أقصى فتمثل متوسطات لمدى 128 ألف إلى 256 ألف رمز إدخال، وهكذا. وتجدر الإشارة إلى أن قيمة 256k تعادل :256 × 1,024 = 262,144 رمزًا تقريبًا. وقد تم ضبط إعداد جهد الاستدلال على أعلى مستوى متاح.

في المهام التي تستفيد من التفكير بما يتجاوز الحد الأقصى لنافذة السياق، يتوافق GPT‑5.2 Thinking مع واجهة Responses /compact الجديدة، التي توسّع نافذة السياق الفعلية للنموذج. ويسمح هذا التوافق للنموذج بمعالجة سير عمل يعتمد على أدوات كثيرة ويستغرق وقتًا أطول، وهو نوع من المهام كان سيُقيَّد عادةً بطول السياق المتاح. ويمكنكم قراءة المزيد عن ذلك ضمن وثائق واجهة برمجة التطبيقات (API)(يفتح في نافذة جديدة).

رؤية

يُعد GPT‑5.2 Thinking أقوى نماذجنا في تحليل الصور والمشاهد البصرية حتى الآن، إذ يخفض معدلات الخطأ إلى النصف تقريبًا في مهام تحليل الرسوم البيانية وفهم واجهات البرمجيات.

وفي الاستخدام المهني اليومي، يعني ذلك قدرة أعلى على تفسير لوحات المتابعة، ولقطات المنتجات، والمخططات التقنية، والتقارير البصرية، الأمر الذي يدعم سير العمل في مجالات مثل المالية والعمليات والهندسة والتصميم ودعم العملاء حيث تشكّل المعلومات البصرية عنصرًا أساسيًا.

في اختبار CharXiv Reasoning(يفتح في نافذة جديدة)، تجيب النماذج عن أسئلة تتعلق بالمخططات البصرية المستخرجة من أوراق علمية. وتم تفعيل أداة Python وضبط إعداد جهد الاستدلال على الحد الأقصى.

في اختبار ScreenSpot-Pro(يفتح في نافذة جديدة)، يجب على النماذج الاستدلال اعتمادًا على لقطات شاشة عالية الدقة لواجهات مستخدم رسومية من بيئات مهنية متنوعة. وقد تم تفعيل أداة Python وضبط إعداد جهد الاستدلال على الحد الأقصى. ومن دون استخدام أداة Python، تكون النتائج أقل بكثير. لذلك نوصي بتفعيل أداة Python في مهام المحتويات البصرية من هذا النوع.

يُظهر GPT‑5.2 Thinking فهمًا أقوى بكثير من النماذج السابقة لكيفية توزّع العناصر داخل الصورة، وهو ما يساعد في المهام التي يعتمد حلّها على العلاقات المكانية بين المكوّنات. ففي المثال أدناه، نطلب من النموذج تحديد المكوّنات الظاهرة في صورة واردة (وفي هذه الحالة لوحة أم) وإرجاع تسميات مع حدود تقريبية لمواضعها. وحتى مع صورة منخفضة الجودة، ينجح GPT‑5.2 في تحديد المناطق الرئيسية ووضع صناديق تتوافق تقريبًا مع المواقع الفعلية لكل مكوّن، بينما يكتفي GPT‑5.1 بتسمية عدد قليل من الأجزاء ويُظهر فهمًا أضعف بكثير لترتيبها المكاني.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

استدعاء الأداة

يحقق GPT‑5.2 Thinking مستوى جديدًا من الأداء المتقدّم بنسبة 98.7% على اختبار Tau2-bench Telecom، مما يبرهن على قدرته على استخدام الأدوات بشكل موثوق في المهام الطويلة متعددة الخطوات.

وفي الحالات التي تكون فيها السرعة هي الأولوية، يظهر GPT‑5.2 Thinking أداءً أفضل بكثير عند استخدام الإعداد reasoning.effort ="none"، ويتفوّق بشكل واضح على GPT‑5.1 وGPT‑4.1.

في اختبار τ2-bench⁠(يفتح في نافذة جديدة)، تستخدم النماذج الأدوات لإنجاز مهام دعم العملاء ضمن تفاعل متعدد الخطوات مع مستخدم مُحاكى. وبالنسبة لنطاق Telecom، أضفنا توجيهًا موجزًا وعمليًا في مطالبة النظام بهدف تعزيز الأداء. وقد استبعدنا مجموعة Airline بسبب انخفاض جودة التقييم المعتمد كمرجع.

وبالنسبة للمحترفين، يترجم ذلك إلى سير عمل أقوى ومتكامل، مثل حل طلبات دعم العملاء، وجمع البيانات من عدة أنظمة، وتشغيل التحليلات، وإنتاج المخرجات النهائية مع تقليل الانقطاعات بين الخطوات.

وعلى سبيل المثال، عند طرح سؤال معقّد لخدمة العملاء يتطلب حلًا متعدد الخطوات، يستطيع النموذج تنسيق سير عمل كامل عبر عدة وكلاء بشكل أكثر فاعلية. وفي المثال أدناه، يبلغ أحد المسافرين عن تأخر الرحلة، وفوات رحلة الاتصال، والمبيت في نيويورك، إضافة إلى طلب مقعد يتوافق مع حالة طبية. ويتمكن GPT‑5.2 من إدارة سلسلة المهام بالكامل، بما في ذلك إعادة الحجز، وترتيب مقعد المساعدة الخاصة، وتحديد التعويض المناسب، ليقدّم نتيجة أكثر اكتمالًا من GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

العلوم والرياضيات

نأمل أن يسهم الذكاء الاصطناعي في تسريع التقدم العلمي بما يعود بالنفع على الجميع. ومن هذا المنطلق، عملنا مع العلماء واستمعنا إليهم لمعرفة كيفية مساهمة الذكاء الاصطناعي في تسريع أبحاثهم، وقد شاركنا الشهر الماضي بعض التجارب التعاونية المبكرة.

ونرى أن GPT‑5.2 Pro وGPT‑5.2 Thinking هما أفضل النماذج في العالم لمساعدة العلماء وتسريع أعمالهم. ففي اختبار GPQA Diamond، وهو معيار للأسئلة والأجوبة على مستوى الدراسات العليا ومقاوم للبحث عبر الإنترنت، حقق GPT‑5.2 Pro نسبة 93.2%، يليه GPT‑5.2 Thinking بنسبة 92.4%.

في اختبار GPQA Diamond(يفتح في نافذة جديدة)، تجيب النماذج عن أسئلة اختيار من متعدد في مجالات الفيزياء والكيمياء والأحياء. ولم يتم تفعيل أي أدوات، وتم ضبط إعداد جهد الاستدلال على الحد الأقصى.

في اختبار FrontierMath (المستويات 1–3)، وهو تقييم لمسائل الرياضيات على مستوى الخبراء، حقق GPT‑5.2 Thinking رقمًا قياسيًا جديدًا حيث نجحا في حل 40.3% من المسائل.

في اختبار FrontierMath(يفتح في نافذة جديدة)، تتعامل النماذج مع مسائل رياضيات على مستوى الخبراء. وتم تفعيل أداة Python وضبط إعداد جهد الاستدلال على الحد الأقصى.

وبدأنا نرى كيف يمكن لنماذج الذكاء الاصطناعي أن تسرّع التقدم في العلوم والرياضيات بطرق ملموسة. فعلى سبيل المثال، وفي عمل حديث باستخدام GPT‑5.2 Pro، استكشف الباحثون مسألة مفتوحة في نظرية التعلّم الإحصائي. وفي سياق محدد وواضح المعالم، قدّم النموذج برهانًا جرى التحقق منه لاحقًا من قبل المؤلفين ومراجعته مع خبراء خارجيين، مما يوضح كيف يمكن للنماذج المتقدّمة أن تدعم البحث الرياضي عند استخدامها تحت إشراف بشري دقيق.

ARC-AGI 2

في اختبار ARC-AGI-1 (المتحقق)، وهو معيار مصمّم لقياس قدرات الاستدلال العام، أصبح GPT‑5.2 أول نموذج يتجاوز عتبة 90%، بعد أن ارتفع من نسبة 87% التي حققها نموذج o3‑preview العام الماضي، مع خفض تكلفة الوصول إلى هذا الأداء بما يقارب 390 مرة.

في اختبار ARC-AGI-2 (المتحقق)، الذي يرفع مستوى الصعوبة ويعزل مهارات الاستدلال المرن بشكل أدق، يحقق GPT‑5.2 Thinking مستوى جديدًا متقدمًا في نماذج سلسلة التفكير، مسجلًا 52.9%. ويحقق GPT‑5.2 Pro أداءً أعلى، حيث يصل إلى 54.2%، مما يعزز قدرة النموذج على معالجة مسائل جديدة وذات طابع تجريدي.

تعكس التحسينات التي حققها نموذج GPT‑5.2 عبر هذه التقييمات قدرته الأقوى على الاستدلال متعدد الخطوات، ودقته الكمية الأعلى، وحلّه الأكثر موثوقية للمسائل التقنية المعقدة.

إليكم ما يقوله مختبرونا الأوائل عن نموذج GPT‑5.2:

"GPT-5.2 أحدث تحولًا كاملًا في بنية النظام لدينا. فقد دمجنا منظومة متعددة الوكلاء كانت معقدة وهشّة في وكيل واحد ضخم يضم أكثر من 20 أداة. والأفضل من ذلك كله أنه يعمل ببساطة وكفاءة. فالوكيل الموحّد أصبح أسرع وأذكى وأسهل في الصيانة بمئة مرة. ونشهد الآن انخفاضًا كبيرًا في زمن الاستجابة، وقوة أعلى في استدعاء الأدوات، ولم نعد بحاجة إلى تعليمات نظامية مطوّلة، لأن النسخة 5.2 تنفّذ المهام بسلاسة اعتمادًا على مطالبة قصيرة من سطر واحد. التجربة أشبه بالسحر الخالص."
إيه جي أورباخ، الرئيس التنفيذي لشركة Triple Whale

GPT‑5.2 في ChatGPT

في ChatGPT، من المتوقع أن يلاحظ المستخدمون أن GPT‑5.2 أصبح أكثر سهولة في الاستخدام اليومي، وأكثر تنظيمًا وموثوقية، ولا يزال ممتعًا في التفاعل معه.

يُعد GPT‑5.2 Instant نموذجًا سريعًا وفعّالًا للمهام اليومية والتعلم، مع تحسينات واضحة في أسئلة البحث عن المعلومات، والإرشادات خطوة بخطوة، والكتابة التقنية، والترجمة، مع الحفاظ على النبرة الحوارية الدافئة التي قدّمها GPT‑5.1 Instant. وقد لاحظ المستخدمون الأوائل على وجه الخصوص أن الشروحات أصبحت أوضح وأكثر مباشرة في عرض المعلومات الأساسية.

تم تصميم GPT‑5.2 Thinking للعمل المتعمّق، حيث يساعد المستخدمين على معالجة المهام الأكثر تعقيدًا بجودة أعلى. ويبرز أداؤه خصوصًا في البرمجة، وتلخيص المستندات الطويلة، والإجابة عن الأسئلة المتعلقة بالملفات المرفوعة، ومعالجة مسائل الرياضيات والمنطق خطوة بخطوة، إضافة إلى دعم التخطيط واتخاذ القرار من خلال بنية أوضح وتفاصيل أكثر فائدة.

يُعد GPT‑5.2 Pro أذكى نماذجنا وأكثرها موثوقية في الأسئلة الصعبة التي تستحق انتظار إجابة عالية الجودة. وقد أظهرت الاختبارات الأولية عددًا أقل من الأخطاء الكبيرة وأداءً أقوى في المجالات المعقدة مثل البرمجة.

السلامة

يستند GPT‑5.2 على أبحاث الإكمال الآمن التي قدمناها مع GPT‑5، والتي تهدف إلى تعليم النموذج كيفية تقديم أكثر الإجابات فائدة مع البقاء ضمن حدود الأمان.

مع هذا الإصدار، تابعنا عملنا في تعزيز استجابات نماذجنا في المحادثات الحساسة، وحققنا تحسينات ملموسة في كيفية تعاملها مع المطالبات التي تشير إلى ميول انتحارية أو إيذاء النفس، أو ضيق نفسي، أو اعتماد عاطفي على النموذج. وقد أدّت هذه التدخّلات الموجَّهة إلى انخفاض في الاستجابات غير المرغوبة في كل من GPT‑5.2 Instant وGPT‑5.2 Thinking مقارنةً بنماذج GPT‑5.1 وGPT‑5 Instant وThinking. ويمكن العثور على مزيد من التفاصيل في بطاقة النظام.

نحن في المراحل الأولى من طرح نموذج التنبؤ بالعمر لكي نتمكن من تطبيق حماية المحتوى تلقائيًا للمستخدمين الذين تقل أعمارهم عن 18 عامًا، بهدف الحد من وصولهم إلى المحتوى الحساس. ويأتي هذا التطور استكمالًا لنهجنا المعمول به بالفعل تجاه المستخدمين المعروف أن أعمارهم أقل من 18 عامًا ولأدوات الرقابة الأبوية المتوفرة.

يمثل GPT‑5.2 خطوة ضمن سلسلة مستمرة من التحسينات، ولا يزال أمامنا الكثير. فعلى الرغم من أن هذا الإصدار يقدم مكاسب ملموسة في الذكاء والإنتاجية، ندرك أن هناك مجالات يتطلع المستخدمون إلى تحسينها. وفي ChatGPT، نعمل حاليًا على معالجة المشكلات المعروفة مثل كثرة الرفض غير الضروري، مع مواصلة رفع معايير الأمان والموثوقية بشكل عام. وهذه التغييرات معقّدة، ونركز على تنفيذها بالشكل الصحيح.

تقييمات الصحة النفسية


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

الصحة النفسية

0.995

0.883

0.915

0.684

اعتماد عاطفي

0.938

0.945

0.955

0.785

إيذاء النفس

0.938

0.925

0.963

0.937

التوافر والأسعار

سنبدأ اليوم في ChatGPT بطرح نماذج GPT‑5.2 (Instant وThinking وPro) تدريجيًا، وذلك ابتداءً من الخطط المدفوعة مثل Plus وPro وBusiness وEnterprise. ويتم نشر GPT‑5.2 بشكل تدريجي للحفاظ على أفضل مستوى من السلاسة والموثوقية، ولذلك إذا لم يظهر لك النموذج في البداية، فالرجاء المحاولة مرة أخرى لاحقًا. وفي ChatGPT، سيظل GPT‑5.1 متاحًا للمستخدمين للخطط المدفوعة لمدة ثلاثة أشهر ضمن "legacy models"، وبعد ذلك سيتم إيقافه.

تسمية النماذج عبر ChatGPT وواجهة البرمجة API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

في منصّة الـ API، يتوفر GPT‑5.2 Thinking بدءًا من اليوم في Responses API و Chat Completions API تحت اسم gpt-5.2، بينما يتوفر GPT‑5.2 Instant تحت اسم gpt-5.2-chat-latest. كما يتوفر GPT‑5.2 Pro في Responses API تحت اسم gpt-5.2-pro. ويمكن للمطورين الآن ضبط معامل الاستدلال في GPT‑5.2 Pro، كما يدعم كل من GPT‑5.2 Pro و GPT‑5.2 Thinking مستوى الاستدلال الخامس الجديد xhigh المخصص للمهام التي تكون فيها الجودة هي الأولوية القصوى.

يبلغ سعر GPT‑5.2 ‎1.75 دولار لكل مليون رمز إدخال و14 دولارًا لكل مليون رمز إخراج، مع خصم بنسبة 90% على الرموز المخزّنة مؤقتًا. وفي عدة تقييمات للمهام العاملية، تبيّن لنا أنه على الرغم من ارتفاع تكلفة الرمز الواحد في GPT‑5.2، فإن التكلفة الإجمالية للوصول إلى مستوى معيّن من الجودة كانت أقل، بفضل كفاءته الأعلى في استهلاك الرموز.

على الرغم من ثبات أسعار اشتراكات ChatGPT، فإن سعر الرمز في واجهة الـ API لنموذج GPT‑5.2 أعلى من GPT‑5.1 نظرًا لكونه نموذجًا أكثر قدرات. ومع ذلك، ما يزال سعره أقل من نماذج الجيل المتقدم الأخرى، مما يتيح للمستخدمين الاستفادة منه بشكل موسّع في أعمالهم اليومية وتطبيقاتهم الأساسية.

السعر لكل مليون رمز

نموذج

المدخلات

الإدخال المخزن مؤقتًا

المخرجات

gpt-5.2 /
gpt-5.2-chat-latest

$1.75

$0.175

$14

gpt-5.2-pro

$21

-

$168

gpt-5.1 /
gpt-5.1-chat-latest

$1.25

$0.125

$10

GPT‑5‑pro

$15

-

$120

ليس لدينا أي خطط حاليًا لإيقاف نماذج GPT‑5.1 أو GPT‑5 أو GPT‑4.1 في واجهة البرمجة، وسنقوم بإبلاغ المطورين بأي خطط مستقبلية للإيقاف مع منحهم الوقت الكافي للاستعداد. وبالرغم من أن GPT‑5.2 يعمل بكفاءة مباشرة في Codex، نتوقع إصدار نسخة محسّنة مخصّصة لـ Codex خلال الأسابيع المقبلة.

شركاؤنا

تم تطوير نموذج GPT‑5.2 بالتعاون مع شركائنا الدائمين NVIDIA وMicrosoft. فمراكز بيانات Azure ومعالجات NVIDIA الرسومية، بما في ذلك H100 وH200 وGB200-NVL72، تشكّل الأساس الذي تقوم عليه بنية التدريب واسعة النطاق لدى OpenAI، وتساهم في تحقيق تقدم كبير في قدرات النماذج. ويسمح لنا هذا التعاون المشترك بتوسيع القدرة الحاسوبية بثقة وتقديم نماذج جديدة إلى السوق بسرعة أكبر.

الملحق

معايير تقييم مفصلة

فيما يلي نعرض النتائج الكاملة لمؤشرات الأداء الخاصة بـ GPT‑5.2 Thinking، إلى جانب مجموعة مختارة من نتائج GPT‑5.2 Pro.

احترافي
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
البرمجة
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
الدقة
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
السياق الطويل
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
رؤية
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
استخدام الأدوات
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
أكاديمي
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
الاستدلال المجرد
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

تم تشغيل النماذج باستخدام أعلى مستوى متاح من جهد الاستدلال في واجهة الـ API: مستوى xhigh لكل من GPT‑5.2 Thinking و GPT‑5.2 Pro، ومستوى high لنموذج GPT‑5.1 Thinking. ويُستثنى من ذلك التقييمات المهنية، حيث تم تشغيل GPT‑5.2 Thinking بمستوى جهد الاستدلال heavy وهو أعلى مستوى متاح في ChatGPT Pro. وقد أُجريت اختبارات القياس في بيئة بحثية، وقد ينتج عنها في بعض الحالات مخرجات تختلف قليلًا عمّا يظهر في نسخة ChatGPT المخصّصة للإنتاج.

* في اختبار SWE-Lancer، استبعدنا 40 من أصل 237 مسألة لأنها لم تعمل على بنيتنا التحتية.

المؤلف

OpenAI