20 فبراير 2026

مشاركاتنا في تحدي First Proof

نشارك معكم مسودات البراهين ضمن تحدي 'First Proof'؛ وهو تحدٍ رياضي يختبر مدى قدرة أنظمة الذكاء الاصطناعي على إنتاج براهين قابلة للتحقق لمسائل تندرج ضمن مجالات تخصصية دقيقة.

يمكن الاطلاع على مجموعة مسودات البراهين بالضغط هنا

جاري التحميل...

أخضعنا نموذجًا داخليًا للاختبار على مسائل 'First Proof⁠(يفتح في نافذة جديدة)' العشر، وهي عبارة عن تحدٍ رياضي بحثي يهدف لتقييم قدرة أنظمة الذكاء الاصطناعي على تقديم مسودات براهين دقيقة ومنطقية. وما يميّز هذه المسائل الرياضية عن النمط التقليدي للمسابقات ذات الإجابات القصيرة هو حاجتها لبناء تسلسل استدلالي متكامل ضمن نطاقات معرفية دقيقة، مما يجعل الجزم بصحتها أمرًا شاقًا دون تدقيق من أهل الاختصاص. وينتمي واضعو مسائل 'First Proof' إلى طليعة الخبراء في فنون الرياضيات، حتى إن بعضها ظل معلقًا لسنوات قبل أن يتوصل مؤلفوها إلى حلول لها. وللمقارنة، فإن قسمًا جامعيًا مرموقًا متخصصًا في هذه المجالات قد يحتاج لأسبوع من العمل الدؤوب لحل معظم تلك المسائل.

في يوم السبت، 14 فبراير 2026، في تمام الساعة 12:00 صباحًا بتوقيت المحيط الهادئ، نشرنا⁠(يفتح في نافذة جديدة) مسودات البراهين التي توصلنا إليها. واستنادًا إلى الملاحظات التي تلقيناها من المتخصصين، نرى أن خمسة من مسودات البراهين التي قدمها النموذج على الأقل (المسائل 4، 5، 6، 9، و10) تمتلك احتمالية عالية لكونها صحيحة، بينما لا تزال عدة محاولات أخرى قيد المراجعة. وكنا قد اعتقدنا في البداية أن محاولتنا للمسألة رقم 2 كانت على الأرجح صحيحة، ولكن استنادًا إلى التعليق الرسمي لتحدي 'First Proof' والتحليلات اللاحقة من المجتمع العلمي، نرى الآن أنها غير صحيحة. إننا نثمّن هذا التفاعل البنّاء ونترقّب استكمال المراجعات؛ علمًا بأنه يمكن الاطلاع على المجموعة الكاملة من مسودات البراهين عبر هذا الرابط⁠(يفتح في نافذة جديدة). وتشمل النسخة الأولية مسودات البراهين العشر كاملة، مع ملحق إضافي حديث يوضّح نماذج المطالبات المستخدمة وأمثلة تحاكي كيفية تفاعلنا يدويًا مع النماذج طوال فترة التجربة.

ويظل الاعتقاد راسخًا لدينا بأن الأبحاث المبتكرة في المجالات الرائدة هي الوسيلة الأكثر أهمية لقياس كفاءة الأجيال القادمة من الذكاء الاصطناعي. فالاختبارات المعيارية قد لا تفي بتغطية أصعب أركان البحث، مثل: مواصلة عمليات التسلسل الاستدلالي الممتدة، وحسن اختيار الاستدلالات المجردة، والتعامل مع حالات الغموض في صياغة المسائل، وصياغة براهين قادرة على اجتياز الفحص الدقيق للمتخصصين. وتتيح لنا التحديات الرائدة، مثل 'First Proof'، اختبار حدود هذه القدرات في سياقات لا يعد التحقق من صحتها أمرًا هينًا، وتوفر فيها أوجه الإخفاق دروسًا مستفادة وقيّمة.

"نعكف حاليًا على تدريب نموذج جديد ينصب تركيزه الأساسي على رفع مستوى الرصانة في تفكيره، بهدف تمكين النموذج من التفكير بشكل متواصل لساعات طوال مع الحفاظ على درجة عالية من اليقين في استنتاجاته. وعندما أُعلن عن مسائل 'First Proof'، بدت لنا بمثابة بيئة اختبار مثالية؛ لذا قمت بتجربتها خلال عطلة نهاية الأسبوع. وبالفعل، تمكن النموذج من حل مسألتين (رقم 9 ورقم 10). ومع استمرار التدريب، زادت قدراته تدريجيًا لينجح في حل ثلاث مسائل إضافية على الأقل بحسب تقديرنا. وقد شعرنا ببالغ الرضا حينما حل المسألة رقم 6، ثم المسألة رقم 4 بعد ذلك بيومين، لا سيما وأن تلك المسائل كانت من مجالات مألوفة للكثيرين منا. إنه لأمر مذهل حقًا أن تشهد نموذجًا يزداد ذكاءً بشكل ملموس يومًا بعد يوم."

– جيمس آر. لي (باحث متخصص في مجال الاستدلال لدى OpenAI)

أجرينا تجربة تشغيل النموذج في ظل قدر محدود من التوجيه البشري؛ حيث قمنا أحيانًا، أثناء صياغة المطالبات لمختلف إصدارات النموذج طوال فترة التدريب، باقتراح أساليب لإعادة التنفيذ بدت مثمرة في محاولات سابقة. وفي حالات معينة، طلبنا من النموذج الاستفاضة في شرح أجزاء من البرهان أو توضيحها عقب استلام تعقيبات المتخصصين، بهدف تيسير عملية مراجعة التسلسل الاستدلالي. كذلك قمنا بتيسير حوار متبادل بين هذا النموذج وChatGPT لغايات المراجعة وضبط التنسيق والأسلوب اللغوي. وفي بعض المسائل، قدمنا أفضل ما تم التوصل إليه من محاولات محدودة وفقًا للتقدير البشري. وبما أن هذا العمل كان عبارة عن 'مرحلة مكثفة وسريعة'، فإن منهجيتنا لم تكن بالوضوح المثالي الذي نبتغيه في تجربة تقييمية خاضعة لرقابة دقيقة، ونحن نتطلع إلى إجراء مناقشات مع القائمين على 'First Proof' لوضع إطار تقييم ومنهجية تجريبية أكثر صرامةً في المراحل المستقبلية.

إن هذا المشروع هو امتداد لنتائج سابقة أحرزتها نماذج الاستدلال الرائدة في المجالات الرياضية والعلمية؛ حيث وصلنا في يوليو 2025 إلى مستوى أداء يعادل كفاءة الميدالية الذهبية⁠(يفتح في نافذة جديدة) في الأولمبياد العالمي للرياضيات عبر نموذج استدلالي للأغراض العامة (محققًا 35 نقطة من 42). وفي نوفمبر من العام ذاته، طرحنا 'تجارب أولية لتسريع البحث العلمي بواسطة GPT‑5'، وهي سلسلة من الدراسات التي أسهم فيها النموذج في تمكين الباحثين من الوصول إلى نتائج ملموسة في فروع علمية شتى كالفيزياء والأحياء والرياضيات، جنبًا إلى جنب مع استعراض أوجه القصور الملحوظة. وفي أحدث تقاريرنا، كشفنا عن تعاون بحثي في الفيزياء، قدّم فيه نموذج GPT‑5.2 تعبيرًا مقترحًا لصيغة 'سعة الغلوونات'، والتي تم برهنتها منهجيًا في وقت لاحق عن طريق نموذج داخلي وتوثيقها من قِبل واضعي الدراسة.

إننا نتطلع إلى تعميق سبل التواصل مع المجتمع العلمي حول كيفية تقييم الاستدلال ذات الصبغة البحثية، بما في ذلك تلقي ملاحظات الخبراء حول هذه المحاولات، ويسرنا أن نعمل على توفير هذه الإمكانات المتطورة ضمن النماذج المتاحة للجمهور في المستقبل.

2026

المؤلف

OpenAI

متابعة القراءة

عرض الكل

كيف أدى تفعيل إعدادين إلى مضاعفة درجاتنا ثلاث مرات في معيار ARC-AGI-3

البحث29 يوليو 2026

oai Science Academic Research Academic Research 1x1

تسريع الاكتشاف العلمي باستخدام ChatGPT للباحثين الأكاديميين

الشركة29 يوليو 2026

Scientific computing agentic AI card image (1x1)

الحوسبة العلمية في عصر الذكاء الاصطناعي الوكيلي

نشر28 يوليو 2026