تخطي إلى المحتوى الرئيسي
OpenAI

25 سبتمبر 2025

نشرالبحث

قياس أداء نماذجنا في مهام واقعية

نقدّم GDPval، وهو تقييم جديد يقيس أداء النماذج في مهام عملية ذات قيمة اقتصادية تغطي 44 مهنة مختلفة.

وتتمثل مهمتنا في التأكد من أن الذكاء الاصطناعي العام يفيد البشرية جمعاء. كجزء من رسالتنا، نرغب في التواصل بشفافية حول التقدّم في كيفية مساعدة نماذج الذكاء الاصطناعي للأشخاص في العالم الحقيقي. لهذا السبب نقدم GDPval: تقييمًا جديدًا مصممًا لمساعدتنا على تتبع مدى جودة أداء نماذجنا وغيرها في مهام واقعية ذات قيمة اقتصادية. نطلق على هذا التقييم اسم GDPval لأننا بدأنا بمفهوم الناتج المحلي الإجمالي (GDP) كمؤشر اقتصادي رئيسي واستمددنا المهام من المهن الأساسية في الصناعات التي تساهم بشكل أكبر في الناتج المحلي الإجمالي.

كثيرًا ما يُثار الجدل حول تأثير الذكاء الاصطناعي الأوسع على المجتمع، لكن أوضح طريقة لفهم إمكاناته هي النظر إلى ما تستطيع النماذج فعله بالفعل. تُظهر التجربة التاريخية أن التقنيات الكبرى، من الإنترنت إلى الهواتف الذكية، استغرقت أكثر من عقد للانتقال من الاختراع إلى الاعتماد الواسع. تساعد تقييمات مثل GDPval على تأصيل النقاش حول تحسينات الذكاء الاصطناعي بالأدلة بدلاً من التخمين، وتمكّننا من تتبّع تحسّن النماذج بمرور الوقت.

كانت تقييمات الذكاء الاصطناعي السابقة، مثل الاختبارات الأكاديمية صعبة وتحديات البرمجة التنافسية، أساسية في دفع حدود قدرات الاستدلال لدى النماذج، لكنها غالبًا ما تكون قاصرة عن محاكاة نوع المهام التي يتعامل معها كثير من الناس في أعمالهم اليومية.

لسد هذه الفجوة، عملنا على تطوير تقييمات تقيس قدرات أكثر واقعية وذات صلة اقتصادية متزايدة. تطوّرنا من مقاييس أكاديمية كلاسيكية مثل MMLU (أسئلة بأسلوب الامتحان عبر عشرات المواد) إلى تقييمات أكثر تطبيقًا مثل SWE-Bench (مهام إصلاح أخطاء هندسة البرمجيات)، و MLE-Bench (مهام هندسة تعلّم الآلة مثل تدريب النماذج وتحليلها)، و Paper-Bench (الاستدلال العلمي ونقد الأوراق البحثية)، وحديثًا إلى تقييمات السوق مثل SWE-Lancer (مشاريع هندسة برمجيات حرة مبنية على مدفوعات حقيقية).

GDPval هو الخطوة التالية في هذا المسار. فهو يقيس أداء النماذج في مهام مأخوذة مباشرةً من عمل المعرفة الواقعي الذي ينجزه محترفون ذوو خبرة عبر طيف واسع من المهن والقطاعات، ما يوفّر صورة أوضح عن أداء النماذج في مهام ذات قيمة اقتصادية. إن تقييم النماذج على مهام مهنية واقعية يساعدنا على فهم ليس فقط الأداء في المختبر، بل كيف يمكن أن تدعم الناس في أعمالهم اليومية.

ما الذي يقيسه GDPval

يغطي GDPval، في نسخته الأولى، 44 مهنة مختارة من أعلى 9 صناعات مساهمة في الناتج المحلي الإجمالي للولايات المتحدة. يضم التقييم كاملاً 1320 مهمة متخصصة (220 منها في المجموعة الذهبية مفتوحة المصدر)، صيغت جميعها بعناية ودقّة، وتمت مراجعتها من خبراء متمرّسين لديهم خبرة تفوق 14 عامًا في المتوسط ضمن هذه المجالات. وتستند كل مهمة على مخرجات عمل واقعية، مثل مذكرة قانونية، أو مخطّط هندسي، أو محادثة دعم العملاء، أو خطة رعاية تمريضية.

يتميّز GDPval بواقعيته وتنوع المهام التي يتناولها. فبعكس التقييمات الأخرى المرتبطة بالقيمة الاقتصادية والتي تركز على مجالات محددة (مثل SWE-Lancer)، يغطي GDPval طيفًا واسعًا من المهام والمهن. كما أنه يختلف عن المقاييس التي تُنشئ مهام اصطناعية بأسلوب الامتحانات أو الاختبارات الأكاديمية (مثل MMLU أو Humanity’s Last Exam)، إذ يركّز GDPval على مهام قائمة على مخرجات قابلة للتسليم، إما أن تكون نتاج عمل حقيقي موجود حاليًا، وإما قطعة عمل مصوغة بطريقة تحاكي الواقع المهني. 

وعلى عكس المقاييس التقليدية، لا تقتصر مهام GDPval على محفّزات نصية بسيطة. فهي تأتي مدعومة بملفات مرجعية وسياق كامل، فيما تشمل المخرجات المتوقعة وثائق، وعروضًا تقديمية، ومخططات، وجداول بيانات، ووسائط متعددة. وهذا الطابع الواقعي يجعل من GDPval اختبارًا أقرب للحياة العملية في قياس مدى قدرة النماذج على دعم المتخصصين.

يُعدّ GDPval خطوة أوَّلية لا تعكس كل تعقيدات العديد من المهام الاقتصادية. فعلى الرغم من أنه يغطي 44 مهنة ومئات المهام المعرفية، فإنه يقتصر على تقييمات لمرة واحدة، ما يعني أنه لا يلتقط الحالات التي يحتاج فيها النموذج إلى بناء سياق متكامل أو تحسين المخرجات عبر مسودات متتالية. الإصدارات المستقبلية ستتوسع لتشمل مسارات عمل تفاعلية ومهام غنية بالسياق، بحيث تعكس بدرجة أكبر تعقيد المعرفة العملية في العالم الواقعي (اطَّلع على قسم الحدود في الأسفل لمزيد من التفاصيل).

كيف اخترنا المهن

يغطي GDPval مهام عبر تسع صناعات و 44 مهنة، وستواصل الإصدارات المستقبلية توسيع نطاق التغطية. وقد جرى اختيار الصناعات التسع الأولى استنادًا إلى مساهمتها التي تتجاوز 5% من الناتج المحلي الإجمالي للولايات المتحدة، وفقًا لبيانات بنك الاحتياطي الفيدرالي في سانت لويس. بعد ذلك، اخترنا خمس مهن داخل كل صناعة تُسهم بأكبر قدر في إجمالي الأجور والتعويضات، وتندرج أساسًا ضمن الأعمال المعرفية، وذلك بالاستناد إلى بيانات الأجور والتوظيف الواردة في تقرير التوظيف المهني لشهر مايو 2024 الصادر عن مكتب إحصاءات العمل الأمريكي (BLS).(يفتح في نافذة جديدة) وللتأكد من أن هذه المهن يغلب عليها الطابع المعرفي، استخدمنا بيانات المهام من قاعدة بيانات O*NET(يفتح في نافذة جديدة)، وهي قاعدة بيانات للمعلومات المهنية في الولايات المتحدة برعاية وزارة العمل الأمريكية. صنّفنا كل مهمة ضمن كل مهنة واردة في O*NET على أنها إما عمل معرفي وإما عمل جسدي/يدوي يتطلب تنفيذًا مباشرًا في العالم المادي. وتُعتمد المهنة كـ"عمل يغلب عليه الطابع المعرفي" إذا كانت 60% على الأقل من مكوناتها مصنّفة على أنها لا تتطلب عملاً جسديًا أو يدويًا. اعتمدنا عتبة الـ 60% كنقطة انطلاق للنسخة الأولى من GDPval، مع التركيز على المهن التي يمكن للذكاء الاصطناعي أن يُحدث فيها أعظم أثر على الإنتاجية الواقعية. 

وقد أسفر هذا النهج عن اختيار 44 مهنة لتضمينها في التقييم.

العقارات والتأجير والاستئجار

  • موظفو الاستقبال والخدمة

  • مديرو عقارات وملكيَّات وجمعيات ملاك

  • وكلاء مبيعات عقارات

  • سماسرة عقارات

  • موظفو الخزينة والتأجير

الحكومة

  • عاملون في الترفيه

  • مسؤولو الامتثال

  • مشرفو الصف الأول على الشرطة والمحققين

  • مديرو خدمات إدارية

  • أخصائيو خدمة اجتماعية للأطفال والأسر والمدارس

الصناعة

  • مهندسون ميكانيكيون

  • مهندسو صناعات

  • مشترون ووكلاء مشتريات

  • موظفو الشحن والاستلام والمخزون

  • مشرفو الصف الأول على عمال الإنتاج والتشغيل

الخدمات المهنية والعلمية والتقنية

  • مطورو برمجيات

  • محامون

  • محاسبون ومدققون

  • مديرو أنظمة الحاسوب والمعلومات

  • اختصاصيو إدارة المشاريع

الرعاية الصحية والمساعدة الاجتماعية

  • ممرضون مسجلون

  • ممارسو تمريض

  • مديرو خدمات طبية وصحية

  • مشرفو الصف الأول على موظفي المكاتب والدعم الإداري

  • أمناء سر طبيون ومساعدون إداريون

التمويل والتأمين

  • ممثلو خدمة العملاء

  • محللون ماليون واستثمارات

  • مديرون ماليون

  • مستشارون ماليون شخصيون

  • وكلاء مبيعات الأوراق المالية والسلع والخدمات المالية

تجارة التجزئية

  • صيادلة

  • مشرفو الصف الأول على عمال مبيعات التجزئة

  • مديرون عامّون ومديرو عمليات

  • محققون خاصون

تجارة الجملة

  • مديرو مبيعات

  • موظّفو كتابة الطلبات

  • مشرفو الصف الأول على عمال مبيعات غير التجزئة

  • مندوبو مبيعات (جملة وتصنيع) باستثناء المنتجات التقنية والعلمية

  • مندوبو مبيعات (جملة وتصنيع) للمنتجات التقنية والعلمية

المعلومات

  • فنيُّو الصوت والصورة

  • منتجون ومخرجون

  • محللو أخبار ومراسلون وصحفيون

  • محررو أفلام وفيديو

  • محررون

يمتد GDPval ليشمل 44 مهنة معرفية موزعة على تسعة قطاعات، ابتداءً من مطوّري البرمجيات والمحامين، ووصولاً إلى الممرضين المسجّلين والمهندسين الميكانيكيين. تم اختيار هذه المهن لأهميتها الاقتصادية ولأنها تمثل أنواع العمل اليومي حيث يمكن للذكاء الاصطناعي أن يقدم دعمًا فعالاً للمهنيين.

كيف أنشأنا مجموعة البيانات

لكل مهنة، عملنا مع خبراء متمرّسين لصياغة مهام تمثّل طبيعة عملهم اليومي بشكل واقعي. كان متوسط خبراتهم 14 عامًا، مع سجلات بارزة من الإنجازات والتطور المهني. حرصنا عمدًا على تنويع المشاركين، فقمنا بضم خبراء من مجالات ممارسة مختلفة وشركات بأحجام متنوعة، مثل المحامين، لضمان أكبر قدر من التمثيل.

مرّت كل مهمة بعملية مراجعة متعددة المراحل للتأكد من أنها تعكس عملاً حقيقيًا، ويمكن أن ينفّذها محترف آخر، كما تكون واضحة للتقييم. وبالمعدل، خضعت كل مهمة لخمس جولات مراجعة خبراء، شملت تدقيقات من كتّاب مهام آخرين، ومراجعين إضافيين من المهن ذاتها، إضافةً إلى التحقق المستند إلى النماذج. 

وتضم مجموعة البيانات الناتجة 30 مهمة تمت مراجعتها بالكامل لكل مهنة (المجموعة الكاملة)، إضافة إلى 5 مهام لكل مهنة في مجموعتنا الذهبية مفتوحة المصدر، ما يوفّر أساسًا متينًا لتقييم أداء النماذج في المهام المعرفية الواقعية.

أمثلة على مهام GDPval

مطالبة + سياق المهمة

This is June 2025 and you are a Manufacturing Engineer, in an automobile assembly line. The product is a cable spooling truck for underground mining operations, and you are reviewing the final testing step. In the final testing step, a big spool of cable needs to be reeled in and reeled out 2 times, to ensure the cable spooling works as per requirement. The current operation requires 2 persons to work on this test. The first person needs to bring and position the spool near the test unit, the second person will connect the open end of the cable spool to the test unit and start the reel in step. While the cable is being unreeled from the spool, and onto the truck, the first person will need to rotate the spool in order to facilitate the unreeling. When the cable is fully reeled onto the truck, the next step is to perform the operation in reverse order, so the cable gets reeled out of the truck and back onto its own reel. This test is done another time to ensure functionality. This task is complicated, has associated risks, requires high labor and makes the work area cluttered. Your manager has requested you to develop a jig/fixture to simplify reel in and reel out of the cable reel spool, so the test can be done by one person. Attached to this request is an information document which provides basic details about the cable reel drum size, information to design the cable reel spooling jig and to structure the deliverable. The deliverable for this task will be a preliminary concept design only. Separate tasks will be done to calculate design foundations such as stress, strength, cost benefit analysis, etc. Design a jig using 3d modelling software and create a presentation using Microsoft PowerPoint. As part of the deliverable, upload only a pdf document summarizing the design, using snapshots of the 3d design created. The 3d design file is not required for submission.
Cable reel project requirements.pdf

المُنتَج البشري المتمرس

منظور انفجاري لتصميم بكرة كابل
صُمِّمت كل مهمة في GDPval بواسطة متخصص ذي خبرة، وتعكس عملاً معرفيًا حقيقيًا من طبيعة مهنته. الطلب هو مهمة عمل واقعية أنشأها خبير مجالي، والمخرجات المثالية هي الحل الذي قدّمه الخبير نفسه.

كيف نقيّم أداء النماذج

لتقييم أداء النماذج على مهام GDPval، نعتمد على مجموعة من "المقيّمين" الخبراء، وهم محترفون متمرّسون من المهن نفسها الممثلة في مجموعة البيانات. يقوم هؤلاء المقيّمون بمقارنة المخرجات التي أنشأتها النماذج مع تلك التي أعدها كتّاب المهام، من دون أن يعرفوا أيها من إنتاج الذكاء الاصطناعي وأيها من إنتاج بشري، ثم يقدمون ملاحظاتهم وتصنيفاتهم. بعد ذلك، يصنّف المقيّمون المخرجات البشرية والآلية ويحددون ما إذا كانت النتيجة الآلية "أفضل"، أو "مكافئة"، أو "أضعف" من الأخرى.

كما أعد كتّاب المهام جداول تقييم تفصيلية خاصة بمهنهم، ما يضيف قدرًا من الاتساق والوضوح إلى عملية التقييم. وبالإضافة إلى ذلك، أنشأنا "مقيّمًا آليًا"، وهو نظام ذكاء اصطناعي مدرّب على تقدير الطريقة التي سيحكم بها الخبراء البشريون على المخرجات. وبمعنى آخر، بدلاً من إجراء مراجعة خبراء كاملة في كل مرة، يستطيع المقيّم الآلي التنبؤ بسرعة بالنتيجة التي من المرجح أن يفضّلها الناس. نطرح هذه الأداة عبر evals.openai.com كخدمة بحثية تجريبية، غير أنها لا تزال أقل موثوقية من المقيّمين الخبراء، ولذلك لا نستخدمها بديلاً عنهم. 

النتائج المبكرة

تبيّن لنا أن أفضل النماذج الرائدة اليوم باتت تقترب من مستوى جودة العمل الذي يقدمه خبراء الصناعات. لاختبار ذلك، أجرينا تقييمات عمياء حيث قارن خبراء من مجالات مختلفة المخرجات الناتجة عن عدة نماذج متقدمة - GPT‑4o، و o4-mini، و OpenAI o3، و GPT‑5، و Claude Opus 4.1، و Gemini 2.5 Pro، و Grok 4 - بالمخرجات البشرية. وعلى امتداد 220 مهمة ضمن المجموعة الذهبية لـ GDPval، قمنا بتسجيل الحالات التي جرى فيها تصنيف مخرجات النماذج باعتبارها أفضل ("فوز") أو مكافئة ("تعادل") لمخرجات خبراء الصناعات، كما يظهر في الرسم البياني أدناه. وقد كان Claude Opus 4.1 النموذج الأفضل أداءً، متفوقًا بشكل خاص في الجوانب الجمالية (مثل تنسيق المستندات وتخطيط الشرائح)، بينما برز GPT‑5 في الدقة، خصوصًا عند التعامل مع المعرفة التخصصية. نلاحظ أيضًا تقدمًا واضحًا على مدى هذه المهام، إذ تضاعف الأداء أكثر من مرتين من GPT‑4o (إصدار ربيع 2024) إلى GPT‑5 (إصدار صيف 2025)، في اتجاه خطي متصاعد.

إضافة إلى ذلك، وجدنا أن النماذج الرائدة قادرة على إنجاز مهام GDPval أسرع بنحو 100 مرة وأرخص بتكلفة تعادل 100 ضعف مقارنة بخبراء الصناعات. ومع ذلك، تعكس هذه الأرقام وقت الاستدلال وأسعار واجهات البرمجة فقط، ولا تشمل إشراف الإنسان وتكرار العمل وخطوات الدمج المطلوبة في بيئات العمل الواقعية لاستخدام هذه النماذج. ومع ذلك، خاصة في مجموعة المهام التي تُظهر فيها النماذج تفوقًا ملحوظًا، نتوقع أن إسناد المهمة للنموذج قبل عرضها على مختص قد يوفر وقتًا ومالاً على نحو كبير.

قارن مقيّمون خبراء مخرجات النماذج الرائدة بمخرجات خبراء بشريين. تقترب نماذج الطليعة اليوم من جودة العمل الذي ينتجه خبراء الصناعة. قدّم Claude Opus 4.1 مخرجات قيّمها الخبراء بأنها مماثلة أو أفضل من البشر في ما يقارب نصف المهام.

من GPT‑4o إلى GPT‑5، تضاعف الأداء في مهام GDPval لأكثر من ثلاثة أضعاف خلال عام واحد. 

أخيرًا، قمنا بتدريب نسخة داخلية تجريبية من GPT‑5 بشكل تدريجي لاختبار إمكانية تحسين الأداء على GDPval. وقد أظهر هذا النهج بالفعل تحسنًا ملحوظًا، فاتحًا المجال لمزيد من التطوير المستقبلي. وتؤكد تجارب مضبوطة أخرى هذه النتائج: فزيادة حجم النموذج، وتشجيع المزيد من خطوات الاستدلال، وإغناء السياق الخاص بالمهام، كلها عوامل أدت إلى مكاسب ملموسة.

يمكنك الاطلاع على النتائج الكاملة في ورقتنا البحثية. كما نطرح مجموعة فرعية ذهبية من مهام GDPval، إلى جانب خدمة تقييم عامة، لتمكين باحثين آخرين من البناء على هذا العمل وتطويره.

مستقبل العمل والذكاء الاصطناعي 

مع ازدياد قدرات الذكاء الاصطناعي، سيؤدي ذلك على الأرجح إلى تغييرات في سوق العمل. إذ تُظهر نتائج GDPval المبكرة أن النماذج قادرة بالفعل على إنجاز بعض المهام المتكررة والمحددة جيدًا بسرعة أكبر وتكلفة أقل من الخبراء. ومع ذلك، فإن معظم الوظائف ليست مجرد مجموعة من المهام القابلة للتدوين. يسلط GDPval الضوء على المجالات التي يستطيع فيها الذكاء الاصطناعي تولي المهام الروتينية، ما يتيح للبشر التركيز أكثر على الأجزاء الإبداعية والمعتمدة على الحكم البشري. وعندما يدعم الذكاء الاصطناعي العاملين بهذه الطريقة، يمكن أن ينعكس ذلك على نمو اقتصادي ملموس. هدفنا هو تمكين الجميع من "مواكبة تقدم" الذكاء الاصطناعي عبر إتاحة الوصول إلى هذه الأدوات، ومساندة العاملين خلال مراحل التغيير، وبناء أنظمة تكافئ المساهمة الواسعة.

القيود والخطوات القادمة

يُعدّ GDPval خطوة أوَّلية. فرغم أنه يغطي 44 مهنة ومئات المهام، فإننا نواصل تحسين منهجيتنا لتوسيع نطاق الاختبار وجعل النتائج أكثر دلالة. النسخة الحالية من التقييم تعتمد على جولة واحدة فقط، وبالتالي لا تلتقط الحالات التي يحتاج فيها النموذج إلى بناء سياق أو تحسين المخرجات عبر مسودات متكررة، مثل مراجعة مذكرة قانونية بعد ملاحظات العميل، أو إعادة تحليل بيانات بعد ملاحظة خلل ما. إضافةً إلى ذلك، في العالم الواقعي لا تكون المهام محددة دائمًا بمؤشرات وملفات مرجعية واضحة؛ فالمحامي، على سبيل المثال، قد يضطر للتعامل مع الغموض والتحدث مع موكله قبل أن يقرر أن صياغة مذكرة قانونية هي بالفعل الإجراء الأنسب. نخطط لتوسيع GDPval ليشمل مزيدًا من المهن والصناعات وأنواع المهام، مع زيادة التفاعلية، والتركيز على المهام التي تتطلب التعامل مع الغموض. ويبقى الهدف البعيد هو تحسين قياس التقدم في أعمال المعرفة المتنوعة.

كن جزءًا من المسيرة

إن مشاركة المجتمع أمر أساسي. نحن متحمسون لبناء GDPval جنبًا إلى جنب مع الباحثين والممارسين والمنظمات التي تشاركنا الهدف في جعل الذكاء الاصطناعي العام (AGI) أكثر فائدة للناس في بيئة العمل.