إطلاق وكيل ChatGPT: جسرٌ بين البحث والتطبيق
ChatGPT بات قادرًا على التفكير والعمل، وانتقاء المهارات الوكيلية المناسبة من صندوق أدواته لإتمام المهام لك عبر استخدام جهازه الحاسوبي.
أصبح ChatGPT الآن قادرًا على إنجاز المهام نيابةً عنك باستخدام حاسوبه الافتراضي الخاص، والتعامل مع المهام المعقّدة من البداية إلى النهاية.
ويمكنك اليوم تكليف ChatGPT بطلبات مثل: "ألقِ نظرة على تقويمي وأطلعني على الاجتماعات القادمة مع العملاء بناءً على آخر الأخبار"، و"خطّط واشترِ المكوّنات لتحضير إفطار ياباني لأربعة أشخاص"، و"حلّل ثلاثة منافسين وأنشئ عرضًا تقديميًا بالنتائج". سيتنقل ChatGPT بذكاء بين المواقع الإلكترونية، ويصفّي النتائج، ويطلب منك تسجيل الدخول بأمان عند الحاجة، ويشغّل الشيفرات، ويجري التحليلات، بل ويقدّم عروضًا تقديمية يمكن تعديلها وجداول بيانات تلخّص ما توصّل إليه.
وترتكز هذه القدرات الجديدة على نظام وكيل موحّد يجمع بين ثلاث مزايا رئيسية من التطويرات السابقة: قدرة Operator على التفاعل مع المواقع الإلكترونية، ومهارات البحث المتعمق deep research في تحليل المعلومات وتركيبها، وكفاءة ChatGPT في الذكاء الخطابي والطلاقة اللغوية.
ويؤدي ChatGPT هذه المهام عبر حاسوبه الافتراضي، متنقّلًا بسلاسة بين التفكير والتنفيذ للتعامل مع سير عمل معقّد من البداية حتى النهاية، وكل ذلك بناءً إلى توجيهاتك.
الأهم من ذلك أنك تظل دائمًا في موقع السيطرة. حيث يطلب ChatGPT الإذن قبل تنفيذ أي إجراء مؤثر، كما يمكنك مقاطعته بسهولة، أو تولّي السيطرة على المتصفّح، أو إيقاف المهام في أي لحظة.
وابتداءً من اليوم، يمكن لمستخدمي Pro وPlus وTeam تفعيل القدرات الوكيلية الجديدة لـChatGPT مباشرةً من قائمة الأدوات في واجهة الكتابة، وذلك عبر اختيار "وضع الوكيل" في أي نقطة من المحادثة.
وعلى الرغم من أن وكيل ChatGPT أصبح بالفعل أداة قوية لتنفيذ المهام المعقّدة، فإن إطلاق اليوم ليس سوى البداية. وسنواصل إضافة تحسينات كبيرة بصورة منتظمة، بما يزيد من فاعليته وفائدته لعدد أكبر من المستخدمين مع مرور الوقت.
في السابق، قدّم كلٌ من Operator وdeep research (البحث المتعمق) نقاط قوة فريدة؛ إذ كان Operator قادرًا على التمرير والنقر والكتابة على الويب، بينما تميّز deep research (البحث المتعمق) في تحليل المعلومات وتلخيصها. ومع ذلك، كان كل منهما يعمل بصورة أفضل في مواقف مختلفة: فلم يكن Operator قادرًا على الغوص في التحليل المتعمّق أو كتابة تقارير تفصيلية، في حين لم يستطع deep research (البحث المتعمق) التفاعل مع المواقع الإلكترونية لتنقية النتائج أو الوصول إلى محتوى يتطلب مصادقة المستخدم. وقد لاحظنا في الواقع أن العديد من الأسئلة التي كان المستخدمون يوجّهونها إلى Operator كانت مناسبة أكثر لـdeep research (البحث المتعمق)، وهو ما دفعنا إلى جمع أفضل ما في الاثنين معًا.
ومن خلال دمج هذه القدرات المتكاملة داخل ChatGPT وإضافة أدوات جديدة، تمكّنا من إتاحة إمكانات غير مسبوقة في نموذج واحد. أصبح بإمكانه الآن التفاعل مع المواقع مباشرة من خلال النقر، والتصفية، وجمع نتائج أكثر دقة وكفاءة. كما بات بوسعك الانتقال بسلاسة من محادثة بسيطة إلى طلب تنفيذ إجراءات مباشرة ضمن المحادثة نفسها.
زوّدنا وكيل ChatGPT بمجموعة من الأدوات المتكاملة: متصفح مرئي يتفاعل مع الويب عبر واجهة رسومية، ومتصفح نصي لعمليات الاستدلال البسيطة والبحث النصي، وبيئة طرفية (Terminal)، إضافةً إلى إمكانية الوصول المباشر عبر الـAPI. يمكن للوكيل أيضًا الاستفادة من موصلات ChatGPT(يفتح في نافذة جديدة)، التي تتيح لك ربط تطبيقات مثل Gmail وGitHub بحيث يتمكن ChatGPT من الوصول إلى المعلومات المرتبطة بطلباتك واستخدامها في الإجابات. ويمكنه أيضًا تسجيل الدخول إلى أي موقع من خلال التحكم في المتصفح، مما يتيح له التعمّق بشكل أوسع في البحث وتنفيذ المهام. وقد أتاح توفير هذه القنوات المتعددة أمام ChatGPT للوصول إلى المعلومات والتفاعل مع الويب قدرةً أكبر على اختيار المسار الأمثل لإنجاز المهام بكفاءة أعلى. فعلى سبيل المثال، يمكنه جمع معلومات عن جدولك عبر واجهة API، أو تحليل كميات كبيرة من النصوص باستخدام المتصفح النصي، مع الاحتفاظ في الوقت نفسه بقدرته على التفاعل البصري مع المواقع المصممة أساسًا للمستخدمين.
وتتم جميع هذه العمليات عبر الحاسوب الافتراضي الخاص به، الذي يحافظ على السياق اللازم لتنفيذ المهام، حتى عند استخدام عدة أدوات معًا. ويمكن للنموذج، وفقًا للحاجة، فتح صفحة باستخدام المتصفح النصي أو المتصفح المرئي، أو تنزيل ملف من الإنترنت، أو معالجته من خلال تشغيل أمر محدد في الطرفية، ثم عرض النتيجة مرة أخرى في المتصفح المرئي. ويقوم النموذج بتكييف نهجه باستمرار لتنفيذ المهام بسرعة ودقة وكفاءة.
صُمّم وكيل ChatGPT ليدعم سير عمل تكراريًا وتعاونيًا، أكثر تفاعلية ومرونة بكثير مقارنة بالنماذج السابقة. وخلال عمله، يمكنك مقاطعته في أي لحظة لتوضيح التعليمات، أو توجيهه نحو النتيجة التي ترغب بها، أو حتى تغيير المهمة بالكامل. وسيواصل العمل من حيث توقّف، مستفيدًا من المعلومات الجديدة دون فقدان ما تم إنجازه سابقًا. وبالمثل، قد يطلب ChatGPT بنفسه تفاصيل إضافية عند الحاجة لضمان بقاء المهمة متوافقة مع أهدافك. وإذا استغرقت المهمة وقتًا أطول من المتوقع أو شعرت أنها لا تتقدّم، فيمكنك إيقافها مؤقتًا، أو طلب ملخص عن التقدّم الحالي، أو إنهاؤها بالكامل مع الحصول على النتائج المتوفرة حتى تلك اللحظة. وفي حال كنت تستخدم تطبيق ChatGPT على هاتفك، فستصلك إشعارات عند انتهاء المهام التي يعمل عليها.
تعمل هذه القدرات الوكيلية الموحدة على رفع فاعلية ChatGPT بشكل كبير في السياقات اليومية والمهنية على حدّ سواء. ففي بيئة العمل، يمكنك أتمتة المهام المتكررة، مثل تحويل لقطات الشاشة أو لوحات التحكم إلى عروض تقديمية تتكوّن من عناصر متجهة قابلة للتعديل، وإعادة ترتيب الاجتماعات، والتخطيط للحملات والاجتماعات الخارجية، وتحديث جداول البيانات ببيانات مالية جديدة مع الحفاظ على نفس التنسيق. وفي حياتك الشخصية، يمنحك ChatGPT القدرة على التخطيط وحجز الرحلات بسهولة، وتصميم وحجز حفلات العشاء بالكامل، أو العثور على متخصصين وحجز المواعيد بسلاسة.
وتنعكس القدرات المتقدمة للنموذج في أدائه المتفوق (SOTA) ضمن التقييمات التي تقيس تصفح الويب وإتمام المهام في العالم الواقعي.
في Humanity’s Last Exam(يفتح في نافذة جديدة)* (الاختبار البشري الأخير)، وهو تقييم يقيس أداء الذكاء الاصطناعي عبر مجموعة واسعة من الموضوعات باستخدام أسئلة بمستوى الخبراء، حيث يسجل النموذج الذي يشغّل وكيل ChatGPT نتيجة pass@1 SOTA جديدة تبلغ 41.6. وبفضل قدرته على التخطيط الديناميكي واختيار الأدوات المناسبة ذاتيًا، يمكنه تنفيذ المهمة نفسها بطرق مختلفة عبر عدة محاولات. وعندما اعتمدنا استراتيجية تنفيذ متوازية بسيطة، تصل إلى ثماني محاولات في الوقت نفسه مع اختيار النتيجة ذات أعلى مستوى من الثقة المبلَّغ عنها، ارتفع تقييم HLE الخاص بالوكيل إلى 44.4.
FrontierMath** هو أصعب معيار معروف لاختبارات الرياضيات، ويضم مسائل جديدة غير منشورة قد يستغرق حلّها من خبراء الرياضيات ساعات أو حتى أيامًا. وباستخدام الأدوات، مثل الوصول إلى الطرفية لتنفيذ الشيفرة، يصل وكيل ChatGPT إلى دقة تبلغ 27.4%، متفوّقًا على النموذجين السابقين بفارق كبير.
قمنا أيضًا بتقييم النموذج باستخدام معايير مصمّمة لمحاكاة مهام واقعية معقّدة. وفي معيار داخلي يستهدف قياس أداء النموذج في مهام معرفية معقدة عالية القيمة الاقتصادية، جاءت مخرجات وكيل ChatGPT بمستوى مقارب، وأحيانًا أفضل، من أداء البشر في نحو نصف الحالات، عبر نطاق واسع من أزمنة إتمام المهام، مع تفوّق ملحوظ على o3 وo4-mini. ويتم تقييم مخرجات النموذج من قبل خبراء يقارنونها بمعايير بشرية عالية الجودة أعدّها أفضل المتخصصين في كل مجال. وقد جرى جمع هذه المهام من خبراء في مجموعة متنوعة من المهن والصناعات، بحيث تعكس طبيعة العمل المهني الحقيقي، مثل إعداد تحليل تنافسي لمقدّمي الرعاية العاجلة عند الطلب، وبناء جداول إطفاء ديون مفصّلة، وتحديد مواقع آبار مياه قابلة للاستخدام لمنشأة هيدروجين أخضر جديدة.
في DSBench(يفتح في نافذة جديدة)، وهو معيار صُمّم لتقييم الوكلاء عبر مهام علم البيانات الواقعية التي تشمل التحليل والنمذجة، يتفوّق وكيل ChatGPT بوضوح على الأداء البشري بفارق كبير.
في SpreadsheetBench، وهو معيار يقيّم قدرة النماذج على تعديل جداول البيانات المستمدة من سيناريوهات واقعية، يتفوّق وكيل ChatGPT على النماذج الحالية بفارق كبير. وعند تمكينه من تعديل الجداول مباشرة، يحقق وكيل ChatGPT نتيجة أعلى تصل إلى 45.5%، مقارنةً بـCopilot في Excel الذي سجّل 20.0% فقط.
المنهجية: استخدم مؤلفو SpreadsheetBench بيئة ويندوز باستخدام Microsoft Excel لتقييم جداول البيانات. لقد استخدمنا بيئة OSX وLibreOffice، مما قد يؤدي إلى اختلافات طفيفة في التقييم. على سبيل المثال، وجد المؤلفون قيدًا صعبًا إجماليًا بنسبة 15.02% لنموذج GPT‑4o، وحصلنا على 13.38%. لقد استخدمنا المعيار الكامل المكون من 912 سؤالاً.
في معيار داخلي يقيس قدرة النموذج على التعامل مع مهام النمذجة الخاصة بمحللي بنوك الاستثمار من السنة الأولى إلى الثالثة، مثل إعداد نموذج مالي ثلاثي البيانات لشركة مدرجة ضمن قائمة Fortune 500 مع تنسيق صحيح وإحالات مرجعية دقيقة، أو بناء نموذج استحواذ مموّل بالرفع المالي (Leveraged Buyout) لعملية تحويل شركة إلى ملكية خاصة، يتفوّق النموذج الذي يشغّل وكيل ChatGPT بشكل ملحوظ على deep research وo3. ويتم تقييم كل مهمة وفق مئات المعايير المرتبطة بالدقة واستخدام الصيغ الحسابية.
قمنا أيضًا بتقييم وكيل ChatGPT على BrowseComp، وهو معيار نشرناه في وقت سابق من هذا العام لقياس قدرة وكلاء التصفح على العثور على المعلومات الصعبة على الويب. وقد حقق النموذج نتيجة SOTA جديدة بلغت 68.9%، أي أعلى بـ 17.4 نقطة مئوية مقارنةً بـdeep research (البحث المتعمق).
أخيرًا، على WebArena(يفتح في نافذة جديدة)، وهو معيار مصمم لتقييم أداء وكلاء تصفح الويب في إكمال مهام الويب الواقعية، يُظهر النموذج تحسنًا مقارنةً بـ CUA المدعوم بـ o3 (النموذج الذي يشغّل Operator).
يمكنك تفعيل القدرات الوكيلية الجديدة في ChatGPT مباشرةً من قائمة الأدوات في واجهة الكتابة، وذلك باختيار وضع الوكيل (agent mode) في أي لحظة خلال المحادثة. وكل ما عليك هو وصف المهمة التي تريد تنفيذها، سواء كانت بحثًا معمّقًا، أو إنشاء عرض تقديمي، أو رفع نفقات. وعند تنفيذ المهمة، ستظهر لك رواية مرئية على الشاشة تشرح بوضوح ما يقوم به ChatGPT خطوة بخطوة. ويمكنك مقاطعة العملية في أي وقت وتولّي التحكم في المتصفح عند الحاجة، لضمان بقاء المهام متوافقة مع أهدافك.
ويمكن لوكيل ChatGPT الوصول إلى الموصلات (connectors) الخاصة بك، مما يتيح له الاندماج مع سير عملك والاطلاع على معلومات قابلة للتنفيذ. وبمجرد المصادقة، تتيح هذه الموصلات لـChatGPT رؤية البيانات والقيام بمهام مثل تلخيص البريد الوارد لليوم أو العثور على الأوقات المتاحة للاجتماعات. ومع ذلك، وعند الحاجة لاتخاذ إجراء فعلي على هذه المواقع، سيُطلب منك تسجيل الدخول من خلال تحمّل السيطرة على المتصفح.
بالإضافة إلى ذلك، يمكنك جدولة المهام المكتملة ليتم تكرارها تلقائيًا، مثل إنشاء تقرير أسبوعي للمؤشرات كل صباح اثنين.
يمثّل هذا الإصدار المرة الأولى التي يمكن فيها للمستخدمين طلب من ChatGPT تنفيذ إجراءات مباشرة على الويب. وبطبيعة الحال، يقدّم هذا قدرات جديدة ولكنه يرافقها أيضًا مخاطر إضافية، لا سيما لأن وكيل ChatGPT يستطيع الآن التعامل مباشرة مع بياناتك، سواء حصل عليها عبر الموصلات (connectors) أو من المواقع التي قمت بتسجيل الدخول إليها أثناء "ضع السيطرة" على المتصفح (takeover mode). لقد عزّزنا منظومة الحماية الصارمة المستمدة من نسخة المشاهدة المبكرة لـOperator، وأضافنا طبقات جديدة من الضوابط للتعامل مع التحديات مثل إدارة المعلومات الحساسة على شبكة الإنترنت المباشرة، والوصول الأوسع للمستخدمين، وإمكانية الوصول المحدودة إلى الشبكات الطرفية. وبينما تقلّل هذه الإجراءات من مستوى المخاطر بدرجة كبيرة، فإن توسيع قدرات الوكيل وامتداده إلى شريحة مستخدمين أكبر يرفع من مستوى المخاطر الإجمالي.
ركزنا بشكل خاص على حماية وكيل ChatGPT من التلاعب العدائي عبر حقن المطالبات، وهو تهديد شائع في الأنظمة الوكيلية، واتخذنا إجراءات إضافية للتخفيف منه. يهدف حقن التعليمات إلى دفع النظام لتنفيذ سلوك غير مقصود عبر تعليمات خبيثة قد يصادفها أثناء عمله على الويب. فعلى سبيل المثال، قد تُخفى تعليمة ضارة داخل صفحة ما، سواء ضمن عناصر غير مرئية أو بيانات وصفية، ما قد يدفع الوكيل إلى تنفيذ إجراءات غير مرغوبة، مثل مشاركة بيانات خاصة من أحد الموصلات مع مهاجم، أو تنفيذ فعل ضار على موقع قام المستخدم بتسجيل دخوله إليه. وبما أن الوكيل قادر على اتخاذ إجراءات حقيقية، فإن أي هجوم ناجح يمكن أن تكون له تبعات أكبر ومخاطر أعلى.
لقد قمنا بتدريب الوكيل واختباره بدقة على اكتشاف ومنع حقن المطالبات، إلى جانب اعتماد أنظمة مراقبة للاستجابة بسرعة لأي نشاط مشبوه. كما يقلّل طلب تأكيد المستخدم الصريح قبل أي إجراء ذي عواقب من خطر هذه الهجمات، ويتيح للمستخدم التدخل وإيقاف المهمة أو استلام التحكم الكامل عند الحاجة. وينبغي للمستخدمين الموازنة بين هذه الاعتبارات عند تحديد نوع البيانات التي يزوّدون الوكيل بها، واتخاذ خطوات للحد من تعرضهم للمخاطر، مثل إيقاف الموصلات عندما لا تكون ضرورية لمهمة معينة.
كما نفّذنا مجموعة من إجراءات التخفيف المتعلقة بأخطاء النماذج، خصوصًا الآن بعدما أصبح بإمكان الوكيل تنفيذ مهام لها تأثير مباشر في العالم الحقيقي، مثل:
- تأكيد صريح من المستخدم: تم تدريب ChatGPT على طلب إذنك صراحةً قبل اتخاذ إجراءات ذات عواقب واقعية، مثل إجراء عملية شراء.
- الإشراف النشط ("وضع المراقبة"): تتطلب مهام حرجة، مثل إرسال رسائل بريد إلكتروني، إشرافًا مباشرًا من المستخدم لضمان صحة التنفيذ.
- التخفيف الاستباقي للمخاطر: تم تدريب ChatGPT على رفض المهام عالية الخطورة، مثل التحويلات البنكية.
وأخيرًا، أضفنا ضوابط إضافية للحد من البيانات التي يمكن للنموذج الوصول إليها:
- ضوابط الخصوصية: بنقرة واحدة في إعدادات ChatGPT، يمكنك حذف جميع بيانات التصفح وتسجيل الخروج فورًا من جميع الجلسات النشطة على الموقع. ما إذا لم تفعل ذلك، فستظل ملفات تعريف الارتباط الخاصة بكل موقع نشطة وفقًا لسياساته، مما يجعل الزيارات المتكررة أسرع وأكثر سلاسة.
- وضع التحكم الكامل للمتصفح: عند تفاعل النموذج مع الويب باستخدام متصفح ChatGPT، تظل مدخلاتك خاصة؛ إذ لا يقوم النموذج بجمع كلمات المرور أو تخزينها أو معالجة أي معلومات حساسة تدخلها أثناء هذه الجلسات، لأنه لا يحتاج إليها أصلاً، ويُعدّ تجاهلها أكثر أمانًا.
مع توسّع قدرات النموذج، اتخذنا قرارًا بالتعامل مع قدرات ChatGPT agent في المجالات البيولوجية والكيميائية المتقدمة ضمن إطار الاستعداد للطوارئ (Preparedness Framework)، وتفعيل مجموعة من ضوابط وتقنيات الحماية المخصّصة لها. ورغم عدم وجود دليل قاطع يشير إلى أن النموذج قادر على مساعدة شخص مبتدئ على التسبّب بضرر بيولوجي خطير، وهو مستوى خطورتنا الأعلى، إلا أننا نتعامل مع هذا المجال بحذر شديد، ونُطبّق مسبقًا جميع إجراءات الأمان اللازمة. ونتيجة لذلك، أصبح هذا النموذج يضم أكثر منظومات السلامة شمولًا حتى الآن في مجال الأحياء، بما يشمل نماذج متقدمة لتقييم التهديدات، وتدريبًا خاصًا لمنع إساءة الاستخدام، وآليات مراقبة للاستدلال والتصنيف، ومسارات واضحة لفرض معايير الأمان.
بالإضافة إلى جهودنا لتأمين ChatGPT agent، ندرك أن فعالية السلامة البيولوجية المتدرجة تتحقق فقط عندما تمتد إجراءات الحماية إلى ما هو أبعد من أي مختبر منفرد. ولهذا نتعاون مع مختلف الجهات ضمن المنظومة كلها لتعزيز الدفاعات وتطويرها. ومنذ اليوم الأول، عملنا مع خبراء الأمن الحيوي الخارجيين، ومعاهد السلامة، والباحثين الأكاديميين للمساهمة في تطوير نموذج التهديد لدينا، وعمليات التقييم، والسياسات المنظمة. كما قام مختصون في علوم الحياة بمراجعة بيانات التقييم، وأجرى خبراء ميدانيون اختبارات ضغط للتأكد من فعالية الإجراءات في السيناريوهات الواقعية. وخلال الشهر الحالي، عقدنا ورشة عمل موسعة للأمن الحيوي بمشاركة خبراء من القطاع الحكومي والأكاديمي والمنظمات غير الربحية، لدعم التعاون وتسريع أبحاث الحد من المخاطر المدعومة بالذكاء الاصطناعي. وسنواصل العمل إلى جانب شركائنا لمواكبة المخاطر الناشئة. سنواصل التعاون على المستوى العالمي للبقاء في مقدمة المخاطر الناشئة.
يمكنك قراءة المزيد حول منهجية الأمان المتقدمة الخاصة بنموذج الوكيل الموحد في بطاقة النظام، كما أطلقنا برنامج مكافآت الثغرات للمساهمة في اكتشاف ومعالجة المخاطر الواقعية.
سيبدأ طرح ChatGPT agent اعتبارًا من اليوم لمستخدمي الخطط Pro وPlus وTeam. سيحصل مستخدمو Pro على الإتاحة الكاملة بنهاية اليوم، بينما سيبدأ مستخدمو Plus وTeam بالحصول عليها خلال الأيام القليلة المقبلة. أما مستخدمو Enterprise وEducation فستصلهم خلال الأسابيع القادمة. يحصل مستخدمو Pro على 400 مطالبة شهريًا، بينما يحصل باقي المستخدمين المدفوعين على 40 مطالبة شهريًا، مع إمكانية شراء مطالب إضافية عبر خيارات تعتمد على الرصيد.
نواصل العمل على توفير الإتاحة لمنطقة المنطقة الاقتصادية الأوروبية وسويسرا قريبًا.
وسيظل موقع المعاينة البحثية لـOperator متاحًا لعدة أسابيع إضافية قبل إيقافه نهائيًا. أما deep research (البحث المتعمق) فهو جزء أساسي من قدرات ChatGPT agent. وإذا كنت تفضّل النسخة الأصلية من ميزة deep research (البحث المتعمق)، التي قد تستغرق وقتًا أطول لكنها توفر تحليلات أعمق افتراضيًا، فلا يزال بإمكانك الوصول إليها عبر اختيار "deep research" من القائمة المنسدلة في المُحرّر.
لا يزال ChatGPT agent في مراحله المبكرة. صحيح أنه قادر على تنفيذ مجموعة واسعة من المهام المعقدة، لكنه ما زال عرضة لارتكاب الأخطاء.
ورغم أننا نرى قدرة كبيرة في ميزة إنشاء الشرائح، فإن هذه الوظيفة لا تزال في المرحلة التجريبية. حاليًا، قد تبدو بعض المخرجات أولية في طريقة تنسيقها وصقلها، خصوصًا عند البدء دون مستند سابق. لقد ركّزنا في هذه النسخة الأولى على قدرة النموذج على إنتاج مواد تنظم المعلومات ضمن تسلسل مناسب للعروض التقديمية، وتشمل نصوصًا ورسومات وعناصر قابلة للتحرير أصلًا بعد التصدير، مما يحقق توازنًا أفضل بين الهيكلة والمرونة. ومع ذلك، لا تزال هناك فروقات بين العرض داخل المشغّل وبين ملف PowerPoint النهائي، ونعمل على تقليلها. كما أن القدرة الحالية على رفع جداول البيانات ليقوم ChatGPT بتحريرها أو استخدامها كقالب ليست متاحة بعد للشرائح، لكننا نقوم بالفعل بتدريب الجيل التالي من قدرات إنشاء الشرائح ليكون وقادرًا على إنتاج مخرجات أكثر تطورًا، مع تحسينات في التنسيق وتوسيع نطاق الأدوات المتاحة.
وبشكل عام، نتوقع استمرار تحسين كفاءة ChatGPT agent وفعاليته ومرونته عبر الوقت، بما في ذلك جعل التفاعل معه أكثر سلاسة، مع تقليل الحاجة إلى إشراف المستخدم قدر الإمكان دون المساس بالأمان.
SpreadsheetBench | ||||
نموذج | بيئة التقييم | القيود الناعمة (%): على مستوى الخلية | القيود الناعمة (%): على مستوى الورقة | القيود الطفيفة (%): إجمالاً |
GPT‑4o | Windows, Excel | 15.03 | 23.65 | 18.35 |
Copilot في Excel | Windows, Excel | 23.33 | 15.00 | 20.00 |
GPT‑4o | OSX، LibreOffice | 15.86 | 18.33 | 16.81 |
OpenAI o3 | OSX، LibreOffice | 22.40 | 24.60 | 23.25 |
وكيل ChatGPT | OSX، LibreOffice | 38.27 | 30.48 | 35.27 |
وكيل ChatGPT مع ملف .xlsx | OSX، LibreOffice | 50.56 | 37.51 | 45.54 |
الإنسان | 75.56 | 65.00 | 71.33 |
المؤلف
الهوامش
* عند تمكين التصفح، يمكن للنموذج أحيانًا العثور على إجابات دقيقة عبر الإنترنت، على سبيل المثال، من خلال قراءة منشورات المدونة التي تتضمن أمثلة على المشاكل من مجموعة بيانات. نخفف من مخاوف الغش في النموذج أثناء التصفح باستراتيجيتين:
1. المجالات المحظورة التي لاحظنا أن النموذج قد غش منها في الماضي.
2. استخدم نموذجًا إضافيًا كمراقب لفحص جميع رموز المخرجات المميزة في كل محاولة لتحديد السلوك المشبوه. يُعرّف السلوك المشبوه بأنه "صفحة أو ملف أو مقتطف يكون هدفه الرئيسي توفير الإجابة الدقيقة لهذا السؤال المحدد - مثل مفتاح تقدير رسمي أو خلاصة "حلول" مسربة أو مناقشة تقتبس الإجابة النهائية حرفيًا." يُعرّف السلوك الحميد بأنه "أي مصدر موثوق قد يستشيره الإنسان المجتهد (مثل الوثائق، الكتيبات، الأبحاث العلمية، المقالات ذات السمعة الطيبة) حتى لو كان يحتوي بالمصادفة على الإجابة الصحيحة." تُعتبر أي محاولات يراها المراقب مشبوهة غير صحيحة. كانت معظم العينات التي فشلت في هذا الفحص مشاكل كان حلها الدقيق متاحًا على مصادر متعددة على الإنترنت لا علاقة لها بـ HLE.
** تتمتع OpenAI بوصول حصري إلى 237 من أصل 290 سؤالًا خاصًا في مجموعة بيانات المستوى 1-3. أسئلة FrontierMath من المستوى 4 غير مشمولة في هذا التقييم. تم تقييم النتائج على أنها متوسط 16 محاولة للإجابة على كل سؤال. يتم استخراج نتائج وكيل ChatGPT بواسطة OpenAI، وتقييمها بواسطة Epoch AI، مع إمكانية الوصول إلى متصفح والمحطة، وبحد أقصى 128K token لكل إجابة. يتم استنباط وتقدير تقييمات OpenAI o4-mini وo3 بواسطة Epoch AI، دون الوصول إلى المتصفح أو المحطة، باستخدام نصوص Python عبر استدعاء الدوال، وبحد أقصى 100 ألف token لكل إجابة.
*** يشير Oracle@64 إلى أفضل نتيجة تم تحقيقها عبر 64 تجربة مختارة باستخدام الحقيقة الأساسية (أي، نختار المحاولة الأعلى نقاطًا لكل مهمة بناءً على الأداء الفعلي المقدر). نقوم بالإبلاغ عن متوسط هذه الدرجات الأفضل لكل مهمة عبر جميع المهام. يبرز هذا المقياس الإمكانات القصوى للنموذج والتباين في أداء المهام، مما يُظهر مدى قدرة النموذج عند النجاح ويشير إلى إمكانية تحسين الاتساق من خلال تدريب إضافي. على عكس المقاييس النموذجية "الأفضل من N"، التي تختار بناءً على ثقة النموذج، يستخدم Oracle@64 الحقيقة الأساسية للاختيار وينطبق على المهام التي تُصنف على مقياس مستمر من 0-1 بدلاً من مقياس النجاح/الرسوب الثنائي.


