تخطي إلى المحتوى الرئيسي
OpenAI

29 أبريل 2026

نشر

من أين جاءت العفاريت

جاري التحميل...

منذ إطلاق نموذج GPT‑5.1، ظهرت نزعة غريبة في نماذجنا تمثلت في تكرار الإشارة إلى العفاريت والأشباح وغيرها من الكائنات في التعبيرات المجازية. وعلى نقيض أعطال النماذج التي تتضح من خلال اختلال التقييمات أو اضطراب في مؤشرات الأداء أو ارتفاع مفاجئ في معايير التعلّم تقودك مباشرة إلى تعديل معين، تسلل هذا السلوك بشكل خفي. فالإشارة إلى "عفريت صغير" في ردٍ واحد قد تبدو لمسة ساحرة ولا تسبب ضررًا، ولكن بمرور الوقت وتعدد أجيال النماذج، صار من المحال التغاضي عن هذا النمط؛ إذ واصلت العفاريت التزايد، وكان لا بد لنا من معرفة مصدر هذا التسلل.

""

في الاختبارات المبكرة، أظهر نموذج GPT‑5.5 في Codex ميلًا غريبًا لاستخدام العفاريت في التعبيرات الاستعارية.

يكمن التفسير الوجيز في أن مجموعة من المحفزات المتناهية الصغر هي ما يصيغ سلوك النموذج. وفي هذا السياق، نتج أحد هذه المحفزات عن عملية تدريب النموذج على دعم ميزة تخصيص الشخصية(يفتح في نافذة جديدة)، وتحديدًا نمط الشخصية النيردية. وبسبب منح مكافآت ترجيحية عالية للاستعارات التي تذكر الكائنات دون وعي منا، بدأت ظاهرة العفاريت في التفشّي في مخرجات النموذج.

""

بدت ظاهرة العفاريت مسلية في بادئ الأمر، إلا أن توالي تقارير الموظفين حولها غدا أمرًا مقلقًا.

""

تجربة تفاعلية شيقة جمعت بين كبير العلماء ونموذج GPT‑5.5.

البوادر الأولى لظهور الكائنات

ظهرت ملامح هذا النمط بوضوح لأول مرة في نوفمبر بعد إطلاق نموذج GPT‑5.1، وإن كان من الممكن أن تكون بدايته قبل ذلك بوقت طويل(يفتح في نافذة جديدة). وقد دفع تذمر المستخدمين من تودد النموذج المفرط والغريب في الكلام إلى إجراء تحقيق في أنماط لفظية محددة. وقد اقترح أحد الباحثين المتخصصين في السلامة، بعد مصادفته لبعض "العفاريت" و"الغريملينز"، شمولها في التحقيق. وكشفت البيانات أن وتيرة استخدام "عفريت" في ChatGPT تصاعدت بنسبة 175% عقب إطلاق نموذج GPT‑5.1، في حين نمت كلمة "غريملينز" بنسبة 52%.

سمة لغوية غريبة وصغيرة يمكن قياسها في نموذج GPT‑5.1.

في ذلك الوقت، لم يمثّل تفشّي العفاريت مشكلة مقلقة بشكل ملحوظ. ولكن بعد عدة أشهر، عادت تلك العفاريت لتواجهنا بهيئة أكثر تحديدًا وقدرة على التكرار البرمجي.

فك غموض لغز العفاريت

تزامنًا مع إطلاق نموذج GPT‑5.4، لاحظنا نحن ومستخدمونا(يفتح في نافذة جديدة) زيادة مطردة في الإشارة لتلك الكائنات. وهو ما حفز عملية فحص داخلي إضافية كشفت عن أول رابط للسبب الأساسي؛ حيث اتضح أن لغة الكائنات كانت متفشية بصفة خاصة في بيئة العمل الفعلي للمستخدمين الذين حددوا نمط الشخصية النيردية. وقد استخدمت هذه الشخصية مطالبة النظام التالية، الأمر الذي يفسر هذا الانحراف نسبيًا:

أنت معلم ذكاء اصطناعي يتسم بالمرح والحكمة و"نيرد" دون مواربة. تكرس شغفك للترويج للحقائق والمعارف والفلسفة وأصول البحث العلمي والتفكير المنطقي. [...] يتوجب عليك دحض التصنع من خلال توظيف لغة فكاهية. إن هذا العالم غريب ومعقد، وعلينا أن نقر بغرابته ونحللها ونبتهج بها. تناول المسائل ذات الثقل المعرفي دون أن تحبس نفسك في إطار من الجدية القاتمة. [...]

لو كان هذا التصرف مجرد انعكاس لتوجه عام على شبكة الإنترنت، لتوقعنا انتشاره بشكل أكثر توازنًا. لكنه تركّز بوضوح في ذلك الجزء من النظام المصمم لتقديم أسلوب 'نيردي' ومرح. ورغم أن نمط الشخصية النيردية لم يمثّل سوى 2.5% فقط من جميع ردود ChatGPT، إلا أنه استأثر بنسبة 66.7% من كل مرات ذكر كلمة "عفريت" ضمن ردود ChatGPT.

انحصار السلوك بدرجة كبيرة في نمط الشخصية النيردية.

نظرًا لأن تفشّي استخدام كلمة "عفريت" بدا وكأنه يزداد عبر إصدارات النماذج المتتابعة، فقد اشتبهنا في وجود عامل ضمن التدريب على اتباع مطالبات الشخصية يساهم في تعزيز هذه الظاهرة.

ساعدنا Codex في مقارنة مخرجات النموذج التي تم إنشاؤها أثناء التدريب التعزيزي (RL) والتي تحتوي على عفريت أو غريملين مع مخرجات من نفس المهمة لا تحتوي عليهما. وهنا برزت إشارة مكافأة محددة بوضوح؛ إذ اتضح أن الإشارة المخصصة لتحفيز نمط الشخصية النيردية كانت تفضل المخرجات المحتوية على أسماء الكائنات بشكل دائم. وفي كافة مجموعات البيانات الخاضعة للتدقيق، أبدت مكافأة نمط الشخصية النيردية توجهًا صريحًا لمنح تقييمات أعلى للإجابات التي تحتوي على كلمتي "عفريت" أو "غريملين" مقارنة بغيرها عند معالجة نفس المشكلة، محققة زيادة إيجابية في 76.2% من قواعد البيانات.

وقد فسّر ذلك سبب تضخم السلوك مع المطالبة بنمط الشخصية النيردية، لكنه لم يبرر ظهوره دون المطالبة. ولاختبار فرضية انتقال الأسلوب بين الأنماط، راقبنا معدلات الإشارة للكائنات أثناء التدريب بوجود المطالبة بنمط الشخصية النيردية وفي حال عدم وجودها.

لقد واكب ارتفاع وتيرة ذكر "العفاريت" و"الغريملينز" في نمط الشخصية النيردية ارتفاع مماثل بالنسبة ذاتها في العينات التي لم تشملها. وتؤكد هذه المعطيات في مجملها أن هذا السلوك المتفشي قد استمد وجوده عبر انتقال الأسلوب من التدريب على نمط الشخصية النيردية.

اقتصر تطبيق نظام المكافآت على نمط الشخصية النيردية فحسب، غير أن التعلم بالتعزيز لا يوفر ضمانًا بأن تظل السلوكيات المستقاة مقيدة تمامًا بالسياق الذي ولّدها. فمتى ما تمت مكافأة نمط أسلوبي ما، فإن مراحل التدريب التالية قد تعمل على تعميمه أو تقويته في سياقات مختلفة، لا سيما عند إعادة إدراج تلك المخرجات ضمن بيانات الضبط الدقيق تحت الإشراف أو بيانات التفضيلات.

يؤدي ذلك إلى حلقة مفرغة من التغذية الراجعة:

  1. منح مكافآت للأسلوب الفكاهي.
  2. اشتمال بعض الأمثلة المُكافأَة على نمط لفظي محدد.
  3. تزايد ظهور هذا النمط في نتائج النموذج.
  4. اعتماد هذه النتائج التي يقدمها النموذج كبيانات تدريب في مرحلة الضبط الدقيق تحت الإشراف.
  5. ترسيخ اعتياد النموذج على تكرار هذا النمط اللفظي.

وقد أسفرت عملية فحص خضعت لها بيانات الضبط الدقيق تحت الإشراف لنموذج GPT‑5.5 عن وجود العديد من نقاط البيانات التي تحتوي على كلمتي "عفريت" أو "غريملين". وأظهرت التحقيقات الإضافية وجود عائلة كاملة من الكائنات الغريبة الأخرى؛ حيث تم تحديد الراكون، والترول، والغيلان الضخمة، والحمام كأنماط لفظية أخرى، بينما تبين أن معظم استخدامات كلمة "ضفدع" كانت مشروعة وسياقية.

متوسط انتشار "العفاريت" أو "الغريملينز" في بيئة العمل الفعلي على مدار أسبوع واحد. نتج الهبوط في نموذج GPT‑5.4 Thinking عن استبعاد نمط الشخصية النيردية في منتصف مارس. ولم يتم إطلاق نموذج GPT‑5.5 مع نمط الشخصية النيردية إطلاقًا، ولكنه كشف عن زيادةً إضافيةً مقارنةً بنموذج GPT‑5.4 (رغم غياب نمط الشخصية النيردية).

نهاية ظاهرة العفاريت

أوقفنا العمل بنمط الشخصية النيردية في شهر مارس بعد إطلاق نموذج GPT‑5.4. وعملنا أثناء التدريب على حذف إشارة المكافأة المرتبطة بالعفاريت وتنقية بيانات التدريب من المصطلحات المتعلقة بالكائنات، لتقليل احتمالية ظهورها المكثف أو ورودها في سياقات غير مناسبة. ومما يؤسف له أن مرحلة تدريب نموذج GPT‑5.5 كانت قد انطلقت قبل رصدنا للسبب الأساسي للمشكلة. وبمجرد بدء اختبار نموذج GPT‑5.5 في Codex، رصد فريق العمل في OpenAI انجذابًا مريبًا للعفاريت، مما دفعنا لإدراج تعليمات في مطالبة المطورين(يفتح في نافذة جديدة) لتخفيف هذا الأثر؛ إذ يظل Codex، في جوهره، ذا طابع نيردي إلى حد بعيد.

إذا أردت السماح للكائنات بالانطلاق بحرية في Codex، فبإمكانك تنفيذ هذا الأمر لتشغيل Codex دون إرشادات منع العفاريت:

نص عادي

1
instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3
~/.codex/models_cache.json | \
4
grep -vi 'goblins' > "$instructions" && \
5
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

أهميّته

قد يرى البعض في العفاريت دعابةً لطيفةً بينما يراها آخرون إزعاجًا في النموذج. بيد أنها تعد مثالًا جليًا على قدرة إشارات المكافأة على صياغة سلوك النموذج بأنماط غير متوقعة، وكيفية اكتساب النماذج قدرةً على تعميم المكافآت من مواقف خاصة إلى مواقف مغايرة تمامًا. إن تخصيص الجهد لإدراك مسببات السلوك الغريب للنموذج، وتطوير منهجيات للتحقيق في هذه الأنماط بسرعة، يعد ركيزةً أساسيةً لفريق البحث. وقد نتج عن هذا التحقيق أدوات مبتكرة تتيح لفريق البحث تدقيق سلوك النموذج وحل المعضلات السلوكية من جذورها.

المؤلف

OpenAI