
في OpenAI، ينصب تركيزنا على بناء أنظمة ذكاء اصطناعي تتسم بالفائدة القصوى والموثوقية المطلقة. ولكن مع ازدياد قدرات النماذج اللغوية وتطورها، يبقى تحديًا واحدًا لا يزال عصيًا على الحل الجذري: هلوسة النماذج. وهي مخرجات يقدّمها النموذج بثقة كاملة، رغم أنها خاطئة تمامًا. تكشف ورقتنا البحثية الجديدة(يفتح في نافذة جديدة) أن النماذج اللغوية تهلوس لأن إجراءات التدريب والتقييم القياسية تكافئها على التخمين بدلاً من الاعتراف بعدم اليقين من المعلومة.
حتى ChatGPT عرضة للهلوسة أحيانًا. ورغم أن نموذج GPT‑5 يُظهر عددًا أقل بكثير من الهلوسات، خاصة في المهام التي يستخدم فيها التفكير المنطقي المتعمق، إلا أن هذه النوبات ما زالت تحدث. تظل الهلوسة تحديًا جوهريًا لكافة النماذج اللغوية الضخمة، ولكننا ملتزمون بالعمل الجاد لتقليلها بشكل مستمر.
نوبات الهلوسة هي عبارات تبدو مقنعة لكنها خاطئة، تنشئها النماذج اللغوية. ويمكن أن تظهر هذه الهلوسات بشكل مفاجئ وغير متوقع، حتى في الإجابة عن أبسط الأسئلة وأكثرها وضوحًا. على سبيل المثال، سألنا روبوت محادثة شائعًا عن عنوان أطروحة دكتوراة تخص الباحث Adam Tauman Kalai (أحد مؤلفي هذه الورقة البحثية)، وقد قدّم بثقة ثلاث إجابات مختلفة، كلها خاطئة. وعندما سُئل عن تاريخ ميلاده، أعطانا ثلاثة تواريخ مختلفة، كلها خاطئة أيضًا.
يعود استمرار نوبات الهلوسة بشكل جزئي إلى أن التقييمات الحالية تمنح النماذج حوافز غير مناسبة. وفي حين أن التقييمات لا تُعد سببًا مباشرًا للهلوسة، فإن منهجيتها تقيس أداء النموذج بطريقة تكافئ التخمين وتثبط الاعتراف بعدم اليقين من المعلومة.
يمكن تشبيه الأمر بامتحان الاختيار من متعدد. ففي هذا النوع من الاختبارات، التخمين العشوائي قد ينجح وتصيب الإجابة، بينما عدم الإجابة مطلقًا يضمن الحصول على صفر. وبالمثل، عندما تُقيَّم النماذج فقط على أساس الدقة (أي نسبة الإجابات الصحيحة تمامًا)، يتم تشجيعها على التخمين بدلًا من قول "لا أعرف".
لننظر إلى مثال آخر: إذا سُئل نموذج لغوي عن تاريخ ميلاد شخص وهو لا يعرف الإجابة. عند تخمين الإجابة، وليكن "10 سبتمبر"، يمنح احتمالية ضئيلة للنجاح تبلغ 1 إلى 365. في المقابل، الإجابة بـ "لا أعرف" تعني الحصول على صفر. وعند الإجابة على آلاف الأسئلة، يتضح أن النموذج المخمِّن يتفوق في جداول الدرجات على النموذج الحذر الذي يختار الاعتراف بعدم اليقين من المعلومة.
يمكن تصنيف إجابات النماذج على الأسئلة التي لها إجابة واحدة إلى ثلاث فئات رئيسية: إجابات دقيقة، وأخطاء، والامتناع عن التخمين لكيلا يقدم النموذج تخمينًا خاطئًا. ويمثل الامتناع قيمة التواضع، وهي أحد القيم الأساسية لشركة OpenAI. وفي حين تُقيّم معظم جداول الدرجات النماذج حسب الدقة، نحن نرى أن الخطأ أشد سوءًا بكثير من الامتناع. ولهذا، تنص مواصفات نماذجنا(يفتح في نافذة جديدة) بوضوح على أن الأولوية هي للإشارة إلى عدم اليقين من المعلومة أو طلب التوضيح، بدلًا من تقديم معلومات واثقة يُحتمل أن تكون خاطئة.
يتجلّى هذا الأمر في تقييم SimpleQA ضمن بطاقة نظام GPT5(يفتح في نافذة جديدة).
مؤشر التقييم | gpt-5-thinking-mini | OpenAI o4-mini |
معدل الامتناع | 52% | 1% |
معدل الدقة | 22% | 24% |
معدل الخطأ | 26% | 75% |
الإجمالي | 100% | 100% |
فيما يخص الدقة، يتفوق النموذج الأقدم OpenAI o4-mini تفوقًا طفيفًا؛ لكن معدل أخطائه (معدل الهلوسة) أعلى بكثير. فحين يلجأ النموذج إلى التخمين عند غياب اليقين من المعلومة، تتحسن الدقة نسبيًا، ولكنه يتسبب بزيادة حتمية في الأخطاء ونوبات الهلوسة.
يركز حساب متوسط التقييمات على معدل الدقة، وهو ما يقدم رؤية مبسطة ومضللة تحصر أداء النموذج في ثنائية الصحيح أو الخاطئ. وبينما تحقق النماذج دقة تقترب من 100% في التقييمات المبسطة (مثل SimpleQA) حيث تغيب الهلوسة، فإن هذا يتغير في التقييمات الأكثر صعوبة والتطبيقات العملية، حيث يستحيل الوصول إلى دقة 100%. ويرجع ذلك إلى مجموعة من الأسباب، تتضمن نقص المعلومات الكافية، ومحدودية قدرات التفكير في النماذج الأصغر، أو وجود غموض في السؤال يستلزم التوضيح.
مع ذلك، تواصل جداول الدرجات المعتمدة على الدقة المطلقة الهيمنة على قوائم الترتيب وبطاقات النماذج، وهو ما يدفع المطورين نحو بناء نماذج تميل إلى التخمين بدلًا من الامتناع. هذا يفسر جوهر المشكلة: فالنماذج، رغم تطورها، تستمر في الوقوع في نوبات الهلوسة، حيث تقدم بثقة معلومات غير صحيحة بدلًا من الاعتراف بعدم اليقين من المعلومة.
الحل واضح وبلا تعقيد: يجب أن يكون تقييم الإجابات الخاطئة المقدمة بثقة أكثر صرامة، مقارنةً بحالات عدم اليقين، ومنح درجة جزئية مكافأة للتعبير المناسب عن عدم اليقين. وليست هذه الفكرة جديدة. فلطالما اعتمدت الاختبارات المعيارية نظام الخصم الإضافي على الإجابات الخاطئة أو المكافأة الجزئية عند ترك السؤال فارغًا، وذلك بهدف تقليل التخمين الأعمى. وقد بحثت المجموعات العلمية بالفعل في آليات تقييم تراعي عامل عدم اليقين وتضبط عملية القياس.
أما رؤيتنا فمختلفة جذريًا: لا يكفي إضافة اختبارات قليلة تُعنى بعدم اليقين. بل يجب إعادة صياغة شاملة للتقييمات القائمة على الدقة والمستخدمة على نطاق واسع، بحيث تكون آليات تصحيحها ووضع درجاتها لا تشجع التخمين أبدًا. وإذا واصلت جداول الدرجات الأساسية في مكافأة التخمينات العشوائية الصحيحة، فسيبقى سلوك النماذج متجهًا نحو التخمين. إن إصلاح جداول الدرجات هذه هو ما سيعزز من تبنّي أساليب الحد من الهلوسة، سواء كانت تلك المطوّرة حديثًا أو المستمدة من أبحاث سابقة.
بعد أن ناقشنا صعوبة التخلص من الهلوسة، يبقى التساؤل الأهم: من أين تنشأ هذه المغالطات المحددة بدقة في المقام الأول؟ فمن النادر جدًا أن تُظهر النماذج الضخمة المدربة مسبقًا أخطاءً بسيطة كالأخطاء الإملائية أو الأقواس غير المتطابقة. ويكمن جوهر الاختلاف في طبيعة الأنماط الموجودة في البيانات.
تعتمد النماذج اللغوية في تعلمها الأولي على التدريب المسبق، وهي عملية تهدف إلى التنبؤ بالكلمة التالية ضمن كميات هائلة من البيانات النصية. على عكس التعلم الآلي التقليدي، لا يتم ربط أي تصنيف "صواب/خطأ" بكل عبارة. ويكتفي النموذج برؤية الأمثلة الإيجابية للغة الفصيحة، وعليه محاكاة التوزيع الشامل للغة بصورة تقريبية.
يتضاعف التحدي في التمييز بين العبارات الصحيحة وغير الصحيحة عندما تغيب الأمثلة المصنفة على أنها غير صحيحة. ولكن، حتى مع وجود التسميات، تظل بعض الأخطاء حتمية. ولمعرفة السبب، سنأخذ تشبيهًا أبسط: في التعرّف على الصور، يمكن للخوارزميات تصنيف ملايين صور القطط والكلاب بشكل موثوق إذا وُسمت بوسوم "قط" أو "كلب". لكن، تخيل أن تُوسم كل صورة بتاريخ ميلاد الحيوان عوضًا عن ذلك. وبما أن تواريخ الميلاد عشوائية وليست نمطية، فستظهر الأخطاء حتمًا، بغض النظر عن قوة الخوارزمية.
ينطبق هذا المبدأ ذاته على مرحلة التدريب المسبق. في اللغة، تتبع أنماط الإملاء والأقواس قواعد واضحة، فتختفي أخطاؤها بالتوسع في التدريب. لكن الحقائق العشوائية ومنخفضة التكرار لا يمكن التنبؤ بها عبر الأنماط وحدها، وهي التي تؤدي إلى نوبات الهلوسة. يوضّح تحليلنا أنواع الهلوسات التي تنشأ من عملية تنبؤ الكلمة التالية. ورغم أنه يجب إزالة هذه الأخطاء في المراحل اللاحقة بعد التدريب المسبق، إلا أن هذا المسعى لم ينجح تمامًا للأسباب التي فصّلناها سابقًا.
يقدّم المنظور الإحصائي في ورقتنا البحثية توضيحًا حاسمًا لطبيعة نوبات الهلوسة، ويهدف إلى دحض المفاهيم الخاطئة الشائعة التالية:
- الادعاء: يمكن القضاء على الهلوسة ببساطة عبر تحسين الدقة، على افتراض أن النموذج الذي يبلغ دقة 100% لن يهلوس أبدًا.
النتيجة: من المستحيل أن تصل الدقة إلى 100%؛ إذ إن بعض الأسئلة في العالم الحقيقي يستحيل الإجابة عنها بطبيعتها، بغض النظر عن حجم النموذج أو قدراته على البحث واستخدام التفكير المنطقي المتعمق. - الادعاء: الهلوسة أمر حتمي ولا مفر منه في النماذج اللغوية.
النتيجة: هذا غير صحيح بالمرة؛ فتلك النماذج اللغوية قادرة على الامتناع عن الإجابة عندما تكون غير متأكدة. - الادعاء: يتطلب تجنب الهلوسة درجة من الذكاء لا يمكن تحقيقها إلا عبر النماذج الكبيرة.
النتيجة: قد يكون من الأسهل على النموذج الصغير معرفة حدوده. على سبيل المثال، يمكن لنموذج صغير لا يمتلك أي معرفة بلغة الماوري أن يجيب ببساطة "لا أعرف". في المقابل، يواجه النموذج الذي يمتلك معرفة جزئية تحدي تحديد مستوى ثقته. وتؤكد ورقتنا البحثية أن تحقيق "المعايرة" يستلزم جهدًا حسابيًا أقل بكثير من تحقيق الدقة. - الادعاء: الهلوسات هي خلل غامض في النماذج اللغوية الحديثة.
النتيجة: نحن نفهم تمامًا الآليات الإحصائية التي تنشأ من خلالها الهلوسات وتُكافأ في التقييمات. - الادعاء: لقياس الهلوسة، نحتاج فقط إلى تقييم جيد ومخصص للهلوسة.
النتيجة: رغم نشر تقييمات مخصصة للهلوسة، فإن تأثير تقييم واحد جيد يظل ضئيلًا أمام مئات التقييمات التقليدية القائمة على الدقة، والتي تعاقب التواضع وتكافئ التخمين. وبدلًا من الحلول الجزئية، يجب إعادة تصميم جميع مؤشرات التقييم الأساسية لمكافأة التعبير الصادق عن عدم اليقين من المعلومة.
تُظهر نماذجنا الأحدث انخفاضًا ملحوظًا في معدلات الهلوسة، ونحن ملتزمون بمواصلة العمل لخفض معدلات الأخطاء الواثقة التي تنتجها نماذجنا بشكل جذري.
المساهمون في الإعلان
Adam Kalai وSantosh Vempala (Georgia Tech) وOfir Nachum وEddie Zhang وDavid Robinson وSaachi Jain وEric Mitchell وAlex Beutel وJohannes Heidecke


