13 نوفمبر 2025

فهم الشبكات العصبية عبر الدوائر المتفرقة

لقد حرصنا على تدريب النماذج على التفكير بخطوات أبسط وأكثر قابلية للتتبع، وذلك لنتمكن من فهم طريقة عملها بشكل أفضل.

جاري التحميل...

تشغّل الشبكات العصبية أقوى أنظمة الذكاء الاصطناعي اليوم، إلا أنها لا تزال صعبة الفهم والتفسير. نحن لا نكتب هذه النماذج بتعليمات واضحة ومفصلة خطوة بخطوة. بدلاً من ذلك، تتعلم من خلال تعديل مليارات الوصلات الداخلية، أو "الأوزان"، حتى تتقن مهمة بعينها. نحن نصمم قواعد التدريب، وليست السلوكيات المحددة التي تنشأ، والنتيجة هي شبكة معقدة من الروابط التي لا يستطيع أي إنسان فك رموزها بسهولة.

وجهة نظرنا حول قابلية التفسير

مع تزايد قدرات أنظمة الذكاء الاصطناعي وتأثيرها المباشر في القرارات في مجالات العلوم والتعليم والرعاية الصحية، أصبح فهم طريقة عملها أمرًا ضروريًا. تشير قابلية التفسير إلى الأساليب التي تساعدنا على فهم سبب إنتاج النموذج لنتيجة معينة. ثمة العديد من الطرق التي يمكننا من خلالها تحقيق ذلك.

على سبيل المثال، يتم تحفيز نماذج التفكير لتوضيح خطوات عملها في أثناء الوصول إلى الإجابة النهائية. تستفيد قابلية تفسير تسلسل التفكير من هذه التفسيرات لمراقبة سلوك النموذج. هذا مفيد على الفور: يبدو أن سلاسل التفكير في نماذج التفكير الحالية تقدم معلومات مفيدة فيما يتعلق بالسلوكيات المثيرة للقلق مثل الخداع. ومع ذلك، فإن الاعتماد الكامل على هذه الخاصية يُعد إستراتيجية هشة، وقد يتعطل هذا بمرور الوقت.

من ناحية أخرى، تهدف قابلية التفسير الميكانيكية، والتي تُعد محور هذا العمل، إلى إعادة هندسة حسابات النموذج بالكامل. فقد كانت حتى الآن أقل فائدة بشكل مباشر، ولكن من حيث المبدأ، يمكن أن تقدم تفسيرًا أكثر اكتمالاً لسلوك النموذج. ومن خلال السعي إلى تفسير سلوك النموذج على المستوى الأكثر تفصيلاً، يمكن للتفسير الميكانيكي أن يقلل من الافتراضات ويزيد من ثقتنا. لكن الطريق من التفاصيل الدقيقة إلى تفسيرات السلوكيات المعقدة أطول بكثير وأكثر صعوبة.

تدعم قابلية التفسير عدة أهداف رئيسية، مثل تمكين الرقابة الأفضل وتقديم إشارات تحذيرية مبكرة لسلوكيات غير آمنة أو غير متوافقة استراتيجيًا. كما أنه يكمل جهودنا الأخرى في مجال السلامة، مثل الرقابة القابلة للتطوير، والتدريب على المواجهة، وتشكيل فرق التحدي.

في هذا العمل، نوضح أنه يمكننا غالبًا تدريب النماذج بطرق تجعل من السهل تفسيرها وفهمها. نرى عملنا كمكمل واعد للتحليل اللاحق للشبكات الكثيفة.

يُعد هذا رهانًا طموحًا للغاية؛ فالمسافة طويلة بين ما نقدمه من عمل اليوم وفهمنا الكامل للسلوكيات المعقدة لأقوى نماذجنا. ومع ذلك، بالنسبة إلى السلوكيات البسيطة، نجد أن النماذج المتفرقة التي تم تدريبها باستخدام طريقتنا تحتوي على دوائر صغيرة مفككة، مفهومة وكافية لأداء السلوك. يشير هذا إلى أنه قد يكون هناك مسار سهل نحو تدريب أنظمة أكبر يمكننا فهم آلياتها.

نهج جديد: تعلّم النماذج المتفرقة

بدأت الأعمال السابقة في مجال قابلية التفسير الميكانيكية من شبكات كثيفة ومعقدة، وحاولت فك تشابكها. في هذه الشبكات، تتصل كل خلية عصبية فردية بآلاف الخلايا العصبية الأخرى. يبدو أن معظم الخلايا العصبية تؤدي العديد من الوظائف المتميزة، ما يجعل من المستحيل فهمها على ما يبدو.

لكن ماذا لو قمنا بتدريب شبكات عصبية غير متشابكة، تحتوي على عدد أكبر من الخلايا العصبية، بحيث يرتبط كل عصبون بعدد قليل من الوصلات فقط؟ ثم ربما تصبح الشبكة الناتجة أبسط وأسهل في الفهم. هذا هو الرهان البحثي المركزي لعملنا.

مع وضع هذا المبدأ في الحسبان، حرصنا على تدريب نماذج لغوية ذات بنية مشابهة جدًا للنماذج اللغوية الحالية مثل GPT‑2، مع تعديل بسيط واحد: أجبرنا الغالبية العظمى من أوزان النموذج على أن تكون أصفارًا. هذا قيَّد النموذج لاستخدام عدد قليل جدًا من الوصلات الممكنة بين خلاياه العصبية. وهذا تغيير بسيط نرى أنه يفك بشكل كبير التشابك بين الحسابات الداخلية للنموذج.

مخطط يقارن بين الدوائر الكثيفة والدوائر المتفرقة. تُظهِر النسخة الكثيفة صفين من العقد مع العديد من الخطوط المترابطة، بينما تُظهِر النسخة المتفرقة التخطيط نفسه ولكن مع عدد أقل من الوصلات الانتقائية.

في الشبكات العصبية الكثيفة التقليدية، يرتبط كل عصبون بجميع العصبونات في الطبقة التالية. في نماذجنا المتناثرة، ترتبط كل خلية عصبية بعدد قليل فقط من الخلايا العصبية في الطبقة التالية. نأمل أن يُسهِّل هذا فهم الخلايا العصبية والشبكة ككل.

تقييم قابلية التفسير

نسعى إلى قياس مدى تفكيك الحسابات في نماذجنا المتفرقة. لقد حرصنا على دراسة سلوكيات النماذج البسيطة المختلفة، وتحققنا مما إذا كان بإمكاننا عزل الأجزاء المسؤولة عن كل سلوك في النموذج - والتي نطلق عليها الدوائر.

لقد حرصنا على إعداد مجموعة مختارة بعناية من المهام الخوارزمية البسيطة. وبالنسبة إلى كل منها، حرصنا على تقليص النموذج إلى أصغر دائرة يمكنها أداء المهمة، ودرسنا مدى بساطة تلك الدائرة. (للمزيد من التفاصيل، يُرجى الاطلاع على ورقتنا⁠(يفتح في نافذة جديدة).) وجدنا أنه من خلال تدريب نماذج أكبر وأكثر تباعدًا، يمكننا إنتاج نماذج ذات قدرات متزايدة مع دوائر أبسط بشكل متزايد.

مخطط نقاط يوضح قدرة النموذج (خسارة التدريب المسبق) على المحور الأفقي مقابل قابلية تفسيره (حجم الدائرة المقلمة) على المحور الرأسي. تمثل النقاط نماذج بأحجام ومستويات تباعد مختلفة، حيث يشير اللون إلى إجمالي المعلمات ويشير حجم العلامة إلى عدد المعلمات غير الصفرية. تُشير الأسهم إلى الاتجاه العلوي الأيمن على أنه "أفضل".

نرسم قابلية التفسير مقابل القدرة عبر النماذج المختلفة (الزاوية السفلى اليسرى تشير إلى أداء أفضل). بالنسبة إلى حجم النموذج المتفرق الثابت، فإن زيادة التفرقة - أي تعيين المزيد من الأوزان إلى الصفر - تقلل من القدرة ولكنها تزيد من قابلية التفسير. توسيع حجم النموذج يدفع بهذه الحدود إلى الخارج، ما يوحي بإمكانية بناء نماذج أكبر تكون قادرة وقابلة للتفسير.

لتوضيح ذلك، لنأخذ مثالاً على مهمة يطلب فيها من نموذج مدرّب على لغة Python إكمال سلسلة نصية باستخدام النوع الصحيح من علامات الاقتباس. في لغة Python، يجب أن تنتهي الكلمة ‘hello’ بعلامة اقتباس مفردة، ويجب أن تنتهي الكلمة “hello” بعلامة اقتباس مزدوجة. يمكن للنموذج حل هذه المشكلة عن طريق تذكر نوع علامات الاقتباس التي فتحت السلسلة وإعادة إنتاجها في النهاية.

يبدو أن نماذجنا الأكثر قابلية للتفسير تحتوي على دوائر مفككة تقوم بتنفيذ تلك الخوارزمية بدقة.

مخطط يوضح مثالاً لدائرة في محول متفرق. يوضح كيف يتم تفعيل الخلايا العصبية ورؤوس الانتباه المحددة استجابة لرموز الإدخال المميزة مثل "(" و "الدوائر"، مع مسارات موضحة للأوزان الإيجابية والسلبية، والضرب، واللاخطية، والروابط بين طبقات MLP والانتباه، ما يؤدي إلى احتمالات رموز المخرجات المميزة.

مثال لدائرة في محول متفرق تتنبأ بما إذا كانت السلسلة ستنتهي بعلامة اقتباس واحدة أم مزدوجة. تستخدم هذه الدائرة خمس قنوات متبقية فقط (خطوط رمادية عمودية)، وخلية عصبية متعددة الطبقات في الطبقة 0، وقناة واحدة للاستعلامات وقناة واحدة للقيمة في الطبقة 10. يقوم النموذج بما يلي (1) ترميز علامات الاقتباس المفردة في قناة متبقية واحدة وعلامات الاقتباس المزدوجة في قناة أخرى؛ (2) استخدام طبقة MLP لتحويل ذلك إلى قناة تكتشف أي علامة اقتباس وأخرى تصنف بين علامات الاقتباس المفردة والمزدوجة؛ (3) استخدام عملية انتباه لتجاهل الرموز المتداخلة، والعثور على علامة الاقتباس السابقة، ونسخ نوعها إلى الرمز الأخير؛ و (4) التنبؤ بعلامة الاقتباس الختامية المطابقة.

وفق تعريفنا، فإن الروابط الدقيقة الموضحة أعلاه كافية لأداء المهمة — إذا أزلنا بقية النموذج، فإن هذه الدائرة الصغيرة ستظل قادرة على العمل. إنها ضرورية أيضًا - يؤدي حذف هذه الحواف القليلة إلى فشل النموذج.

كما درسنا أيضًا بعض السلوكيات الأكثر تعقيدًا. من الصعب تفسير دوائرنا لهذه السلوكيات (مثل ربط المتغيرات الموضح أدناه) بشكل كامل. حتى في هذه الحالة، لا يزال بإمكاننا تحقيق تفسيرات جزئية بسيطة نسبيًا تتنبأ بسلوك النموذج.

مخطط يوضح دائرة نموذجية في محول متفرق ضمن الدالة get_neighbors في لغة Python. يتم وضع التعيينين للمتغير current = set() في مربعات، مع أسهم ملونة توضح رؤوس الانتباه (الموسومة بمؤشرات Q/K/V) التي تفعل لربط كل ظهور للمتغير current باستخدامه في الحلقة.

مثال آخر لدائرة، بتفاصيل أقل. لتحديد نوع المتغيّر المسمّى current، تقوم عملية انتباه بنسخ اسم المتغيّر إلى الرمز set() عند تعريفه، وعملية أخرى لاحقة بنسخ النوع من الرمز set() إلى استخدام لاحق للمتغيّر، ما يسمح للنموذج باستنتاج الرمز التالي الصحيح.

الطريق أمامنا

يمثل هذا العمل خطوة أولى نحو هدف أكبر: تسهيل فهم حسابات النماذج. ولكن لا يزال أمامنا طريق طويلة. إن نماذجنا المتفرقة أصغر بكثير من النماذج المتقدمة، وتظل أجزاء كبيرة من حساباتها غير مفسرة.

نسعى في المرحلة التالية إلى توسيع نطاق تقنياتنا لتشمل نماذج أكبر، وشرح المزيد من سلوك النماذج. من خلال تعداد الأنماط الدائرية التي تكمن وراء التفكير الأكثر تعقيدًا في النماذج المتفرقة القادرة، يمكننا تطوير فهم يساعدنا على استهداف التحقيقات في النماذج المتقدمة بشكل أفضل.

ولتجاوز مشكلة عدم كفاءة تدريب النماذج المتفرقة، نرى طريقين للمضي قدمًا. إحدى الطريقين هي استخراج الدوائر المتفرقة من النماذج الكثيفة الموجودة، بدلاً من تدريب النماذج المتفرقة من البداية. النماذج الكثيفة أكثر كفاءة في النشر من النماذج المتفرقة. والمسار الآخر هو تطوير تقنيات أكثر كفاءة لتدريب النماذج على التفسير، ما قد يسهل وضعها داخل الإنتاج.

جدير بالذكر أن نتائجنا هنا لا تضمن أن هذا النهج سينجح مع الأنظمة الأكثر تقدمًا، إلا أن هذه النتائج الأولية واعدة. هدفنا هو توسيع مدى قدرتنا على تفسير النموذج بشكل موثوق تدريجيًا، وبناء أدوات تجعل تحليل الأنظمة المستقبلية وتصحيح الأخطاء وتقييمها أسهل.

الكاتبان

Leo Gao وAchyuta Rajaram وJacob Coxon وSoham V. Govande وBowen Baker وDan Mossing

متابعة القراءة

عرض الكل

GPT-Red: تفعيل التحسين الذاتي للمتانة

السلامة15 يوليو 2026

فصل الإشارة عن الضجيج في تقييمات البرمجة

البحث8 يوليو 2026

التعريف بـ GeneBench-Pro

البحث30 يونيو 2026