ما الذي علّمنا إياه Parameter Golf
دروس من أكثر من 1,000 مشارك وأكثر من 2,000 مشاركة، ومن تحدٍ مفتوح في تعلّم الآلة شكّلته وكلاء البرمجة.
أطلقنا Parameter Golf لإشراك مجتمع أبحاث تعلّم الآلة ودعمه في استكشاف مسألة جديدة في تعلّم الآلة ذات قيود صارمة. أردنا أن يكون التحدي ممتعًا بما يكفي ليكافئ الإبداع التقني الحقيقي، مع بقائه بسيطًا من حيث الفكرة وسهل التحقق.
كان على المشاركين تقليل الخسارة على مجموعة بيانات FineWeb ثابتة مع الالتزام بحدّ 16 ميغابايت للأثر البرمجي، بما يشمل أوزان النموذج وكود التدريب، وميزانية تدريب قدرها 10 دقائق على 8×H100s. وقدّمنا خط أساس ومجموعة البيانات ونصوص التقييم حتى يتمكن المشاركون من تفريع المستودع وتحسين النموذج وإرسال نتائجهم عبر GitHub.
على مدى ثمانية أسابيع، تلقّينا أكثر من 2,000 مشارَكة من أكثر من 1,000 مشارِك. وقد أُعجبنا بالاتساع التقني والإبداع وتجاوز الحدود في المشاركات، من الضبط الدقيق للمُحسِّنات وأعمال التكميم إلى أفكار نمذجة جديدة والتدريب وقت الاختبار.
كان من أكثر جوانب التحدي إثارة رؤية مدى اتساع استخدام المشاركين لوكلاء البرمجة بالذكاء الاصطناعي. فقد ساعد الوكلاء على خفض تكلفة التجريب، وجعلوا المشاركة أسهل لعدد أكبر من الناس، وغيّروا وتيرة المنافسة. كما خلقوا تحديات جديدة لمراجعة المشاركات والإسناد والتقييم.
وأصبح التحدي أيضًا وسيلة مهمة لاكتشاف المواهب بالنسبة لنا. وكان ذلك أحد أهدافنا من Parameter Golf، كما كان إشارة مفيدة إلى أن التحديات التقنية المفتوحة يمكن أن تكشف عن ذائقة استثنائية في تعلّم الآلة ومثابرة عالية.
في هذا المنشور، نسلّط الضوء على بعض المشارَكات التي وجدناها مفاجئة ومثيرة للاهتمام، ونشارك ما تعلمناه من إدارة مسابقة برمجة في عصر وكلاء الذكاء الاصطناعي الأقوياء.
قمنا بتحكيم كل مشارَكة على لوحة صدارة مسار الأرقام القياسية وأعدنا إنتاجها بشكل مستقل، وتحققنا من أن كل مشارَكة كانت تحطم رقمًا قياسيًا وقت تقديمها. وقد برزت عدة سمات.
تحسين التدريب
جاءت بعض أقوى النتائج من الضبط الدقيق للمكوّنات الموجودة.
| المشاركة | المساهم | التقنية | سبب الأهمية |
| #60 | @notapplica | جمع تحسينات سابقة من #50, #42, وعلى الأرجح #39، ثم جعل نموذجًا أعمق يعمل باستخدام اضمحلال أوزان Muon، وتهيئة التضمين الطيفي، وجدولة residual-mix، والتقييم المجمّع. | مثال قوي على العمل المنضبط في لوحة الترتيب: تحديد التحسينات الحالية المهمة ودمجها بطريقة محكمة. |
التكميم
دفعت عدة مشارَكات بقوة في اتجاه الضغط والتصدير.
استراتيجيات وقت الاختبار والتقييم
دفعت بعض المشارَكات حدود الفصل بين تحسين النموذج واستراتيجية التقييم. وكانت هذه الأساليب صالحة وفق القواعد، لكنها تطلبت منا كمُنظّمين مراجعة دقيقة.
| المشاركة | المساهم | التقنية | سبب الأهمية |
| #77 | @samacqua | استخدم تدريب LoRA وقت الاختبار على مستوى كل مستند وبنهج يبدأ بالتقييم: يبدأ بالتقييم أولًا، ثم يكيّف النموذج فقط على المقاطع التي سبق تقييمها، ويعيد الضبط عند حدود كل مستند. | دفع الحدود بين تحسين النموذج واستراتيجية التقييم، مع الحفاظ على قابلية المراجعة وفق القواعد. |
| #1019 | @abaybektursun | استخدم معايرة GPTQ ذاتية التوليد: إنشاء نص معايرة من النموذج المدرَّب، ثم بناء مصفوفات Hessian الخاصة بـ GPTQ من تلك التنشيطات. | استراتيجية معايرة مبتكرة تطلّبت مراجعة دقيقة من المنظّمين. |
أفكار جديدة في النمذجة والبيانات
قدّمت بعض المشارَكات أفكارًا في النمذجة أو البيانات كانت إبداعية على نحو خاص.
| المشاركة | المساهم | التقنية | سبب الأهمية |
| #1729 | @romeerp | أدخل مُجزِّئ CaseOps: رموز معاملات للحروف الكبيرة من دون فقدان، مع احتساب جانبي لقيمة BPB بالبايتات الأصلية. | فكرة مبتكرة في التجزئة وتمثيل البيانات. |
| #265 | @unnir | أدخل XSA، وهو نهج فعّال للانتباه الذاتي الجزئي والحصري، مع عروض مجمّعة تراعي GQA. | أضاف إلى التحدي نسخة فعّالة من آلية الانتباه. |
| #65 | @aquariouseworkman | قدّم SmearGate وBigramHash: أدخل SmearGate وBigramHash: مزيجًا متعلَّمًا لتضمين الرمز السابق، إلى جانب ميزات تجزئة لأزواج الرموز المتجاورة. | أضاف آليات ميزات جديدة من الصفر. |
| #1204 | @msisovic | أدخل تكرارًا محدود العمق: تكرار الطبقتين 4 و5، وتأخير التكرار حتى منتصف التدريب، وتوحيدًا جزئيًا لطبقات MLP المتكررة. | أول صف مقبول في لوحة الترتيب يجعل الطبقات المتكررة تعمل بفعالية. |
اخترنا تسليط الضوء على هذه المشارَكات التسع لأنها تمثل نطاق النتائج الذي كنا نأمل أن يكشفه التحدي. فقد وجد بعض المشاركين مكاسب عبر الضبط الدقيق. ودفع آخرون تقنيات التكميم والرتبة المنخفضة. واستكشف بعضهم أطراف قواعد التقييم. كما قدّم عدد منهم أفكارًا في النمذجة أو البيانات، من الأدبيات أو من الصفر، حققت مكاسب غير متوقعة.
كان المسار غير القياسي موطنًا للعديد من المشارَكات الإبداعية. وقد سلّطنا الضوء على 15 من مفضلاتنا، بما في ذلك أساليب تراوحت من نمذجة النصوص غير ذاتية الانحدار إلى تقسيم النصّ إلى رموز الديناميكي.
ولأن هذا المسار كان أكثر تجريبية، ركزنا بدرجة أقل على الأداء الخام وبدرجة أكبر على ما إذا كان النهج مثيرًا للاهتمام تقنيًا. وقد برزت ثلاث مشاركات على وجه الخصوص:
كانت هذه مشاركاتنا الثلاث المفضلة في المسار غير القياسي، رغم أنها لم تكن بالضرورة المراكز الثلاثة الأولى من حيث الأداء.
ومع ذلك، ظل المسار غير القياسي تنافسيًا. فقد تفوق نصف إدخالات لوحة الصدارة غير القياسية على خط الأساس الساذج البالغ 1.22 BPB، ووصل الإدخال الأعلى ترتيبًا إلى 1.12 BPB.
وجدنا ذلك مشجعًا. فحتى في مواجهة خطوط أساس قوية قائمة على المحوِّل، كان يمكن للمقاربات البديلة أحيانًا أن تصمد أمام البنية المهيمنة.
ونعتقد أيضًا أن هذا المسار يستفيد على نحو خاص من توافر وكلاء برمجة أقوياء. فقد جعل الوكلاء وضع النماذج الأولية للأفكار الافتراضية أقل تكلفة بكثير، بما في ذلك الأساليب التي ربما كانت تبدو سابقًا مستهلكة للوقت أو غير مؤكدة أكثر من اللازم لتجربتها في منافسة قصيرة.
كان أحد الفروق الرئيسية بين Parameter Golf والمسابقات السابقة المشابهة له هو الانتشار الواسع لاستخدام وكلاء البرمجة. فقد ذكر الغالبية العظمى من مقدّمي المشارَكات أنهم استخدموا وكلاء ضمن عملهم.
أدى ذلك إلى خفض حاجز الدخول. كان بإمكان المشاركين إعداد التجارب بسرعة أكبر، وفحص شيفرات برمجية غير مألوفة، واختبار الأفكار بسلاسة أكبر. كما أدّت رعاية Runpod بقيمة 1,000,000 دولار أمريكي من موارد الحوسبة دورًا رئيسيًا في جعل التحدي متاحًا لعدد أكبر من الأشخاص.
وفي الوقت نفسه، خلق استخدام الوكلاء مشكلات جديدة في التقديم والتقييم. فقد كانت كثير من المشاركات تغييرات صغيرة على أفضل النتائج القائمة، بدلًا من أن تكون أساليب جديدة جذريًا. وكان ذلك مفيدًا في كثير من الأحيان: إذ انتشرت الأفكار القوية بسرعة وصقلها آخرون. لكنه خلق أيضًا ضوضاء. فعندما كانت المشاركات التي تقع خارج إرشادات المسابقة تحقق درجات قوية على نحو غير معتاد، كانت وكلاء أخرى تنسخ تلك الأفكار أحيانًا وتواصل السير في المسار غير الصالح نفسه.
كما غيّر حجم المشاركات الطريقة التي كان علينا بها إدارة المسابقة. فلم يكن بإمكاننا فحص كل مشاركة يدويًا مع الإبقاء على حركة لوحة الصدارة. وخلال التحدي، طوّرنا روبوت فرز داخليًا قائمًا على Codex لمراقبة المشاركات الجديدة ووضع إشارات لمراجعتها بشريًا. وأصبح ذلك مهمًا بشكل خاص خلال الفترات التي تلقّينا فيها مئات المشاركات يوميًا.
وأصبح وكلاء الذكاء الاصطناعي أيضًا جزءًا من المجتمع المحيط بالتحدي. فخلال جزء كبير من المسابقة، كان @notapplica ووكيل البرمجة الخاص به يديران نشرة "تحديثات مباشرة"، يتابعان فيها الأحداث الرئيسية، ويشرحان أساليب لوحة الصدارة، ويساعدان المشاركين الآخرين على متابعة المنافسة. كما ظهرت أدوات مراجعة مجتمعية لمساعدة المشاركين الأقل خبرة على التحقق مما إذا كانت مشاركاتهم ضمن القواعد وتجنب الأساليب غير الصالحة الشائعة.
كان هدفنا الأساسي إطلاق تحدٍّ يتمكّن المشاركون المؤهلون(يفتح في نافذة جديدة) من المشاركة فيه وخوض تجربة أبحاث تعلّم الآلة. استقطب Parameter Golf طيفًا واسعًا من المشاركات القوية تقنيًا والمبدعة، ومنحنا رؤية أوضح لكيفية تغيّر مسابقات البحث المفتوح مع ازدياد قدرات وكلاء الذكاء الاصطناعي واتساع استخدامها.
نفكر في إطلاق المزيد من التحديات من هذا النوع مستقبلًا. إذا كنتم مهتمين، فيُرجى ملء نموذج المشاركة في التحدي(يفتح في نافذة جديدة).


