آنچه Parameter Golf به ما آموخت
درسهایی از بیش از ۱٬۰۰۰ شرکتکننده، بیش از ۲٬۰۰۰ راهکار ثبتشده و یک چالش باز یادگیری ماشین که با نقشآفرینی عاملهای کدنویسی شکل گرفت.
ما Parameter Golf را راهاندازی کردیم تا جامعه پژوهشی یادگیری ماشین را در کاوش یک مسئله تازه و کاملاً محدودشده در یادگیری ماشین مشغول و پشتیبانی کنیم. میخواستیم این چالش آنقدر جذاب باشد که خلاقیت فنی واقعی را پاداش دهد، و در عین حال از نظر مفهومی ساده و بهراحتی قابل راستیآزمایی بماند.
شرکتکنندگان میبایست زیان دادههای کنارگذاشتهشده را روی یک مجموعهداده ثابت FineWeb به حداقل میرساندند، در حالی که همچنان محدودیت ۱۶ مگابایتی بسته تحویلی داشتند؛ محدودیتی که هم وزنهای مدل و هم کد آموزش را شامل میشد، بهعلاوه بودجه آموزشی ۱۰ دقیقهای روی 8×H100s. ما خط مبنا، مجموعهداده و اسکریپتهای ارزیابی ارائه کردیم تا شرکتکنندگان بتوانند ریپو را فورک کنند، مدل را بهبود دهند و نتایج خود را از طریق GitHub ثبت کنند.
در طول هشت هفته، بیش از ۲٬۰۰۰ راهکار ثبتشده از بیش از ۱٬۰۰۰ شرکتکننده دریافت کردیم. گستره فنی، خلاقیت و استفاده هوشمندانه از مرزهای قوانین در این راهکارها برای ما تحسینبرانگیز بود؛ از تنظیم دقیق بهینهساز و کار روی کوانتیزه کردن گرفته تا ایدههای تازه در مدلسازی و آموزش در زمان آزمون.
یکی از هیجانانگیزترین بخشهای این چالش، مشاهده استفاده گسترده شرکتکنندگان از عاملهای کدنویسی AI بود. عاملها هزینه آزمایش و خطا را کاهش دادند، مشارکت افراد بیشتری را آسانتر کردند و سرعت رقابت را تغییر دادند. البته چالشهای تازهای نیز برای بررسی ارسال، انتساب مشارکتها و امتیازدهی ایجاد کردند.
این چالش همچنین به بستری معنادار برای شناسایی استعدادها برای ما تبدیل شد. این یکی از اهداف ما برای راهاندازی Parameter Golf بود و نشانهای مفید بود از اینکه چالشهای فنی پایانباز میتوانند ذوق فنی و پشتکار استثنایی در یادگیری ماشین را آشکار کنند.
در این مطلب، برخی از راهکارهای ثبتشدهای را برجسته میکنیم که برایمان غافلگیرکننده و جالب بودند، و آموختههای خود را از برگزاری یک مسابقه کدنویسی در عصر عاملهای قدرتمند هوش مصنوعی به اشتراک میگذاریم.
ما تمامی موارد ارسالشده در جدول رتبهبندی ثبت رکورد را داوری و بهصورت مستقل بازتولید کردیم و تأیید کردیم که هر راهکار در زمان ثبت، رکوردشکن بوده است. چند نکته برجسته شد.
بهینهسازی آموزش
برخی از قویترین نتایج از تنظیم دقیق مؤلفههای موجود به دست آمدند.
| ارسال، مشارکتکننده، تکنیک، چرا مهم بود | ||
| #60 | @notapplica | « موفقیتهای پیشین ادغامشده از #50، #42، و احتمالاً #39، سپس باعث شد یک مدل عمیقتر با واپاشی وزن Muon، مقداردهی اولیه تعبیهسازی طیفی، زمانبندی residual-mix و ارزیابی کامپایلشده کار کند.»،«یک نمونهای قوی از کار منضبط روی جدول رتبهبندی: شناسایی اینکه کدام بهبودهای موجود اهمیت دارند و ترکیب تمیز و منسجم آنها.» |
کوانتیزهسازی
چندین راهکار ثبتشده تمرکز ویژهای بر فشردهسازی و برونبری داشتند.
| ارسال، مشارکتکننده، تکنیک، چرا مهم بود | ||
| #414 | @signalrush | «از GPTQ-lite برای کوانتیزه کردن وزنها پس از آموزش استفاده کرد.»،«این نخستین ارسال در جدول رتبهبندی است که با موفقیت از GPTQ-lite استفاده کرد و به ارزیابی بهتر منجر شد.» |
| «#1060»،@dexhunter،«بر پایه #634 توسط @raahilshah ساخته شد و با موفقیت از Hessian GPTQ کامل استفاده کرد.»،«کارهای پیشین در زمینه کوانتیزه کردن را به مسیری قویتر برای فشردهسازی گسترش داد.» |
راهبردهای زمان آزمون و ارزیابی
برخی از راهکارهای ثبتشده مرز میان بهبود مدل و راهبرد ارزیابی را جابهجا کردند. این رویکردها طبق قوانین معتبر بودند، اما از ما بهعنوان برگزارکنندگان، بررسی دقیقی میطلبیدند.
| ارسال، مشارکتکننده، تکنیک، چرا مهم بود | ||
| #77 | @samacqua | «از ابتدا امتیازدهی، آموزش زمان آزمون LoRA بهازای هر سند: ابتدا امتیازدهی کنید استفاده شد، فقط روی قطعههایی که قبلاً امتیازدهی شدهاند تطبیق دهید، و در مرزهای سند بازنشانی کنید.»،«مرز میان بهبود مدل و راهبرد ارزیابی را جابهجا کرد، در حالی که طبق قوانین همچنان قابلبازبینی بود.» |
| #1019 | @abaybektursun | «از کالیبراسیون GPTQ خودتولیدشده استفاده شد: متن کالیبراسیون را از مدل آموزشدیده تولید کنید، سپس هسینهای GPTQ را از آن فعالسازیها بسازید.»،«یک راهبرد خلاقانه کالیبراسیون که نیازمند بازبینی دقیق از سوی برگزارکنندگان بود.» |
ایدههای جدید مدلسازی و داده
چندین راهکار ثبتشده ایدههایی بهویژه خلاقانه در زمینه مدلسازی یا داده مطرح کردند.
| ارسال، مشارکتکننده، تکنیک، چرا مهم بود | ||
| #1729 | @romeerp | «توکنایزر CaseOps معرفی شد: توکنهای اپراتور حروفبزرگسازی بدون اتلاف با محاسبه جانبی BPB بر اساس بایتهای اصلی.»،«یک ایدهای خلاقانه برای توکنساز و بازنمایی دادهها.» |
| #265 | @unnir | « XSA معرفی شد، یک رویکرد کارآمد خودتوجهی انحصاری جزئی با نماهای گروهبندیشده آگاه از GQA.»،« گونهای کارآمد از سازوکار توجه را وارد چالش کرد.» |
| #65 | @aquariouseworkman | « SmearGate و BigramHash معرفی شد: ترکیبی آموختهشده از تعبیه توکن قبلی، بههمراه ویژگیهای هشِ جفتتوکنهای مجاور.»،« سازوکارهای قابلیتهای جدید از صفر اضافه شد.» |
| #1204 | @msisovic | « بازگشت عمقیِ مینی: لایههای ۴ و ۵ را تکرار کرد، بازگشت را تا میانه آموزش به تعویق انداخت، و MLPهای تکرارشده را تا حدی از حالت اشتراک وزن خارج کرد.»،«نخستین ردیف پذیرفتهشده در جدول رتبهبندی که باعث شد لایههای بازگشتی بهطور مؤثر کار کنند." |
ما تصمیم گرفتیم این نه راهکار ثبتشده را برجسته کنیم، چون طیفی از نتایجی را نشان میدهند که امیدوار بودیم این چالش آشکار کند. برخی شرکتکنندگان از طریق تنظیم دقیق بهبودهایی به دست آوردند. برخی دیگر تکنیکهای کوانتیزهسازی و رتبه پایین را جلو بردند. بعضی مرزهای قوانین ارزیابی را کاوش کردند. و چند راهکار نیز ایدههایی در حوزه مدلسازی یا داده، چه برگرفته از ادبیات پژوهشی و چه از صفر، مطرح کردند که به بهبودهایی غیرمنتظره منجر شد.
بخش خارج از رکوردشکنی میزبان بسیاری از راهکارهای خلاقانه ثبتشده بود. ما ۱۵ مورد از گزینههای محبوب خود را از جمله رویکردهایی از مدلسازی متن غیرخودرگرسیو تا توکنیزه سازی پویا برجسته کردیم.
از آنجا که این بخش ماهیت آزمایشیتری داشت، تمرکز ما کمتر بر عملکرد خام و بیشتر بر این بود که آیا رویکرد از نظر فنی جالب و قابلتوجه است یا خیر. سه راهکار ثبتشده بهویژه برجسته بودند:
اینها سه راهکار ثبتشده محبوب ما در بخش خارج از رکورد بودند، هرچند لزوماً از نظر عملکرد سه مورد برتر نبودند.
با این حال، بخش خارج از رکورد همچنان رقابتی بود. نیمی از ورودیهای جدول رتبهبندی بخش خارج از رکورد، سطح مبنای ساده 1.22 BPB را پشت سر گذاشتند و ورودی رتبه اول به 1.12 BPB رسید.
این موضوع برای ما دلگرمکننده بود. حتی در برابر خطمبناهای قدرتمند انتقالی، رویکردهای جایگزین هم گاهی میتوانستند در برابر معماری غالب، عملکرد قابلقبولی از خود نشان دهند.
همچنین فکر میکنیم این بخش بهطور ویژه از در دسترس بودن عاملهای کدنویسی قدرتمند بهرهمند شد. عاملها نمونهسازی ایدههای جسورانه را بسیار کمهزینهتر کردند؛ از جمله رویکردهایی که پیشتر شاید برای امتحان کردن در یک رقابت کوتاه، بیش از حد زمانبر یا نامطمئن به نظر میرسیدند.
تفاوتی عمده میان Parameter Golf و رقابتهای مشابه پیشین، استفاده گسترده از عاملهای کدنویسی بود. اکثریت بسیار بزرگی از شرکتکنندگان اشاره کردند که در کار خود از عاملها استفاده کردهاند.
این کار مانع ورود را کاهش داد. شرکتکنندگان میتوانستند آزمایشها را سریعتر راهاندازی کنند، کدهای ناآشنا را بررسی کنند و ایدهها را با موانع کمتری بیازمایند. حمایت مالی Runpod با ارائه ۱٬۰۰۰٬۰۰۰ دلار اعتبار رایانشی نیز نقش مهمی در دسترسپذیرتر کردن این چالش برای افراد بیشتر داشت.
در عین حال، استفاده از عاملها مسائل تازهای را برای ثبت راهکارها و امتیازدهی ایجاد کرد. بسیاری از راهکارهای ثبتشده، اعمال تغییراتی کوچک روی راهکارهای برتر موجود بودند، نه رویکردهایی اساساً تازه. این موضوع اغلب مفید بود: ایدههای قوی بهسرعت گسترش پیدا میکردند و دیگران آنها را بهبود میدادند. اما در عین حال نویز هم ایجاد میکرد. وقتی راهکارهایی که خارج از دستورالعملهای رقابت بودند امتیازهایی فراتر از انتظار به دست میآوردند، عاملهای دیگر گاهی آن ایدهها را کپی میکردند و همان مسیر نامعتبر را ادامه میدادند.
حجم راهکارهای ثبتشده همچنین شیوه برگزاری رقابت را تغییر داد. ما نمیتوانستیم همه راهکارها را بهصورت دستی بررسی کنیم و همزمان جدول رتبهبندی را بهروز نگه داریم. در طول چالش، یک بات داخلی اولویتبندی مبتنی بر Codex توسعه دادیم تا راهکارهای جدید را پایش کند و موارد نیازمند بررسی انسانی را علامتگذاری کند. این موضوع بهویژه در دورههایی اهمیت پیدا کرد که روزانه صدها راهکار ثبتشده دریافت میکردیم.
عاملهای هوش مصنوعی همچنین به بخشی از جامعه شکلگرفته پیرامون این چالش تبدیل شدند. در بخش زیادی از دوران رقابت، @notapplica و عامل کدنویسی آنها بولتین «بهروزرسانیهای زنده» را اداره میکردند؛ بخشی که رویدادهای مهم را دنبال میکرد، رویکردهای جدول رتبهبندی را توضیح میداد و به شرکتکنندگان دیگر کمک میکرد جریان رقابت را دنبال کنند. ابزارهای بررسیِ جامعهمحور نیز پدیدار شدند تا به شرکتکنندگان کمتجربهتر در بررسی اینکه آیا راهکارهای ثبتشدهشان با قوانین سازگار است یا خیر کمک کنند و از رویکردهای نامعتبر رایج پرهیز کنند.
هدف اصلی ما راهاندازی چالشی بود که شرکتکنندگان واجد شرایط(در یک پنجره جدید باز میشود) بتوانند در آن شرکت کنند و پژوهش در حوزه یادگیری ماشین را تجربه کنند. Parameter Golf مجموعهای متنوع از راهکارهای ثبتشده فنی، قوی و خلاقانه را جذب کرد و دید روشنتری به ما داد از اینکه رقابتهای پژوهشی باز چگونه ممکن است با توانمندتر و فراگیرتر شدن عاملهای هوش مصنوعی تغییر کنند.
ما در حال اندیشیدن به راهاندازی چالشهای بیشتری از این دست در آینده هستیم. اگر علاقهمند هستید، لطفاً فرم شرکت در چالش(در یک پنجره جدید باز میشود) را تکمیل کنید.


