۲۲ اردیبهشت ۱۴۰۵

آنچه Parameter Golf به ما آموخت

درس‌هایی از بیش از ۱٬۰۰۰ شرکت‌کننده، بیش از ۲٬۰۰۰ راهکار ثبت‌شده و یک چالش باز یادگیری ماشین که با نقش‌آفرینی عامل‌های کدنویسی شکل گرفت.

در حال بارگذاری…

ما Parameter Golf را راه‌اندازی کردیم تا جامعه پژوهشی یادگیری ماشین را در کاوش یک مسئله تازه و کاملاً محدودشده در یادگیری ماشین مشغول و پشتیبانی کنیم. می‌خواستیم این چالش آن‌قدر جذاب باشد که خلاقیت فنی واقعی را پاداش دهد، و در عین حال از نظر مفهومی ساده و به‌راحتی قابل راستی‌آزمایی بماند.

شرکت‌کنندگان می‌بایست زیان داده‌های کنارگذاشته‌شده را روی یک مجموعه‌داده ثابت FineWeb به حداقل می‌رساندند، در حالی که همچنان محدودیت ۱۶ مگابایتی بسته تحویلی داشتند؛ محدودیتی که هم وزن‌های مدل و هم کد آموزش را شامل می‌شد، به‌علاوه بودجه آموزشی ۱۰ دقیقه‌ای روی 8×H100s. ما خط مبنا، مجموعه‌داده و اسکریپت‌های ارزیابی ارائه کردیم تا شرکت‌کنندگان بتوانند ریپو را فورک کنند، مدل را بهبود دهند و نتایج خود را از طریق GitHub ثبت کنند.

در طول هشت هفته، بیش از ۲٬۰۰۰ راهکار ثبت‌شده از بیش از ۱٬۰۰۰ شرکت‌کننده دریافت کردیم. گستره فنی، خلاقیت و استفاده هوشمندانه از مرزهای قوانین در این راهکارها برای ما تحسین‌برانگیز بود؛ از تنظیم دقیق بهینه‌ساز و کار روی کوانتیزه کردن گرفته تا ایده‌های تازه در مدل‌سازی و آموزش در زمان آزمون.

یکی از هیجان‌انگیزترین بخش‌های این چالش، مشاهده استفاده گسترده شرکت‌کنندگان از عامل‌های کدنویسی AI بود. عامل‌ها هزینه آزمایش و خطا را کاهش دادند، مشارکت افراد بیشتری را آسان‌تر کردند و سرعت رقابت را تغییر دادند. البته چالش‌های تازه‌ای نیز برای بررسی ارسال، انتساب مشارکت‌ها و امتیازدهی ایجاد کردند.

این چالش همچنین به بستری معنادار برای شناسایی استعدادها برای ما تبدیل شد. این یکی از اهداف ما برای راه‌اندازی Parameter Golf بود و نشانه‌ای مفید بود از اینکه چالش‌های فنی پایان‌باز می‌توانند ذوق فنی و پشتکار استثنایی در یادگیری ماشین را آشکار کنند.

در این مطلب، برخی از راهکارهای ثبت‌شده‌ای را برجسته می‌کنیم که برایمان غافلگیرکننده و جالب بودند، و آموخته‌های خود را از برگزاری یک مسابقه کدنویسی در عصر عامل‌های قدرتمند هوش مصنوعی به اشتراک می‌گذاریم.

برداشت‌های فنی

بخش رکوردشکنی

ما تمامی موارد ارسال‌شده در جدول رتبه‌بندی ثبت رکورد را داوری و به‌صورت مستقل بازتولید کردیم و تأیید کردیم که هر راهکار در زمان ثبت، رکوردشکن بوده است. چند نکته برجسته شد.

بهینه‌سازی آموزش

برخی از قوی‌ترین نتایج از تنظیم دقیق مؤلفه‌های موجود به دست آمدند.

ارسال، مشارکت‌کننده، تکنیک، چرا مهم بود
#60	@notapplica	« موفقیت‌های پیشین ادغام‌شده از #50، #42، و احتمالاً #39، سپس باعث شد یک مدل عمیق‌تر با واپاشی وزن Muon، مقداردهی اولیه تعبیه‌سازی طیفی، زمان‌بندی residual-mix و ارزیابی کامپایل‌شده کار کند.»،«یک نمونه‌ای قوی از کار منضبط روی جدول رتبه‌بندی: شناسایی اینکه کدام بهبودهای موجود اهمیت دارند و ترکیب تمیز و منسجم آن‌ها.»

کوانتیزه‌سازی

چندین راهکار ثبت‌شده تمرکز ویژه‌ای بر فشرده‌سازی و برون‌بری داشتند.

ارسال، مشارکت‌کننده، تکنیک، چرا مهم بود
#414	@signalrush	«از GPTQ-lite برای کوانتیزه کردن وزن‌ها پس از آموزش استفاده کرد.»،«این نخستین ارسال در جدول رتبه‌بندی است که با موفقیت از GPTQ-lite استفاده کرد و به ارزیابی بهتر منجر شد.»
«#1060»،@dexhunter،«بر پایه #634 توسط @raahilshah ساخته شد و با موفقیت از Hessian GPTQ کامل استفاده کرد.»،«کارهای پیشین در زمینه کوانتیزه کردن را به مسیری قوی‌تر برای فشرده‌سازی گسترش داد.»

راهبردهای زمان آزمون و ارزیابی

برخی از راهکارهای ثبت‌شده مرز میان بهبود مدل و راهبرد ارزیابی را جابه‌جا کردند. این رویکردها طبق قوانین معتبر بودند، اما از ما به‌عنوان برگزارکنندگان، بررسی دقیقی می‌طلبیدند.

ارسال، مشارکت‌کننده، تکنیک، چرا مهم بود
#77	@samacqua	«از ابتدا امتیازدهی، آموزش زمان آزمون LoRA به‌ازای هر سند: ابتدا امتیازدهی کنید استفاده شد، فقط روی قطعه‌هایی که قبلاً امتیازدهی شده‌اند تطبیق دهید، و در مرزهای سند بازنشانی کنید.»،«مرز میان بهبود مدل و راهبرد ارزیابی را جابه‌جا کرد، در حالی که طبق قوانین همچنان قابل‌بازبینی بود.»
#1019	@abaybektursun	«از کالیبراسیون GPTQ خودتولیدشده استفاده شد: متن کالیبراسیون را از مدل آموزش‌دیده تولید کنید، سپس هسین‌های GPTQ را از آن فعال‌سازی‌ها بسازید.»،«یک راهبرد خلاقانه کالیبراسیون که نیازمند بازبینی دقیق از سوی برگزارکنندگان بود.»

ایده‌های جدید مدل‌سازی و داده

چندین راهکار ثبت‌شده ایده‌هایی به‌ویژه خلاقانه در زمینه مدل‌سازی یا داده مطرح کردند.

ارسال، مشارکت‌کننده، تکنیک، چرا مهم بود
#1729	@romeerp	«توکنایزر CaseOps معرفی شد: توکن‌های اپراتور حروف‌بزرگ‌سازی بدون اتلاف با محاسبه جانبی BPB بر اساس بایت‌های اصلی.»،«یک ایده‌ای خلاقانه برای توکن‌ساز و بازنمایی داده‌ها.»
#265	@unnir	« XSA معرفی شد، یک رویکرد کارآمد خودتوجهی انحصاری جزئی با نماهای گروه‌بندی‌شده آگاه از GQA.»،« گونه‌ای کارآمد از سازوکار توجه را وارد چالش کرد.»
#65	@aquariouseworkman	« SmearGate و BigramHash معرفی شد: ترکیبی آموخته‌شده از تعبیه توکن قبلی، به‌همراه ویژگی‌های هشِ جفت‌توکن‌های مجاور.»،« سازوکارهای قابلیت‌های جدید از صفر اضافه شد.»
#1204	@msisovic	« بازگشت عمقیِ مینی: لایه‌های ۴ و ۵ را تکرار کرد، بازگشت را تا میانه آموزش به تعویق انداخت، و MLPهای تکرارشده را تا حدی از حالت اشتراک وزن خارج کرد.»،«نخستین ردیف پذیرفته‌شده در جدول رتبه‌بندی که باعث شد لایه‌های بازگشتی به‌طور مؤثر کار کنند."

ما تصمیم گرفتیم این نه راهکار ثبت‌شده را برجسته کنیم، چون طیفی از نتایجی را نشان می‌دهند که امیدوار بودیم این چالش آشکار کند. برخی شرکت‌کنندگان از طریق تنظیم دقیق بهبودهایی به دست آوردند. برخی دیگر تکنیک‌های کوانتیزه‌سازی و رتبه پایین را جلو بردند. بعضی مرزهای قوانین ارزیابی را کاوش کردند. و چند راهکار نیز ایده‌هایی در حوزه مدل‌سازی یا داده، چه برگرفته از ادبیات پژوهشی و چه از صفر، مطرح کردند که به بهبودهایی غیرمنتظره منجر شد.

بخش خارج از رکوردشکنی

بخش خارج از رکوردشکنی میزبان بسیاری از راهکارهای خلاقانه ثبت‌شده بود. ما ۱۵ مورد از گزینه‌های محبوب خود را از جمله رویکردهایی از مدل‌سازی متن غیرخودرگرسیو تا توکنیزه سازی پویا برجسته کردیم.

از آنجا که این بخش ماهیت آزمایشی‌تری داشت، تمرکز ما کمتر بر عملکرد خام و بیشتر بر این بود که آیا رویکرد از نظر فنی جالب و قابل‌توجه است یا خیر. سه راهکار ثبت‌شده به‌ویژه برجسته بودند:

این‌ها سه راهکار ثبت‌شده محبوب ما در بخش خارج از رکورد بودند، هرچند لزوماً از نظر عملکرد سه مورد برتر نبودند.

با این حال، بخش خارج از رکورد همچنان رقابتی بود. نیمی از ورودی‌های جدول رتبه‌بندی بخش خارج از رکورد، سطح مبنای ساده 1.22 BPB را پشت سر گذاشتند و ورودی رتبه اول به 1.12 BPB رسید.

این موضوع برای ما دلگرم‌کننده بود. حتی در برابر خط‌مبناهای قدرتمند انتقالی، رویکردهای جایگزین هم گاهی می‌توانستند در برابر معماری غالب، عملکرد قابل‌قبولی از خود نشان دهند.

همچنین فکر می‌کنیم این بخش به‌طور ویژه از در دسترس بودن عامل‌های کدنویسی قدرتمند بهره‌مند شد. عامل‌ها نمونه‌سازی ایده‌های جسورانه را بسیار کم‌هزینه‌تر کردند؛ از جمله رویکردهایی که پیش‌تر شاید برای امتحان کردن در یک رقابت کوتاه، بیش از حد زمان‌بر یا نامطمئن به نظر می‌رسیدند.

نکات کلیدی

تفاوتی عمده میان Parameter Golf و رقابت‌های مشابه پیشین، استفاده گسترده از عامل‌های کدنویسی بود. اکثریت بسیار بزرگی از شرکت‌کنندگان اشاره کردند که در کار خود از عامل‌ها استفاده کرده‌اند.

این کار مانع ورود را کاهش داد. شرکت‌کنندگان می‌توانستند آزمایش‌ها را سریع‌تر راه‌اندازی کنند، کدهای ناآشنا را بررسی کنند و ایده‌ها را با موانع کمتری بیازمایند. حمایت مالی Runpod با ارائه ۱٬۰۰۰٬۰۰۰ دلار اعتبار رایانشی نیز نقش مهمی در دسترس‌پذیرتر کردن این چالش برای افراد بیشتر داشت.

در عین حال، استفاده از عامل‌ها مسائل تازه‌ای را برای ثبت راهکارها و امتیازدهی ایجاد کرد. بسیاری از راهکارهای ثبت‌شده، اعمال تغییراتی کوچک روی راهکارهای برتر موجود بودند، نه رویکردهایی اساساً تازه. این موضوع اغلب مفید بود: ایده‌های قوی به‌سرعت گسترش پیدا می‌کردند و دیگران آن‌ها را بهبود می‌دادند. اما در عین حال نویز هم ایجاد می‌کرد. وقتی راهکارهایی که خارج از دستورالعمل‌های رقابت بودند امتیازهایی فراتر از انتظار به دست می‌آوردند، عامل‌های دیگر گاهی آن ایده‌ها را کپی می‌کردند و همان مسیر نامعتبر را ادامه می‌دادند.

حجم راهکارهای ثبت‌شده همچنین شیوه برگزاری رقابت را تغییر داد. ما نمی‌توانستیم همه راهکارها را به‌صورت دستی بررسی کنیم و هم‌زمان جدول رتبه‌بندی را به‌روز نگه داریم. در طول چالش، یک بات داخلی اولویت‌بندی مبتنی بر Codex توسعه دادیم تا راهکارهای جدید را پایش کند و موارد نیازمند بررسی انسانی را علامت‌گذاری کند. این موضوع به‌ویژه در دوره‌هایی اهمیت پیدا کرد که روزانه صدها راهکار ثبت‌شده دریافت می‌کردیم.

عامل‌های هوش مصنوعی همچنین به بخشی از جامعه شکل‌گرفته پیرامون این چالش تبدیل شدند. در بخش زیادی از دوران رقابت، @notapplica و عامل کدنویسی آن‌ها بولتین «به‌روزرسانی‌های زنده» را اداره می‌کردند؛ بخشی که رویدادهای مهم را دنبال می‌کرد، رویکردهای جدول رتبه‌بندی را توضیح می‌داد و به شرکت‌کنندگان دیگر کمک می‌کرد جریان رقابت را دنبال کنند. ابزارهای بررسیِ جامعه‌محور نیز پدیدار شدند تا به شرکت‌کنندگان کم‌تجربه‌تر در بررسی اینکه آیا راهکارهای ثبت‌شده‌شان با قوانین سازگار است یا خیر کمک کنند و از رویکردهای نامعتبر رایج پرهیز کنند.

گام بعدی چیست؟

هدف اصلی ما راه‌اندازی چالشی بود که شرکت‌کنندگان واجد شرایط⁠(در یک پنجره جدید باز می‌شود) بتوانند در آن شرکت کنند و پژوهش در حوزه یادگیری ماشین را تجربه کنند. Parameter Golf مجموعه‌ای متنوع از راهکارهای ثبت‌شده فنی، قوی و خلاقانه را جذب کرد و دید روشن‌تری به ما داد از اینکه رقابت‌های پژوهشی باز چگونه ممکن است با توانمندتر و فراگیرتر شدن عامل‌های هوش مصنوعی تغییر کنند.

ما در حال اندیشیدن به راه‌اندازی چالش‌های بیشتری از این دست در آینده هستیم. اگر علاقه‌مند هستید، لطفاً فرم شرکت در چالش⁠(در یک پنجره جدید باز می‌شود) را تکمیل کنید.

۲۰۲۶

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

جدا کردن سیگنال از نویز در ارزیابی‌های کدنویسی

تحقیق۱۷ تیر ۱۴۰۵

معرفی GeneBench-Pro

تحقیق۹ تیر ۱۴۰۵

A near-autonomous AI chemist improves a challenging reaction

یک شیمی‌دان هوش مصنوعی تقریباً خود مختار، یک واکنش چالش‌برانگیز را در شیمی دارویی بهبود می‌بخشد

تحقیق۲۷ خرداد ۱۴۰۵