مرکزی مواد پر جائیں
OpenAI

۱۲ مئی، ۲۰۲۶

تحقیق

Parameter Golf نے ہمیں کیا سکھایا

1,000 سے زائد شرکاء, 2,000 سے زائد سبمیشنز, اور کوڈنگ ایجنٹس سے تشکیل پانے والے ایک اوپن مشین لرننگ چیلنج سے حاصل ہونے والے اسباق.

لوڈ ہو رہا ہے…

ہم نے Parameter Golf اس لیے شروع کیا تاکہ مشین لرننگ ریسرچ کمیونٹی کو ایک نئے، سخت حدود والے مشین لرننگ کے مسئلے کی کھوج میں شامل کیا جا سکے اور اس کی مدد کی جا سکے. ہم چاہتے تھے کہ یہ چیلنج اتنا دلچسپ ہو کہ حقیقی تکنیکی تخلیقی صلاحیتوں کو سراہا جا سکے، جبکہ تصوری طور پر سادہ اور جانچنے میں آسان بھی رہے.

شرکاء کو ایک مقررہ FineWeb ڈیٹاسیٹ پر رکھے جانے والے نقصان کو کم سے کم کرنا تھا، جبکہ 16 MB کی آرٹیفیکٹ حد کے اندر رہنا تھا، جس میں ماڈل ویٹس اور ٹریننگ کوڈ دونوں شامل تھے اور 8×H100s پر 10 منٹ کا ٹریننگ بجٹ بھی تھا. ہم نے بیس لائن، ڈیٹاسیٹ اور ایویلیوایشن اسکرپٹس فراہم کیے تاکہ شرکاء ریپوزٹری کو فورک کر سکیں، ماڈل کو بہتر بنا سکیں اور اپنے نتائج GitHub کے ذریعے جمع کرا سکیں.

آٹھ ہفتوں کے دوران، ہمیں 1,000 سے زائد شرکاء کی طرف سے 2,000 سے زائد سبمیشنز موصول ہوئیں. ہم سبمیشنز میں تکنیکی تنوع، تخلیقی صلاحیت اور قواعد کی سرحدوں کو آزمانے والے انداز سے متاثر ہوئے، جس میں محتاط آپٹیمائزر ٹیوننگ، کوانٹائزیشن کا کام، نئے ماڈلنگ آئیڈیاز اور ٹیسٹ ٹائم ٹریننگ شامل تھے.

چیلنج کا سب سے دلچسپ پہلو یہ تھا کہ شرکاء نے AI کوڈنگ ایجنٹس کو کس قدر وسیع پیمانے پر استعمال کیا. ان ایجنٹس نے تجربات کی لاگت کو کم کرنے میں مدد دی، زیادہ لوگوں کے لیے شرکت کو آسان بنایا اور مقابلے کی رفتار کو بدل دیا، تاہم، انہوں نے سبمیشنز کے جائزے، انتساب اور اسکورنگ کے عمل میں نئے چیلنجز بھی پیدا کیے.

یہ چیلنج ہمارے لیے باصلاحیت افراد کو دریافت کرنے کا ایک اہم ذریعہ بھی بن گیا. یہ Parameter Golf کے لیے ہمارے مقاصد میں سے ایک تھا اور یہ ایک مفید اشارہ تھا کہ کھلے اختتامی تکنیکی چیلنجز غیر معمولی مشین لرننگ سمجھ بوجھ اور مستقل مزاجی کو سامنے لا سکتے ہیں.

اس پوسٹ میں، ہم کچھ ایسی جمع کاریوں کو نمایاں کرتے ہیں جو ہمیں حیران کن اور دلچسپ لگیں اور یہ بھی بتاتے ہیں کہ طاقتور AI ایجنٹس کے دور میں کوڈنگ ایجنٹس چلانے سے ہم نے کیا سیکھا.

تکنیکی تاثرات

ریکارڈ ٹریک

ہم نے ریکارڈ ٹریک لیڈر بورڈ پر ہر سبمیشن کا جائزہ لیا اور اسے آزادانہ طور پر دوبارہ تیار کیا اور تصدیق کی کہ ہر سبمیشن اپنے جمع کرائے جانے کے وقت ریکارڈ بریکنگ تھی. کئی نمایاں رجحانات سامنے آئے.

ٹریننگ آپٹیمائزیشن

کچھ مضبوط ترین نتائج موجودہ اجزاء کی محتاط تنظیم اور بہتری سے حاصل ہوئے.

سبمشنتعاون کرنے والاتکنیکیہ اہمیت کا حامل کیوں تھا
#60@notapplica#50, #42 کی پچھلی کامیابیوں (#50، #42، اور ممکنہ طور پر #39) کو یکجا کیا, اور غالباً #39, پھر Muon ویٹ ڈیکے, اسپیکٹرل ایمبیڈنگ انیشیالائزیشن, ریزیڈول-مکس شیڈولنگ, اور کمپائلڈ ایویلیوایشن کے ساتھ ایک گہرا ماڈل کامیابی سے چلایا.لیڈر بورڈ پر منظم اور ڈسپلنڈ کام کی ایک مضبوط مثال: یہ شناخت کرنا کہ کون سی موجودہ بہتریاں اہم ہیں اور انہیں صاف طریقے سے یکجا کرنا.

کوانٹائزیشن

کئی سبمیشنز نے کمپریشن اور ایکسپورٹ پر بھرپور کام کیا.

سبمشنتعاون کرنے والاتکنیکیہ اہمیت کا حامل کیوں تھا
#414@signalrushٹریننگ کے بعد ویٹس کو کوانٹائز کرنے کے لیے GPTQ-lite استعمال کیا.GPTQ-lite کو کامیابی سے استعمال کرنے والی لیڈر بورڈ کی پہلی سبمشن, جس سے ایویلیوایشن بہتر ہوئی.
#1060@dexhunter@raahilshah کی #634 پر بنیاد رکھتے ہوئے full Hessian GPTQ کو کامیابی سے استعمال کیا.پہلے کے کوانٹائزیشن کام کو مزید مضبوط کمپریشن کے راستے تک توسیع دی.

ٹیسٹ ٹائم اور ایویلیوایشن کی حکمت عملیاں

کچھ سبمیشنز نے ماڈل کی بہتری اور ایویلیوایشن کی حکمت عملی کے درمیان حد کو آگے بڑھایا. یہ طریقے قواعد کے تحت درست تھے، لیکن منتظمین کے طور پر ہماری طرف سے محتاط جائزے کے متقاضی تھے.

سبمشنتعاون کرنے والاتکنیکیہ اہمیت کا حامل کیوں تھا
#77@samacquascore-first، per-document LoRA test-time training استعمال کی: پہلے اسکور کریں, صرف پہلے سے اسکور شدہ حصوں پر ایڈاپٹ کریں, اور ڈاکیومنٹ باؤنڈریز پر ری سیٹ کریں.اس نے ماڈل بہتری اور ایویلیوایشن اسٹریٹیجی کے درمیان حد کو آگے بڑھایا جبکہ قواعد کے اندر رہتے ہوئے ریویو کے قابل رہا.
#1019@abaybektursunخود سے جنریٹ کردہ GPTQ کیلیبریشن استعمال کی گئی: ٹرینڈ ماڈل سے کیلیبریشن ٹیکسٹ جنریٹ کیا گیا, پھر انہی ایکٹیویشنز سے GPTQ Hessians بنائے گئے.ایک تخلیقی کیلیبریشن اسٹریٹیجی جس کے لیے آرگنائزرز کی جانب سے محتاط جائزہ درکار تھا.

نئے ماڈلنگ اور ڈیٹا آئیڈیاز

کچھ سبمیشنز نے ماڈلنگ یا ڈیٹا سے متعلق ایسے آئیڈیاز متعارف کرائے جو خاص طور پر تخلیقی تھے.

سبمشنتعاون کرنے والاتکنیکیہ اہمیت کا حامل کیوں تھا
#1729@romeerpCaseOps ٹوکنائزر متعارف کرایا: لاس لیس کیپیٹلائزیشن آپریٹر ٹوکنز کے ساتھ اصل بائٹ BPB سائیڈکار اکاؤنٹنگ.ایک تخلیقی ٹوکنائزر اور ڈیٹا ریپریزنٹیشن آئیڈیا.
#265@unnirXSA متعارف کرایا, لاس لیس کیپیٹلائزیشن آپریٹر ٹوکنز کے ساتھ اصل بائٹ BPB سائیڈکار اکاؤنٹنگ.ایک تخلیقی ٹوکنائزر اور ڈیٹا ریپریزنٹیشن آئیڈیا.
#65@aquariouseworkmanSmearGate اور BigramHash متعارف کرائے: لرنڈ پچھلے ٹوکن ایمبیڈنگ مکسچر اور ایڈجسینٹ ٹوکن پیئر ہیش فیچرز.شروع سے نئے فیچر میکانزم شامل کیے گئے.
#1204@msisovicمنی ڈیپتھ ریکرنس متعارف کرائی: لیئر 4 اور 5 کو ریپیٹ کیا گیا, مڈ ٹریننگ میں ریکرنس ڈیلے کی گئی, اور ریپیٹڈ MLPs کو جزوی طور پر یونائٹ کیا گیا.ریکرینٹ لیئرز کو مؤثر طریقے سے کام کرنے والا پہلا قبول شدہ لیڈر بورڈ رو.

ہم نے ان نو سبمیشنز کو نمایاں کرنے کا انتخاب اس لیے کیا کیونکہ یہ وہ مختلف نتائج ظاہر کرتی ہیں جن کی ہم نے اس چیلنج سے توقع کی تھی. کچھ شرکاء نے محتاط ٹیوننگ کے ذریعے کامیابیاں حاصل کیں. کچھ نے کوانٹائزیشن اور لو-رینک تکنیکوں پر کام کیا. کچھ نے ایویلیوایشن کے قواعد کی حدود کو آزمایا. اور کچھ نے لٹریچر سے یا بالکل نئے طور پر ماڈلنگ یا ڈیٹا کے ایسے آئیڈیاز متعارف کرائے جن سے غیر متوقع بہتری حاصل ہوئی.

نان ریکارڈ ٹریک

نان ریکارڈ ٹریک میں بہت سی تخلیقی سبمیشنز شامل تھیں. ہم نے 15 پسندیدہ سبمیشنز کو نمایاں کیا، جن میں نان آٹو ریگریسیو ٹیکسٹ ماڈلنگ سے لے کر ڈائنامک ٹوکنائزیشن تک مختلف طریقے شامل تھے.

چونکہ یہ ٹریک زیادہ تجرباتی تھا، اس لیے ہم نے خام کارکردگی پر کم اور اس بات پر زیادہ توجہ دی کہ اپروچ تکنیکی طور پر دلچسپ ہے یا نہیں. خاص طور پر تین سبمیشنز نمایاں رہیں:

یہ ہماری تین پسندیدہ نان ریکارڈ سبمیشنز تھیں، اگرچہ یہ ضروری نہیں کہ کارکردگی کے لحاظ سے بھی ٹاپ تین ہوں.

اس کے باوجود، نان ریکارڈ ٹریک اب بھی مسابقتی تھا. نان ریکارڈ لیڈر بورڈ اندراجات میں سے نصف نے 1.22 BPB کی سادہ بیس لائن کو پیچھے چھوڑ دیا اور ٹاپ رینک والی سبمیشن 1.12 BPB تک پہنچ گئی.

ہمیں یہ حوصلہ افزا لگا. مضبوط ٹرانسفارمر بیس لائنز کے باوجود، متبادل طریقے بعض اوقات غالب آرکیٹیکچر کے مقابلے میں اپنی جگہ برقرار رکھنے میں کامیاب رہے.

ہم یہ بھی سمجھتے ہیں کہ اس ٹریک کو خاص طور پر طاقتور کوڈنگ ایجنٹس کی دستیابی سے فائدہ پہنچتا ہے. ایجنٹس نے قیاسی آئیڈیاز کے پروٹوٹائپ بنانا بہت سستا کر دیا، جن میں وہ طریقے بھی شامل تھے جنہیں پہلے شاید کم وقت یا غیر یقینی ہونے کی وجہ سے ایک مختصر مقابلے میں آزمانا مشکل سمجھا جاتا تھا.

اہم نکات

Parameter Golf اور اس جیسے پچھلے مقابلوں کے درمیان ایک بڑا فرق کوڈنگ ایجنٹس کا بڑے پیمانے پر استعمال تھا. زیادہ تر شرکاء نے اپنی سبمیشنز میں ایجنٹس کے استعمال کا ذکر کیا.

اس سے داخلے کی رکاوٹ کم ہو گئی. شرکاء تجربات کو زیادہ تیزی سے ترتیب دے سکتے تھے، غیر مانوس کوڈ کا جائزہ لے سکتے تھے اور خیالات کو کم رکاوٹ کے ساتھ آزما سکتے تھے. Runpod کی کمپیوٹ وسائل کی مد میں $1,000,000 کی اسپانسرشپ نے بھی چیلنج کو زیادہ لوگوں کے لیے قابلِ رسائی بنانے میں اہم کردار ادا کیا.

اسی وقت، ایجنٹ کے استعمال سے سبمیشن اور اسکورنگ کے لیے نئے مسائل بھی پیدا ہوئے. بہت سی سبمیشنز دراصل پہلے سے موجود ٹاپ اسکوررز میں چھوٹی تبدیلیاں تھیں، بجائے اس کے کہ وہ بنیادی طور پر نئے طریقے ہوں. یہ اکثر مفید تھا: مضبوط آئیڈیاز تیزی سے پھیلتے تھے اور دوسروں کے ذریعے بہتر بنائے جاتے تھے. لیکن اس سے شور بھی پیدا ہوا. جب وہ سبمیشنز جو مقابلے کے رہنما اصولوں سے باہر تھیں غیر معمولی طور پر اچھے اسکورز دیتی تھیں، تو دیگر ایجنٹس بعض اوقات انہی آئیڈیاز کو کاپی کرتے رہے اور اسی غلط سمت میں آگے بڑھتے گئے.

سبمیشنز کی تعداد نے یہ بھی بدل دیا کہ ہمیں مقابلہ کیسے چلانا پڑا. ہم ہر سبمیشن کو مینوئل طور پر چیک نہیں کر سکتے تھے اور ساتھ ہی لیڈر بورڈ کو بھی جاری رکھنا ضروری تھا. چیلنج کے دوران، ہم نے نئی سبمیشنز کی نگرانی اور انسانی جائزے کے لیے انہیں نشان زد کرنے کے لیے Codex پر مبنی ایک داخلی ٹرائیج بوٹ تیار کیا. یہ خاص طور پر ان ادوار میں اہم ہو گیا جب ہمیں ایک دن میں سینکڑوں سبمیشنز موصول ہو رہی تھیں.

AI ایجنٹس چیلنج کے گرد بننے والی کمیونٹی کا بھی حصہ بن گئے. مقابلے کے بڑے حصے میں، @notapplica اور ان کے کوڈنگ ایجنٹ نے "لائیو اپ ڈیٹس" بلیٹن چلایا، جس میں اہم واقعات کو ٹریک کیا جاتا تھا، لیڈر بورڈ کے طریقوں کی وضاحت کی جاتی تھی اور دوسرے شرکاء کو مقابلے کو سمجھنے میں مدد دی جاتی تھی. کمیونٹی ریویو ٹولز بھی سامنے آئے تاکہ کم تجربہ کار شرکاء یہ جانچ سکیں کہ آیا ان کی سبمیشنز قواعد کے مطابق ہیں یا نہیں اور عام غلط یا غیر مؤثر طریقوں سے بچنے میں رہنمائی فراہم کرتے تھے.

آگے کیا ہوگا؟

ہمارا بنیادی مقصد ایک ایسا چیلنج شروع کرنا تھا جس میں اہل شرکاء(نئی ونڈو میں کھلتا ہے) حصہ لے سکیں اور مشین لرننگ کی تحقیق کا تجربہ حاصل کر سکیں. Parameter Golf نے تکنیکی طور پر مضبوط اور تخلیقی سبمیشنز کی ایک وسیع رینج کو سامنے لایا اور اس نے ہمیں زیادہ واضح اندازہ دیا کہ جیسے جیسے AI ایجنٹس زیادہ قابل اور زیادہ وسیع پیمانے پر استعمال ہوں گے، اوپن ریسرچ مقابلے کس طرح تبدیل ہو سکتے ہیں.

ہم مستقبل میں اس طرح کے مزید چیلنجز شروع کرنے کے بارے میں سوچ رہے ہیں. اگر آپ دلچسپی رکھتے ہیں، تو براہ کرم چیلنج کے شرکاء کا فارم(نئی ونڈو میں کھلتا ہے) پُر کریں.

مصنف

OpenAI