Parameter Golf ने हमें क्या सिखाया
1,000+ प्रतिभागियों, 2,000+ सबमिशनों और कोडिंग एजेंटों से आकार ली एक खुली मशीन लर्निंग चुनौती से मिले सबक.
हमने Parameter Golf की शुरुआत मशीन लर्निंग शोध समुदाय को एक नई, कड़े बंधनों वाली मशीन लर्निंग समस्या की खोज में शामिल करने और सहयोग देने के लिए की. हम चाहते थे कि चुनौती इतनी रोचक हो कि वास्तविक तकनीकी रचनात्मकता को पुरस्कृत करे, और साथ ही वैचारिक रूप से सरल तथा सत्यापित करने में आसान भी रहे.
प्रतिभागियों को एक निश्चित FineWeb डेटासेट पर हेल्ड-आउट लॉस को न्यूनतम करना था, जबकि मॉडल वेट्स और प्रशिक्षण कोड सहित 16 MB की आर्टिफैक्ट सीमा, और 8×H100s पर 10 मिनट के प्रशिक्षण बजट के भीतर रहना था. हमने एक बेसलाइन, डेटासेट और इवैल्यूएशन स्क्रिप्ट्स दिए ताकि प्रतिभागी रिपो को फोर्क कर सकें, मॉडल में सुधार कर सकें, और GitHub के माध्यम से अपने परिणाम जमा कर सकें.
आठ हफ्तों के दौरान, हमें 1,000 से अधिक प्रतिभागियों से 2,000 से अधिक सबमिशन मिले. ऑप्टिमाइज़र ट्यूनिंग और क्वांटाइज़ेशन के सावधानीपूर्ण काम से लेकर नए मॉडलिंग विचारों और टेस्ट-टाइम ट्रेनिंग तक, सबमिशनों में तकनीकी विस्तार, रचनात्मकता और नियमों की सीमाओं को मोड़ने की प्रवृत्ति ने हमें प्रभावित किया.
चुनौती का सबसे रोमांचक हिस्सा यह देखना था कि प्रतिभागियों ने AI कोडिंग एजेंटों का कितना व्यापक उपयोग किया. एजेंटों ने प्रयोग की लागत कम करने में मदद की, अधिक लोगों के लिए भाग लेना आसान बनाया, और प्रतियोगिता की रफ्तार बदल दी. उन्होंने सबमिशन समीक्षा, श्रेय निर्धारण और स्कोरिंग के लिए नई चुनौतियां भी पैदा कीं.
यह चुनौती हमारे लिए प्रतिभा खोजने का एक सार्थक माध्यम भी बनी. Parameter Golf के लिए यह हमारे लक्ष्यों में से एक था, और इससे यह उपयोगी संकेत मिला कि खुले तकनीकी चैलेंज असाधारण मशीन लर्निंग समझ और दृढ़ता को उजागर कर सकते हैं.
इस पोस्ट में, हम कुछ ऐसी सबमिशनों को उजागर करते हैं जो हमें चौंकाने वाली और दिलचस्प लगीं, और साझा करते हैं कि शक्तिशाली AI एजेंटों के युग में एक कोडिंग प्रतियोगिता चलाने से हमने क्या सीखा.
हमने रिकॉर्ड-ट्रैक लीडरबोर्ड पर प्रत्येक सबमिशन का मूल्यांकन किया और स्वतंत्र रूप से पुनरुत्पादन किया, और सत्यापित किया कि जमा किए जाने के समय हर सबमिशन रिकॉर्ड-तोड़ थी. कई प्रमुख पैटर्न सामने आए.
प्रशिक्षण अनुकूलन
कुछ सबसे मजबूत परिणाम मौजूदा घटकों की सावधानीपूर्ण ट्यूनिंग से आए.
| सबमिशन | योगदानकर्ता | तकनीक | यह क्यों महत्वपूर्ण था |
| #60 | @notapplica | संयुक्त #50 से पिछली सफलताएँ, #42, और संभवतः #39, ने फिर Muon weight decay, spectral embedding initialization, residual-mix scheduling, और compiled evaluation के साथ एक गहरे मॉडल को काम करने लायक बनाया. | A अनुशासित लीडरबोर्ड कार्य का मज़बूत उदाहरण: यह पहचानना कि मौजूदा सुधारों में से कौन-से मायने रखते हैं और उन्हें साफ़-सुथरे ढंग से संयोजित करना. |
क्वांटाइज़ेशन
कई सबमिशनों ने कंप्रेशन और export पर जोरदार काम किया.
| सबमिशन | योगदानकर्ता | तकनीक | यह क्यों महत्वपूर्ण था |
| #414 | @signalrush | उपयोग किया गया प्रशिक्षण के बाद वेट्स को क्वांटाइज़ करने के लिए GPTQ-lite. | GPTQ-lite का सफलतापूर्वक उपयोग करने वाला पहला लीडरबोर्ड सबमिशन, जिससे बेहतर मूल्यांकन हुआ. |
| #1060 | @dexhunter | पूर्ण Hessian GPTQ का सफल उपयोग करने के लिए @raahilshah की #634 पर निर्माण किया. | पहले के क्वांटाइज़ेशन कार्य को अधिक मजबूत कंप्रेशन मार्ग तक बढ़ाया. |
टेस्ट-टाइम और मूल्यांकन रणनीतियां
कुछ सबमिशनों ने मॉडल सुधार और मूल्यांकन रणनीति के बीच की सीमा को आगे बढ़ाया. ये तरीके नियमों के तहत वैध थे, लेकिन आयोजकों के रूप में हमारी ओर से सावधानीपूर्ण समीक्षा की मांग करते थे.
| सबमिशन | योगदानकर्ता | तकनीक | यह क्यों महत्वपूर्ण था |
| #77 | @samacqua | उपयोग किया गया स्कोर-फर्स्ट, प्रति-दस्तावेज़ LoRA टेस्ट-टाइम ट्रेनिंग: पहले स्कोर करें, केवल पहले से स्कोर किए गए चंक्स पर अनुकूलित करें, और दस्तावेज़ की सीमाओं पर रीसेट करें. | मॉडल सुधार और मूल्यांकन रणनीति के बीच की सीमा को आगे बढ़ाया, साथ ही नियमों के तहत समीक्षा योग्य बने रहे. |
| #1019 | @abaybektursun | उपयोग किया गया स्व-जनित GPTQ कैलिब्रेशन: प्रशिक्षित मॉडल से कैलिब्रेशन टेक्स्ट जनरेट करें, फिर उन सक्रियणों से GPTQ हेसियन बनाएँ. | A रचनात्मक कैलिब्रेशन रणनीति, जिसके लिए आयोजकों द्वारा सावधानीपूर्वक समीक्षा आवश्यक थी. |
नए मॉडलिंग और डेटा विचार
कुछ सबमिशनों ने मॉडलिंग या डेटा से जुड़े ऐसे विचार पेश किए जो खास तौर पर रचनात्मक थे.
| सबमिशन | योगदानकर्ता | तकनीक | यह क्यों महत्वपूर्ण था | ||||||
| #1729 | @romeerp | CaseOps टोकनाइज़र पेश किया गया: ओरिजिनल-बाइट BPB साइडकार अकाउंटिंग के साथ लॉसलेस कैपिटलाइज़ेशन Operator टोकन. | A रचनात्मक टोकनाइज़र और डेटा-प्रतिनिधित्व का विचार. | ||||||
| #265 | @unnir | पेश किया XSA, GQA-aware समूहीकृत व्यूज़ के साथ एक कुशल आंशिक एक्सक्लूसिव सेल्फ अटेंशन दृष्टिकोण. चुनौती में एक कुशल attention वैरिएंट. | a href=""https://github.com/openai/parameter-golf/pull/65""]#65[/a]" | @aquariouseworkman | introduced SmearGate और BigramHash: एक सीखा हुआ पिछले-टोकन एम्बेडिंग मिश्रण और आसन्न-टोकन-जोड़ी हैश विशेषताएँ. जोड़ा गया. नई सुविधा तंत्रों को शुरू से विकसित किया गया. | a href=""https://github.com/openai/parameter-golf/pull/1204""]#1204[/a]" | @msisovic | पेश किया गया मिनी डेप्थ रिकरेंस: लेयर 4 और 5 को दोहराया, रिकरेंस को मध्य-प्रशिक्षण तक विलंबित किया, और दोहराए गए MLPs को आंशिक रूप से अनटाई किया. | रिकरेंट लेयर्स को प्रभावी ढंग से काम कराने वाली पहली स्वीकृत लीडरबोर्ड पंक्ति. |
हमने इन नौ सबमिशनों को इसलिए चुना क्योंकि वे उन परिणामों की पूरी श्रृंखला का प्रतिनिधित्व करती हैं जिन्हें हम इस चुनौती से सामने आते देखना चाहते थे. कुछ प्रतिभागियों ने सावधानीपूर्ण ट्यूनिंग से बढ़त हासिल की. दूसरों ने क्वांटाइज़ेशन और लो-रैंक तकनीकों को आगे बढ़ाया. कुछ ने मूल्यांकन नियमों की सीमाओं की पड़ताल की. और कई ने मॉडलिंग या डेटा से जुड़े विचार पेश किए, चाहे साहित्य से लिए गए हों या बिल्कुल नए, जिन्होंने अप्रत्याशित लाभ दिए.
नॉनरिकॉर्ड ट्रैक कई रचनात्मक सबमिशनों का घर था. हमने 15 पसंदीदा सबमिशनों को उजागर किया, जिनमें नॉन-ऑटोरेग्रेसिव टेक्स्ट मॉडलिंग से लेकर डायनैमिक टोकनाइज़ेशन तक के तरीके शामिल थे.
क्योंकि यह ट्रैक अधिक प्रयोगात्मक था, हमने कच्चे प्रदर्शन पर कम और इस बात पर अधिक ध्यान दिया कि तरीका तकनीकी रूप से कितना दिलचस्प था. खास तौर पर तीन सबमिशन अलग दिखीं:
ये हमारी पसंदीदा तीन नॉनरिकॉर्ड सबमिशन थीं, भले ही प्रदर्शन के आधार पर वे जरूरी नहीं कि शीर्ष तीन रही हों.
फिर भी, नॉनरिकॉर्ड ट्रैक प्रतिस्पर्धी था. नॉनरिकॉर्ड लीडरबोर्ड की आधी प्रविष्टियों ने 1.22 BPB के नाइव बेसलाइन को पीछे छोड़ा, और शीर्ष रैंक वाली प्रविष्टि 1.12 BPB तक पहुंची.
हमें यह उत्साहजनक लगा. मजबूत ट्रांसफ़ॉर्मर बेसलाइन के सामने भी, वैकल्पिक तरीके कभी-कभी प्रमुख आर्किटेक्चर के मुकाबले टिक सकते थे.
हम यह भी मानते हैं कि इस ट्रैक को खास तौर पर मजबूत कोडिंग एजेंटों की उपलब्धता से लाभ मिलता है. एजेंटों ने अनुमानाधारित विचारों के प्रोटोटाइप बनाना बहुत सस्ता कर दिया, जिनमें ऐसे तरीके भी शामिल थे जिन्हें पहले छोटी प्रतियोगिता में आजमाना बहुत समय लेने वाला या अनिश्चित माना जाता था.
Parameter Golf और इससे पहले की समान प्रतियोगिताओं के बीच एक बड़ा अंतर कोडिंग एजेंटों का व्यापक उपयोग था. सबमिशन करने वालों के विशाल बहुमत ने बताया कि उन्होंने अपने काम के हिस्से के रूप में एजेंटों का उपयोग किया.
इससे प्रवेश की बाधा कम हो गई. प्रतिभागी प्रयोगों को अधिक तेज़ी से सेट अप कर पाए, अपरिचित कोड की जाँच कर पाए, और कम बाधाओं के साथ विचारों का परीक्षण कर पाए. Runpod द्वारा $1,000,000 मूल्य के कंप्यूट संसाधनों के प्रायोजन ने भी इस चुनौती को अधिक लोगों के लिए सुलभ बनाने में प्रमुख भूमिका निभाई.
साथ ही, एजेंटों के उपयोग ने सबमिशन और स्कोरिंग के लिए नई समस्याएं पैदा कीं. कई सबमिशन मौजूदा शीर्ष स्कोररों में छोटे बदलाव थीं, न कि मूल रूप से नए तरीके. यह अक्सर उपयोगी था: मजबूत विचार तेजी से फैले और दूसरों द्वारा परिष्कृत किए गए. लेकिन इससे शोर भी पैदा हुआ. जब प्रतियोगिता दिशानिर्देशों से बाहर की सबमिशनों ने असामान्य रूप से मजबूत स्कोर दिए, तो अन्य एजेंटों ने कभी-कभी उन विचारों की नकल की और उसी अमान्य दिशा में आगे बढ़ते रहे.
सबमिशनों की मात्रा ने यह भी बदल दिया कि हमें प्रतियोगिता कैसे चलानी पड़ी. हम हर सबमिशन का मैन्युअल निरीक्षण नहीं कर सकते थे और फिर भी लीडरबोर्ड को आगे बढ़ाते नहीं रह सकते थे. चुनौती के दौरान, हमने नई सबमिशनों की निगरानी करने और उन्हें मानव समीक्षा के लिए चिह्नित करने हेतु Codex-आधारित एक आंतरिक ट्रायेज बॉट विकसित किया. यह खास तौर पर उन अवधियों में महत्वपूर्ण हो गया जब हमें एक दिन में सैकड़ों सबमिशन मिलती थीं.
AI एजेंट चुनौती के आसपास के समुदाय का भी हिस्सा बन गए. प्रतियोगिता के बड़े हिस्से के दौरान, @notapplica और उनके कोडिंग एजेंट ने “Live Updates” बुलेटिन चलाया, जिसमें प्रमुख घटनाओं को ट्रैक किया गया, लीडरबोर्ड के तरीकों की व्याख्या की गई, और अन्य प्रतिभागियों को प्रतियोगिता का अनुसरण करने में मदद मिली. कम अनुभवी प्रतिभागियों को यह जांचने में मदद करने के लिए सामुदायिक समीक्षा उपकरण भी सामने आए कि उनकी सबमिशन नियमों के भीतर हैं या नहीं, और आम अमान्य तरीकों से बचा जा सके.
हमारा प्राथमिक लक्ष्य एक ऐसी चुनौती शुरू करना था जिसमें पात्र प्रतिभागी(एक नई विंडो में खुलेगा) भाग ले सकें और मशीन लर्निंग अनुसंधान का अनुभव प्राप्त कर सकें. Parameter Golf ने तकनीकी रूप से मजबूत और रचनात्मक सबमिशनों की एक विस्तृत श्रृंखला को आकर्षित किया, और इससे हमें यह अधिक स्पष्ट रूप से समझ आया कि जैसे-जैसे AI एजेंट अधिक सक्षम और व्यापक रूप से उपयोग में आएंगे, खुले शोध प्रतियोगिताएं कैसे बदल सकती हैं.
हम भविष्य में ऐसी और चुनौतियां शुरू करने के बारे में सोच रहे हैं. अगर आपकी दिलचस्पी है, तो कृपया चैलेंज प्रतिभागी फ़ॉर्म(एक नई विंडो में खुलेगा) भरें.


