मुख्य मजकूराकडे जा
OpenAI

१२ मे, २०२६

रिसर्च

Parameter Golf ने आपल्याला काय शिकवले

1,000 पेक्षा जास्त सहभागी, 2,000 पेक्षा जास्त सबमिशन्स आणि कोडिंग एजंट्सद्वारे आकार दिलेल्या ओपन मशीन लर्निंग चॅलेंजमधून मिळालेले धडे.

लोड होत आहे...

नवीन आणि मर्यादित स्वरूपाच्या मशीन लर्निंग समस्येचा शोध घेण्यासाठी मशीन लर्निंग संशोधन समुदायाला सहभागी करून घेणे आणि त्यांना प्रोत्साहन देणे या उद्देशाने आम्ही Parameter Golf सुरू केले. या आव्हानामध्ये खऱ्या तांत्रिक सर्जनशीलतेला वाव मिळावा, तसेच ते संकल्पनेने सोपे आणि पडताळणीस सुलभ राहावे, अशी आमची इच्छा होती.

सहभागींना एका निश्चित FineWeb डेटासेटवर, मॉडेल वेट्स आणि ट्रेनिंग कोड या दोन्हींसह 16 MB च्या आर्टिफॅक्ट मर्यादेत आणि 8×H100s वर 10 मिनिटांच्या ट्रेनिंग बजेटमध्ये राहून, हेल्ड-आउट लॉस कमीत कमी करायचा होता. आम्ही एक बेसलाइन, डेटासेट आणि मूल्यांकन स्क्रिप्ट्स पुरवल्या, जेणेकरून सहभागी रेपो फोर्क करू शकतील, मॉडेलमध्ये सुधारणा करू शकतील आणि GitHub द्वारे त्यांचे निकाल सबमिट करू शकतील.

आठ आठवड्यांच्या कालावधीत, आम्हाला 1,000 पेक्षा जास्त सहभागींकडून 2,000 पेक्षा जास्त सबमिशन प्राप्त झाले. काळजीपूर्वक केलेले ऑप्टिमायझर ट्यूनिंग आणि क्वांटायझेशनच्या कामापासून ते नवीन मॉडेलिंग कल्पना आणि टेस्ट-टाइम ट्रेनिंगपर्यंत, या सबमिशनमधील तांत्रिक विविधता, सर्जनशीलता आणि नियमांना वेगळ्या पद्धतीने बदलण्याची क्षमता पाहून आम्ही प्रभावित झालो.

या स्पर्धेतील सर्वात रोमांचक भागांपैकी एक म्हणजे सहभागींनी AI कोडिंग एजंट्सचा किती व्यापकपणे वापर केला हे पाहणे. एजंट्सनी प्रयोगाचा खर्च कमी करण्यास मदत केली, अधिक लोकांना सहभागी होणे सोपे केले आणि स्पर्धेची गती बदलली. तसेच, त्यांनी सबमिशनचे पुनरावलोकन, श्रेयनिर्देशन आणि गुणांकन यासाठी नवीन आव्हाने निर्माण केली.

हे आव्हान आमच्यासाठी प्रतिभा शोधण्याचे एक महत्त्वपूर्ण माध्यमही ठरले. Parameter Golf साठी हे आमच्या उद्दिष्टांपैकी एक होते, आणि यातून हा एक उपयुक्त संकेत मिळाला की, अमर्याद तांत्रिक आव्हाने मशीन लर्निंगमधील विलक्षण अभिरुची आणि चिकाटी उघड करू शकतात.

या पोस्टमध्ये, आम्हाला आश्चर्यकारक आणि मनोरंजक वाटलेल्या काही सबमिशनवर आम्ही प्रकाश टाकत आहोत, आणि शक्तिशाली AI एजंट्सच्या युगात कोडिंग स्पर्धा आयोजित करण्यापासून आम्ही काय शिकलो हे सांगत आहोत.

तांत्रिक निरीक्षणे

रेकॉर्ड ट्रॅक

आम्ही रेकॉर्ड-ट्रॅक लीडरबोर्डवरील प्रत्येक सबमिशनचे मूल्यांकन केले आणि स्वतंत्रपणे तिची पुनरावृत्ती केली, तसेच प्रत्येक सबमिशन सबमिट केले गेले त्या वेळी ते विक्रम मोडणारे होते याची पडताळणी केली. अनेक विषय प्रकर्षाने दिसून आले.

ट्रेनिंग ऑप्टिमायझेशन

विद्यमान घटकांच्या काळजीपूर्वक केलेल्या जुळवणीतून काही सर्वोत्तम परिणाम दिसून आले.

सादरीकरणयोगदानकर्तातंत्रते महत्त्वाचे का होते
#60@notapplicaएकत्रित #50 मधील पूर्वीचे लाभ, #42, आणि बहुधा #39, नंतर Muon weight decay, spectral embedding initialization, residual-mix scheduling, आणि compiled evaluation यांच्या साहाय्याने अधिक सखोल मॉडेल कार्यान्वित केले.A शिस्तबद्ध लीडरबोर्ड कार्याचे दमदार उदाहरण: विद्यमान सुधारणांपैकी कोणत्या महत्त्वाच्या आहेत हे ओळखणे आणि त्यांना नीटपणे एकत्र करणे.

क्वांटायझेशन

अनेक सबमिशनमध्ये कॉम्प्रेशन आणि एक्सपोर्टवर जोरदार भर देण्यात आला होता.

सादरीकरणयोगदानकर्तातंत्रते महत्त्वाचे का होते
#414@signalrushवापरले प्रशिक्षणानंतर वजने क्वांटाइझ करण्यासाठी GPTQ-lite.हे GPTQ-lite यशस्वीरीत्या वापरणारे पहिले लीडरबोर्ड सबमिशन, ज्यामुळे अधिक चांगले मूल्यमापन झाले.
#1060@dexhunter@raahilshah यांच्या #634 वर आधारित, ज्यामुळे पूर्ण हेसियन GPTQ चा यशस्वीपणे वापर करता येतो.पूर्वीच्या क्वांटायझेशनच्या कामाला अधिक मजबूत कॉम्प्रेशन मार्गात विस्तारित केले.

चाचणीची वेळ आणि मूल्यमापनाच्या रणनीती

काही सबमिशन्सनी मॉडेल सुधारणा आणि मूल्यमापन धोरण यांच्यातील सीमारेषा ओलांडली. हे दृष्टिकोन नियमांनुसार वैध होते, परंतु आयोजक म्हणून आम्हाला त्यांचे काळजीपूर्वक पुनरावलोकन करणे आवश्यक होते.

सादरीकरण योगदानकर्ता तंत्र ते महत्त्वाचे का होते
#77@samacquaवापरले स्कोअर-प्रथम, प्रति-दस्तऐवज LoRA टेस्ट-टाइम प्रशिक्षण: आधी स्कोअर करा, आधीच स्कोअर केलेल्या खंडांवरच अनुकूल करा, आणि दस्तऐवजाच्या सीमांवर रीसेट करा.नियमांनुसार पुनरावलोकनयोग्य राहून मॉडेल सुधारणा आणि मूल्यमापन धोरण यांमधील सीमा पुढे ढकलली.
#1019@abaybektursunवापरले स्वयं-निर्मित GPTQ कॅलिब्रेशन: प्रशिक्षित मॉडेलमधून कॅलिब्रेशन मजकूर तयार करा, नंतर त्या अॅक्टिव्हेशन्समधून GPTQ हेसियन्स तयार करा.A आयोजकांकडून काळजीपूर्वक पुनरावलोकन आवश्यक असलेले सर्जनशील कॅलिब्रेशन धोरण.

नवीन मॉडेलिंग आणि डेटा संकल्पना

काही सबमिशन्समध्ये मॉडेलिंग किंवा डेटासंबंधीच्या अशा कल्पना होत्या, ज्या विशेषतः सर्जनशील होत्या.

सादरीकरण योगदानकर्ता तंत्र ते महत्त्वाचे का होते
#1729@romeerpCaseOps टोकनायझर सादर केला: मूळ-बाइट BPB साइडकार अकाउंटिंगसह लॉसलेस कॅपिटलायझेशन operator टोकन.A सर्जनशील टोकनायझर आणि डेटा-प्रतिनिधित्वाची कल्पना.
#265@unnirसादर केले XSA, GQA-जाणिव असलेली गटबद्ध दृश्ये असलेला एक कार्यक्षम आंशिक एक्सक्लुझिव्ह सेल्फ-अटेंशन दृष्टिकोन.सादर केले आव्हानात एक कार्यक्षम अटेंशन प्रकार.
#65@aquariouseworkmanसादर केले SmearGate आणि BigramHash: शिकलेले मागील-टोकन एम्बेडिंग मिश्रण तसेच शेजारील-टोकन-जोडी हॅश वैशिष्ट्ये.जोडले नवीन वैशिष्ट्यांच्या यंत्रणा शून्यापासून.
#1204@msisovicसादर केले मिनी डेप्थ रिकरन्स: लेयर्स 4 आणि 5 ची पुनरावृत्ती केली, मध्य-प्रशिक्षणापर्यंत रिकरन्स विलंबित केला, आणि पुनरावृत्त MLPs अंशतः अनटाइड केले.आवर्ती लेयर्स प्रभावीपणे कार्य करू शकतील अशी पहिली स्वीकारलेली लीडरबोर्ड ओळ.

आम्ही या नऊ सबमिशनना विशेषत्वाने निवडले आहे, कारण या स्पर्धेतून अपेक्षित असलेल्या विविध प्रकारच्या निकालांचे ते प्रतिनिधित्व करतात. काही सहभागींनी काळजीपूर्वक केलेल्या ट्यूनिंगद्वारे यश मिळवले. इतरांनी क्वांटायझेशन आणि लो-रँक तंत्रांवर अधिक भर दिला. काहींनी मूल्यांकन नियमांच्या मर्यादा तपासल्या. आणि अनेकांनी, संदर्भ साहित्यातून किंवा अगदी सुरुवातीपासून, मॉडेलिंग किंवा डेटाशी संबंधित अशा कल्पना मांडल्या, ज्यामुळे अनपेक्षित फायदा झाला.

नॉनरेकॉर्ड ट्रॅक

नॉनरेकॉर्ड ट्रॅकमध्ये अनेक सर्जनशील सबमिशन्स होते. आम्ही त्यापैकी 15 आवडते सबमिशन्स निवडले, ज्यामध्ये नॉन-ऑटोरिग्रेसिव्ह टेक्स्ट मॉडेलिंगपासून ते डायनॅमिक टोकेनायझेशन पर्यंतच्या पद्धतींचा समावेश होता.

हा ट्रॅक अधिक प्रायोगिक असल्यामुळे, आम्ही प्रत्यक्ष सादरीकरणावर कमी आणि ही पद्धत तांत्रिकदृष्ट्या आकर्षक आहे की नाही यावर अधिक लक्ष केंद्रित केले. यामध्ये तीन सबमिशन्स विशेषतः उठून दिसले:

परफॉर्मन्सनुसार ते सर्वोत्तम तीन नसले तरी, रेकॉर्ड न करणाऱ्या आमच्या सर्वात आवडते तीन सबमिशन्स हे होते.

तरीही, नॉनरेकॉर्ड ट्रॅक स्पर्धात्मक होता. नॉनरेकॉर्ड लीडरबोर्डवरील निम्म्या एंट्रीनी 1.22 BPB ची साधी बेसलाइन ओलांडली, आणि अव्वल क्रमांकाच्या एंट्रीने 1.12 BPB गाठले.

आम्हाला हे उत्साहवर्धक वाटले. मजबूत ट्रान्सफॉर्मर बेसलाइनच्या विरोधातही, पर्यायी दृष्टिकोन कधीकधी प्रचलित आर्किटेक्चरसमोर टिकून राहू शकले.

आम्हाला असेही वाटते की, शक्तिशाली कोडिंग एजंट्सच्या उपलब्धतेमुळे या ट्रॅकला विशेष फायदा होतो. एजंट्समुळे काल्पनिक कल्पनांचे प्रोटोटाइप बनवणे खूपच स्वस्त झाले आहे, ज्यामध्ये अशा पद्धतींचाही समावेश आहे ज्या पूर्वी कमी कालावधीच्या स्पर्धेत वापरून पाहण्यासाठी खूप वेळखाऊ किंवा अनिश्चित वाटत असत.

निष्कर्ष

Parameter Golf आणि त्यासारख्या पूर्वीच्या स्पर्धांमधील एक मोठा फरक म्हणजे कोडिंग एजंट्सचा व्यापक वापर. बहुसंख्य स्पर्धकांनी त्यांच्या कामाचा भाग म्हणून एजंट्स वापरल्याचा उल्लेख केला होता.

त्यामुळे प्रवेशासाठीचा अडथळा कमी झाला. सहभागींना प्रयोग अधिक जलद सेट अप करता आले, अपरिचित कोड तपासता आला आणि कमी अडथळ्यांसह कल्पना तपासून पाहता आल्या. Runpod ने $1,000,000 मूल्याच्या कंप्यूट संसाधनांचे केलेले प्रायोजकत्वही हे आव्हान अधिक लोकांसाठी उपलब्ध करून देण्यात महत्त्वाची भूमिका बजावणारे ठरले.

त्याच वेळी, एजंटच्या वापरामुळे सबमिशन आणि स्कोअरिंगसाठी नवीन समस्या निर्माण झाल्या. अनेक सबमिशन्स हे मुळातच नवीन दृष्टिकोन असण्याऐवजी, आधीपासूनच सर्वाधिक गुण मिळवणाऱ्यांमध्ये केलेले छोटे बदल होते. हे अनेकदा उपयुक्त ठरले: चांगल्या कल्पना वेगाने पसरल्या आणि इतरांकडून त्या अधिक सुधारित केल्या गेल्या. पण त्यामुळे गोंधळही निर्माण झाला. जेव्हा स्पर्धेच्या मार्गदर्शक तत्त्वांच्या बाहेर असलेल्या सबमिशन्सला असामान्यपणे चांगले गुण मिळाले, तेव्हा इतर एजंट कधीकधी त्या कल्पनांची नक्कल करून त्याच चुकीच्या मार्गावर चालत राहिले.

सबमिशन्सच्या प्रचंड संख्येमुळे आम्हाला स्पर्धा चालवण्याची पद्धतही बदलावी लागली. प्रत्येक सबमिशन्सची व्यक्तिशः तपासणी करून गुणतालिका सतत अद्ययावत ठेवणे आम्हाला शक्य नव्हते. स्पर्धेदरम्यान, नवीन सबमिशन्सवर लक्ष ठेवण्यासाठी आणि त्यांना मानवी पुनरावलोकनासाठी चिन्हांकित करण्याकरिता आम्ही एक अंतर्गत Codex-आधारित वर्गीकरण बॉट विकसित केला. ज्या काळात आम्हाला दिवसाला शेकडो सबमिशन्स मिळत होते, त्या काळात हे विशेषतः महत्त्वाचे ठरले.

AI एजंट्सदेखील या चॅलेंजच्या सभोवतालच्या समुदायाचा भाग बनले. स्पर्धेच्या बऱ्याच कालावधीत, @notapplica आणि त्यांच्या कोडिंग एजंटने “लाइव्ह अपडेट्स” बुलेटिन चालवले, ज्यामध्ये प्रमुख घटनांचा मागोवा घेतला गेला, लीडरबोर्डसाठीच्या पद्धती समजावून सांगितल्या गेल्या आणि इतर सहभागींना स्पर्धेचे अनुसरण करण्यास मदत झाली. कमी अनुभवी सहभागींना त्यांचे सबमिशन्स नियमांच्या चौकटीत आहे की नाही हे तपासण्यास आणि सामान्य चुकीच्या पद्धती टाळण्यास मदत करण्यासाठी कम्युनिटी रिव्ह्यू टूल्स देखील उपलब्ध झाले.

पुढे काय?

आमचे प्राथमिक उद्दिष्ट असे एक आव्हान सुरू करणे होते, ज्यात पात्र सहभागी(नवीन विंडोमध्ये उघडेल) भाग घेऊ शकतील आणि मशीन लर्निंग संशोधनाचा अनुभव घेऊ शकतील. Parameter Golf मुळे तांत्रिकदृष्ट्या सशक्त आणि सर्जनशील असे विविध प्रकारचे सबमिशन्स प्राप्त झाले, आणि जसजसे AI एजंट अधिक सक्षम होतील व त्यांचा वापर मोठ्या प्रमाणावर वाढेल, तसतसे खुल्या संशोधन स्पर्धांमध्ये कसे बदल होऊ शकतात याची आम्हाला अधिक स्पष्ट कल्पना आली.

आम्ही भविष्यात यासारख्या आणखी स्पर्धा सुरू करण्याचा विचार करत आहोत. जर तुम्हाला रस असेल तर कृपया आव्हान सहभागी फॉर्म(नवीन विंडोमध्ये उघडेल) भरा.

लेखक

OpenAI