મુખ્ય વિષય-સામગ્રી પર જાવો
OpenAI

12 મે, 2026

સંશોધન

Parameter Golf એ અમને શું શીખવ્યું

1,000+ સહભાગીઓ, 2,000+ સબમિશન્સ અને કોડિંગ એજન્ટ્સ દ્વારા આકાર પામેલી એક ખુલ્લી મશીન લર્નિંગ ચેલેન્જમાંથી મળેલા પાઠ.

લોડિંગ…

અમે મશીન લર્નિંગ સંશોધન સમુદાયને એક નવી, કડક મર્યાદાઓ ધરાવતી મશીન લર્નિંગ સમસ્યાનું અન્વેષણ કરવા માટે જોડાવા અને સમર્થન આપવા માટે પેરામીટર ગોલ્ફ શરૂ કર્યું. અમે ઇચ્છતા હતા કે પડકાર એટલો રસપ્રદ હોય કે તે વાસ્તવિક તકનીકી સર્જનાત્મકતાને પુરસ્કૃત કરે, અને ખ્યાલની દૃષ્ટિએ સરળ અને ચકાસવામાં સરળ રહે.

ભાગ લેનારાઓએ નિશ્ચિત FineWeb ડેટાસેટ પર હેલ્ડ-આઉટ લોસને ઘટાડવો હતો, 16 MB આર્ટિફેક્ટ મર્યાદા (મોડલ વેઇટ્સ અને ટ્રેનિંગ કોડ સહિત) અને 8×H100s પર 10 મિનિટના ટ્રેનિંગ બજેટમાં રહેવું હતું. અમે બેઝલાઇન, ડેટાસેટ અને મૂલ્યાંકન સ્ક્રિપ્ટ્સ પ્રદાન કર્યા હતા જેથી સહભાગીઓ રેપોને ફોર્ક કરી શકે, મોડલને સુધારી શકે અને GitHub મારફતે તેમના પરિણામો સબમિટ કરી શકે.

આઠ અઠવાડિયાના સમયગાળા દરમિયાન, અમને 1,000થી વધુ ભાગ લેનારાઓ પાસેથી 2,000થી વધુ સબમિશન મળ્યાં. કેરફુલ ઓપ્ટિમાઇઝર ટ્યુનિંગ અને ક્વોન્ટાઇઝેશન કાર્યથી લઈને નવા મોડેલિંગ આઈડિયાઝ અને ટેસ્ટ-ટાઇમ ટ્રેનિંગ સુધીના તમામ સબમિશનમાં જોવા મળેલ ટેકનિકલ વ્યાપ, સર્જનાત્મકતા અને નિયમોની મર્યાદા વિસ્તૃત કરવાની ક્ષમતાથી અમે પ્રભાવિત થયા છીએ.

પડકારના સૌથી રોમાંચક પાસાંઓમાંથી એક એ જોવું હતું કે સહભાગીઓએ AI કોડિંગ એજન્ટ્સનો કેટલા વ્યાપક રીતે ઉપયોગ કર્યો. એજન્ટ્સે પ્રયોગો કરવાનો ખર્ચ ઘટાડવામાં મદદ કરી, વધુ લોકો માટે ભાગ લેવાનું સરળ બનાવ્યું, અને સ્પર્ધાની ગતિ બદલી. તેમણે સબમિશનની સમીક્ષા, એટ્રિબ્યુશન અને સ્કોરિંગ માટે નવા પડકારો પણ ઊભા કર્યા.

આ ચેલેન્જ અમારા માટે પ્રતિભા શોધવાનું એક અર્થપૂર્ણ માધ્યમ પણ બની. Parameter Golf માટેનો તે અમારા લક્ષ્યોમાંનું એક હતું, અને તે એક ઉપયોગી સંકેત હતો કે ખુલ્લા અંતવાળા તકનીકી પડકારો મશીન લર્નિંગની અસાધારણ સૂઝબૂઝ અને દ્રઢતા પ્રગટ કરી શકે છે.

આ પોસ્ટમાં, અમે એવા કેટલાક સબમિશન પર પ્રકાશ પાડીએ છીએ જે અમને આશ્ચર્યજનક અને રસપ્રદ લાગ્યા, અને શક્તિશાળી AI એજન્ટોના યુગમાં કોડિંગ કોન્ટેસ્ટ ચલાવવાથી અમને જે શીખવા મળ્યું તે શેર કરીએ છીએ.

તકનીકી છાપ

રેકોર્ડ ટ્રેક

અમે રેકોર્ડ-ટ્રેક લીડરબોર્ડ પરની દરેક સબમિશનનું મૂલ્યાંકન કર્યું અને તેને સ્વતંત્ર રીતે પુનરુત્પાદિત કરી, અને ચકાસ્યું કે દરેક સબમિશન સબમિટ કરવામાં આવી તે સમયે રેકોર્ડ તોડનાર હતી. કેટલાક વિષયો ખાસ નોંધપાત્ર રહ્યા.

પ્રશિક્ષણ ઑપ્ટિમાઇઝેશન

કેટલાક સૌથી અસરકારક પરિણામો હાલના ઘટકોના કાળજીપૂર્વક ટ્યુનિંગથી મળ્યાં.

રજૂઆતયોગદાનકર્તાતકનીકતે શા માટે મહત્વ ધરાવતું હતું
#60@notapplica #50, #42, અને સંભવતઃ #39, માંથી અગાઉની સફળતાઓ (wins) ને જોડી, અને ત્યારબાદ Muon વેઇટ ડીકે, સ્પેક્ટ્રલ એમ્બેડિંગ ઇનિશિયલાઇઝેશન, રેસિડ્યુઅલ-મિક્સ શિડ્યુલિંગ અને કમ્પાઈલ્ડ ઇવેલ્યુએશન સાથે એક ઊંડા મોડેલને કાર્યરત કર્યું. શિસ્તબદ્ધ લીડરબોર્ડ કાર્યનું એક મજબૂત ઉદાહરણ: કયા વર્તમાન સુધારાઓ મહત્વના છે તે ઓળખવું અને તેમને સુવ્યવસ્થિત રીતે જોડવું.

ક્વોન્ટાઇઝેશન

કેટલીક રજૂઆતોમાં કમ્પ્રેશન અને એક્સપોર્ટ પર ખાસ ભાર મૂકવામાં આવ્યો હતો.

રજૂઆતયોગદાનકર્તાતકનીકતે શા માટે મહત્વ ધરાવતું હતું
#414@signalrushતાલીમ પછી વેઈટ્સને ક્વોન્ટાઈઝ કરવા માટે GPTQ-lite નો ઉપયોગ કર્યો.GPTQ-lite નો સફળતાપૂર્વક ઉપયોગ કરનાર પ્રથમ લીડરબોર્ડ સબમિશન, જે વધુ સારા મૂલ્યાંકન (evaluation) તરફ દોરી ગયું.
#1060@dexhunter@raahilshah દ્વારા #634 પર આધારિત, full Hessian GPTQ નો સફળતાપૂર્વક ઉપયોગ કરવા માટે બનાવ્યું.અગાઉના ક્વોન્ટાઇઝેશન કાર્યને વધુ મજબૂત કમ્પ્રેશન પાથમાં વિસ્તૃત કર્યું.

ટેસ્ટ સમય અને મૂલ્યાંકન વ્યૂહરચનાઓ

કેટલાંક સબમિશન્સે મોડલ સુધારણા અને મૂલ્યાંકન વ્યૂહરચના વચ્ચેની સીમાને આગળ ધપાવી હતી. આ અભિગમો નિયમો અનુસાર માન્ય હતા, પરંતુ આયોજકો તરીકે અમારે તેમની સાવચેતીપૂર્વક સમીક્ષા કરવી જરૂરી હતી.

રજૂઆતયોગદાનકર્તાતકનીકતે શા માટે મહત્વ ધરાવતું હતું
#77@samacquaસ્કોર-ફર્સ્ટ, દસ્તાવેજ-દીઠ LoRA ટેસ્ટ-ટાઇમ ટ્રેનિંગનો ઉપયોગ કર્યો: પહેલાં સ્કોર કરો, માત્ર પહેલેથી સ્કોર કરેલા ચંક્સ પર જ અનુકૂલિત કરો, અને દસ્તાવેજની સીમાઓ પર રીસેટ કરો. નિયમો હેઠળ સમીક્ષા કરી શકાય તેવું રાખતાં, મોડલ સુધારણા અને મૂલ્યાંકન વ્યૂહરચના વચ્ચેની સીમાને આગળ ધપાવી.
a href=""https://github.com/openai/parameter-golf/pull/1019""]#1019[/a]"@abaybektursunસ્વ-નિર્મિત GPTQ કેલિબ્રેશનનો ઉપયોગ કર્યો: પ્રશિક્ષિત મોડલમાંથી કેલિબ્રેશન ટેક્સ્ટ જનરેટ કરો, પછી તે એક્ટિવેશન્સમાંથી GPTQ Hessians બનાવો.એક સર્જનાત્મક કેલિબ્રેશન વ્યૂહરચના જેને આયોજકો તરફથી કાળજીપૂર્વકની સમીક્ષાની જરૂર હતી.

મોડેલિંગ અને ડેટા માટેના નવા વિચારો

કેટલાક સબમિશનમાં એવા મોડેલિંગ અથવા ડેટા આઈડિયાઝ રજૂ કરવામાં આવ્યા હતા જે ખાસ કરીને સર્જનાત્મક હતા.

રજૂઆતયોગદાનકર્તાતકનીકતે શા માટે મહત્વ ધરાવતું હતું
#1729@romeerpCaseOps ટોકનાઇઝર રજૂ કર્યું: મૂળ-બાઇટ BPB સાઇડકાર એકાઉન્ટિંગ સાથે લૉસલેસ કેપિટલાઇઝેશન Operator ટોકન.એક સર્જનાત્મક ટોકનાઇઝર અને ડેટા-પ્રતિનિધિત્વનો વિચાર.
#265@unnirXSA રજૂ કર્યું, GQA-સચેત જૂથબદ્ધ વ્યૂઝ સાથેનો કાર્યક્ષમ આંશિક એક્સક્લૂસિવ સેલ્ફ એટેન્શન અભિગમ.પડકારમાં કાર્યક્ષમ અટેન્શન વેરિયન્ટ ઉમેર્યું.
#65@aquariouseworkman SmearGate અને BigramHash રજૂ કર્યા: જે લર્ન્ડ પ્રિવિયસ-ટોકન એમ્બેડિંગ બ્લેન્ડ અને એડજેસન્ટ-ટોકન-પેર હેશ ફીચર્સ છે. શરૂઆતથી નવી સુવિધાઓ માટેના મિકેનિઝમ્સ ઉમેર્યા.
#1204@msisovicમિની ડેપ્થ રિકરન્સ રજૂ કર્યું: પુનરાવર્તિત સ્તરો 4 અને 5, મધ્ય-ટ્રેનિંગ સુધી રિકરન્સને વિલંબિત કર્યું, અને પુનરાવર્તિત MLPs ને આંશિક રીતે અનટાઇડ કર્યા.રિકરન્ટ સ્તરોને અસરકારક રીતે કામ કરાવવા માટે લીડરબોર્ડની પ્રથમ સ્વીકારાયેલી પંક્તિ.

અમે આ નવ રજૂઆતોને વિશેષરૂપે દર્શાવવા પસંદ કરી, કારણ કે તે પરિણામોની એ શ્રેણીનું પ્રતિનિધિત્વ કરે છે જેને આ પડકાર દ્વારા સામે લાવવાની અમને આશા હતી. કેટલાક સહભાગીઓને કાળજીપૂર્વકના ટ્યુનિંગ દ્વારા સફળતાઓ મળી. અન્યોએ ક્વોન્ટાઈઝેશન અને લો-રૅન્ક તકનીકોને આગળ ધપાવી. મૂલ્યાંકન નિયમોની કેટલીક અન્વેષિત ધારાઓ. અને મોડેલિંગ અથવા ડેટા અંગેના અમુક નવા વિચારો—સાહિત્યમાંથી લેવામાં આવેલા અથવા શરૂઆતથી વિકસાવવામાં આવેલા—જેનાથી અનપેક્ષિત સુધારા મળ્યા.

નોન-રેકોર્ડ ટ્રેક

નોનરેકોર્ડ ટ્રેક ઘણી સર્જનાત્મક સબમિશન્સ માટેનું મંચ બન્યો હતો. અમે 15 મનપસંદોને હાઇલાઇટ કર્યા, જેમાં નોન-ઓટોરિગ્રેસિવ ટેક્સ્ટ મોડેલિંગથી લઈને ડાયનેમિક ટોકનાઇઝેશન સુધીના અભિગમો સામેલ છે.

કારણ કે આ ટ્રેક વધુ પ્રયોગાત્મક હતો, અમે મૂળભૂત કામગીરી કરતાં ટેક્નિકલ રીતે રસપ્રદ અભિગમ પર વધુ ધ્યાન કેન્દ્રિત કર્યું. ખાસ કરીને ત્રણ સબમિશન અલગ તરી આવ્યા હતા:

પરફોર્મન્સની દ્રષ્ટિએ તેઓ કદાચ ટોચના ત્રણ ન હોવા છતાં, આ અમારા મનપસંદ ત્રણ નોન-રેકોર્ડ સબમિશન હતા.તેમ છતાં, નોન-રેકોર્ડ ટ્રેક હજુ પણ સ્પર્ધાત્મક હતો.

તેમ છતાં, બિન-રેકોર્ડ ટ્રેક હજી પણ સ્પર્ધાત્મક હતો. નોન-રેકોર્ડ લીડરબોર્ડ એન્ટ્રીઓમાંથી અડધીએ 1.22 BPB ની નાઇવ બેઝલાઇનને માત આપી, અને ટોચના ક્રમની એન્ટ્રીએ 1.12 BPB હાંસલ કર્યું.

અમને આ પ્રોત્સાહક લાગ્યું. મજબૂત ટ્રાન્સફોર્મર બેઝલાઇન્સ સામે પણ, વૈકલ્પિક અભિગમો ક્યારેક પ્રભુત્વશાળી આર્કિટેક્ચરને ટક્કર આપી શકતા હતા.

અમને એવું પણ લાગે છે કે આ ટ્રૅકને શક્તિશાળી કોડિંગ એજન્ટોની ઉપલબ્ધતાથી ખાસ કરીને લાભ થાય છે. એજન્ટ્સે અનુમાનાત્મક વિચારોના પ્રોટોટાઇપ બનાવવાનું ઘણું ઓછું ખર્ચાળ બનાવી દીધું, જેમાં એવા અભિગમો પણ સામેલ છે જે અગાઉ ટૂંકી અવધિની સ્પર્ધામાં અજમાવવા માટે ખૂબ સમયખાઉ અથવા અનિશ્ચિત લાગ્યા હોઈ શકે.

મુખ્ય મુદ્દાઓ

Parameter Golf અને તેના જેવી અગાઉની સ્પર્ધાઓ વચ્ચેનો એક મોટો તફાવત કોડિંગ એજન્ટ્સનો વ્યાપક ઉપયોગ હતો. સબમિટ કરનારાઓની વિશાળ બહુમતીએ જણાવ્યું કે તેઓ તેમના કામના ભાગરૂપે એજન્ટ્સનો ઉપયોગ કરે છે.

તેનાથી પ્રવેશ માટેનો અવરોધ ઓછો થયો. સહભાગીઓ પ્રયોગો વધુ ઝડપથી ગોઠવી શકતા, અજાણ્યા કોડની તપાસ કરી શકતા, અને ઓછી અડચણ સાથે વિચારોનું પરીક્ષણ કરી શકતા. Runpod દ્વારા $1,000,000 ના કમ્પ્યુટિંગ સંસાધનોની સ્પોન્સરશિપે પણ આ ચેલેન્જને વધુ લોકો માટે સુલભ બનાવવામાં મહત્વપૂર્ણ ભૂમિકા ભજવી.

તે જ સમયે, એજન્ટના ઉપયોગે સબમિશન અને સ્કોરિંગ માટે નવા મુદ્દાઓ ઊભા કર્યા. ઘણા સબમિશન મૂળભૂત રીતે નવા અભિગમો હોવાને બદલે, હાલના ટોચના સ્કોર મેળવનારાઓમાં કરેલા નાના ફેરફારો હતા. આ ઘણી વાર ઉપયોગી સાબિત થતું: પ્રબળ વિચારો ઝડપથી ફેલાતા અને અન્ય લોકો દ્વારા તેમને પરિષ્કૃત કરવામાં આવતા. પરંતુ તેનાથી ગોંઘાટ પણ સર્જાયો. જ્યારે સ્પર્ધાની માર્ગદર્શિકાઓની બહાર આવતી રજૂઆતો અસામાન્ય રીતે ઊંચા સ્કોર મેળવતી, ત્યારે અન્ય એજન્ટો ક્યારેક તે વિચારોની નકલ કરતા અને એ જ અમાન્ય માર્ગ પર આગળ વધતા.

સબમિશન્સની સંખ્યાએ પણ અમારે સ્પર્ધાનું સંચાલન બદલવું પડ્યું. દરેક સબમિશનની હાથથી તપાસ કરવી અને લીડરબોર્ડ ચાલુ રાખવી અમારા માટે શક્ય નહોતું. પડકાર દરમિયાન, અમે નવી સબમિશન્સ પર નજર રાખવા અને તેમને માનવીય સમીક્ષા માટે ચિહ્નિત કરવા માટે એક આંતરિક Codex-આધારિત ટ્રાયેજ બોટ વિકસાવ્યો. આ બાબત ખાસ કરીને એવા સમયગાળાઓ દરમિયાન મહત્વપૂર્ણ બની, જ્યારે અમને દરરોજ સૈંકડો સબમિશન્સ મળતી હતી.

AI એજન્ટ્સ પણ પડકારને લઈને બનેલા સમુદાયનો ભાગ બન્યા. સ્પર્ધાના મોટા ભાગ દરમિયાન, @notapplica અને તેમના કોડિંગ એજન્ટે “લાઇવ અપડેટ્સ” બુલેટિન ચલાવ્યું, જેમાં મુખ્ય ઘટનાઓને ટ્રૅક કરવામાં આવી, લીડરબોર્ડ માટેના અભિગમો સમજાવવામાં આવ્યા અને અન્ય સહભાગીઓને સ્પર્ધાને અનુસરવામાં મદદ કરવામાં આવી. સમુદાય સમીક્ષા સાધનો ઓછો અનુભવ ધરાવતા સહભાગીઓને તેમની રજૂઆતો નિયમો અનુસાર છે કે નહીં તે તપાસવામાં અને સામાન્ય અમાન્ય અભિગમો ટાળવામાં મદદરૂપ બન્યા.

હવે આગળ શું?

અમારો મુખ્ય ઉદ્દેશ એક એવી ચેલેન્જ શરૂ કરવાનો હતો જેમાં પાત્ર સહભાગીઓ(નવી વિન્ડોમાં ખૂલે છે) ભાગ લઈ શકે અને મશીન લર્નિંગ સંશોધનનો અનુભવ મેળવી શકે. Parameter Golf દ્વારા તકનીકી રીતે મજબૂત અને સર્જનાત્મક રજૂઆતોની વિશાળ શ્રેણી પ્રાપ્ત થઈ, અને AI એજન્ટો વધુ સક્ષમ અને વ્યાપક રીતે ઉપયોગમાં લેવાતા બનતાં ખુલ્લી સંશોધન સ્પર્ધાઓ કેવી રીતે બદલાઈ શકે છે તેનો અમને વધુ સ્પષ્ટ અંદાજ મળ્યો.

અમે ભવિષ્યમાં આ પ્રકારની વધુ ચેલેન્જ શરૂ કરવાની વિચારણા કરી રહ્યા છીએ. જો તમને રસ હોય, તો કૃપા કરીને ચેલેન્જ સહભાગી ફોર્મ(નવી વિન્ડોમાં ખૂલે છે) ભરો.