12 મે, 2026

Parameter Golf એ અમને શું શીખવ્યું

1,000+ સહભાગીઓ, 2,000+ સબમિશન્સ અને કોડિંગ એજન્ટ્સ દ્વારા આકાર પામેલી એક ખુલ્લી મશીન લર્નિંગ ચેલેન્જમાંથી મળેલા પાઠ.

લોડિંગ…

અમે મશીન લર્નિંગ સંશોધન સમુદાયને એક નવી, કડક મર્યાદાઓ ધરાવતી મશીન લર્નિંગ સમસ્યાનું અન્વેષણ કરવા માટે જોડાવા અને સમર્થન આપવા માટે પેરામીટર ગોલ્ફ શરૂ કર્યું. અમે ઇચ્છતા હતા કે પડકાર એટલો રસપ્રદ હોય કે તે વાસ્તવિક તકનીકી સર્જનાત્મકતાને પુરસ્કૃત કરે, અને ખ્યાલની દૃષ્ટિએ સરળ અને ચકાસવામાં સરળ રહે.

ભાગ લેનારાઓએ નિશ્ચિત FineWeb ડેટાસેટ પર હેલ્ડ-આઉટ લોસને ઘટાડવો હતો, 16 MB આર્ટિફેક્ટ મર્યાદા (મોડલ વેઇટ્સ અને ટ્રેનિંગ કોડ સહિત) અને 8×H100s પર 10 મિનિટના ટ્રેનિંગ બજેટમાં રહેવું હતું. અમે બેઝલાઇન, ડેટાસેટ અને મૂલ્યાંકન સ્ક્રિપ્ટ્સ પ્રદાન કર્યા હતા જેથી સહભાગીઓ રેપોને ફોર્ક કરી શકે, મોડલને સુધારી શકે અને GitHub મારફતે તેમના પરિણામો સબમિટ કરી શકે.

આઠ અઠવાડિયાના સમયગાળા દરમિયાન, અમને 1,000થી વધુ ભાગ લેનારાઓ પાસેથી 2,000થી વધુ સબમિશન મળ્યાં. કેરફુલ ઓપ્ટિમાઇઝર ટ્યુનિંગ અને ક્વોન્ટાઇઝેશન કાર્યથી લઈને નવા મોડેલિંગ આઈડિયાઝ અને ટેસ્ટ-ટાઇમ ટ્રેનિંગ સુધીના તમામ સબમિશનમાં જોવા મળેલ ટેકનિકલ વ્યાપ, સર્જનાત્મકતા અને નિયમોની મર્યાદા વિસ્તૃત કરવાની ક્ષમતાથી અમે પ્રભાવિત થયા છીએ.

પડકારના સૌથી રોમાંચક પાસાંઓમાંથી એક એ જોવું હતું કે સહભાગીઓએ AI કોડિંગ એજન્ટ્સનો કેટલા વ્યાપક રીતે ઉપયોગ કર્યો. એજન્ટ્સે પ્રયોગો કરવાનો ખર્ચ ઘટાડવામાં મદદ કરી, વધુ લોકો માટે ભાગ લેવાનું સરળ બનાવ્યું, અને સ્પર્ધાની ગતિ બદલી. તેમણે સબમિશનની સમીક્ષા, એટ્રિબ્યુશન અને સ્કોરિંગ માટે નવા પડકારો પણ ઊભા કર્યા.

આ ચેલેન્જ અમારા માટે પ્રતિભા શોધવાનું એક અર્થપૂર્ણ માધ્યમ પણ બની. Parameter Golf માટેનો તે અમારા લક્ષ્યોમાંનું એક હતું, અને તે એક ઉપયોગી સંકેત હતો કે ખુલ્લા અંતવાળા તકનીકી પડકારો મશીન લર્નિંગની અસાધારણ સૂઝબૂઝ અને દ્રઢતા પ્રગટ કરી શકે છે.

આ પોસ્ટમાં, અમે એવા કેટલાક સબમિશન પર પ્રકાશ પાડીએ છીએ જે અમને આશ્ચર્યજનક અને રસપ્રદ લાગ્યા, અને શક્તિશાળી AI એજન્ટોના યુગમાં કોડિંગ કોન્ટેસ્ટ ચલાવવાથી અમને જે શીખવા મળ્યું તે શેર કરીએ છીએ.

તકનીકી છાપ

રેકોર્ડ ટ્રેક

અમે રેકોર્ડ-ટ્રેક લીડરબોર્ડ પરની દરેક સબમિશનનું મૂલ્યાંકન કર્યું અને તેને સ્વતંત્ર રીતે પુનરુત્પાદિત કરી, અને ચકાસ્યું કે દરેક સબમિશન સબમિટ કરવામાં આવી તે સમયે રેકોર્ડ તોડનાર હતી. કેટલાક વિષયો ખાસ નોંધપાત્ર રહ્યા.

પ્રશિક્ષણ ઑપ્ટિમાઇઝેશન

કેટલાક સૌથી અસરકારક પરિણામો હાલના ઘટકોના કાળજીપૂર્વક ટ્યુનિંગથી મળ્યાં.

રજૂઆત	યોગદાનકર્તા	તકનીક	તે શા માટે મહત્વ ધરાવતું હતું
#60	@notapplica	#50, #42, અને સંભવતઃ #39, માંથી અગાઉની સફળતાઓ (wins) ને જોડી, અને ત્યારબાદ Muon વેઇટ ડીકે, સ્પેક્ટ્રલ એમ્બેડિંગ ઇનિશિયલાઇઝેશન, રેસિડ્યુઅલ-મિક્સ શિડ્યુલિંગ અને કમ્પાઈલ્ડ ઇવેલ્યુએશન સાથે એક ઊંડા મોડેલને કાર્યરત કર્યું.	શિસ્તબદ્ધ લીડરબોર્ડ કાર્યનું એક મજબૂત ઉદાહરણ: કયા વર્તમાન સુધારાઓ મહત્વના છે તે ઓળખવું અને તેમને સુવ્યવસ્થિત રીતે જોડવું.

ક્વોન્ટાઇઝેશન

કેટલીક રજૂઆતોમાં કમ્પ્રેશન અને એક્સપોર્ટ પર ખાસ ભાર મૂકવામાં આવ્યો હતો.

રજૂઆત	યોગદાનકર્તા	તકનીક	તે શા માટે મહત્વ ધરાવતું હતું
#414	@signalrush	તાલીમ પછી વેઈટ્સને ક્વોન્ટાઈઝ કરવા માટે GPTQ-lite નો ઉપયોગ કર્યો.	GPTQ-lite નો સફળતાપૂર્વક ઉપયોગ કરનાર પ્રથમ લીડરબોર્ડ સબમિશન, જે વધુ સારા મૂલ્યાંકન (evaluation) તરફ દોરી ગયું.
#1060	@dexhunter	@raahilshah દ્વારા #634 પર આધારિત, full Hessian GPTQ નો સફળતાપૂર્વક ઉપયોગ કરવા માટે બનાવ્યું.	અગાઉના ક્વોન્ટાઇઝેશન કાર્યને વધુ મજબૂત કમ્પ્રેશન પાથમાં વિસ્તૃત કર્યું.

ટેસ્ટ સમય અને મૂલ્યાંકન વ્યૂહરચનાઓ

કેટલાંક સબમિશન્સે મોડલ સુધારણા અને મૂલ્યાંકન વ્યૂહરચના વચ્ચેની સીમાને આગળ ધપાવી હતી. આ અભિગમો નિયમો અનુસાર માન્ય હતા, પરંતુ આયોજકો તરીકે અમારે તેમની સાવચેતીપૂર્વક સમીક્ષા કરવી જરૂરી હતી.

રજૂઆત	યોગદાનકર્તા	તકનીક	તે શા માટે મહત્વ ધરાવતું હતું
#77	@samacqua	સ્કોર-ફર્સ્ટ, દસ્તાવેજ-દીઠ LoRA ટેસ્ટ-ટાઇમ ટ્રેનિંગનો ઉપયોગ કર્યો: પહેલાં સ્કોર કરો, માત્ર પહેલેથી સ્કોર કરેલા ચંક્સ પર જ અનુકૂલિત કરો, અને દસ્તાવેજની સીમાઓ પર રીસેટ કરો. નિયમો હેઠળ સમીક્ષા કરી શકાય તેવું રાખતાં, મોડલ સુધારણા અને મૂલ્યાંકન વ્યૂહરચના વચ્ચેની સીમાને આગળ ધપાવી.	a href=""https://github.com/openai/parameter-golf/pull/1019""]#1019[/a]"	@abaybektursun	સ્વ-નિર્મિત GPTQ કેલિબ્રેશનનો ઉપયોગ કર્યો: પ્રશિક્ષિત મોડલમાંથી કેલિબ્રેશન ટેક્સ્ટ જનરેટ કરો, પછી તે એક્ટિવેશન્સમાંથી GPTQ Hessians બનાવો.	એક સર્જનાત્મક કેલિબ્રેશન વ્યૂહરચના જેને આયોજકો તરફથી કાળજીપૂર્વકની સમીક્ષાની જરૂર હતી.

મોડેલિંગ અને ડેટા માટેના નવા વિચારો

કેટલાક સબમિશનમાં એવા મોડેલિંગ અથવા ડેટા આઈડિયાઝ રજૂ કરવામાં આવ્યા હતા જે ખાસ કરીને સર્જનાત્મક હતા.

રજૂઆત	યોગદાનકર્તા	તકનીક	તે શા માટે મહત્વ ધરાવતું હતું
#1729	@romeerp	CaseOps ટોકનાઇઝર રજૂ કર્યું: મૂળ-બાઇટ BPB સાઇડકાર એકાઉન્ટિંગ સાથે લૉસલેસ કેપિટલાઇઝેશન Operator ટોકન.	એક સર્જનાત્મક ટોકનાઇઝર અને ડેટા-પ્રતિનિધિત્વનો વિચાર.
#265	@unnir	XSA રજૂ કર્યું, GQA-સચેત જૂથબદ્ધ વ્યૂઝ સાથેનો કાર્યક્ષમ આંશિક એક્સક્લૂસિવ સેલ્ફ એટેન્શન અભિગમ.	પડકારમાં કાર્યક્ષમ અટેન્શન વેરિયન્ટ ઉમેર્યું.
#65	@aquariouseworkman	SmearGate અને BigramHash રજૂ કર્યા: જે લર્ન્ડ પ્રિવિયસ-ટોકન એમ્બેડિંગ બ્લેન્ડ અને એડજેસન્ટ-ટોકન-પેર હેશ ફીચર્સ છે.	શરૂઆતથી નવી સુવિધાઓ માટેના મિકેનિઝમ્સ ઉમેર્યા.
#1204	@msisovic	મિની ડેપ્થ રિકરન્સ રજૂ કર્યું: પુનરાવર્તિત સ્તરો 4 અને 5, મધ્ય-ટ્રેનિંગ સુધી રિકરન્સને વિલંબિત કર્યું, અને પુનરાવર્તિત MLPs ને આંશિક રીતે અનટાઇડ કર્યા.	રિકરન્ટ સ્તરોને અસરકારક રીતે કામ કરાવવા માટે લીડરબોર્ડની પ્રથમ સ્વીકારાયેલી પંક્તિ.

અમે આ નવ રજૂઆતોને વિશેષરૂપે દર્શાવવા પસંદ કરી, કારણ કે તે પરિણામોની એ શ્રેણીનું પ્રતિનિધિત્વ કરે છે જેને આ પડકાર દ્વારા સામે લાવવાની અમને આશા હતી. કેટલાક સહભાગીઓને કાળજીપૂર્વકના ટ્યુનિંગ દ્વારા સફળતાઓ મળી. અન્યોએ ક્વોન્ટાઈઝેશન અને લો-રૅન્ક તકનીકોને આગળ ધપાવી. મૂલ્યાંકન નિયમોની કેટલીક અન્વેષિત ધારાઓ. અને મોડેલિંગ અથવા ડેટા અંગેના અમુક નવા વિચારો—સાહિત્યમાંથી લેવામાં આવેલા અથવા શરૂઆતથી વિકસાવવામાં આવેલા—જેનાથી અનપેક્ષિત સુધારા મળ્યા.

નોન-રેકોર્ડ ટ્રેક

નોનરેકોર્ડ ટ્રેક ઘણી સર્જનાત્મક સબમિશન્સ માટેનું મંચ બન્યો હતો. અમે 15 મનપસંદોને હાઇલાઇટ કર્યા, જેમાં નોન-ઓટોરિગ્રેસિવ ટેક્સ્ટ મોડેલિંગથી લઈને ડાયનેમિક ટોકનાઇઝેશન સુધીના અભિગમો સામેલ છે.

કારણ કે આ ટ્રેક વધુ પ્રયોગાત્મક હતો, અમે મૂળભૂત કામગીરી કરતાં ટેક્નિકલ રીતે રસપ્રદ અભિગમ પર વધુ ધ્યાન કેન્દ્રિત કર્યું. ખાસ કરીને ત્રણ સબમિશન અલગ તરી આવ્યા હતા:

પરફોર્મન્સની દ્રષ્ટિએ તેઓ કદાચ ટોચના ત્રણ ન હોવા છતાં, આ અમારા મનપસંદ ત્રણ નોન-રેકોર્ડ સબમિશન હતા.તેમ છતાં, નોન-રેકોર્ડ ટ્રેક હજુ પણ સ્પર્ધાત્મક હતો.

તેમ છતાં, બિન-રેકોર્ડ ટ્રેક હજી પણ સ્પર્ધાત્મક હતો. નોન-રેકોર્ડ લીડરબોર્ડ એન્ટ્રીઓમાંથી અડધીએ 1.22 BPB ની નાઇવ બેઝલાઇનને માત આપી, અને ટોચના ક્રમની એન્ટ્રીએ 1.12 BPB હાંસલ કર્યું.

અમને આ પ્રોત્સાહક લાગ્યું. મજબૂત ટ્રાન્સફોર્મર બેઝલાઇન્સ સામે પણ, વૈકલ્પિક અભિગમો ક્યારેક પ્રભુત્વશાળી આર્કિટેક્ચરને ટક્કર આપી શકતા હતા.

અમને એવું પણ લાગે છે કે આ ટ્રૅકને શક્તિશાળી કોડિંગ એજન્ટોની ઉપલબ્ધતાથી ખાસ કરીને લાભ થાય છે. એજન્ટ્સે અનુમાનાત્મક વિચારોના પ્રોટોટાઇપ બનાવવાનું ઘણું ઓછું ખર્ચાળ બનાવી દીધું, જેમાં એવા અભિગમો પણ સામેલ છે જે અગાઉ ટૂંકી અવધિની સ્પર્ધામાં અજમાવવા માટે ખૂબ સમયખાઉ અથવા અનિશ્ચિત લાગ્યા હોઈ શકે.

મુખ્ય મુદ્દાઓ

Parameter Golf અને તેના જેવી અગાઉની સ્પર્ધાઓ વચ્ચેનો એક મોટો તફાવત કોડિંગ એજન્ટ્સનો વ્યાપક ઉપયોગ હતો. સબમિટ કરનારાઓની વિશાળ બહુમતીએ જણાવ્યું કે તેઓ તેમના કામના ભાગરૂપે એજન્ટ્સનો ઉપયોગ કરે છે.

તેનાથી પ્રવેશ માટેનો અવરોધ ઓછો થયો. સહભાગીઓ પ્રયોગો વધુ ઝડપથી ગોઠવી શકતા, અજાણ્યા કોડની તપાસ કરી શકતા, અને ઓછી અડચણ સાથે વિચારોનું પરીક્ષણ કરી શકતા. Runpod દ્વારા $1,000,000 ના કમ્પ્યુટિંગ સંસાધનોની સ્પોન્સરશિપે પણ આ ચેલેન્જને વધુ લોકો માટે સુલભ બનાવવામાં મહત્વપૂર્ણ ભૂમિકા ભજવી.

તે જ સમયે, એજન્ટના ઉપયોગે સબમિશન અને સ્કોરિંગ માટે નવા મુદ્દાઓ ઊભા કર્યા. ઘણા સબમિશન મૂળભૂત રીતે નવા અભિગમો હોવાને બદલે, હાલના ટોચના સ્કોર મેળવનારાઓમાં કરેલા નાના ફેરફારો હતા. આ ઘણી વાર ઉપયોગી સાબિત થતું: પ્રબળ વિચારો ઝડપથી ફેલાતા અને અન્ય લોકો દ્વારા તેમને પરિષ્કૃત કરવામાં આવતા. પરંતુ તેનાથી ગોંઘાટ પણ સર્જાયો. જ્યારે સ્પર્ધાની માર્ગદર્શિકાઓની બહાર આવતી રજૂઆતો અસામાન્ય રીતે ઊંચા સ્કોર મેળવતી, ત્યારે અન્ય એજન્ટો ક્યારેક તે વિચારોની નકલ કરતા અને એ જ અમાન્ય માર્ગ પર આગળ વધતા.

સબમિશન્સની સંખ્યાએ પણ અમારે સ્પર્ધાનું સંચાલન બદલવું પડ્યું. દરેક સબમિશનની હાથથી તપાસ કરવી અને લીડરબોર્ડ ચાલુ રાખવી અમારા માટે શક્ય નહોતું. પડકાર દરમિયાન, અમે નવી સબમિશન્સ પર નજર રાખવા અને તેમને માનવીય સમીક્ષા માટે ચિહ્નિત કરવા માટે એક આંતરિક Codex-આધારિત ટ્રાયેજ બોટ વિકસાવ્યો. આ બાબત ખાસ કરીને એવા સમયગાળાઓ દરમિયાન મહત્વપૂર્ણ બની, જ્યારે અમને દરરોજ સૈંકડો સબમિશન્સ મળતી હતી.

AI એજન્ટ્સ પણ પડકારને લઈને બનેલા સમુદાયનો ભાગ બન્યા. સ્પર્ધાના મોટા ભાગ દરમિયાન, @notapplica અને તેમના કોડિંગ એજન્ટે “લાઇવ અપડેટ્સ” બુલેટિન ચલાવ્યું, જેમાં મુખ્ય ઘટનાઓને ટ્રૅક કરવામાં આવી, લીડરબોર્ડ માટેના અભિગમો સમજાવવામાં આવ્યા અને અન્ય સહભાગીઓને સ્પર્ધાને અનુસરવામાં મદદ કરવામાં આવી. સમુદાય સમીક્ષા સાધનો ઓછો અનુભવ ધરાવતા સહભાગીઓને તેમની રજૂઆતો નિયમો અનુસાર છે કે નહીં તે તપાસવામાં અને સામાન્ય અમાન્ય અભિગમો ટાળવામાં મદદરૂપ બન્યા.

હવે આગળ શું?

અમારો મુખ્ય ઉદ્દેશ એક એવી ચેલેન્જ શરૂ કરવાનો હતો જેમાં પાત્ર સહભાગીઓ⁠(નવી વિન્ડોમાં ખૂલે છે) ભાગ લઈ શકે અને મશીન લર્નિંગ સંશોધનનો અનુભવ મેળવી શકે. Parameter Golf દ્વારા તકનીકી રીતે મજબૂત અને સર્જનાત્મક રજૂઆતોની વિશાળ શ્રેણી પ્રાપ્ત થઈ, અને AI એજન્ટો વધુ સક્ષમ અને વ્યાપક રીતે ઉપયોગમાં લેવાતા બનતાં ખુલ્લી સંશોધન સ્પર્ધાઓ કેવી રીતે બદલાઈ શકે છે તેનો અમને વધુ સ્પષ્ટ અંદાજ મળ્યો.

અમે ભવિષ્યમાં આ પ્રકારની વધુ ચેલેન્જ શરૂ કરવાની વિચારણા કરી રહ્યા છીએ. જો તમને રસ હોય, તો કૃપા કરીને ચેલેન્જ સહભાગી ફોર્મ⁠(નવી વિન્ડોમાં ખૂલે છે) ભરો.

લેખક

OpenAI

વાંચતા રહો

બધું જુઓ

કોડિંગ મૂલ્યાંકનમાં ઉપયોગી માહિતીને બિનજરૂરી માહિતીથી અલગ કરવી

સંશોધન8 જુલાઈ, 2026

GeneBench-Pro રજૂ કરી રહ્યાં છીએ

સંશોધન30 જૂન, 2026

A near-autonomous AI chemist improves a challenging reaction

લગભગ સ્વચાલિત AI રસાયણશાસ્ત્રી ઔષધીય રસાયણશાસ્ત્રમાં એક પડકારજનક પ્રક્રિયામાં સુધારો કરે છે.

સંશોધન17 જૂન, 2026