Lumaktaw sa pangunahing content
OpenAI

Mayo 12, 2026

Pananaliksik

Ano ang itinuro sa amin ng Parameter Golf

Mga aral mula sa 1,000+ na participant, 2,000+ na submission, at isang open machine learning challenge na hinubog ng mga coding agent.

Naglo-load…

Inilunsad namin ang Parameter Golf para makibahagi at suportahan ang komunidad ng pananaliksik sa machine learning sa pag-explore ng bagong problemang may mahigpit na limitasyon sa machine learning. Gusto naming maging kawili-wili ang hamon para gantimpalaan ang tunay na technical creativity, habang nananatiling simple ang konsepto at madaling mapatunayan.

Kailangan i-minimize ng mga participant ang held-out loss sa naka-fix na FineWeb dataset nang hindi lumalampas sa 16 MB na artifact limit, kasama na rito ang mga weight ng model at training code, at 10-minute na training budget sa 8×H100s. Nagbigay kami ng baseline, dataset, at mga evaluation script para ma-fork ng mga participant ang repo, ma-improve ang model, at ma-submit sa GitHub ang mga nagawa nila.

Sa loob ng walong linggo, nakatanggap kami ng mahigit 2,000 na submission mula sa mahigit 1,000 na participant. Humanga kami sa nakita naming technical breadth, creativity, at rule-bending sa mga submission, mula sa maingat na optimizer tuning at quantization work hanggang sa mga bagong modeling idea at test-time training.

Isa sa mga pinaka-exciting na bahagi ng challenge ay nakita namin kung gaano kalawak ginamit ng mga participant ang mga AI coding agent. Nakatulong ang mga agent na mapababa ang gastos sa experimentation, kaya naging mas madali para sa mas maraming tao na maka-participate, at nabago nito ang bilis ng kompetisyon. Nakagawa rin sila ng mga bagong challenge para sa submission review, attribution, at scoring.

Naging daan din ang challenge para ma-discover namin ang mga mahuhusay na talento. Isa iyon sa aming mga layunin para sa Parameter Golf, at naging kapaki-pakinabang itong palatandaan na ang mga bukas na technical challenge ay puwedeng magpakita ng pambihirang husay at tiyaga sa machine learning.

Sa post na ito, iha-highlight namin ang ilan sa mga submission na nakita naming nakakagulat at interesting, at ishe-share namin ang natutuhan namin sa pagsasagawa ng coding contest sa panahon ng mga powerful AI agent.

Mga technical impression

Record track

Ni-review namin at isa-isang ni-reproduce sa record-track leaderboard ang bawat submission, at napatunayan namin na record-breaking ang bawat submission nang i-submit ito. May ilang theme na nag-stood out.

Pag-optimize ng training

Ang ilan sa pinakamagagandang resulta ay nanggaling sa maingat na tuning ng mga existing component.

PagsusumiteKontribyutorTeknikBakit ito mahalaga
#60@notapplicaPinagsama ang mga naunang panalo mula sa #50, #42, at malamang #39, pagkatapos ay nagpagana ng mas malalim na modelo gamit ang Muon weight decay, initialization ng spectral embedding, residual-mix scheduling, at compiled evaluation.A matibay na halimbawa ng disiplinadong gawain sa leaderboard: pagtukoy kung aling mga kasalukuyang pagpapahusay ang mahalaga at pagsasama-sama ng mga ito nang maayos.

Quantization

May ilang submission na nag-focus ng husto sa compression at export.

PagsusumiteKontribyutorTeknikBakit ito mahalaga
#414@signalrushGumamit ng GPTQ-lite para masukat ang mga timbang pagkatapos ng pagsasanay.Ang unang isinumiteng leaderboard na matagumpay na gumamit ng GPTQ-lite, na humantong sa mas mahusay na pagsusuri.
#1060@dexhunterBinuo sa #634 ni @raahilshah upang matagumpay na magamit ang buong Hessian GPTQ.Pinalawak ang naunang gawain sa quantization tungo sa mas mahusay na paraan ng compression.

Mga test-time at evaluation strategy

In-explore ng ilang submission ang boundary sa pagitan ng model improvement at evaluation strategy. Valid ang mga approach na ito batay sa mga rule, pero kailangan naming maingat na i-review ang mga ito bilang mga organizer.

PagsusumiteKontribyutorTeknikBakit ito mahalaga
#77@samacquaGinamit score-first, bawat-dokumentong LoRA test-time training: mag-score muna, mag-adapt lang sa mga chunk na na-score na, at mag-reset sa mga hangganan ng dokumento.Pinalawak ang hangganan sa pagitan ng pagpapahusay ng modelo at estratehiya sa ebalwasyon habang nananatiling mare-review ayon sa mga rule.
#1019@abaybektursunGinamit ang sariling nabuong kalibrasyon ng GPTQ: bumuo ng teksto ng kalibrasyon mula sa sinanay na modelo, pagkatapos ay bumuo ng mga GPTQ Hessian mula sa mga activation na iyon.Ang malikhaing estratehiya sa kalibrasyon na nangangailangan ng maingat na pagsusuri mula sa mga organizer.

Mga bagong modeling at data idea

May ilang submission na nag-introduce ng napaka-creative na mga modeling o data idea.

PagsusumiteKontribyutorTeknikBakit ito mahalaga
#1729@romeerpIpinakilala ang CaseOps tokenizer: mga lossless na token ng capitalization operator na may original-byte BPB sidecar accounting.Ang malikhain na ideya sa tokenizer at representasyon ng data.
#265@unnirIpinakilala ang XSA, isang mahusay na partial Exclusive Self Attention approach na may mga grouped view na GQA-aware.Naghatid ng episyenteng variant ng attention sa challenge.
#65@aquariouseworkmanIpinakilala ang SmearGate at BigramHash: isang natutunang pinaghalong previous-token embedding kasama ang mga adjacent-token-pair hash features.,dinagdag ang mga mekanismo ng bagong feature mula sa simula."
#1204@msisovicIpinakilala ang mini depth recurrence: inulit ang mga layer 4 at 5, ipinagpaliban ang recurrence hanggang mid-training, at bahagyang pinaghiwalay ang mga inulit na MLP.Ang unang tinanggap na row sa leaderboard na epektibong nagpagana sa mga recurrent layer.

Pinili naming i-highlight ang siyam na submission na ito dahil makikita sa mga ito kung gaano kalawak ang inaasahan naming magiging resulta ng challenge. May ilang participant na naging successful sa maingat na tuning. Nag-focus naman ang iba sa quantization at mga low-rank technique. In-explore naman ng ilan ang mga boundary ng mga evaluation rule. At may ilan na nag-introduce ng mga modeling o data idea, mula sa literature o mula sa scratch, at nakakagulat ang mga improvement na na-produce nito.

Nonrecord track

Ang nonrecord track ang nagkaroon ng maraming creative submission. Ini-highlight namin ang 15 nagustuhan,, kasama na rito ang mga approach na mula sa non-autoregressive text modeling hanggang sa dynamic na pag-tokenize.

Dahil mas experimental ang track na ito, hindi kami gaanong nag-focus sa raw performance kundi mas inalam namin kung technically interesting ba ang approach. Tatlong submission ang partikular na nag-stood out:

Ito ang tatlong paborito naming nonrecord submission, kahit hindi sila ang top three sa performance.

Kaya, naging competitive pa rin ang nonrecord track. Nadaig ng kalahati ng mga entry sa nonrecord leaderboard ang naive baseline na 1.22 BPB, at umabot ng 1.12 BPB ang top-ranked entry.

Na-encourage kami rito. Nakita namin na kahit malakas ang mga transformer baseline, minsan kaya rin ng mga alternative approach na makipagsabayan sa mga dominant architecture.

Tingin din namin, nakatulong nang husto sa track na ito ang pagiging available ng malalakas na coding agent. Dahil sa mga agent na iyon, naging mas mura ang pag-prototype ng mga speculative idea, kasama na rito ang mga approach na parang napaka-time consuming dati o parang hindi puwedeng subukan sa maikling kompetisyon.

Mga takeaway

Ang malaking kaibahan ng Parameter Golf at ng mga naunang kompetisyon na katulad nito ay ang malawak na paggamit ng mga coding agent. Sinabi ng halos karamihan sa mga nag-submit na gumagamit sila ng mga agent sa trabaho nila.

Pinababa nito ang hadlang sa pagpasok. Nagawa ng mga kalahok na mag-set up ng mga eksperimento nang mas mabilis, suriin ang hindi pamilyar na code, at subukan ang mga ideya nang may mas kaunting hadlang. Malaki rin ang naging papel ng sponsorship ng Runpod na nagkakahalaga ng $1,000,000 sa compute para mas maging accessible ang challenge sa mas maraming tao.

Dahil din sa paggamit ng agent, may mga nagawang bagong issue para sa submission at scoring. Maraming submission ang maliliit na pagbabago sa mga existing na top scorer, at hindi mga bagong approach. Madalas nakakatulong ito kasi mabilis na kumakalat ang malalakas na idea at nire-refine naman ito ng iba. Pero lumikha rin ito ng kalituhan. Kapag ang mga submission na hindi nakasunod sa mga guideline ng kompetisyon ay nagkaroon ng di-pangkaraniwang matataas na score, minsan kinokopya ng ibang mga agent ang mga idea na iyon at nagtutuloy-tuloy na ang mga ito sa invalid na path.

Dahil sa dami ng mga submission, nabago rin ang paraan namin ng pagsasagawa ng kompetisyon. Hindi namin kayang manu-manong ma-inspect ang bawat submission at mapanatiling gumagalaw ang leaderboard. Sa panahon ng challenge, nag-develop kami ng internal at Codex-based na triage bot para mag-monitor ng mga bagong submission at i-flag ang mga ito para ma-review ng tao. Naging lalong mahalaga ito noong daan-daang submission ang natatanggap namin araw-araw.

Sa challenge na iyon, naging bahagi rin ng community ang mga AI agent. Sa malaking bahagi ng kompetisyon, nira-run ng @notapplica at ng coding agent nito ang bulletin na “Live Updates,” tina-track nito ang mga major event, ipinapaliwanag ang mga leaderboard approach, at tumutulong sa ibang participant na masundan ang kompetisyon. May lumilitaw ding mga community review tool para matulungan ang mga participant na wala pang gaanong experience na ma-check kung nakakasunod ang mga submission nila sa mga rule maiwasan ang mga karaniwang invalid na approach.

Ano'ng susunod?

Ang pangunahing layunin namin ay maglunsad ng hamon kung saan puwedeng makilahok ang mga kwalipikadong kalahok(magbubukas sa bagong window) at maranasan ang pananaliksik sa machine learning. Nagdala ang Parameter Golf ng malawak na hanay ng mga technically strong at creative submission, at binigyan kami nito ng mas malinaw na pananaw kung paano puwedeng magbago ang mga bukas na kompetisyon sa pananaliksik habang ang nagiging mas may kakayahan at mas malawakang ginagamit ang mga AI agent.

Iniisip naming maglunsad ng mas marami pang challenge na kagaya nito sa hinaharap. Kung interesado ka, pakipunan ang form para sa kalahok sa challenge(magbubukas sa bagong window).

May-akda

OpenAI