Liwati menyang isi utama
OpenAI

12 Mei 2026

Riset

Apa sing diwulangaké Parameter Golf marang kita

Piwulang saka 1.000+ peserta, 2.000+ kiriman, lan tantangan pembelajaran mesin sing kabuka sing kawangun déning agen ngoding.

Lagi dimuat…

Kita ngluncurake Parameter Golf kanggo ngajak lan nyengkuyung komunitas riset pembelajaran mesin supaya njajaki masalah pembelajaran mesin anyar kanthi watesan sing ketat banget. Kita pengin tantangan iki cukup narik kawigaten supaya bisa menehi ganjaran marang kreativitas teknis sing nyata, nanging tetep prasaja sacara konseptual lan gampang diverifikasi.

Peserta diwajibake nyilikake kerugian sing ditahan ing dataset FineWeb sing tetep, nalika tetep ana ing watesan artefak 16 MB, kalebu bobot model lan kode pelatihan, lan jatah wektu pelatihan 10 menit ing 8×H100s. Kita nyedhiyakake baseline, dataset, lan skrip evaluasi supaya peserta bisa nge-fork repo, ningkatake model, lan ngirim asilé liwat GitHub.

Sajrone wolung minggu, kita nampa luwih saka 2.000 kiriman saka luwih 1.000 peserta. Kita kagum marang jembaré cakupan teknis, kreativitas, lan kawani mlenceng saka paugeran ing saindhengé kiriman, wiwit saka panyetelan optimizer sing tliti lan gawéan kuantisasi nganti gagasan pemodelan anyar lan latihan tes.

Salah siji bagean sing paling nyenengake saka tantangan iki yaiku ndeleng sepira jembare para peserta nggunakake agen coding AI. Para agen mbantu nyuda biaya eksperimen, nggawe luwih gampang kanggo luwih akeh wong supaya bisa melu, lan ngganti laju kompetisi. Bab-bab kasebut uga nimbulake tantangan anyar kanggo paninjauan kiriman, atribusi, lan pambiji.

Tantangan kasebut uga dadi sarana sing penting kanggo nemokake bakat kanggo kita. Kuwi salah siji saka ancas kita kanggo Parameter Golf, lan kuwi dadi pratandha sing penting manawa tantangan teknis sing mbukak lan ora winates bisa nuduhake rasa lan pertimbangan ing pembelajaran mesin sing luar biasa, uga kegigihan.

Ing tulisan iki, kita nyorot sawetara kiriman sing nggumunake lan menarik, lan nuduhake apa sing kita sinaoni saka nyelenggarakake kontes coding ing jaman agen AI sing canggih banget.

Kesan teknis

Rekam trek

Kita wis mbiji lan ngasilaké manèh kanthi independen saben kiriman ing papan peringkat trek rekor, lan mastèkaké manawa saben kiriman iku mecah rekor nalika dikirimaké. Sawetara tema katon cetha menonjol.

Optimalisasi pelatihan

Sawetara asil sing paling apik asalé saka panyetelan kanthi tliti marang komponen sing wis ana.

KirimanKontributorTeknikNapa iku penting
#60@notapplicaDigabungake kamenangan sadurungé saka #50, #42, lan kamungkinan #39, banjur nggawe model sing luwih jero bisa mlaku nganggo Muon weight decay, inisialisasi embedding spektral, penjadwalan residual-mix, lan evaluasi sing dikompilasi.A conto sing kuwat babagan pakaryan leaderboard sing disiplin: ngenali paningkatan sing wis ana endi wae sing penting lan nggabungake kanthi rapi.

Kuantisasi

Sawetara kiriman ngupaya kanthi intensif marang komprèsi lan èkspor.

KirimanKontributorTeknikNapa iku penting
#414@signalrushDigunakake GPTQ-lite kanggo ngukur bobot sawisé pelatihan. pengajuan papan peringkat pertama sing kasil nggunakake GPTQ-lite, sing ndadékaké evaluasi sing luwih apik.
#1060@dexhunterDibangun ing #634 dening @raahilshah kanggo kasil nggunakake Hessian GPTQ lengkap.Ngluwihi karya kuantisasi sadurunge dadi jalur kompresi sing luwih kuwat.

Strategi wektu uji lan evaluasi

Sawetara pengajuan nggeser wates antarané panyempurnaan modhèl lan strategi evaluasi. Cara-cara iki sah miturut aturan, nanging mbutuhake pamriksan kanthi tliti saka kita minangka penyelenggara.

KirimanKontributorTeknikNapa iku penting
#77@samacquaDigunakaké skor-dhisik, latihan nalika wektu uji LoRA saben dokumèn: wènèhana skor dhisik, adaptasi mung ing potongan sing wis diwènèhi skor, lan reset ing wates dokumèn.Nyurung wates antarane paningkatan modhèl lan strategi evaluasi, nalika tetep bisa ditinjau miturut aturan.
#1019@abaybektursunDigunakake kalibrasi GPTQ sing digawé dhéwé: gawé teks kalibrasi saka modhèl sing wis dilatih, banjur mbangun matriks Hessian GPTQ saka aktivasi kasebut.A strategi kalibrasi kreatif sing mbutuhake panyemakan kanthi tliti saka penyelenggara.

Gagasan anyar babagan pemodelan lan data

Ana sawetara kiriman sing ngenalake gagasan pemodelan utawa data sing luar biasa kreatif.

KirimanKontributorTeknikNapa iku penting
#1729@romeerpNgenalaké tokenizer CaseOps: token operator kapitalisasi lossless kanthi pencatatan sidecar BPB byte-asli.A gagasan tokenizer lan representasi data sing kreatif.
#265@unnirNgenalaké XSA, pendekatan Exclusive Self Attention parsial sing efisien kanthi tampilan sing diklompokaké lan nggatekake GQA.Digawa varian attention sing efisien menyang tantangan kasebut.
#65@aquariouseworkmanNgenalaké SmearGate lan BigramHash: campuran embedding token sadurungé sing disinaoni plus fitur hash pasangan token jejer.Ditambahake mekanisme fitur anyar saka nol.
#1204@msisovicNgenalaké rekurensi jero mini: ngulang lapisan 4 lan 5, nundha rekurensi nganti tengah pelatihan, lan sebagian MLP sing diulang digawe ora nganggo bobot bareng.Baris leaderboard pisanan sing ditampa kanggo nggawe lapisan rekuren bisa mlaku kanthi efektif.

Kita milih nyorot sangang kiriman iki amarga kabeh mau makili maneka warna asil sing kita karepake bakal muncul saka tantangan iki. Sawetara peserta nggayuh kamenangan liwat penyetelan sing tliti. Pihak liyané nyurung teknik kuantisasi lan low-rank. Sawetara wates-wates aturan evaluasi sing wis ditliti. Lan sawetara gagasan pemodelan utawa data sing ditepungake, saka literatur utawa saka nol, sing ngasilake paningkatan sing ora dinyana.

Trek nonrekaman

Jalur nonrekor minangka papan kanggo akeh kiriman kreatif. Kita nyorot 15 sing dadi favorit, kalebu pendekatan saka pemodelan teks non-autoregresif nganti tokenisasi dinamis.

Amarga jalur iki luwih asipat eksperimèntal, kita ora patiya fokus marang performa murni, nanging luwih marang manawa pendekatan kasebut menarik sacara teknis. Ana telung kiriman sing mligi katon pinunjul:

Iki minangka telung submisi nonrekor favorit kita, sanajan ora mesthi kalebu telu paling dhuwur adhedhasar kinerja.

Senajan mangkono, lintasan nonrekor kuwi isih tetep kompetitif. Setengah saka entri papan peringkat nonrekor ngluwihi baseline naif 1.22 BPB, lan entri kanthi peringkat paling dhuwur tekan 1.12 BPB.

Kita rumangsa iki maringi semangat. Sanajan ngadhepi baseline transformer sing kuwat, pendekatan alternatif kadhangkala isih bisa saingan karo arsitektur sing dominan.

Kita uga nganggep manawa trek iki mligine entuk paedah saka kasedhiyane agen coding sing andal. Agen nggawe proses nggawe prototipe gagasan spekulatif dadi luwih murah, kalebu pendekatan sing sadurunge bisa uga krasa kakehan wektu utawa durung mesthi kanggo dicoba ing kompetisi sing wektu­ne cekak.

Intisari

Prabédan utama antarane Parameter Golf lan kompetisi sadurungé sing padha yaiku panggunaan agen coding sing wiyar. Akèh-akèhé banget para pangirim nyebutaké yèn nggunakake agen minangka bagéan saka pakaryané.

Bab kuwi nyuda alangan kanggo mlebu. Para peserta bisa nyiyapake eksperimen luwih cepet, mriksa kode sing durung dikenal, lan nguji gagasan kanthi alangan luwih sithik. Dukungan sponsor Runpod awujud komputasi senilai $1.000.000 uga nduweni peran gedhe kanggo nggawe tantangan iki luwih gampang diakses dening luwih akeh wong.

Ing wektu sing padha, panggunaan agen nyebabake masalah anyar kanggo pangajuan lan pambiji. Akeh kiriman mung owah-owahan cilik marang entri sing wis ana lan skore paling dhuwur, tinimbang pendekatan anyar sing dhasaré. Iki kerep migunani: gagasan sing kuwat cepet nyebar lan disempurnakake dening wong liya. Nanging, iku uga nyebabake gangguan. Nalika kiriman sing ora selaras karo paugeran kompetisi ngasilake skor sing ora lumrah dhuwuré, agen liyane kadhang niru gagasan kasebut lan terus ngetutake dalan sing padha nanging ora valid.

Gunggungé kiriman uga ngganti cara kita kudu nyelenggarakaké kompetisi kasebut. Kita ora bisa mriksa saben kiriman kanthi manual lan tetep njaga papan peringkat supaya terus mlaku. Sajrone tantangan kasebut, kita ngembangake bot triase internal adhedhasar Codex kanggo ngawasi kiriman anyar lan menehi tandha supaya ditinjau dening manungsa. Bab iki dadi luwih wigati banget sajrone periode nalika kita nampa atusan kiriman saben dina.

Agen AI uga dadi pérangan saka komunitas sing ana gegayutan karo tantangan kasebut. Sajrone pérangan gedhé kompetisi, @notapplica lan agen coding-é nglakokaké buletin “Live Updates”, nglacak prastawa utama, njlentrehaké pendekatan kanggo papan peringkat, lan mbantu peserta liya ngetutaké kompetisi. Piranti pamriksa komunitas uga katon mbantu para peserta sing pengalamane isih sithik kanggo mriksa apa pangajune wis cocog karo paugeran lan ngindhari cara umum sing ora valid.

Apa sabanjure?

Tujuan utama kita yaiku ngluncurake tantangan sing bisa diiloni dening peserta sing layak(mbukak ing jendhela anyar) lan menehi pengalaman riset pembelajaran mesin. Parameter Golf nampa macem-macem submisi sing kuwat sacara teknis lan kreatif, lan iki menehi kita gambaran sing luwih cetha babagan kepiye kompetisi riset terbuka bisa owah nalika agen AI dadi luwih mumpuni lan luwih akeh digunakake.

Kita lagi nimbang-nimbang kanggo ngluncurake luwih akeh tantangan kaya iki ing mangsa ngarep. Yen njenengan kasengsem, mangga isi formulir peserta tantangan(mbukak ing jendhela anyar).