Langsung ke konten utama
OpenAI

12 Mei 2026

Riset

Apa yang diajarkan Parameter Golf kepada kami

Pelajaran dari 1.000+ peserta, 2.000+ submission, dan tantangan machine learning terbuka yang dibentuk oleh agen coding.

Memuat…

Kami meluncurkan Parameter Golf untuk melibatkan dan mendukung komunitas riset pembelajaran mesin dalam mengeksplorasi masalah pembelajaran mesin baru yang sangat dibatasi. Kami ingin tantangan ini cukup menarik untuk menghargai kreativitas teknis yang nyata, sambil tetap sederhana secara konsep dan mudah diverifikasi.

Peserta harus meminimalkan held-out loss pada kumpulan data FineWeb tetap sambil tetap berada dalam batas artefak 16 MB, termasuk bobot model dan kode pelatihan, serta anggaran pelatihan 10 menit pada 8×H100. Kami menyediakan baseline, kumpulan data, dan skrip evaluasi agar peserta dapat melakukan fork repo, meningkatkan model, dan mengirimkan hasil mereka melalui GitHub.

Selama delapan minggu, kami menerima lebih dari 2.000 submission dari lebih dari 1.000 peserta. Kami terkesan oleh luasnya cakupan teknis, kreativitas, serta pendekatan yang mendobrak batasan dalam submission-submission tersebut, mulai dari penyetelan optimizer dan pekerjaan kuantisasi yang cermat hingga ide pemodelan baru dan pelatihan pada saat inferensi.

Salah satu bagian paling menarik dari tantangan ini adalah melihat betapa luasnya peserta menggunakan agen pengodean AI. Agen membantu menurunkan biaya eksperimen, memudahkan lebih banyak orang untuk berpartisipasi, dan mengubah laju kompetisi. Mereka juga menciptakan tantangan baru untuk peninjauan submission, atribusi, dan penilaian.

Tantangan ini juga menjadi sarana penemuan talenta yang bermakna bagi kami. Hal tersebut adalah salah satu tujuan kami untuk Parameter Golf, dan sinyal ini berguna karena tantangan teknis terbuka dapat mengungkap selera dan ketekunan dalam bidang pembelajaran mesin yang luar biasa.

Dalam postingan ini, kami menyoroti beberapa submission yang menurut kami mengejutkan dan menarik, serta membagikan apa yang kami pelajari dari menjalankan kontes pengodean di era agen AI yang kuat.

Kesan teknis

Track rekor

Kami menilai dan mereproduksi secara independen setiap submission di papan peringkat track rekor, serta memverifikasi bahwa setiap submission memecahkan rekor pada saat dikirimkan. Beberapa tema menonjol.

Optimasi pelatihan

Beberapa hasil terkuat berasal dari penyetelan cermat komponen yang sudah ada.

PengirimanKontributorTeknikMengapa hal itu penting
#60@notapplicaMenggabungkan peningkatan sebelumnya dari #50, #42, dan kemungkinan #39, kemudian membuat model yang lebih dalam berfungsi dengan peluruhan bobot Muon, inisialisasi embedding spektral, penjadwalan residual-mix, dan evaluasi terkompilasi.Sebuah contoh kuat dari pekerjaan papan peringkat yang disiplin: mengidentifikasi peningkatan yang sudah ada mana yang benar-benar penting dan menggabungkannya dengan rapi.

Kuantisasi

Beberapa submission sangat mendorong kompresi dan ekspor.

PengirimanKontributorTeknikMengapa hal itu penting
#414@signalrushMenggunakan GPTQ-lite untuk menguantisasi bobot setelah pelatihan.Pengiriman papan peringkat pertama yang berhasil menggunakan GPTQ-lite, sehingga menghasilkan evaluasi yang lebih baik.
#1060@dexhunterDibangun berdasarkan #634 oleh @raahilshah untuk berhasil menggunakan full Hessian GPTQ.Memperluas pekerjaan kuantisasi sebelumnya menjadi jalur kompresi yang lebih kuat.

Strategi saat inferensi dan evaluasi

Beberapa submission mendorong batas antara peningkatan model dan strategi evaluasi. Pendekatan ini valid menurut aturan, tetapi memerlukan peninjauan cermat dari kami sebagai penyelenggara.

PengirimanKontributorTeknikMengapa hal itu penting
#77@samacquaMenggunakan pelatihan LoRA saat pengujian per dokumen yang mengutamakan skor: beri skor terlebih dahulu, adaptasikan hanya pada chunk yang sudah diberi skor, dan atur ulang pada batas dokumen.Mendorong batas antara peningkatan model dan strategi evaluasi sambil tetap dapat ditinjau berdasarkan aturan.
#1019@abaybektursunMenggunakan kalibrasi GPTQ yang dihasilkan sendiri: buat teks kalibrasi dari model terlatih, lalu bangun Hessian GPTQ dari aktivasi tersebut.Sebuah strategi kalibrasi kreatif yang memerlukan peninjauan cermat dari penyelenggara.

Ide pemodelan dan data baru

Beberapa submission memperkenalkan ide pemodelan atau data yang sangat kreatif.

PengirimanKontributorTeknikMengapa hal itu penting
#1729@romeerpMemperkenalkan tokenizer CaseOps: token operator kapitalisasi lossless dengan pencatatan sidecar BPB byte asli.Sebuah ide kreatif untuk tokenizer dan representasi data.
#265@unnirMemperkenalkan XSA, pendekatan Exclusive Self Attention parsial yang efisien dengan tampilan berkelompok yang sadar GQA.Menghadirkan varian attention yang efisien ke dalam tantangan.
#65@aquariouseworkmanMemperkenalkan SmearGate dan BigramHash: perpaduan embedding token sebelumnya yang dipelajari ditambah fitur hash pasangan token berdekatan.Menambahkan mekanisme fitur baru dari awal.
#1204@msisovicMemperkenalkan rekurensi kedalaman mini: lapisan 4 dan 5 yang diulang, rekurensi ditunda hingga pertengahan pelatihan, dan MLP yang diulang sebagian dibuat tidak berbagi bobot.Entri papan peringkat pertama yang diterima yang membuat lapisan rekuren bekerja secara efektif.

Kami memilih menyoroti sembilan submission ini karena mereka mewakili rentang hasil yang kami harapkan muncul dari tantangan ini. Beberapa peserta menemukan kemajuan melalui penyetelan yang cermat. Yang lain mendorong kuantisasi dan teknik low-rank. Sebagian mengeksplorasi batas aturan evaluasi. Dan beberapa lainnya memperkenalkan ide pemodelan atau data, dari literatur maupun dari nol, yang menghasilkan peningkatan tak terduga.

Track nonrekor

Track nonrekor menjadi tempat bagi banyak submission kreatif. Kami menyoroti 15 submission favorit, termasuk beragam pendekatan, mulai dari pemodelan teks non-autoregresif hingga tokenisasi dinamis.

Karena track ini lebih eksperimental, kami lebih fokus pada apakah pendekatan tersebut menarik secara teknis daripada performa mentah. Tiga submission secara khusus menonjol:

Ini adalah tiga submission nonrekor favorit kami, meskipun belum tentu tiga teratas berdasarkan performa.

Meski begitu, track nonrekor tetap kompetitif. Setengah dari entri papan peringkat nonrekor mengalahkan baseline naif 1,22 BPB, dan entri peringkat teratas mencapai 1,12 BPB.

Kami menganggap ini menggembirakan. Bahkan melawan baseline transformer yang kuat, pendekatan alternatif terkadang mampu bersaing dengan arsitektur yang dominan.

Kami juga berpikir bahwa track ini sangat diuntungkan oleh ketersediaan agen pengodean yang kuat. Agen membuat pembuatan prototipe ide spekulatif jauh lebih murah, termasuk pendekatan yang sebelumnya mungkin terasa terlalu memakan waktu atau terlalu tidak pasti untuk dicoba dalam kompetisi singkat.

Pelajaran utama

Perbedaan besar antara Parameter Golf dan kompetisi serupa sebelumnya adalah penggunaan agen pengodean yang meluas. Sebagian besar pengirim submission menyebutkan penggunaan agen sebagai bagian dari pekerjaan mereka.

Hal itu menurunkan hambatan masuk. Peserta dapat menyiapkan eksperimen dengan lebih cepat, meninjau kode yang belum dikenal, dan menguji ide dengan lebih sedikit hambatan. Sponsor Runpod berupa sumber daya komputasi senilai $1.000.000 juga berperan besar dalam membuat tantangan ini lebih mudah diakses oleh lebih banyak orang.

Pada saat yang sama, penggunaan agen menciptakan masalah baru untuk submission dan penilaian. Banyak submission merupakan perubahan kecil pada peraih skor tertinggi yang sudah ada, alih-alih pendekatan yang benar-benar baru. Hal ini sering kali berguna: ide kuat menyebar cepat dan disempurnakan oleh orang lain. Namun, hal ini juga menciptakan noise. Ketika submission yang berada di luar pedoman kompetisi menghasilkan skor yang sangat kuat, agen lain kadang menyalin ide tersebut dan terus menempuh jalur tidak valid yang sama.

Volume submission juga mengubah bagaimana kami harus menjalankan kompetisi. Kami tidak bisa memeriksa setiap submission secara manual sambil tetap menjaga papan peringkat terus bergerak. Selama tantangan, kami mengembangkan bot triase internal berbasis Codex untuk memantau submission baru dan menandainya untuk ditinjau manusia. Ini menjadi sangat penting selama periode ketika kami menerima ratusan submission per hari.

Agen AI juga menjadi bagian dari komunitas di sekitar tantangan ini. Selama sebagian besar kompetisi, @notapplica dan agen pengodean mereka menjalankan buletin “Live Updates”, melacak peristiwa besar, menjelaskan pendekatan di papan peringkat, dan membantu peserta lain mengikuti kompetisi. Alat peninjauan komunitas juga muncul untuk membantu peserta yang kurang berpengalaman memeriksa apakah submission mereka sesuai aturan dan menghindari pendekatan tidak valid yang umum.

Apa selanjutnya?

Tujuan utama kami adalah meluncurkan tantangan yang dapat diikuti oleh peserta yang memenuhi syarat(terbuka di jendela baru) agar mereka dapat merasakan pengalaman dalam riset pembelajaran mesin. Parameter Golf menghadirkan beragam submission yang kuat secara teknis dan kreatif, serta memberi kami pandangan yang lebih jelas tentang bagaimana kompetisi riset terbuka dapat berubah seiring agen AI menjadi lebih mampu dan lebih luas digunakan.

Kami sedang mempertimbangkan kemungkinan untuk meluncurkan lebih banyak tantangan seperti ini di masa depan. Jika Anda tertarik, silakan isi formulir peserta tantangan(terbuka di jendela baru).

Penulis

OpenAI