Vai al contenuto principale
OpenAI

12 maggio 2026

Ricerca

Cosa ci ha insegnato Parameter Golf

Lezioni da oltre 1.000 partecipanti, oltre 2.000 invii e una sfida aperta di machine learning plasmata dagli agenti di coding.

Caricamento in corso...

Abbiamo lanciato Parameter Golf per coinvolgere e supportare la comunità di ricerca sul machine learning nell’esplorazione di un nuovo problema di machine learning con vincoli molto stretti. Volevamo che la sfida fosse abbastanza interessante da premiare una vera creatività tecnica, pur rimanendo concettualmente semplice e facile da verificare.

I partecipanti dovevano minimizzare la loss hold-out su un dataset FineWeb fisso restando entro un limite di 16 MB per l’artefatto, inclusi sia i pesi del modello sia il codice di addestramento, e un budget di addestramento di 10 minuti su 8×H100. Abbiamo fornito una baseline, il dataset e gli script di valutazione così che i partecipanti potessero fare fork del repo, migliorare il modello e inviare i risultati tramite GitHub.

Nel corso di otto settimane, abbiamo ricevuto più di 2.000 invii da oltre 1.000 partecipanti. Ci hanno colpito l’ampiezza tecnica, la creatività e il modo in cui gli invii hanno spinto i limiti delle regole, dall’accurata messa a punto dell’optimizer e dal lavoro di quantizzazione fino a nuove idee di modellazione e all’addestramento in fase di test.

Una delle parti più entusiasmanti della sfida è stata vedere quanto ampiamente i partecipanti abbiano usato agenti di coding basati sull’IA. Gli agenti hanno contribuito a ridurre il costo della sperimentazione, hanno reso più facile la partecipazione di più persone e hanno cambiato il ritmo della competizione. Hanno anche creato nuove sfide per la revisione degli invii, l’attribuzione e il punteggio.

La sfida è diventata anche un importante strumento per individuare talenti. Era uno degli obiettivi di Parameter Golf, ed è stato un segnale utile del fatto che le sfide tecniche aperte possono rivelare eccezionali capacità e perseveranza nel machine learning.

In questo post mettiamo in evidenza alcuni degli invii che abbiamo trovato sorprendenti e interessanti, e condividiamo ciò che abbiamo imparato organizzando una gara di coding nell’era dei potenti agenti IA.

Impressioni tecniche

Track record

Abbiamo valutato e riprodotto in modo indipendente ogni invio nella classifica del track record, verificando che ciascun invio stabilisse un record al momento della presentazione. Sono emersi diversi temi.

Ottimizzazione dell’addestramento

Alcuni dei risultati migliori sono arrivati da un’attenta messa a punto di componenti esistenti.

PresentazioneCollaboratoreTecnicaPerché era importante
#60@notapplicaCombinato vittorie precedenti da #50, #42, e probabilmente #39, hanno poi fatto funzionare un modello più profondo con decadimento dei pesi Muon, inizializzazione degli embedding spettrali, pianificazione residual-mix e valutazione compilata.Un forte esempio di lavoro rigoroso sulla classifica: identificare quali miglioramenti esistenti contano e combinarli in modo pulito.

Quantizzazione

Diversi invii hanno spinto molto su compressione ed esportazione.

PresentazioneCollaboratoreTecnicaPerché era importante
#414@signalrushUtilizzato GPTQ-lite per quantizzare i pesi dopo l'addestramento.Il primo invio alla classifica a utilizzare con successo GPTQ-lite, portando a una valutazione migliore.
#1060@dexhunterBasato su #634 di @raahilshah per usare con successo l'Hessian completo di GPTQ.Ha esteso il precedente lavoro di quantizzazione in un percorso di compressione più efficace.

Strategie di test-time e valutazione

Alcuni invii hanno spinto il confine tra miglioramento del modello e strategia di valutazione. Questi approcci erano validi secondo le regole, ma hanno richiesto un’attenta revisione da parte nostra come organizzatori.

PresentazioneCollaboratoreTecnicaPerché era importante
#77@samacquaUtilizzato addestramento LoRA in fase di test per documento, score-first: assegna prima il punteggio, adatta solo sui chunk già valutati e reimposta ai confini del documento.Ha spinto oltre il confine tra miglioramento del modello e strategia di valutazione, pur rimanendo revisionabile secondo le regole.
#1019@abaybektursunUtilizzato calibrazione GPTQ autogenerata: genera testo di calibrazione dal modello addestrato, quindi crea le Hessiane GPTQ da tali attivazioni.A strategia di calibrazione creativa che ha richiesto un'attenta revisione da parte degli organizzatori.

Nuove idee di modellazione e dati

Alcuni invii hanno introdotto idee di modellazione o sui dati particolarmente creative.

PresentazioneCollaboratoreTecnicaPerché era importante
#1729@romeerpIntrodotto il tokenizer CaseOps: token operatore di capitalizzazione senza perdita con contabilizzazione sidecar BPB dei byte originali.A idea creativa per il tokenizer e la rappresentazione dei dati.
#265@unnirIntrodotto XSA, un approccio efficiente e parziale di Exclusive Self Attention con viste raggruppate compatibili con GQA.Offerto una variante efficiente dell’attenzione nella sfida.
n.65@aquariouseworkmanIntrodotto SmearGate e BigramHash: una fusione appresa di embedding del token precedente più caratteristiche hash di coppie di token adiacenti.Aggiunto meccanismi per nuove funzionalità da zero.
#1204@msisovicIntrodotto ricorrenza in mini-profondità: strati 4 e 5 ripetuti, ricorrenza ritardata fino a metà dell'addestramento e MLP ripetuti parzialmente non condivisi.La prima riga accettata della classifica a far funzionare efficacemente gli strati ricorrenti.

Abbiamo scelto di mettere in evidenza questi nove invii perché rappresentano la gamma di risultati che speravamo la sfida avrebbe portato alla luce. Alcuni partecipanti hanno ottenuto progressi grazie a un’attenta messa a punto. Altri hanno spinto tecniche di quantizzazione e low-rank. Alcuni hanno esplorato i margini delle regole di valutazione. E diversi hanno introdotto idee di modellazione o sui dati, dalla letteratura o sviluppate da zero, che hanno prodotto miglioramenti inattesi.

Track nonrecord

Il track nonrecord ha ospitato molti invii creativi. Abbiamo evidenziato 15 preferiti, inclusi approcci che andavano dalla modellazione del testo non autoregressiva alla tokenizzazione dinamica.

Poiché questo track era più sperimentale, ci siamo concentrati meno sulla performance pura e più sul fatto che l’approccio fosse tecnicamente interessante. Tre invii in particolare si sono distinti:

Questi sono stati i nostri tre invii nonrecord preferiti, anche se non erano necessariamente i primi tre per performance.

Detto questo, il track nonrecord è rimasto comunque competitivo. La metà degli invii nella classifica nonrecord ha superato la baseline ingenua di 1,22 BPB, e l’invio al primo posto ha raggiunto 1,12 BPB.

Lo abbiamo trovato incoraggiante. Anche contro solide baseline transformer, approcci alternativi potevano talvolta tenere testa all’architettura dominante.

Pensiamo anche che questo track tragga particolare beneficio dalla disponibilità di forti agenti di coding. Gli agenti hanno reso molto meno costoso prototipare idee speculative, inclusi approcci che in precedenza potevano sembrare troppo lunghi o incerti da provare in una competizione breve.

Conclusioni

Una grande differenza tra Parameter Golf e competizioni precedenti simili è stato l’uso diffuso di agenti di coding. La stragrande maggioranza di chi ha inviato contributi ha menzionato l’uso di agenti come parte del proprio lavoro.

Questo ha abbassato la soglia di accesso. I partecipanti potevano configurare esperimenti più rapidamente, esaminare codice non familiare e testare idee con meno ostacoli. La sponsorizzazione da parte di Runpod di 1.000.000 di dollari in risorse di calcolo ha inoltre svolto un ruolo fondamentale nel rendere la sfida accessibile a un maggior numero di persone.

Allo stesso tempo, l’uso degli agenti ha creato nuovi problemi nella gestione degli invii e della valutazione. Molti invii erano piccole modifiche a quelli già ai vertici della classifica, piuttosto che approcci fondamentalmente nuovi. Spesso questo è stato utile: le idee forti si sono diffuse rapidamente e sono state perfezionate da altri. Ma ha anche introdotto rumore. Quando invii fuori dalle linee guida della competizione producevano punteggi insolitamente elevati, altri agenti a volte copiavano quelle idee e continuavano sullo stesso percorso non valido.

Anche il volume degli invii ha cambiato il modo in cui abbiamo dovuto gestire la competizione. Non potevamo ispezionare manualmente ogni invio e allo stesso tempo mantenere aggiornata la classifica. Durante la sfida, abbiamo sviluppato un bot interno di triage basato su Codex per monitorare i nuovi invii e segnalarli per revisione umana. Questo è diventato particolarmente importante nei periodi in cui ricevevamo centinaia di invii al giorno.

Gli agenti IA sono diventati anche parte della comunità intorno alla sfida. Per gran parte della competizione, @notapplica e il loro agente di coding hanno gestito un bollettino “Live Updates”, monitorando gli eventi principali, spiegando gli approcci in classifica e aiutando gli altri partecipanti a seguire la competizione. Sono comparsi anche strumenti di revisione della comunità per aiutare i partecipanti meno esperti a verificare se i loro invii rientrassero nelle regole ed evitare approcci non validi comuni.

Quali sono i prossimi passi?

Il nostro obiettivo principale era lanciare una sfida a cui i partecipanti idonei(si apre in una nuova finestra) potessero prendere parte e sperimentare la ricerca nel campo del machine learning. Parameter Golf ha attirato un’ampia gamma di invii tecnicamente solidi e creativi, e ci ha dato una visione più chiara di come le competizioni di ricerca aperta possano cambiare man mano che gli agenti IA diventano più capaci e diffusi.

Stiamo pensando di lanciare altre sfide come questa in futuro. Se ti interessa, ti invitiamo a compilare il modulo di partecipazione alla sfida(si apre in una nuova finestra).

Autore

OpenAI