Vad Parameter Golf lärde oss
Lärdomar från 1 000+ deltagare, 2 000+ bidrag och en öppen maskininlärningsutmaning formad av kodningsagenter.
Vi lanserade Parameter Golf för att engagera och stödja forskarsamhället inom maskininlärning i att utforska ett nytt maskininlärningsproblem med snäva begränsningar. Vi ville att utmaningen skulle vara tillräckligt intressant för att belöna verklig teknisk kreativitet, samtidigt som den förblev konceptuellt enkel och lätt att verifiera.
Deltagarna behövde minimera held-out-förlust på en fast FineWeb-dataset samtidigt som de höll sig inom en artefaktgräns på 16 MB, inklusive både Modellvikter och träningskod, samt en träningsbudget på 10 minuter på 8×H100. Vi tillhandahöll en baslinje, dataset och utvärderingsskript så att deltagarna kunde kopiera repot, förbättra modellen och skicka in sina resultat via GitHub.
Under åtta veckor fick vi in mer än 2 000 bidrag från över 1 000 deltagare. Vi imponerades av den tekniska bredden, kreativiteten och regelböjandet i bidragen, från noggrann optimerarjustering och kvantiseringsarbete till nya modelleringsidéer och träning vid testtid.
En av de mest spännande delarna av utmaningen var att se hur brett deltagarna använde AI-kodningsagenter. Agenter hjälpte till att sänka kostnaden för experimentering, gjorde det lättare för fler att delta och förändrade tävlingens tempo. De skapade också nya utmaningar för granskning av bidrag, attribuering och poängsättning.
Utmaningen blev också en meningsfull yta för talangupptäckt för oss. Det var ett av våra mål med Parameter Golf, och det var en användbar signal om att öppna tekniska utmaningar kan avslöja exceptionell känsla för maskininlärning och uthållighet.
I det här inlägget lyfter vi fram några av de bidrag som vi tyckte var överraskande och intressanta, och delar med oss av vad vi lärde oss av att driva en kodningstävling i en tid av kraftfulla AI-agenter.
Vi bedömde och reproducerade självständigt varje bidrag på topplistan för rekordspåret, och verifierade att varje bidrag var rekordbrytande när det skickades in. Flera teman stack ut.
Träningsoptimering
Några av de starkaste resultaten kom från noggrann justering av befintliga komponenter.
| Inskick | bidragsgivare | teknik | varför det var viktigt |
| #60 | @notapplica | Kombinerade tidigare framgångar från #50, #42 och sannolikt #39, och fick sedan en djupare modell att fungera med Muon weight decay, spektral initiering av inbäddningar, residual-mix-schemaläggning och kompilerad utvärdering. | Ett starkt exempel på disciplinerat topplistearbete: att identifiera vilka befintliga förbättringar som spelar roll och kombinera dem på ett rent sätt. |
Kvantisering
Flera bidrag drev komprimering och export hårt.
| Inskick | bidragsgivare | teknik | varför det var viktigt |
| #414 | @signalrush | Använde GPTQ-lite för att kvantisera vikter efter träning. | Den första resultatlistan som använder GPTQ-lite med lyckat resultat, vilket leder till bättre utvärdering. |
| #1060 | @dexhunter | Byggde vidare på #634 av @raahilshah för att använda full Hessian GPTQ med lyckat resultat. | Utökade tidigare kvantiseringsarbete till en starkare komprimeringsväg. |
Strategier för testtid och utvärdering
Vissa bidrag flyttade gränsen mellan modellförbättring och utvärderingsstrategi. Dessa angreppssätt var giltiga enligt reglerna, men de krävde noggrann granskning från oss som arrangörer.
| Inskick | bidragsgivare | teknik | varför det var viktigt |
| #77 | @samacqua | Använde LoRA-träning vid testtid per dokument med poängsättning först: poängsätt först, anpassa endast på redan poängsatta segment och återställ vid dokumentgränser. | Flyttade fram gränsen mellan modellförbättring och utvärderingsstrategi samtidigt som det förblev granskningsbart enligt reglerna. |
| #1019 | @abaybektursun | Använde självgenererad GPTQ-kalibrering: generera kalibreringstext från den tränade modellen och bygg sedan GPTQ-hessianer från dessa aktiveringar. | En kreativ kalibreringsstrategi som krävde en noggrann granskning från arrangörernas sida. |
Nya idéer för modellering och data
Några bidrag introducerade modellerings- eller dataidéer som var särskilt kreativa.
| Inskick | bidragsgivare | teknik | varför det var viktigt |
| #1729 | @romeerp | Introducerade CaseOps-tokeniseraren: förlustfria operator-tokens för versalisering med BPB-sidecar-redovisning för originalbyte. | En kreativ idé för tokenisering och datarepresentation. |
| #265 | @unnir | Introducerade XSA, en effektiv partiell Exclusive Self Attention-metod med GQA-medvetna grupperade vyer. | Presenterade en effektiv attention-variant i utmaningen. |
| #65 | @aquariouseworkman | Introducerade SmearGate och BigramHash: en inlärd blandning av inbäddningar för föregående token plus hash-egenskaper för intilliggande tokenpar. | Lade till nya funktionsmekanismer från grunden. |
| #1204 | @msisovic | Introducerade mini-djuprekurrens: upprepade lager 4 och 5, fördröjde rekurrensen till mitten av träningen och frikopplade delvis de upprepade MLP:erna. | Den första godkända raden på topplistan som fick rekurrenta lager att fungera effektivt. |
Vi valde att lyfta fram dessa nio bidrag eftersom de representerar det spann av resultat som vi hoppades att utmaningen skulle synliggöra. Vissa deltagare hittade framgångar genom noggrann justering. Andra drev kvantisering och låg-rang-tekniker. Vissa utforskade gränserna för utvärderingsreglerna. Och flera introducerade modellerings- eller dataidéer, från litteraturen eller från grunden, som gav oväntade förbättringar.
Icke-rekordspåret var hem för många kreativa bidrag. Vi lyfte fram 15 favoriter, inklusive angreppssätt som sträckte sig från icke-autoregressiv textmodellering till dynamisk Tokenisering.
Eftersom detta spår var mer experimentellt fokuserade vi mindre på rå prestanda och mer på om angreppssättet var tekniskt intressant. Tre bidrag stack ut särskilt:
Det här var våra tre favoritbidrag i icke-rekordspåret, även om de inte nödvändigtvis var de tre bästa sett till prestanda.
Med det sagt var icke-rekordspåret fortfarande konkurrenskraftigt. Hälften av posterna på topplistan för icke-rekord slog den naiva baslinjen på 1,22 BPB, och det högst rankade bidraget nådde 1,12 BPB.
Vi fann detta uppmuntrande. Även mot starka baslinjer med transformatorer kunde alternativa angreppssätt ibland stå sig mot den dominerande arkitekturen.
Vi tror också att detta spår särskilt gynnas av tillgången till starka kodningsagenter. Agenter gjorde det mycket billigare att ta fram prototyper av spekulativa idéer, inklusive angreppssätt som tidigare kan ha känts för tidskrävande eller osäkra att prova i en kort tävling.
En stor skillnad mellan Parameter Golf och tidigare tävlingar av det här slaget var den utbredda användningen av kodningsagenter. Den stora majoriteten av dem som skickade in bidrag nämnde att de använde agenter som en del av sitt arbete.
Det sänkte tröskeln för att delta. Deltagarna kunde sätta upp experiment snabbare, granska obekant kod och testa idéer med mindre friktion. RunPods sponsring av datorkraft till ett värde av 1 000 000 dollar spelade också en stor roll för att göra utmaningen tillgänglig för fler.
Samtidigt skapade användningen av agenter nya problem för inlämning och poängsättning. Många bidrag var små förändringar av befintliga topprankade resultat, snarare än fundamentalt nya angreppssätt. Det var ofta användbart: starka idéer spreds snabbt och förfinades av andra. Men det skapade också brus. När bidrag som låg utanför tävlingsriktlinjerna gav ovanligt starka resultat kopierade andra agenter ibland dessa idéer och fortsatte längs samma ogiltiga väg.
Volymen av bidrag förändrade också hur vi behövde driva tävlingen. Vi kunde inte manuellt granska varje bidrag och samtidigt hålla topplistan uppdaterad. Under utmaningen utvecklade vi en intern triagebot baserad på Codex för att övervaka nya bidrag och flagga dem för mänsklig granskning. Detta blev särskilt viktigt under perioder då vi fick hundratals bidrag om dagen.
AI-agenter blev också en del av gemenskapen kring utmaningen. Under stora delar av tävlingen drev @notapplica och deras kodningsagent en bulletin med ”Live Updates”, som följde större händelser, förklarade angreppssätt på topplistan och hjälpte andra deltagare att följa tävlingen. Verktyg för communitygranskning dök också upp för att hjälpa mindre erfarna deltagare att kontrollera om deras bidrag höll sig inom reglerna och undvika vanliga ogiltiga angreppssätt.
Vårt främsta mål var att lansera en utmaning som berättigade deltagare(öppnas i ett nytt fönster) kunde delta i och få erfarenhet av maskininlärningsforskning. Parameter Golf lockade ett brett spektrum av tekniskt starka och kreativa bidrag, och gav oss en tydligare bild av hur öppna forskningstävlingar kan förändras när AI-agenter blir mer kapabla och används bredare.
Vi funderar på att lansera fler sådana här utmaningar i framtiden. Om du är intresserad, fyll gärna i formuläret för utmaningsdeltagare(öppnas i ett nytt fönster).


