Hvad Parameter Golf lærte os
Læringer fra 1.000+ deltagere, 2.000+ bidrag og en åben machine learning-udfordring formet af kodningsagenter.
Vi lancerede Parameter Golf for at engagere og støtte machine learning-forskningsmiljøet i at udforske et nyt machine learning-problem med stramme begrænsninger. Vi ønskede, at udfordringen skulle være interessant nok til at belønne reel teknisk kreativitet, samtidig med at den forblev konceptuelt enkel og let at verificere.
Deltagerne skulle minimere held-out loss på et fast FineWeb-datasæt, mens de holdt sig inden for en artefaktgrænse på 16 MB, inklusive både modelvægte og træningskode, samt et træningsbudget på 10 minutter på 8×H100’er. Vi stillede en baseline, et datasæt og evalueringsscripts til rådighed, så deltagerne kunne dele repoet, forbedre modellen og indsende deres resultater via GitHub.
I løbet af otte uger modtog vi mere end 2.000 bidrag fra over 1.000 deltagere. Vi var imponerede over den tekniske bredde, kreativitet og regelbøjning på tværs af bidragene, fra omhyggelig optimer-justering og kvantiseringsarbejde til nye modelidéer og træning ved testtid.
En af de mest spændende dele af udfordringen var at se, hvor bredt deltagerne brugte AI-kodningsagenter. agenter hjalp med at sænke omkostningerne ved eksperimentering, gjorde det lettere for flere at deltage og ændrede konkurrencens tempo. De skabte også nye udfordringer for gennemgang af bidrag, attribuering og bedømmelse.
Udfordringen blev også en meningsfuld måde for os at opdage talent på. Det var et af vores mål med Parameter Golf, og det var et nyttigt signal om, at åbne tekniske udfordringer kan afsløre exceptionel machine learning-dømmekraft og vedholdenhed.
I dette indlæg fremhæver vi nogle af de bidrag, vi fandt overraskende og interessante, og deler, hvad vi lærte af at afholde en kodningskonkurrence i en tid med stærke AI-agenter.
Vi bedømte og reproducerede uafhængigt hvert bidrag på rekordsporets leaderboard og verificerede, at hvert bidrag var rekordbrydende på det tidspunkt, det blev indsendt. Flere temaer skilte sig ud.
Træningsoptimering
Nogle af de stærkeste resultater kom fra omhyggelig finjustering af eksisterende komponenter.
| Indsendelse | Bidragsyder | Teknik | Hvorfor det var vigtigt |
| #60 | @notapplica | Kombinerede tidligere sejre fra #50, #42, og sandsynligvis #39, fik derefter en dybere model til at fungere med Muon weight decay, initialisering af spektral embedding, residual-mix-planlægning og kompileret evaluering. | Et stærkt eksempel på disciplineret arbejde med ranglister: at identificere, hvilke eksisterende forbedringer der betyder noget, og kombinere dem på en ryddelig måde. |
Kvantisering
Flere bidrag pressede hårdt på komprimering og eksport.
| Indsendelse | Bidragsyder | Teknik | Hvorfor det var vigtigt |
| #414 | @signalrush | Brugte GPTQ-lite til at kvantisere vægte efter træning. | Den første indsendelse til ranglisten, der med succes bruger GPTQ-lite, hvilket fører til en bedre evaluering. |
| #1060 | @dexhunter | Byggede videre på #634 af @raahilshah for med succes at bruge fuld Hessian GPTQ. | Udvidede tidligere kvantiseringsarbejde til en stærkere komprimeringsvej. |
Strategier for testtid og evaluering
Nogle bidrag pressede grænsen mellem modelforbedring og evalueringsstrategi. Disse tilgange var gyldige under reglerne, men de krævede omhyggelig gennemgang fra os som arrangører.
| Indsendelse | Bidragsyder | Teknik | Hvorfor det var vigtigt |
| #77 | @samacqua | Brugt score-først, LoRA-træning ved testtid pr. dokument: score først, tilpas kun på allerede scorede tekststykker, og nulstil ved dokumentgrænser. | Rykkede grænsen mellem forbedring af model og evalueringsstrategi, samtidig med at det forblev muligt at gennemgå i henhold til reglerne. |
| #1019 | @abaybektursun | Brugte selvgenereret GPTQ-kalibrering: generér kalibreringstekst fra den trænede model, og opbyg derefter GPTQ-Hessian-matricer ud fra disse aktiveringer. | En kreativ kalibreringsstrategi, som krævede omhyggelig gennemgang af arrangørerne. |
Nye model- og dataidéer
Nogle få bidrag introducerede model- eller dataidéer, der var særligt kreative.
| Indsendelse | Bidragsyder | Teknik | Hvorfor det var vigtigt | |||
| #1729 | @romeerp | Introducerede CaseOps-tokenizeren: tabsfri operator-token til store/små bogstaver med sidecar-regnskab for BPB i oprindelige bytes. | En kreativ tokenizer- og datarepræsentationsidé. | |||
| #265 | @unnir | Introducerede XSA, en effektiv delvis tilgang til Exclusive Self Attention med GQA-bevidste grupperede visninger. Bragte en effektiv variant af opmærksomhed ind i udfordringen. | a href=""https://github.com/openai/parameter-golf/pull/65""]#65[/a]" | @aquariouseworkman | Introducerede SmearGate og BigramHash: en indlært blanding af embedding for forrige token plus hash-features for tilstødende token-par. | Tilføjede nye funktionsmekanismer fra bunden. |
| #1204 | @msisovic | Introducerede mini-dybderekurrens: gentagne lag 4 og 5, udskudt rekurrens til midt i træningen og delvist frigjorde de gentagne MLP'er. Den første accepterede leaderboard-række, der fik rekurrente lag til at fungere effektivt. |
Vi valgte at fremhæve disse ni bidrag, fordi de repræsenterer det spænd af resultater, vi håbede, udfordringen ville bringe frem. Nogle deltagere fandt forbedringer gennem omhyggelig finjustering. Andre pressede kvantisering og low-rank-teknikker. Nogle udforskede grænserne i evalueringsreglerne. Og flere introducerede model- eller dataidéer, fra litteraturen eller fra bunden, som gav uventede gevinster.
Ikke-rekordsporet var hjemsted for mange kreative bidrag. Vi fremhævede 15 favoritter, herunder tilgange fra ikke-autoregressiv tekstmodellering til dynamisk tokenisering.
Fordi dette spor var mere eksperimentelt, fokuserede vi mindre på rå performance og mere på, om tilgangen var teknisk interessant. Tre bidrag skilte sig især ud:
Det var vores tre foretrukne ikke-rekordbidrag, selv om de ikke nødvendigvis var de tre bedste målt på performance.
Når det er sagt, var ikke-rekordsporet stadig konkurrencepræget. Halvdelen af leaderboardets ikke-rekordbidrag slog den naive baseline på 1,22 BPB, og det højest rangerede bidrag nåede 1,12 BPB.
Det fandt vi opmuntrende. Selv over for stærke transformer-baselines kunne alternative tilgange nogle gange klare sig mod den dominerende arkitektur.
Vi mener også, at dette spor især drager fordel af tilgængeligheden af stærke kodningsagenter. agenter gjorde det meget billigere at prototype spekulative idéer, herunder tilgange, som tidligere måske ville have føltes for tidskrævende eller usikre at prøve i en kort konkurrence.
En stor forskel mellem Parameter Golf og tidligere konkurrencer som denne var den udbredte brug af kodningsagenter. Langt størstedelen af dem, der indsendte bidrag, nævnte, at de brugte agenter som en del af deres arbejde.
Det sænkede adgangsbarrieren. Deltagerne kunne opsætte eksperimenter hurtigere, gennemgå ukendt kode og afprøve idéer med færre forhindringer. Runpods sponsorat på beregningskapacitet til en værdi af 1.000.000 USD spillede også en væsentlig rolle i at gøre udfordringen tilgængelig for flere.
Samtidig skabte brugen af agent nye problemer for indsendelse og bedømmelse. Mange bidrag var små ændringer af eksisterende topscorere snarere end fundamentalt nye tilgange. Det var ofte nyttigt: stærke idéer spredte sig hurtigt og blev forfinet af andre. Men det skabte også støj. Når bidrag, der lå uden for konkurrencens retningslinjer, gav usædvanligt stærke scorer, kopierede andre agenter nogle gange disse idéer og fortsatte ad den samme ugyldige vej.
Mængden af bidrag ændrede også, hvordan vi måtte drive konkurrencen. Vi kunne ikke manuelt inspicere hvert bidrag og samtidig holde leaderboardet i gang. Under udfordringen udviklede vi en intern Codex-baseret triage-bot til at overvåge nye bidrag og markere dem til menneskelig gennemgang. Det blev særligt vigtigt i perioder, hvor vi modtog hundredvis af bidrag om dagen.
AI-agenter blev også en del af fællesskabet omkring udfordringen. I store dele af konkurrencen drev @notapplica og deres kodningsagent et bulletinformat med “Live Updates”, der fulgte større begivenheder, forklarede leaderboard-tilgange og hjalp andre deltagere med at følge konkurrencen. Der opstod også værktøjer til fællesskabsgennemgang, som hjalp mindre erfarne deltagere med at tjekke, om deres bidrag var inden for reglerne, og undgå almindelige ugyldige tilgange.
Vores primære mål var at lancere en udfordring, som kvalificerede deltagere(åbner i et nyt vindue) kunne deltage i og få erfaring med forskning i maskinlæring. Parameter Golf tiltrak en bred vifte af teknisk stærke og kreative bidrag, og det gav os et klarere billede af, hvordan åbne forskningskonkurrencer kan ændre sig, efterhånden som AI-agenter bliver mere kapable og udbredte.
Vi overvejer at lancere flere udfordringer som denne i fremtiden. Udfyld deltagerformularen til udfordringen(åbner i et nyt vindue), hvis du er interesseret.


