Hopp til hovedinnhold
OpenAI

12. mai 2026

Research

Hva Parameter Golf lærte oss

Lærdom fra over 1 000 deltakere, over 2 000 bidrag og en åpen maskinlæringsutfordring formet av kodeagenter.

Laster inn …

Vi lanserte Parameter Golf for å engasjere og støtte forskningsmiljøet innen maskinlæring i utforskningen av et nytt, svært avgrenset problem innen maskinlæring. Vi ville at utfordringen skulle være interessant nok til å få frem reell teknisk kreativitet, samtidig som den skulle være konseptuelt enkel og lett å verifisere.

Deltakerne måtte minimere held-out-tapet på et fast FineWeb-datasett, samtidig som de holdt seg innenfor en artefaktgrense på 16 MB – inkludert både modellvekter og læringskode, og et læringsbudsjett på 10 minutter på 8×H100-prosessorer. Vi stilte til rådighet en baseline, et datasett og evalueringsskript, slik at deltakerne kunne kopiere repositoriet, forbedre modellen og sende inn resultatene sine via GitHub.

I løpet av åtte uker mottok vi over 2000 bidrag fra mer enn 1000 deltakere. Vi ble imponert over den tekniske bredden, kreativiteten og evnen til å tøye grensene, med alt fra grundig finjustering av optimaliseringsmodeller og kvantisering til nye modelleringsideer og læring i testfasen.

En av de mest spennende delene av utfordringen var å se hvor mye deltakerne brukte KI-kodeagenter. Agenter bidro til å senke kostnaden ved eksperimentering, gjorde det enklere for flere å delta og endret tempoet i konkurransen. De skapte også nye utfordringer hva gjaldt vurdering av innsendte bidrag, attribusjon og poengberegning.

Utfordringen ble også en viktig arena for å oppdage talent. Dette var et av målene våre for Parameter Golf, og utfordringen var et nyttig tegn på at åpne tekniske utfordringer kan avdekke enestående evner og iherdighet innen maskinlæring.

I dette innlegget trekker vi frem noen av bidragene som var overraskende og interessante, og deler hva vi har lært av å arrangere en programmeringskonkurranse i en tid preget av kraftige KI-agenter.

Tekniske inntrykk

Rekordliste

Vi har vurdert og uavhengig gjenskapt hvert bidrag på merittrangeringen, og bekreftet at hvert bidrag var rekordbrytende på tidspunktet det ble sendt inn. Flere temaer skilte seg ut.

Læringsoptimalisering

Noen av de beste resultatene kom fra omhyggelig finjustering av eksisterende komponenter.

InnsendingBidragsyterMetodeHvorfor det var viktig
#60@notapplicaKombinerte tidligere forbedringer fra #50, #42, og sannsynligvis #39, og utviklet en mer avansert modell som benyttet muon-vektsforfall, initialisering av spektral innlemming, planlegging av restblanding og kompilert evaluering.Et godt eksempel på strukturert rekordarbeid: å finne ut hvilke eksisterende forbedringer som er viktige, og å kombinere dem på en oversiktlig måte.

Kvantisering

Flere bidrag la stor vekt på komprimering og eksport.

InnsendingBidragsyterMetodeHvorfor det var viktig
#414@signalrushBrukte GPTQ-lite for å kvantisere vekter etter opplæring.Det første bidraget på resultattavlen som brukte GPTQ-lite med hell, noe som har ført til bedre evaluering.
#1060@dexhunterBygget videre på #634 av @raahilshah for med hell å utnytte Hessian GPTQ fullt ut.Utvidet tidligere arbeid med kvantisering til en mer effektiv komprimeringsmetode.

Tidsbruk og vurderingsstrategier

Noen bidrag utfordret grensen mellom modellforbedring og evalueringsstrategi. Disse tilnærmingene var i tråd med reglene, men krevde grundig gjennomgang av oss som arrangør.

InnsendingBidragsyterMetodeHvorfor det var viktig
#77@samacquaBrukte score-først, dokumentvis LoRA-trening ved testtid: score først, tilpass kun på allerede evaluerte tekstbiter, og nullstill ved dokumentgrenser..Utfordret grensen mellom modellforbedring og evalueringsstrategi, samtidig som tilnærmingen holdt seg innenfor det som kunne gjennomgås etter regelverket.
#1019@abaybektursunBrukt selvgenerert GPTQ-kalibrering: generer kalibreringstekst fra den trente modellen, og lag deretter GPTQ-hessianer ut fra disse aktiveringene.En kreativ kalibreringsstrategi som krevde grundig gjennomgang fra arrangørene.

Nye ideer innen modellering og data

Noen av bidragene inneholdt spesielt kreative forslag til modeller eller data.

InnsendingBidragsyterMetodeHvorfor det var viktig
#1729@romeerplanserte CaseOps-tokenisatoren: tokens med operatører for store bokstaver uten tap, med BPB-sidecar-regnskap basert på originale byte.En kreativ tokeniserings- og datarepresentasjonsidé.
#265@unnirIntroduserte XSA, en effektiv metode for delvis eksklusiv selvoppmerksomhet med GQA-tilpassede grupperte visninger.Bidro med en effektiv variant av oppmerksomhetsmodellen.
#65@aquariouseworkmanIntroduserte SmearGate og BigramHash: en kombinasjon av lærte forhånds-token-innlemminger og hash-trekk for tilstøtende token-par.Lagt til nye funksjonsmekanismer fra bunnen av.
#1204@msisovicIntroduserte mini-dybderecursjon: gjentatte lag 4 og 5, utsatt recursjon til midt i treningsfasen og delvis løsnet de gjentatte MLP-eneDen første godkjente raden på resultatlisten som fikk rekursive lag til å fungere effektivt.

Vi har valgt å trekke frem disse ni bidragene fordi de viser resultatbredden vi håpet utfordringen ville få frem. Noen deltakere fant forbedringer gjennom omhyggelig finjustering. Andre satset på kvantisering og lavrangsmetoder. Noen utforsket grensene for evalueringsreglene. Og flere introduserte modellerings- eller datakonsepter hentet fra faglitteraturen eller utviklet helt fra bunnen av, hvilket ga uventede gevinster.

Ikke-rekord

De som ikke gikk for rekord, hadde mange kreative bidrag. Vi har valgt ut 15 favoritter, blant annet med tilnærminger som spenner fra ikke-autoregressiv tekstmodellering til dynamisk tokenisering.

Siden dette var mer eksperimentelt, la vi mindre vekt på den rene fremføringen og mer på om tilnærmingen var teknisk interessant. Tre bidrag skilte seg spesielt ut:

Dette var våre tre favoritter blant bidragene som ikke gikk for rekord, selv om de ikke nødvendigvis var de tre beste på fremføring.

Likevel var resultatene utenfor rekordlisten fortsatt konkurransedyktige. Halvparten av disse slo det enkle referansegrunnlaget på 1,22 BPB, og det best rangerte bidraget nådde 1,12 BPB.

Dette var inspirrende. Selv mot sterke transformer-baselines, klarte alternative tilnærminger noen ganger å måle seg med den dominerende arkitekturen.

Vi mener også at dette feltet i særlig grad drar nytte av tilgangen på gode kodingsagenter. Agentene har gjort det mye rimeligere å lage prototyper av teoretiske ideer, inkludert tilnærminger som tidligere kanskje virket for tidkrevende eller usikre å prøve ut i en kortvarig konkurranse.

Utbytte

En viktig forskjell mellom Parameter Golf og tidligere lignende konkurranser var den utbredte bruken av kodingsagenter. De aller fleste deltakerne oppga at de hadde brukt agenter i arbeidet sitt.

Dette senket terskelen for å delta. Deltakerne kunne sette opp eksperimenter raskere, gå gjennom ukjent kode og teste ut ideer med færre hindringer. Runpods sponsing av datakraft til en verdi av 1 000 000 dollar spilte også en viktig rolle i å gjøre utfordringen tilgjengelig for flere.

Samtidig skapte bruken av agenter nye utfordringer hva gjaldt innsending og poengberegning. Mange innsendinger var små endringer av eksisterende toppscorere, snarere enn helt nye tilnærminger. Dette var ofte nyttig da gode ideer spredte seg raskt og ble videreutviklet av andre. Men det skapte også forvirring. Når innsendinger som ikke fulgte konkurransereglene oppnådde uvanlig høye poengsummer, kopierte andre agenter noen ganger disse ideene og fortsatte på samme ugyldige vei.

Antallet innsendte bidrag endret også måten vi måtte gjennomføre konkurransen på. Vi kunne ikke sjekke hvert enkelt bidrag manuelt og samtidig holde resultatlisten oppdatert. Under konkurransen utviklet vi en intern, Codex-basert sorteringsbot som skulle overvåke nye bidrag og merke dem for manuell gjennomgang. Dette ble spesielt viktig i perioder hvor vi mottok hundrevis av bidrag hver dag.

KI-agenter ble også en del av fellesskapet rundt utfordringen. Gjennom store deler av konkurransen drev @notapplica og deres kodingsagent en «Live Updates»-tjeneste der de fulgte med på viktige hendelser, forklarte rekordstrategier og hjalp andre deltakere med å følge med på konkurransen. Det dukket også opp verktøy for fellesskapsvurdering som hjalp mindre erfarne deltakere med å sjekke om bidragene deres var i tråd med reglene og unngå vanlige feilaktige tilnærminger.

Hva skjer videre?

Hovedmålet vårt var å lansere en utfordring hvor kvalifiserte deltakere(åpnes i et nytt vindu) kunne delta og få erfaring med forskning innen maskinlæring. Parameter Golf fikk et bredt utvalg teknisk solide og kreative bidrag, og dette ga oss et klarere bilde av hvordan åpne forskningskonkurranser kan endre seg etter hvert som KI-agenter blir mer avanserte og utbredte.

Vi vurderer å lansere flere utfordringer som denne i fremtiden. Fyll ut deltakerskjemaet for utfordringen(åpnes i et nytt vindu) hvis du er interessert.

Forfatter

OpenAI