Overslaan naar hoofdinhoud
OpenAI

12 mei 2026

Onderzoek

Wat Parameter Golf ons heeft geleerd

Lessen van meer dan 1.000 deelnemers, meer dan 2.000 inzendingen en een open machinelearning-uitdaging gevormd door programmeeragents.

Bezig met laden...

We lanceerden Parameter Golf om de onderzoeksgemeenschap voor machine learning te betrekken en te ondersteunen bij het verkennen van een nieuw, sterk begrensd machinelearning-probleem. We wilden dat de uitdaging interessant genoeg was om echte technische creativiteit te belonen, terwijl ze conceptueel eenvoudig en makkelijk te verifiëren bleef.

Deelnemers moesten de held-out loss op een vaste FineWeb-dataset minimaliseren en daarbij binnen een artifactlimiet van 16 MB blijven, inclusief model weights en trainingscode, en een trainingsbudget van 10 minuten op 8 H100-GPU’s.

We waren onder de indruk van de variatie in technische aanpak, de creativiteit en het oprekken van de regels in de inzendingen, van zorgvuldige optimizer-afstemming en kwantisatiewerk tot nieuwe model-ideeën en test-time training.

Een van de spannendste onderdelen van de uitdaging was om te zien hoe breed deelnemers AI-programmeeragents gebruikten. Agents hielpen de kosten van experimenteren te verlagen, maakten het makkelijker voor meer mensen om deel te nemen en veranderden het tempo van de wedstrijd. Ze zorgden ook voor nieuwe uitdagingen bij het beoordelen, toeschrijven en scoren van inzendingen.

De uitdaging werd voor ons ook een betekenisvol middel om talent te ontdekken. Dat was een van onze doelen met Parameter Golf, en het was een nuttig signaal dat open technische uitdagingen uitzonderlijk gevoel voor machine learning en doorzettingsvermogen kunnen blootleggen.

In dit artikel lichten we enkele inzendingen uit die we verrassend en interessant vonden, en delen we wat we hebben geleerd van het organiseren van een programmeerwedstrijd in het tijdperk van krachtige AI-agents.

Technische indrukken

Recordcategorie

We beoordeelden en reproduceerden elke inzending op het leaderboard van de recordcategorie onafhankelijk, en verifieerden dat elke inzending op het moment van indienen een record vestigde. Verschillende thema’s vielen op.

Trainingsoptimalisatie

Enkele van de sterkste resultaten kwamen voort uit zorgvuldige afstemming van bestaande componenten.

InzendingBijdragerTechniekWaarom dit ertoe deed
#60@notapplicaCombineerde eerdere verbeteringen uit #50, #42, en waarschijnlijk #39, en zorgde er vervolgens voor dat een dieper model werkte met Muon weight decay, spectral embedding initialization, residual-mix scheduling en compiled evaluation.Een sterk voorbeeld van gedisciplineerd werk aan leaderboards: eerst bepalen welke bestaande verbeteringen ertoe doen en ze vervolgens netjes combineren.

Kwantisatie

Een aantal inzendingen zetten sterk in op compressie en export.

InzendingBijdragerTechniekWaarom dit ertoe deed
#414@signalrushGebruikte GPTQ-lite om weights na de training te kwantiseren.De eerste inzending op het leaderboard die GPTQ-lite met succes gebruikte, wat tot een betere evaluatie leidde.
#1060@dexhunterBouwde verder op #634 door @raahilshah om succesvol de volledige Hessian GPTQ te gebruiken.Breidde eerder kwantisatiewerk uit tot een sterker compressietraject.

Strategieën voor testtijd en evaluatie

Sommige inzendingen verlegden de grens tussen modelverbetering en evaluatiestrategie. Deze benaderingen waren volgens de regels geldig, maar vereisten van ons als organisatoren een zorgvuldige beoordeling.

InzendingBijdragerTechniekWaarom dit ertoe deed
#77@samacquaGebruikte score-first LoRA-test-time-training per document: eerst scoren, alleen aanpassen op al gescoorde chunks en resetten tussen documenten.Verlegde de grens tussen modelverbetering en evaluatiestrategie, terwijl de inzending binnen de regels beoordeelbaar bleef.
#1019@abaybektursunGebruikte zelfgegenereerde GPTQ-kalibratie: genereer kalibratietekst vanuit het getrainde model en bouw vervolgens GPTQ-Hessianen op uit die activaties.Een creatieve kalibratiestrategie die zorgvuldige beoordeling door de organisatoren vereiste.

Nieuwe model- en data-ideeën

Een paar inzendingen introduceerden model- of data-ideeën die bijzonder creatief waren.

InzendingBijdragerTechniekWaarom dit ertoe deed
#1729@romeerpIntroduceerde de CaseOps-tokenizer: operator-tokens voor lossless hoofdlettergebruik met BPB-sidecarboekhouding voor oorspronkelijke bytes.Een creatief idee voor tokenisatie en gegevensrepresentatie.
#265@unnirIntroduceerde XSA, een efficiënte gedeeltelijke Exclusive Self Attention-aanpak met GQA-bewuste gegroepeerde weergaven.Bracht een efficiënte attention-variant naar de challenge.
#65@aquariouseworkmanIntroduceerde SmearGate en BigramHash: een aangeleerde embedding-blend voor het vorige token plus hash-features voor aangrenzende tokenparen.Voegde volledig nieuwe featuremechanismen toe.
#1204@msisovicIntroduceerde mini depth recurrence: herhaalde lagen 4 en 5, stelde recursie uit tot halverwege de training en ontkoppelde de herhaalde MLP's gedeeltelijk.De eerste geaccepteerde leaderboardinzending waarin recurrente lagen effectief werkten.

We kozen ervoor deze negen inzendingen uit te lichten omdat ze goed laten zien welke uiteenlopende resultaten we met de uitdaging hoopten bloot te leggen. Sommige deelnemers behaalden vooruitgang met zorgvuldige afstemming. Anderen bouwden verder op kwantisatie- en low-rank-technieken. Sommigen verkenden de grenzen van de evaluatieregels. En verschillende deelnemers introduceerden model- of data-ideeën uit de literatuur of volledig zelf ontwikkeld, die onverwachte verbeteringen opleverden.

Niet-recordcategorie

In de niet-recordcategorie zagen we veel creatieve inzendingen. We lichtten 15 favorieten uit, met benaderingen uiteenlopend van niet-autoregressieve tekstmodellering tot dynamische tokenisatie.

Omdat deze categorie experimenteler was, keken we minder naar ruwe prestaties en meer naar de vraag of de aanpak technisch interessant was. Drie inzendingen sprongen er in het bijzonder uit:

Dit waren onze drie favoriete niet-recordinzendingen, ook al waren ze niet per se de top drie qua prestaties.

Dat gezegd hebbende, was de niet-recordcategorie nog steeds competitief. De helft van de leaderboardvermeldingen in deze categorie versloeg de eenvoudige baseline van 1,22 BPB, en de hoogst gerangschikte inzending bereikte 1,12 BPB.

We vonden dit bemoedigend. Zelfs tegenover sterke transformator-baselines konden alternatieve benaderingen zich soms staande houden tegenover de dominante architectuur.

We denken ook dat deze categorie vooral profiteert van de beschikbaarheid van sterke programmeeragents. Agents maakten het veel goedkoper om speculatieve ideeën te prototypen, inclusief benaderingen die eerder misschien te tijdrovend of onzeker leken om in een korte competitie te proberen.

Belangrijkste lessen

Een groot verschil tussen Parameter Golf en eerdere competities zoals deze was het wijdverbreide gebruik van programmeeragents. De overgrote meerderheid van de inzenders zei dat ze agents gebruikten als onderdeel van hun werk.

Dat verlaagde de instapdrempel. Deelnemers konden sneller experimenten opzetten, onbekende code inspecteren en ideeën met minder moeite testen. Runpods sponsoring ter waarde van $ 1.000.000 aan rekenkracht speelde ook een belangrijke rol bij het toegankelijk maken van de uitdaging voor meer mensen.

Tegelijkertijd zorgde het gebruik van agents voor nieuwe problemen bij het indienen en beoordelen van inzendingen. Veel inzendingen waren kleine aanpassingen van bestaande topinzendingen, in plaats van fundamenteel nieuwe benaderingen. Dat was vaak nuttig: sterke ideeën verspreidden zich snel en werden door anderen verfijnd. Maar het zorgde ook voor ruis. Wanneer inzendingen buiten de richtlijnen van de competitie vielen maar ongewoon sterke scores opleverden, namen andere agents die ideeën soms over en gingen ze verder met dezelfde ongeldige aanpak.

Het aantal inzendingen veranderde ook hoe we de competitie moesten organiseren. We konden niet elke inzending handmatig inspecteren en tegelijk het leaderboard in beweging houden. Tijdens de uitdaging ontwikkelden we intern een op Codex gebaseerde triagebot om nieuwe inzendingen te monitoren en ze te markeren voor menselijke beoordeling. Dit werd vooral belangrijk in periodes waarin we honderden inzendingen per dag ontvingen.

AI-agents werden ook onderdeel van de community rond de uitdaging. Gedurende een groot deel van de competitie verzorgden @notapplica en hun programmeeragent een bulletin met 'Live Updates', waarin belangrijke gebeurtenissen werden gevolgd, leaderboardbenaderingen werden uitgelegd en andere deelnemers de competitie konden volgen. Er verschenen ook communitytools voor beoordeling om minder ervaren deelnemers te helpen controleren of hun inzendingen binnen de regels vielen en veelvoorkomende ongeldige benaderingen te vermijden.

Wat nu?

Ons voornaamste doel was om een uitdaging te lanceren waaraan in aanmerking komende deelnemers(opent in een nieuw venster) konden deelnemen en ervaring konden opdoen met onderzoek naar machine learning. Parameter Golf leverde een brede mix van technisch sterke en creatieve inzendingen op en gaf ons een duidelijker beeld van hoe open onderzoekscompetities kunnen veranderen naarmate AI-agents krachtiger worden en breder worden ingezet.

We denken erover om in de toekomst meer uitdagingen zoals deze te lanceren. Als je geïnteresseerd bent, vul dan het formulier voor challenge-deelnemers(opent in een nieuw venster) in.

Auteur

OpenAI