12. toukokuuta 2026

Mitä Parameter Golf opetti meille

Oppeja yli 1 000 osallistujalta, yli 2 000 lähetyksestä ja avoimesta koneoppimishaasteesta, jota koodausagentit muovasivat.

Ladataan...

Käynnistimme Parameter Golfin sitouttaaksemme ja tukeaksemme koneoppimisen tutkimusyhteisöä uuden, tiukasti rajatun koneoppimisongelman tutkimisessa. Halusimme haasteen olevan riittävän kiinnostava palkitsemaan aitoa teknistä luovuutta, mutta samalla käsitteellisesti yksinkertainen ja helppo varmentaa.

Osallistujien tuli minimoida testijoukon menetys (held-out loss) kiinteällä FineWeb-aineistolla pysyen samalla 16 Mt:n tiedostorajan sisällä – mukaan lukien sekä mallin painot että koulutuskoodi – sekä 10 minuutin koulutusaikarajassa 8×H100-prosessoreilla. Tarjosimme vertailumallin, aineiston ja arviointiskriptit, jotta osallistujat pystyivät luomaan repositorion haaran, parantamaan mallia ja lähettämään tuloksensa GitHubin kautta.

Kahdeksan viikon aikana saimme yli 2 000 lähetystä yli 1 000 osallistujalta. Meihin teki vaikutuksen lähetysten tekninen laajuus, luovuus ja sääntöjen venyttäminen aina huolellisesta optimointiasetusten säädöstä ja kvantisointityöstä uusiin mallinnusideoihin ja testiaikaiseen koulutukseen.

Yksi haasteen jännittävimmistä puolista oli nähdä, kuinka laajasti osallistujat käyttivät tekoälypohjaisia koodausagentteja. Agentit auttoivat alentamaan kokeilun kustannuksia, helpottivat useampien ihmisten osallistumista ja muuttivat kilpailun tahtia. Ne loivat myös uusia haasteita lähetysten tarkasteluun, attribuutioon ja pisteytykseen.

Haasteesta tuli meille myös merkityksellinen tapa löytää lahjakkuuksia. Se oli yksi Parameter Golfin tavoitteista, ja se antoi hyödyllisen signaalin siitä, että avoimet tekniset haasteet voivat paljastaa poikkeuksellista koneoppimisen vaistoa ja sinnikkyyttä.

Tässä kirjoituksessa nostamme esiin joitakin lähetyksiä, joita pidimme yllättävinä ja kiinnostavina, ja kerromme, mitä opimme järjestäessämme koodauskilpailua voimakkaiden tekoälyagenttien aikakaudella.

Tekniset vaikutelmat

Ennätysraita

Arvioimme ja toistimme itsenäisesti jokaisen ennätysradan tulostaulun lähetyksen ja varmistimme, että jokainen lähetys rikkoi ennätyksen lähetyshetkellään. Useita teemoja nousi esiin.

Koulutuksen optimointi

Osa vahvimmista tuloksista syntyi olemassa olevien komponenttien huolellisesta virittämisestä.

Lähetys	Tekijä	Tekniikka	Miksi sillä oli merkitystä
#60	@notapplica	Yhdistetty aiemmat parannukset kohteesta #50, #42, ja todennäköisesti #39-lähetyksistä, ja sai sitten syvemmän mallin toimimaan Muon-painovaimennuksella, spektraalisella upotealustuksella, residual-mix-aikataulutuksella ja käännetyllä arvioinnilla.	Vahva esimerkki kurinalaisesta tulostaulutyöstä: tunnistettiin, mitkä olemassa olevat parannukset ovat tärkeitä, ja yhdistettiin ne siististi.

Kvantisointi

Useat lähetykset panostivat voimakkaasti pakkaukseen ja vientiin.

Lähetys	Tekijä	Tekniikka	Miksi sillä oli merkitystä
#414	@signalrush	Käytetty GPTQ-lite painojen kvantisointiin koulutuksen jälkeen.	Ensimmäinen tulostaululle tehty lähetys, jossa käytettiin onnistuneesti GPTQ-lite-menetelmää, mikä johti parempaan arviointiin.
#1060	@dexhunter	@raahilshah Rakensi #634 pohjalta käyttämään täyttä Hessenin GPTQ:ta onnistuneesti.	Laajensi aiempaa kvantisointityötä vahvemmaksi pakkauspoluksi.

Testiaikaiset ja arviointistrategiat

Jotkin lähetykset venyttivät mallin parantamisen ja arviointistrategian välistä rajaa. Nämä lähestymistavat olivat sääntöjen mukaan sallittuja, mutta ne vaativat meiltä järjestäjinä huolellista tarkastelua.

Lähetys	Tekijä	Tekniikka	Miksi sillä oli merkitystä
#77	@samacqua	Käytetty pisteytys ensin, dokumenttikohtainen LoRA:n testausaikainen koulutus: pisteytys ensin, mukauta vain jo pisteytettyjen lohkojen perusteella ja nollaa dokumenttirajoilla.	Siirsi mallin parantamisen ja arviointistrategian välistä rajaa eteenpäin pysyen samalla sääntöjen mukaisesti tarkasteltavissa.
#1019	@abaybektursun	Käytetty itse generoitu GPTQ-kalibrointi: generoi kalibrointiteksti koulutetusta mallista ja muodosta sitten GPTQ:n Hessen matriisit näistä aktivaatioista.	Luova kalibrointistrategia, joka edellytti järjestäjiltä huolellista tarkastelua.

Uudet mallinnus- ja dataideat

Muutamissa lähetyksissä esiteltiin mallinnus- tai dataideoita, jotka olivat erityisen luovia.

Lähetys	Tekijä	Tekniikka	Miksi sillä oli merkitystä
#1729	@romeerp	Esiteltiin CaseOps-tokenizer: häviöttömät kirjainkoon operaattori-tokenit ja alkuperäisten tavujen BPB-sidecar-kirjanpito.	Luova tokenisointi- ja datan esitystapaidea.
#265	@unnir	Lisätty XSA, tehokas osittainen Exclusive Self Attention -lähestymistapa GQA-tietoisilla ryhmitellyillä näkymillä.	Tuotu tehokas huomiomuunnelma haasteeseen.
#65	@aquariouseworkman	Lisätty SmearGate ja BigramHash: opittu edellisen token upotusten sekoitus sekä vierekkäisten token parien hajautuspiirteet.	Lisätty uusia ominaisuusmekanismeja alusta alkaen.
#1204	@msisovic	Lisätty minisyvyysrekurrenssi: kerrokset 4 ja 5 toistettiin, rekurrenssia viivästettiin koulutuksen puoliväliin asti ja toistettujen MLP:iden sidonta purettiin osittain.	Ensimmäinen hyväksytty tulostaulukon rivi, joka sai rekurrentit kerrokset toimimaan tehokkaasti.

Päätimme nostaa esiin nämä yhdeksän ehdotusta, koska ne edustavat juuri sitä tuloskirjoa, jonka toivoimme haasteen tuovan esiin. Jotkut osallistujat saavuttivat tuloksia huolellisella hienosäädöllä. Toiset hyödynsivät kvantisointia ja matalan asteen menetelmiä. Jotkut tutkivat arviointisääntöjen rajoja. Ja useat esittivät mallinnus- tai dataideoita, joko kirjallisuudesta tai omasta päästään, jotka tuottivat odottamattomia parannuksia.

Ei-ennätysraita

Ei-ennätysraita oli monien luovien lähetysten koti. Nostimme esiin 15 suosikkia, mukaan lukien lähestymistapoja ei-autoregressiivisesta tekstimallinnuksesta dynaamiseen tokenisointiin.

Koska tämä rata oli kokeellisempi, keskityimme vähemmän raakasuorituskykyyn ja enemmän siihen, oliko lähestymistapa teknisesti kiinnostava. Kolme lähetystä erottui erityisesti:

Nämä olivat kolme suosikkiamme ei-ennätyslähetysten joukosta, vaikka ne eivät välttämättä olleet suorituskyvyltään kolme parasta.

Siitä huolimatta ei-ennätysraita oli edelleen kilpailullinen. Puolet ei-ennätystulostaulun merkinnöistä päihitti naiivin 1,22 BPB:n perusmallin, ja korkeimmalle sijoittunut merkintä saavutti 1,12 BPB:n.

Pidimme tätä rohkaisevana. Jopa vahvoja Muuntaja-perusmalleja vastaan vaihtoehtoiset lähestymistavat pystyivät joskus pitämään puolensa hallitsevaa arkkitehtuuria vastaan.

Ajattelemme myös, että tämä rata hyötyy erityisesti vahvojen koodausagenttien saatavuudesta. Agentit tekivät spekulatiivisten ideoiden prototypoinnista paljon halvempaa, mukaan lukien lähestymistavat, joita olisi aiemmin voitu pitää liian aikaa vievinä tai epävarmoina kokeiltaviksi lyhyessä kilpailussa.

Keskeiset opit

Merkittävä ero Parameter Golfin ja sitä edeltäneiden kilpailujen välillä oli koodausagenttien laaja käyttö. Valtaosa lähettäjistä mainitsi käyttäneensä agentteja osana työtään.

Se madalsi osallistumiskynnystä. Osallistujat pystyivät käynnistämään kokeita nopeammin, tarkastelemaan vierasta koodia ja testaamaan ideoita sujuvammin. RunPodin tarjoama miljoonan dollarin arvoinen laskentakapasiteetti oli myös keskeisessä roolissa, kun haasteesta tehtiin entistä useammalle avoin.

Samalla agenttien käyttö toi mukanaan uusia haasteita ehdotusten jättämiseen ja pisteytykseen. Monet ehdotukset olivat pikemminkin pieniä muutoksia olemassa oleviin huippupisteitä keränneisiin ratkaisuihin kuin täysin uusia lähestymistapoja. Tämä oli usein hyödyllistä: vahvat ideat levisivät nopeasti ja muut hioivat niitä edelleen. Mutta se aiheutti myös häiriöitä. Kun kilpailun sääntöjen vastaiset ehdotukset saivat poikkeuksellisen korkeita pisteitä, muut agentit kopioivat toisinaan näitä ideoita ja jatkoivat samalla virheellisellä tiellä.

Lähetysten määrä muutti myös tapaamme järjestää kilpailu. Emme voineet tarkastaa jokaista lähetystä käsin ja samalla pitää tulostaulua liikkeessä. Haasteen aikana kehitimme sisäisen Codex-pohjaisen seulontabotin seuraamaan uusia lähetyksiä ja merkitsemään niitä ihmisen tarkastettavaksi. Tästä tuli erityisen tärkeää aikoina, jolloin saimme satoja lähetyksiä päivässä.

Myös tekoälyagentit tulivat osaksi kilpailun ympärille muodostunutta yhteisöä. Suurimman osan kilpailun ajasta @notapplica ja sen koodausagentti ylläpitivät ”Live Updates” -uutisvirtaa, jossa seurattiin tärkeimpiä tapahtumia, selitettiin tulostaulukon menetelmiä ja autettiin muita osallistujia seuraamaan kilpailun kulkua. Lisäksi yhteisön arviointityökalut auttoivat vähemmän kokeneita osallistujia tarkistamaan, olivatko heidän lähettämänsä ratkaisut sääntöjen mukaisia, ja välttämään yleisiä virheitä.

Mitä seuraavaksi?

Ensisijainen tavoitteemme oli käynnistää haaste, johon kelpoiset osallistujat⁠(avautuu uudessa ikkunassa) voisivat osallistua ja jossa he voisivat kokea koneoppimisen tutkimusta. Parameter Golf toi yhteen laajan joukon teknisesti vahvoja ja luovia lähetyksiä, ja se antoi meille selkeämmän kuvan siitä, miten avoimet tutkimuskilpailut voivat muuttua tekoälyagenttien kehittyessä ja yleistyessä.

Harkitsemme lisää tällaisten haasteiden käynnistämistä tulevaisuudessa. Jos olet kiinnostunut, täytä haasteen osallistujalomake⁠(avautuu uudessa ikkunassa).

2026

Tekijä

OpenAI

Jatka lukemista

Näytä kaikki

Signaalin erottaminen kohinasta koodausarvioinneissa

Tutkimus8.7.2026

Esittelyssä GeneBench-Pro

Tutkimus30.6.2026

A near-autonomous AI chemist improves a challenging reaction

Lähes autonominen tekoälykemisti parantaa haastavaa reaktiota lääkekemiassa

Tutkimus17.6.2026