Mitä Parameter Golf opetti meille
Oppeja yli 1 000 osallistujalta, yli 2 000 lähetyksestä ja avoimesta koneoppimishaasteesta, jota koodausagentit muovasivat.
Käynnistimme Parameter Golfin sitouttaaksemme ja tukeaksemme koneoppimisen tutkimusyhteisöä uuden, tiukasti rajatun koneoppimisongelman tutkimisessa. Halusimme haasteen olevan riittävän kiinnostava palkitsemaan aitoa teknistä luovuutta, mutta samalla käsitteellisesti yksinkertainen ja helppo varmentaa.
Osallistujien tuli minimoida testijoukon menetys (held-out loss) kiinteällä FineWeb-aineistolla pysyen samalla 16 Mt:n tiedostorajan sisällä – mukaan lukien sekä mallin painot että koulutuskoodi – sekä 10 minuutin koulutusaikarajassa 8×H100-prosessoreilla. Tarjosimme vertailumallin, aineiston ja arviointiskriptit, jotta osallistujat pystyivät luomaan repositorion haaran, parantamaan mallia ja lähettämään tuloksensa GitHubin kautta.
Kahdeksan viikon aikana saimme yli 2 000 lähetystä yli 1 000 osallistujalta. Meihin teki vaikutuksen lähetysten tekninen laajuus, luovuus ja sääntöjen venyttäminen aina huolellisesta optimointiasetusten säädöstä ja kvantisointityöstä uusiin mallinnusideoihin ja testiaikaiseen koulutukseen.
Yksi haasteen jännittävimmistä puolista oli nähdä, kuinka laajasti osallistujat käyttivät tekoälypohjaisia koodausagentteja. Agentit auttoivat alentamaan kokeilun kustannuksia, helpottivat useampien ihmisten osallistumista ja muuttivat kilpailun tahtia. Ne loivat myös uusia haasteita lähetysten tarkasteluun, attribuutioon ja pisteytykseen.
Haasteesta tuli meille myös merkityksellinen tapa löytää lahjakkuuksia. Se oli yksi Parameter Golfin tavoitteista, ja se antoi hyödyllisen signaalin siitä, että avoimet tekniset haasteet voivat paljastaa poikkeuksellista koneoppimisen vaistoa ja sinnikkyyttä.
Tässä kirjoituksessa nostamme esiin joitakin lähetyksiä, joita pidimme yllättävinä ja kiinnostavina, ja kerromme, mitä opimme järjestäessämme koodauskilpailua voimakkaiden tekoälyagenttien aikakaudella.
Arvioimme ja toistimme itsenäisesti jokaisen ennätysradan tulostaulun lähetyksen ja varmistimme, että jokainen lähetys rikkoi ennätyksen lähetyshetkellään. Useita teemoja nousi esiin.
Koulutuksen optimointi
Osa vahvimmista tuloksista syntyi olemassa olevien komponenttien huolellisesta virittämisestä.
| Lähetys | Tekijä | Tekniikka | Miksi sillä oli merkitystä |
| #60 | @notapplica | Yhdistetty aiemmat parannukset kohteesta #50, #42, ja todennäköisesti #39-lähetyksistä, ja sai sitten syvemmän mallin toimimaan Muon-painovaimennuksella, spektraalisella upotealustuksella, residual-mix-aikataulutuksella ja käännetyllä arvioinnilla. | Vahva esimerkki kurinalaisesta tulostaulutyöstä: tunnistettiin, mitkä olemassa olevat parannukset ovat tärkeitä, ja yhdistettiin ne siististi. |
Kvantisointi
Useat lähetykset panostivat voimakkaasti pakkaukseen ja vientiin.
| Lähetys | Tekijä | Tekniikka | Miksi sillä oli merkitystä |
| #414 | @signalrush | Käytetty GPTQ-lite painojen kvantisointiin koulutuksen jälkeen. | Ensimmäinen tulostaululle tehty lähetys, jossa käytettiin onnistuneesti GPTQ-lite-menetelmää, mikä johti parempaan arviointiin. |
| #1060 | @dexhunter | @raahilshah Rakensi #634 pohjalta käyttämään täyttä Hessenin GPTQ:ta onnistuneesti. | Laajensi aiempaa kvantisointityötä vahvemmaksi pakkauspoluksi. |
Testiaikaiset ja arviointistrategiat
Jotkin lähetykset venyttivät mallin parantamisen ja arviointistrategian välistä rajaa. Nämä lähestymistavat olivat sääntöjen mukaan sallittuja, mutta ne vaativat meiltä järjestäjinä huolellista tarkastelua.
| Lähetys | Tekijä | Tekniikka | Miksi sillä oli merkitystä |
| #77 | @samacqua | Käytetty pisteytys ensin, dokumenttikohtainen LoRA:n testausaikainen koulutus: pisteytys ensin, mukauta vain jo pisteytettyjen lohkojen perusteella ja nollaa dokumenttirajoilla. | Siirsi mallin parantamisen ja arviointistrategian välistä rajaa eteenpäin pysyen samalla sääntöjen mukaisesti tarkasteltavissa. |
| #1019 | @abaybektursun | Käytetty itse generoitu GPTQ-kalibrointi: generoi kalibrointiteksti koulutetusta mallista ja muodosta sitten GPTQ:n Hessen matriisit näistä aktivaatioista. | Luova kalibrointistrategia, joka edellytti järjestäjiltä huolellista tarkastelua. |
Uudet mallinnus- ja dataideat
Muutamissa lähetyksissä esiteltiin mallinnus- tai dataideoita, jotka olivat erityisen luovia.
| Lähetys | Tekijä | Tekniikka | Miksi sillä oli merkitystä |
| #1729 | @romeerp | Esiteltiin CaseOps-tokenizer: häviöttömät kirjainkoon operaattori-tokenit ja alkuperäisten tavujen BPB-sidecar-kirjanpito. | Luova tokenisointi- ja datan esitystapaidea. |
| #265 | @unnir | Lisätty XSA, tehokas osittainen Exclusive Self Attention -lähestymistapa GQA-tietoisilla ryhmitellyillä näkymillä. | Tuotu tehokas huomiomuunnelma haasteeseen. |
| #65 | @aquariouseworkman | Lisätty SmearGate ja BigramHash: opittu edellisen token upotusten sekoitus sekä vierekkäisten token parien hajautuspiirteet. | Lisätty uusia ominaisuusmekanismeja alusta alkaen. |
| #1204 | @msisovic | Lisätty minisyvyysrekurrenssi: kerrokset 4 ja 5 toistettiin, rekurrenssia viivästettiin koulutuksen puoliväliin asti ja toistettujen MLP:iden sidonta purettiin osittain. | Ensimmäinen hyväksytty tulostaulukon rivi, joka sai rekurrentit kerrokset toimimaan tehokkaasti. |
Päätimme nostaa esiin nämä yhdeksän ehdotusta, koska ne edustavat juuri sitä tuloskirjoa, jonka toivoimme haasteen tuovan esiin. Jotkut osallistujat saavuttivat tuloksia huolellisella hienosäädöllä. Toiset hyödynsivät kvantisointia ja matalan asteen menetelmiä. Jotkut tutkivat arviointisääntöjen rajoja. Ja useat esittivät mallinnus- tai dataideoita, joko kirjallisuudesta tai omasta päästään, jotka tuottivat odottamattomia parannuksia.
Ei-ennätysraita oli monien luovien lähetysten koti. Nostimme esiin 15 suosikkia, mukaan lukien lähestymistapoja ei-autoregressiivisesta tekstimallinnuksesta dynaamiseen tokenisointiin.
Koska tämä rata oli kokeellisempi, keskityimme vähemmän raakasuorituskykyyn ja enemmän siihen, oliko lähestymistapa teknisesti kiinnostava. Kolme lähetystä erottui erityisesti:
Nämä olivat kolme suosikkiamme ei-ennätyslähetysten joukosta, vaikka ne eivät välttämättä olleet suorituskyvyltään kolme parasta.
Siitä huolimatta ei-ennätysraita oli edelleen kilpailullinen. Puolet ei-ennätystulostaulun merkinnöistä päihitti naiivin 1,22 BPB:n perusmallin, ja korkeimmalle sijoittunut merkintä saavutti 1,12 BPB:n.
Pidimme tätä rohkaisevana. Jopa vahvoja Muuntaja-perusmalleja vastaan vaihtoehtoiset lähestymistavat pystyivät joskus pitämään puolensa hallitsevaa arkkitehtuuria vastaan.
Ajattelemme myös, että tämä rata hyötyy erityisesti vahvojen koodausagenttien saatavuudesta. Agentit tekivät spekulatiivisten ideoiden prototypoinnista paljon halvempaa, mukaan lukien lähestymistavat, joita olisi aiemmin voitu pitää liian aikaa vievinä tai epävarmoina kokeiltaviksi lyhyessä kilpailussa.
Merkittävä ero Parameter Golfin ja sitä edeltäneiden kilpailujen välillä oli koodausagenttien laaja käyttö. Valtaosa lähettäjistä mainitsi käyttäneensä agentteja osana työtään.
Se madalsi osallistumiskynnystä. Osallistujat pystyivät käynnistämään kokeita nopeammin, tarkastelemaan vierasta koodia ja testaamaan ideoita sujuvammin. RunPodin tarjoama miljoonan dollarin arvoinen laskentakapasiteetti oli myös keskeisessä roolissa, kun haasteesta tehtiin entistä useammalle avoin.
Samalla agenttien käyttö toi mukanaan uusia haasteita ehdotusten jättämiseen ja pisteytykseen. Monet ehdotukset olivat pikemminkin pieniä muutoksia olemassa oleviin huippupisteitä keränneisiin ratkaisuihin kuin täysin uusia lähestymistapoja. Tämä oli usein hyödyllistä: vahvat ideat levisivät nopeasti ja muut hioivat niitä edelleen. Mutta se aiheutti myös häiriöitä. Kun kilpailun sääntöjen vastaiset ehdotukset saivat poikkeuksellisen korkeita pisteitä, muut agentit kopioivat toisinaan näitä ideoita ja jatkoivat samalla virheellisellä tiellä.
Lähetysten määrä muutti myös tapaamme järjestää kilpailu. Emme voineet tarkastaa jokaista lähetystä käsin ja samalla pitää tulostaulua liikkeessä. Haasteen aikana kehitimme sisäisen Codex-pohjaisen seulontabotin seuraamaan uusia lähetyksiä ja merkitsemään niitä ihmisen tarkastettavaksi. Tästä tuli erityisen tärkeää aikoina, jolloin saimme satoja lähetyksiä päivässä.
Myös tekoälyagentit tulivat osaksi kilpailun ympärille muodostunutta yhteisöä. Suurimman osan kilpailun ajasta @notapplica ja sen koodausagentti ylläpitivät ”Live Updates” -uutisvirtaa, jossa seurattiin tärkeimpiä tapahtumia, selitettiin tulostaulukon menetelmiä ja autettiin muita osallistujia seuraamaan kilpailun kulkua. Lisäksi yhteisön arviointityökalut auttoivat vähemmän kokeneita osallistujia tarkistamaan, olivatko heidän lähettämänsä ratkaisut sääntöjen mukaisia, ja välttämään yleisiä virheitä.
Ensisijainen tavoitteemme oli käynnistää haaste, johon kelpoiset osallistujat(avautuu uudessa ikkunassa) voisivat osallistua ja jossa he voisivat kokea koneoppimisen tutkimusta. Parameter Golf toi yhteen laajan joukon teknisesti vahvoja ja luovia lähetyksiä, ja se antoi meille selkeämmän kuvan siitä, miten avoimet tutkimuskilpailut voivat muuttua tekoälyagenttien kehittyessä ja yleistyessä.
Harkitsemme lisää tällaisten haasteiden käynnistämistä tulevaisuudessa. Jos olet kiinnostunut, täytä haasteen osallistujalomake(avautuu uudessa ikkunassa).


