Što nas je Parameter Golf naučio
Pouke iz više od 1000 sudionika, preko 2000 prijava i otvorenog izazova strojnog učenja koji su oblikovali agenti za kodiranje.
Pokrenuli smo Parameter Golf kako bismo uključili i podržali zajednicu istraživača strojnog učenja u istraživanju novog, strogo ograničenog problema strojnog učenja. Željeli smo da izazov bude dovoljno zanimljiv da nagradi stvarnu tehničku kreativnost, a da pritom ostane konceptualno jednostavan i lak za provjeru.
Sudionici su morali minimizirati held-out loss na fiksnom skupu podataka FineWeb, uz ograničenje artefakta od 16 MB, uključujući i težine modela i kod za treniranje te budžet treniranja od 10 minuta na 8×H100. Osigurali smo baseline, skup podataka i skripte za evaluaciju kako bi sudionici mogli forkati repozitorij, poboljšati model i poslati svoje rezultate putem GitHuba.
Tijekom osam tjedana primili smo više od 2000 prijava od više od 1000 sudionika. Impresionirali su nas tehnička širina, kreativnost i ispitivanje granica pravila u prijavama, od pažljivog podešavanja optimizatora i rada na kvantizaciji do novih ideja za modeliranje i treniranja u vrijeme testiranja.
Jedan od najuzbudljivijih dijelova izazova bio je vidjeti koliko su sudionici široko upotrebljavali AI agente za kodiranje. Agenti su pomogli smanjiti trošak eksperimentiranja, olakšali sudjelovanje većem broju ljudi i promijenili tempo natjecanja. Također su otvorili nove izazove za pregled prijava, atribuciju i bodovanje.
Izazov nam je postao i vrijedan način otkrivanja talenata. To je bio jedan od naših ciljeva za Parameter Golf i koristan signal da otvoreni tehnički izazovi mogu otkriti izniman osjećaj za strojno učenje i ustrajnost.
U ovom tekstu ističemo neke prijave koje su nam bile iznenađujuće i zanimljive te dijelimo što smo naučili vodeći natjecanje u programiranju u doba moćnih AI agenata.
Ocijenili smo i neovisno reproducirali svaku prijavu na ljestvici rekordne kategorije te potvrdili da je svaka prijava u trenutku slanja postavila novi rekord. Istaknulo se nekoliko tema.
Optimizacija treniranja
Neki od najboljih rezultata proizašli su iz pažljivog podešavanja postojećih komponenti.
| Podnesak | Suradnik | Tehnika | Zašto je to bilo važno | |||||
| #60 | @notapplica | „Kombinirane prethodne pobjede iz #50 | #42 | a vjerojatno i #39 | zatim su omogućili da dublji model radi s Muonovim opadanjem težina | inicijalizacijom spektralnih ugradnji | raspoređivanjem residual-mix i kompajliranom evaluacijom.” | „ Snažan primjer discipliniranog rada na ljestvici najboljih: prepoznati koja su postojeća poboljšanja važna i uredno ih kombinirati.” |
Kvantizacija
Nekoliko prijava posebno se usredotočilo na kompresiju i izvoz.
| Podnesak | Suradnik | Tehnika | Zašto je to bilo važno | |
| #414 | @signalrush | „Korišten GPTQ-lite za kvantizaciju težina nakon treniranja.” | „ prva prijava na ljestvicu poretka koja je uspješno upotrijebila GPTQ-lite | što je dovelo do bolje evaluacije.” |
| #1060 | @dexhunter | „Nadovezao se na #634 autora @raahilshah kako bi uspješno upotrijebio full Hessian GPTQ.” | „Proširio je raniji rad na kvantizaciji u snažniji pristup kompresiji.” |
Strategije u vrijeme testiranja i evaluacije
Neke su prijave pomaknule granicu između poboljšanja modela i strategije evaluacije. Ti su pristupi bili valjani prema pravilima, ali su od nas kao organizatora zahtijevali pažljiv pregled.
| Podnesak | Suradnik | Tehnika | Zašto je to bilo važno | ||
| #77 | @samacqua | „Korišteno LoRA treniranje tijekom testiranja po dokumentu s pristupom najprije ocjenjivanja: najprije ocijeni | prilagodi samo na već ocijenjenim dijelovima i resetiraj na granicama dokumenata.” | „Pomaknulo je granicu između poboljšanja modela i evaluacijske strategije | a pritom je ostalo pregledljivo prema pravilima.” |
| #1019 | @abaybektursun | „Korištena samogenerirana GPTQ kalibracija: generirajte kalibracijski tekst iz treniranog modela | zatim izradite GPTQ Hessove matrice iz tih aktivacija.” | „ Kreativnu strategiju kalibracije koja je zahtijevala pažljiv pregled organizatora.” |
Nove ideje za modeliranje i podatke
Nekoliko prijava uvelo je posebno kreativne ideje za modeliranje ili podatke.
| Podnesak | Suradnik | Tehnika | Zašto je to bilo važno | |
| #1729 | @romeerp | „Uveden je tokenizator CaseOps: tokeni operatora kapitalizacije bez gubitaka s pomoćnim obračunom BPB-a za izvorne bajtove.”„ Kreativna ideja za tokenizator i prikaz podataka.” | ||
| #265 | @unnir | „Uveden XSA | učinkovit pristup djelomične ekskluzivne samopažnje s grupiranim prikazima koji uzimaju GQA u obzir.” | „Donosi učinkovitu varijantu pažnje za izazov.” |
| #65 | @aquariouseworkman | „Uveden SmearGate i BigramHash: naučena mješavina ugrađivanja prethodnog tokena i hash značajki parova susjednih tokena.” | „Dodani mehanizmi novih značajki od nule.„ | |
| #1204 | @msisovic | „Uvedena mini dubinska rekurencija: ponovljeni slojevi 4 i 5 | odgođena rekurencija do sredine treniranja i djelomično nevezani ponovljeni MLP-ovi.” | „Prvi prihvaćeni redak na ljestvici koji je omogućio da rekurentni slojevi učinkovito rade.” |
Odabrali smo istaknuti tih devet prijava jer predstavljaju raspon rezultata za koje smo se nadali da će ih izazov iznjedriti. Neki su sudionici do uspjeha došli pažljivim podešavanjem. Drugi su se usredotočili na kvantizaciju i tehnike niskog ranga. Neki su istraživali granice pravila evaluacije. Nekoliko ih je uvelo ideje za modeliranje ili podatke, iz literature ili od nule, koje su donijele neočekivana poboljšanja.
Otvorena kategorija obuhvatila je mnoge kreativne prijave. Istaknuli smo 15 favorita, uključujući pristupe od neautoregresivnog modeliranja teksta do dinamičke tokenizacije.
Budući da je ova kategorija bila više eksperimentalna, manje smo se usredotočili na sirove performanse, a više na to je li pristup tehnički zanimljiv. Posebno su se istaknule tri prijave:
To su bile naše tri omiljene prijave u otvorenoj kategoriji, iako nisu nužno bile tri najbolje po performansama.
Ipak, otvorena kategorija i dalje je bila konkurentna. Polovica unosa na ljestvici otvorene kategorije nadmašila je naivni baseline od 1,22 BPB, a najbolje rangirani unos dosegnuo je 1,12 BPB.
To nam je bilo ohrabrujuće. Čak i u usporedbi sa snažnim baselineovima transformera, alternativni pristupi ponekad su se mogli nositi s dominantnom arhitekturom.
Također mislimo da ova kategorija ima posebnu korist od dostupnosti snažnih agenata za kodiranje. Agenti su znatno smanjili trošak izrade prototipova spekulativnih ideja, uključujući pristupe koji su se prije možda činili previše dugotrajnima ili neizvjesnima za isprobavanje u kratkom natjecanju.
Velika razlika između Parameter Golfa i sličnih ranijih natjecanja bila je raširena upotreba agenata za kodiranje. Velika većina prijavitelja navela je da je koristila agente kao dio svojeg rada.
To je snizilo prag za ulazak. Sudionici su mogli brže postavljati eksperimente, pregledavati nepoznati kôd i testirati ideje uz manje prepreka. Runpodovo sponzorstvo u obliku računalnih resursa u vrijednosti od 1 000 000 USD također je odigralo važnu ulogu u tome da se izazov učini dostupnijim većem broju ljudi.
Istodobno, upotreba agenata stvorila je nove probleme za slanje prijava i bodovanje. Mnoge su prijave bile male izmjene postojećih najbolje rangiranih prijava, a ne temeljno novi pristupi. To je često bilo korisno: dobre su se ideje brzo širile i drugi su ih usavršavali. No to je stvorilo i šum. Kada su prijave izvan smjernica natjecanja ostvarile neobično snažne rezultate, drugi su agenti ponekad kopirali te ideje i nastavili istim putem koji nije bio u skladu s pravilima.
Opseg prijava također je promijenio način na koji smo morali voditi natjecanje. Nismo mogli ručno pregledati svaku prijavu i pritom održavati ljestvicu ažurnom. Tijekom izazova razvili smo interni bot za trijažu temeljen na Codexu koji je pratio nove prijave i označavao ih za ljudski pregled. To je postalo posebno važno u razdobljima kada smo primali stotine prijava dnevno.
AI agenti također su postali dio zajednice oko izazova. Tijekom velikog dijela natjecanja @notapplica i njihov agent za kodiranje vodili su bilten „Live Updates”, prateći glavne događaje, objašnjavajući pristupe na ljestvici i pomažući drugim sudionicima da prate natjecanje. Pojavili su se i alati za pregled u zajednici kako bi manje iskusnim sudionicima pomogli provjeriti jesu li njihove prijave u skladu s pravilima i izbjeći uobičajene pristupe koji nisu u skladu s pravilima.
Naš je primarni cilj bio pokrenuti izazov u kojem bi sudionici koji ispunjavaju uvjete(otvara se u novom prozoru) mogli sudjelovati i steći iskustvo u istraživanju strojnog učenja. Parameter Golf okupio je širok raspon tehnički snažnih i kreativnih prijava te nam dao jasniji uvid u to kako bi se otvorena istraživačka natjecanja mogla mijenjati kako AI agenti postaju sposobniji i rašireniji.
Razmišljamo o pokretanju još ovakvih izazova u budućnosti. Ako ste zainteresirani, ispunite obrazac za sudionike izazova(otvara se u novom prozoru).


