Šta nas je Parameter Golf naučio
Pouke od više od 1.000 učesnika, 2.000+ prijava i otvorenog izazova mašinskog učenja koji su oblikovali coding agenti.
Pokrenuli smo Parameter Golf kako bismo uključili i podržali istraživačku zajednicu mašinskog učenja u istraživanju novog, strogo ograničenog problema mašinskog učenja. Željeli smo da izazov bude dovoljno zanimljiv da nagradi stvarnu tehničku kreativnost, a da pritom ostane konceptualno jednostavan i lak za provjeru.
Učesnici su morali minimizirati held-out loss na fiksnom skupu podataka FineWeb, uz ograničenje artefakta od 16 MB, uključujući i težine modela i kod za treniranje, te budžet za treniranje od 10 minuta na 8×H100. Obezbijedili smo baseline, skup podataka i skripte za evaluaciju kako bi učesnici mogli forkovati repo, unaprijediti model i poslati rezultate putem GitHuba.
Tokom osam sedmica primili smo više od 2.000 prijava od preko 1.000 učesnika. Impresionirali su nas tehnička širina, kreativnost i pomjeranje granica pravila u prijavama, od pažljivog podešavanja optimizatora i rada na kvantizaciji do novih ideja za modeliranje i treniranja u vrijeme testiranja.
Jedan od najuzbudljivijih dijelova izazova bio je vidjeti koliko su učesnici široko koristili AI coding agente. Agenti su pomogli da se smanji cijena eksperimentisanja, olakšali su učešće većem broju ljudi i promijenili tempo takmičenja. Također su stvorili nove izazove za pregled prijava, atribuciju i bodovanje.
Izazov je za nas postao i značajna prilika za otkrivanje talenata. To je bio jedan od naših ciljeva za Parameter Golf i bio je koristan signal da otvoreni tehnički izazovi mogu otkriti izuzetan osjećaj za mašinsko učenje i upornost.
U ovom tekstu izdvajamo neke od prijava koje su nam bile iznenađujuće i zanimljive te dijelimo šta smo naučili vodeći takmičenje u kodiranju u eri moćnih AI agenata.
Ocijenili smo i nezavisno reproducirali svaku prijavu na rang-listi rekordne staze te potvrdili da je svaka prijava oborila rekord u trenutku kada je poslana. Nekoliko tema se posebno istaklo.
Optimizacija treniranja
Neki od najboljih rezultata došli su iz pažljivog podešavanja postojećih komponenti.
| Prijava | Saradnik | Tehnika | Zašto je bilo važno |
| #60 | @notapplica | Kombinovano prethodne pobjede iz #50, #42, a vjerovatno i #39, zatim su omogućili da dublji model radi s Muon propadanjem težina, inicijalizacijom spektralnih ugradnji, raspoređivanjem rezidualnog miješanja i kompajliranom evaluacijom. | A snažan primjer disciplinovanog rada na rang-listi: prepoznavanje koja su postojeća poboljšanja važna i njihovo uredno kombinovanje. |
Kvantizacija
Nekoliko prijava snažno je pomjerilo granice kompresije i izvoza.
| Prijava | Saradnik | Tehnika | Zašto je bilo važno |
| #414 | @signalrush | Korišteno GPTQ-lite za kvantizaciju težina nakon treniranja. | prva prijava na rang-listu koja je uspješno koristila GPTQ-lite, što je dovelo do bolje evaluacije. |
| #1060 | @dexhunter | Nadogradio #634 autora @raahilshah kako bi uspješno koristio puni Hessian GPTQ. | Proširio raniji rad na kvantizaciji u snažniji pravac kompresije. |
Strategije za vrijeme testiranja i evaluacije
Neke prijave pomjerile su granicu između unapređenja modela i strategije evaluacije. Ovi pristupi bili su važeći prema pravilima, ali su od nas kao organizatora zahtijevali pažljiv pregled.
| Prijava | Saradnik | Tehnika | Zašto je bilo važno |
| #77 | @samacqua | Korišteno LoRA treniranje tokom testiranja po dokumentu, s ocjenjivanjem na prvom mjestu: prvo ocijeniti, prilagoditi se samo na već ocijenjenim segmentima i resetovati na granicama dokumenta. | Pomjerilo je granicu između poboljšanja modela i strategije evaluacije, a istovremeno ostalo pregledno u skladu s pravilima. |
| #1019 | @abaybektursun | Korišteno samogenerisana GPTQ kalibracija: generirajte kalibracijski tekst iz istreniranog modela, zatim iz tih aktivacija izgradite GPTQ Hessiane. | A kreativna strategija kalibracije koja je zahtijevala pažljivu provjeru organizatora. |
Nove ideje za modeliranje i podatke
Nekoliko prijava uvelo je ideje za modeliranje ili podatke koje su bile posebno kreativne.
| Prijava | Saradnik | Tehnika | Zašto je bilo važno |
| #1729 | @romeerp | Uveden je CaseOps tokenizator: tokeni operatora za kapitalizaciju bez gubitaka s pratećim BPB obračunom originalnih bajtova. | A kreativna ideja za tokenizator i predstavljanje podataka. |
| #265 | @unnir | Uvedeno XSA, efikasan pristup djelomične ekskluzivne samopažnje s grupiranim prikazima prilagođenim GQA-u. | Donosi efikasnu varijantu pažnje u izazov. |
| #65 | @aquariouseworkman | Uvedeno SmearGate i BigramHash: naučena mješavina ugrađivanja prethodnog tokena plus hash karakteristike parova susjednih tokena. | Dodano mehanizme novih funkcija od nule. |
| #1204 | @msisovic | Uvedeno mini rekurencija po dubini: ponovljeni slojevi 4 i 5, odgođena rekurencija do sredine obuke i djelimično razvezani ponovljeni MLP-ovi. | Prvi prihvaćeni red na rang-listi koji je omogućio da rekurentni slojevi djelotvorno funkcionišu. |
Odabrali smo da istaknemo ovih devet prijava jer predstavljaju raspon rezultata za koje smo se nadali da će ih izazov iznijeti na površinu. Neki učesnici su do poboljšanja došli pažljivim podešavanjem. Drugi su pomjerali kvantizaciju i low-rank tehnike. Neki su istraživali rubove evaluacijskih pravila. A nekoliko njih je uvelo ideje za modeliranje ili podatke, iz literature ili od nule, koje su donijele neočekivane dobitke.
Nerekordna staza bila je dom mnogim kreativnim prijavama. Izdvojili smo 15 favorita, uključujući pristupe od neautoregresivnog modeliranja teksta do dinamičke tokenizacije.
Budući da je ova staza bila eksperimentalnija, manje smo se fokusirali na sirove performanse, a više na to da li je pristup tehnički zanimljiv. Posebno su se istakle tri prijave:
Ovo su bile naše omiljene tri nerekordne prijave, iako nisu nužno bile tri najbolje po performansama.
Ipak, nerekordna staza je i dalje bila konkurentna. Polovina unosa na nerekordnoj rang-listi nadmašila je naivni baseline od 1,22 BPB, a prvoplasirani unos dostigao je 1,12 BPB.
To nas je ohrabrilo. Čak i naspram snažnih transformer baselinea, alternativni pristupi su se ponekad mogli ravnopravno nositi s dominantnom arhitekturom.
Također mislimo da ova staza posebno ima koristi od dostupnosti snažnih coding agenata. Agenti su znatno pojeftinili izradu prototipa spekulativnih ideja, uključujući pristupe za koje se ranije možda činilo da traže previše vremena ili da su previše neizvjesni da bi ih se isprobalo u kratkom takmičenju.
Velika razlika između Parameter Golfa i sličnih ranijih takmičenja bila je široka upotreba coding agenata. Velika većina učesnika koji su slali prijave navela je da je koristila agente kao dio svog rada.
To je smanjilo barijeru za ulazak. Učesnici su mogli brže postavljati eksperimente, pregledati nepoznati kod i testirati ideje uz manje prepreka. Runpodovo sponzorstvo od 1.000.000 USD u računarskim resursima također je odigralo veliku ulogu u tome da izazov bude dostupan većem broju ljudi.
Istovremeno, upotreba agenata stvorila je nova pitanja za prijave i bodovanje. Mnoge prijave bile su male izmjene postojećih najboljih rezultata, a ne suštinski novi pristupi. To je često bilo korisno: snažne ideje brzo su se širile i drugi su ih usavršavali. Ali je stvaralo i šum. Kada su prijave koje su izlazile izvan smjernica takmičenja davale neobično jake rezultate, drugi agenti su ponekad kopirali te ideje i nastavili istim nevažećim putem.
Obim prijava također je promijenio način na koji smo morali voditi takmičenje. Nismo mogli ručno pregledati svaku prijavu i istovremeno održavati kretanje rang-liste. Tokom izazova razvili smo interni bot za trijažu zasnovan na Codexu koji je pratio nove prijave i označavao ih za ljudski pregled. To je postalo posebno važno u periodima kada smo primali stotine prijava dnevno.
AI agenti su također postali dio zajednice oko izazova. Tokom velikog dijela takmičenja, @notapplica i njihov coding agent vodili su bilten „Live Updates“, prateći glavne događaje, objašnjavajući pristupe na rang-listi i pomažući drugim učesnicima da prate takmičenje. Pojavili su se i alati za pregled u zajednici kako bi manje iskusnim učesnicima pomogli da provjere jesu li njihove prijave u skladu s pravilima i da izbjegnu uobičajene nevažeće pristupe.
Naš primarni cilj bio je pokrenuti izazov u kojem bi učesnici koji ispunjavaju uslove(otvara se u novom prozoru) mogli učestvovati i steći iskustvo u istraživanju mašinskog učenja. Parameter Golf je privukao širok raspon tehnički snažnih i kreativnih prijava i dao nam jasniji uvid u to kako bi se otvorena istraživačka takmičenja mogla mijenjati kako AI agenti postaju sposobniji i šire korišteni.
Razmišljamo o pokretanju još ovakvih izazova u budućnosti. Ako ste zainteresovani, molimo vas da popunite obrazac za učesnike izazova(otvara se u novom prozoru).


