Ce ne-a învățat Parameter Golf
Lecții de la peste 1.000 de participanți, peste 2.000 de trimiteri și o provocare deschisă de învățare automată modelată de agenți de programare.
Am lansat Parameter Golf pentru a implica și sprijini comunitatea de cercetare în învățare automată în explorarea unei noi probleme de învățare automată, cu constrângeri stricte. Ne-am dorit ca provocarea să fie suficient de interesantă încât să recompenseze creativitatea tehnică reală, rămânând totodată simplă la nivel conceptual și ușor de verificat.
Participanții trebuiau să minimizeze pierderea pe un set fix de date FineWeb, păstrându-se în limita unui artefact de 16 MB, incluzând atât ponderile modelului, cât și codul de antrenare, precum și într-un buget de antrenare de 10 minute pe 8×H100. Am oferit un punct de referință, setul de date și scripturile de evaluare, astfel încât participanții să poată să cloneze proiectul în propriul cont GitHub, să îmbunătățească modelul și să își trimită rezultatele prin GitHub.
Pe parcursul a opt săptămâni, am primit peste 2.000 de înscrieri de la peste 1.000 de participanți. Am fost impresionați de amploarea tehnică, creativitatea și flexibilitatea față de reguli din înscrieri, de la ajustarea atentă a optimizatorului și munca de cuantizare până la idei noi de modelare și antrenare în timpul testării.
Una dintre cele mai interesante părți ale provocării a fost să vedem cât de mult au folosit participanții agenți IA de programare. Agenții au contribuit la scăderea costului experimentării, au făcut participarea mai ușoară pentru mai mulți oameni și au schimbat ritmul competiției. De asemenea, au creat noi provocări pentru revizuirea înscrierilor, atribuirea meritelor și punctare.
Provocarea a devenit, de asemenea, pentru noi o modalitate semnificativă de descoperire a talentelor. Acesta a fost unul dintre obiectivele noastre pentru Parameter Golf și a fost un semnal util că provocările tehnice deschise pot scoate la iveală un simț excepțional pentru învățarea automată și perseverență.
În acest articol, evidențiem câteva dintre trimiterile care ni s-au părut surprinzătoare și interesante și împărtășim ce am învățat din organizarea unui concurs de programare în era agenților IA puternici.
Am evaluat și reprodus independent fiecare înscriere din clasamentul categoriei record și am verificat că fiecare înscriere a stabilit un record la momentul în care a fost trimisă. Au ieșit în evidență mai multe teme.
Optimizarea instruirii
Unele dintre cele mai bune rezultate au venit din ajustarea atentă a componentelor existente.
| Înscriere | Contribuitor | Tehnică | De ce a contat |
| #60 | @notapplica | A combinat victoriile anterioare din #50, #42 și probabil #39, apoi a făcut ca un model mai profund să funcționeze cu degradarea ponderilor Muon, inițializarea prin încorporare spectrală, programarea amestecului rezidual și evaluarea compilată. | Un exemplu solid de lucru disciplinat orientat spre clasament: identificarea îmbunătățirilor existente care contează și combinarea acestora într-un mod ordonat. |
Cuantizare
Mai multe înscrieri au pus un accent puternic pe compresie și export.
| Înscriere | Contribuitor | Tehnică | De ce a contat |
| #414 | @signalrush | A folosit GPTQ-lite pentru a cuantiza ponderile după antrenare. | Prima înscriere în clasament care a utilizat cu succes GPTQ-lite, ducând la o evaluare mai bună. |
| #1060 | @dexhunter | Construit pe baza #634 de @raahilshah pentru a folosi GPTQ Hessian complet. | A extins munca anterioară de cuantizare într-o direcție de compresie mai puternică. |
Strategii privind durata testului și evaluarea
Unele înscrieri au împins limita dintre îmbunătățirea modelului și strategia de evaluare. Aceste abordări au fost valide conform regulilor, dar au necesitat o analiză atentă din partea noastră ca organizatori.
| Înscriere | Contribuitor | Tehnică | De ce a contat |
| #77 | @samacqua | A utilizat o abordare de antrenare LoRA la momentul testării, bazată pe scoruri inițiale și pe nivel de document: se calculează mai întâi scorul, se adaptează doar fragmentele deja evaluate și se resetează la limitele documentului. | A împins limita dintre îmbunătățirea modelului și strategia de evaluare, rămânând în același timp revizuibil conform regulilor. |
| #1019 | @abaybektursun | A folosit calibrarea GPTQ autogenerată: generare de text de calibrare din modelul antrenat, apoi construirea de matrici Hessian GPTQ din acele activări. | O strategie creativă de calibrare care a necesitat o analiză atentă din partea organizatorilor. |
Idei noi de modelare și date
Câteva înscrieri au introdus idei de modelare sau de date deosebit de creative.
| Înscriere | Contribuitor | Tehnică | De ce a contat |
| #1729 | @romeerp | A introdus tokenizatorul CaseOps: tokenuri de operator pentru capitalizare fără pierderi, cu evidență auxiliară BPB a octeților originali. | O idee creativă de tokenizator și de reprezentare a datelor. |
| #265 | @unnir | A introdus XSA, o abordare eficientă de auto-atenție exclusivă parțială cu vizualizări grupate conștiente de GQA. | A adus o variantă eficientă de atenție în cadrul provocării. |
| #65 | @aquariouseworkman | A introdus SmearGate și BigramHash: o combinație între o încorporare a tokenului anterior învățată și caracteristici de haș ale perechilor de tokenuri adiacente. | A adăugat mecanisme pentru funcționalități noi de la zero. |
| #1204 | @msisovic | A introdus recurență mini pe adâncime: straturile 4 și 5 repetate, recurență amânată până la mijlocul antrenării și a decuplat parțial MLP-urile repetate. | Primul rând acceptat din clasament care face ca straturile recurente să funcționeze eficient. |
Am ales să evidențiem aceste nouă înscrieri deoarece reprezintă diversitatea rezultatelor pe care speram să le scoată la iveală această provocare. Unii participanți au obținut rezultate mai bune prin ajustări atente. Alții au explorat tehnici de cuantizare și de rang redus. Unii au explorat limitele regulilor de evaluare. Iar mai mulți au introdus idei de modelare sau de utilizare a datelor, fie din literatura de specialitate, fie dezvoltate de la zero, care au generat îmbunătățiri neașteptate.
Categoria nonrecord a găzduit multe înscrieri creative. Am evidențiat 15 favorite, inclusiv abordări care au variat de la modelarea textului non-autoregresivă la tokenizare dinamică.
Pentru că această categorie a fost mai experimentală, ne-am concentrat mai puțin pe performanța brută și mai mult pe cât de interesantă era abordarea din punct de vedere tehnic. Trei înscrieri s-au remarcat în mod special:
Acestea au fost cele trei înscrieri nonrecord preferate de noi, chiar dacă nu au fost neapărat primele trei ca performanță.
Acestea fiind spuse, categoria nonrecord a rămas competitivă. Jumătate dintre intrările din clasamentul nonrecord au depășit punctul de referință naiv de 1,22 BPB, iar intrarea de pe primul loc a ajuns la 1,12 BPB.
Am considerat acest lucru încurajator. Chiar și în fața unor puncte de referință puternice bazate pe transformator, abordările alternative au putut uneori să țină piept arhitecturii dominante.
De asemenea, credem că această categorie beneficiază în mod special de disponibilitatea unor agenți de programare puternici. Agenții au făcut mult mai ieftină prototiparea ideilor speculative, inclusiv a unor abordări care anterior ar fi putut părea prea consumatoare de timp sau prea incerte pentru a fi încercate într-o competiție scurtă.
O diferență majoră între Parameter Golf și competițiile anterioare similare a fost utilizarea pe scară largă a agenților de programare. Marea majoritate a celor care au trimis lucrări au menționat că au folosit agenți ca parte a muncii lor.
Acest lucru a redus bariera de intrare. Participanții au putut configura experimente mai rapid, examina cod necunoscut și testa idei cu mai puține obstacole. Sponsorizarea oferită de Runpod, în valoare de 1.000.000 $ în resurse de calcul, a jucat, de asemenea, un rol major în a face provocarea accesibilă unui număr mai mare de persoane.
În același timp, utilizarea agenților a creat noi probleme pentru înscriere și punctare. Multe înscrieri au fost mici modificări ale unor lucrări deja aflate în top, mai degrabă decât abordări fundamental noi. Acest lucru a fost adesea util: ideile puternice s-au răspândit rapid și au fost rafinate de alții. Dar a creat și zgomot. Când înscrieri care ieșeau din ghidul competiției produceau scoruri neobișnuit de puternice, alți agenți copiau uneori acele idei și continuau pe aceeași cale invalidă.
Volumul înscrierilor a schimbat și modul în care a trebuit să organizăm competiția. Nu am fi putut inspecta manual fiecare înscriere și să menținem totodată clasamentul în mișcare. În timpul provocării, am dezvoltat un robot intern de triere bazat pe Codex pentru a monitoriza noile înscrieri și a le semnala pentru revizuire umană. Acest lucru a devenit deosebit de important în perioadele în care primeam sute de înscrieri pe zi.
Agenții IA au devenit, de asemenea, parte din comunitatea din jurul provocării. În mare parte din competiție, @notapplica și agentul lor de programare au publicat un buletin „Actualizări în direct”, urmărind evenimentele majore, explicând abordările din clasament și ajutând alți participanți să urmărească competiția. Au apărut și instrumente de revizuire comunitară pentru a-i ajuta pe participanții mai puțin experimentați să verifice dacă înscrierile lor respectau regulile și să evite abordările nevalide comune.
Scopul nostru principal a fost să lansăm o provocare la care participanții eligibili(se deschide într-o fereastră nouă) să poată lua parte și prin care să experimenteze cercetarea în domeniul învățării automate. Parameter Golf a atras o gamă largă de înscrieri puternice din punct de vedere tehnic și creative și ne-a oferit o imagine mai clară asupra modului în care competițiile deschise de cercetare s-ar putea schimba pe măsură ce agenții IA devin mai capabili și mai utilizați pe scară largă.
Ne gândim să lansăm mai multe provocări de acest tip în viitor. Dacă te interesează, completeawză formularul de participare la provocare(se deschide într-o fereastră nouă).


