Mire tanított minket a Parameter Golf
Több mint 1000 résztvevő, 2000+ beküldés és egy kódoló ügynökök által formált nyílt gépi tanulási kihívás tanulságai.
A Parameter Golfot azért indítottuk el, hogy bevonjuk és támogassuk a gépi tanulási kutatóközösséget egy új, szigorúan korlátozott gépi tanulási probléma feltárásában. Azt szerettük volna, hogy a kihívás elég érdekes legyen ahhoz, hogy valódi technikai kreativitást jutalmazzon, miközben fogalmilag egyszerű és könnyen ellenőrizhető marad.
A résztvevőknek egy rögzített FineWeb adathalmazon kellett minimalizálniuk a held-out veszteséget, miközben bele kellett férniük egy 16 MB-os artifactkorlátba — ebbe a modell súlyai és a tanítókód is beletartozott —, valamint egy 10 perces tanítási keretbe 8×H100-on. Adtunk egy baseline-t, adathalmazt és kiértékelő szkripteket, hogy a résztvevők elágazást készíthessenek a repóból, javíthassák a modellt, és GitHubon keresztül beküldhessék az eredményeiket.
Nyolc hét alatt több mint 2000 beküldést érkezett több mint 1000 résztvevőtől. Lenyűgözött minket a beküldések technikai sokszínűsége, kreativitása és a szabályok feszegetése, a gondos optimalizálóhangolástól és kvantálási munkától az új modellezési ötletekig és a tesztidős tanításig.
A kihívás egyik legizgalmasabb része az volt, hogy láttuk, milyen széles körben használtak a résztvevők AI kódoló ügynököket. Az ügynökök csökkentették a kísérletezés költségét, megkönnyítették, hogy többen vegyenek részt, és megváltoztatták a verseny tempóját. Ugyanakkor új kihívásokat is teremtettek a beküldések felülvizsgálata, az attribúció és a pontozás terén.
A kihívás számunkra érdemi tehetségfelderítési felületté is vált. Ez a Parameter Golffal kapcsolatos céljaink egyike volt, és hasznos jelzésnek bizonyult arra, hogy a nyílt végű technikai kihívások kivételes gépi tanulási érzéket és kitartást tárhatnak fel.
Ebben a bejegyzésben kiemelünk néhány olyan beküldést, amelyet meglepőnek és érdekesnek találtunk, és megosztjuk, mit tanultunk abból, hogy egy kódolóversenyt szerveztünk a nagy teljesítményű AI ügynökök korában.
A rekord kategória ranglistáján minden beküldést elbíráltunk és függetlenül reprodukáltunk, és ellenőriztük, hogy mindegyik a beküldés időpontjában rekordot döntött-e. Több visszatérő téma is kirajzolódott.
Tanításoptimalizálás
Néhány legerősebb eredmény a meglévő komponensek gondos finomhangolásából született.
| Beküldés | Közreműködő | Technika | Miért volt fontos |
| #60 | @notapplica | Egyesítették a korábbi győzelmekeet innen: #50, #42, és valószínűleg #39 is, ezután működésre bírt egy mélyebb modellt Muon weight decayjel, spektrális embedding-inicializálással, residual-mix ütemezéssel és kompilált kiértékeléssel. | Kiváló példája a tudatos és fegyelmezett leaderboard-optimalizálásnak: annak felismerése, hogy a meglévő fejlesztések közül melyek igazán fontosak, majd ezek letisztult és hatékony kombinálása. |
Kvantálás
Több beküldés is erősen a tömörítésre és az exportálásra összpontosított.
| Beküldés | Közreműködő | Technika | Miért volt fontos |
| #414 | @signalrush | A tréning után GPTQ-lite kvantálást alkalmaztak a súlyokon. | Ez volt az első leaderboard-beküldés, amely sikeresen használta a GPTQ-lite technológiát, ami jobb értékelési eredményeket hozott. |
| #1060 | @dexhunter | @raahilshah #634 beküldésére építve sikeresen használta a teljes Hessian GPTQ-t. | A korábbi kvantálási munkát egy erősebb tömörítési irányba vitte tovább. |
Tesztidős és kiértékelési stratégiák
Néhány beküldés a modellfejlesztés és a kiértékelési stratégia közötti határt feszegette. Ezek a megközelítések a szabályok szerint érvényesek voltak, de szervezőként gondos felülvizsgálatot igényeltek tőlünk.
| Beküldés | Közreműködő | Technika | Miért volt fontos |
| #77 | @samacqua | Score-first, dokumentumonkénti LoRA-alapú tesztidős betanítást alkalmaztak: először kiértékelték az adatokat, majd csak a már pontozott szegmenseken végeztek adaptációt, és minden dokumentumhatárnál visszaállították a modellt. | A szabályok betartása mellett feszegették a modellfejlesztés és az értékelési stratégia közötti határokat, miközben a megoldás továbbra is átlátható és ellenőrizhető maradt. |
| #1019 | @abaybektursun | Önmaga által generált GPTQ-kalibrációt alkalmaztak: kalibrációs szöveg generálása a betanított modellből, majd GPTQ Hessian-mátrixok felépítése ezekből az aktivációkból. | Olyan kreatív kalibrációs stratégiát, amely a szervezők részéről alapos felülvizsgálatot igényelt. |
Új modellezési és adatötletek
Néhány beküldés különösen kreatív modellezési vagy adatötleteket vezetett be.
| Beküldés | Közreműködő | Technika | Miért volt fontos |
| #1729 | @romeerp | Bemutatták a CaseOps tokenizálót: veszteségmentes nagybetűsítési operátor-tokenek eredeti bájtalapú BPB sidecar nyilvántartással. | Egy kreatív tokenizálási és adatreprezentációs ötletet. |
| #265 | @unnir | Bemutatták az XSA-t, egy hatékony, részleges Exclusive Self Attention megközelítést GQA-tudatos csoportosított nézetekkel. | Egy hatékony attention-variánst vezettek be a kihívásba. |
| #65 | @aquariouseworkman | Bemutatták a SmearGate és BigramHash megoldásokat: egy tanult előző-token embedding kombinációt, valamint szomszédos tokenpárok hash-alapú jellemzőit. Teljesen új feature-mechanizmusokat fejlesztettek a semmiből. | |
| #1204 | @msisovic | Bemutatták a mini mélységi rekurziót: megismételték a 4-es és 5-ös rétegeket, a rekurziót csak a tréning közepétől vezették be, valamint részben szétválasztották (untied) az ismételt MLP-ket. | Ez volt az elfogadott leaderboard-eredmény, amelyben a rekurzív rétegek hatékonyan működtek.” |
Ezt a kilenc beküldést azért választottuk kiemelésre, mert jól mutatják azt az eredményskálát, amelynek felszínre kerülését reméltük a kihívástól. Egyes résztvevők gondos finomhangolással értek el sikereket. Mások a kvantálást és az alacsony rangú technikákat tolták előre. Voltak, akik a kiértékelési szabályok határait vizsgálták. Többen pedig modellezési vagy adatötleteket vezettek be — a szakirodalomból vagy teljesen újonnan —, amelyek váratlan javulást hoztak.
A nem rekord kategóriában sok kreatív beküldés született. 15 kedvencet emeltünk ki, köztük a nem autoregresszív szövegmodellezéstől a dinamikus tokenizálásig terjedő megközelítéseket.
Mivel ez a kategória kísérletibb volt, kevésbé a nyers teljesítményre, inkább arra figyeltünk, hogy a megközelítés technikailag érdekes-e. Három beküldés különösen kiemelkedett:
Ez volt a három kedvenc nem rekord beküldésünk, még ha teljesítmény alapján nem is feltétlenül ezek voltak az első három helyezettek.
Ettől függetlenül a nem rekord kategória is versengő volt. A nem rekord ranglista bejegyzéseinek fele felülmúlta az 1,22 BPB-s naiv baseline-t, a legjobb helyezett pedig elérte az 1,12 BPB-t.
Ezt biztatónak találtuk. Még az erős transzformer baseline-okkal szemben is előfordult, hogy az alternatív megközelítések megállták a helyüket a domináns architektúrával szemben.
Azt is gondoljuk, hogy ennek a kategóriának különösen sokat segít az erős kódoló ügynökök elérhetősége. Az ügynökök jóval olcsóbbá tették a spekulatív ötletek prototipizálását, beleértve azokat a megközelítéseket is, amelyeket korábban talán túl időigényesnek vagy bizonytalannak éreztek volna egy rövid versenyben.
A Parameter Golf és a hozzá hasonló korábbi versenyek közötti egyik fő különbség a kódoló ügynökök széles körű használata volt. A beküldők túlnyomó többsége megemlítette, hogy munkája részeként ügynököket használt.
Ez csökkentette a belépési korlátot. A résztvevők gyorsabban tudtak kísérleteket előkészíteni, ismeretlen kódot áttekinteni, és gördülékenyebben tesztelni az ötleteiket. A Runpod 1 000 000 dollár értékű számítási kapacitással nyújtott támogatása szintén jelentős szerepet játszott abban, hogy a kihívás több ember számára váljon elérhetővé.
Ugyanakkor az ügynökhasználat új problémákat teremtett a beküldés és a pontozás terén. Sok beküldés inkább kis módosítás volt a már jól teljesítő megoldásokon, nem pedig alapvetően új megközelítés. Ez gyakran hasznos volt: az erős ötletek gyorsan terjedtek, és mások tovább finomították őket. De zajt is keltett. Amikor a versenyszabályokon kívül eső beküldések szokatlanul erős pontszámokat értek el, más ügynökök néha lemásolták ezeket az ötleteket, és ugyanazon az érvénytelen úton haladtak tovább.
A beküldések mennyisége azt is megváltoztatta, hogyan kellett működtetnünk a versenyt. Nem tudtunk minden beküldést kézzel átnézni úgy, hogy közben a ranglista is haladjon. A kihívás során egy belső, Codex-alapú triázsbotot fejlesztettünk, amely figyelte az új beküldéseket, és emberi felülvizsgálatra jelölte őket. Ez különösen fontossá vált azokban az időszakokban, amikor naponta több száz beküldést kaptunk.
Az AI ügynökök a kihívás körüli közösség részévé is váltak. A verseny nagy részében @notapplica és a kódoló ügynöke egy „Live Updates” hírfolyamot működtetett, amely nyomon követte a főbb eseményeket, magyarázta a ranglistás megközelítéseket, és segített a többi résztvevőnek követni a versenyt. Közösségi felülvizsgálati eszközök is megjelentek, hogy segítsenek a kevésbé tapasztalt résztvevőknek ellenőrizni, hogy beküldéseik megfelelnek-e a szabályoknak, és elkerülni a gyakori érvénytelen megközelítéseket.
Elsődleges célunk az volt, hogy olyan kihívást indítsunk, amelyben a részvételre jogosult résztvevők(új ablakban nyílik meg) részt vehessenek, és tapasztalatot szerezhessenek a gépi tanulási kutatás terén. A Parameter Golf számos technikailag erős és kreatív megoldást vonultatott fel, és világosabb képet adott arról is, hogyan változhatnak az open research versenyek az AI-ügynökök fejlődésével és szélesebb körű elterjedéséve
A jövőben további hasonló kihívások indításán gondolkodunk. Ha érdekli Önt, kérlek, töltse ki a kihívás résztvevői űrlapját(új ablakban nyílik meg).


