Čo nás Parameter Golf naučil
Ponaučenia od viac než 1 000 účastníkov, viac ako 2 000 podaní a otvorenej výzvy v strojovom učení formovanej kódovacími agentmi.
Parameter Golf sme spustili, aby sme zapojili a podporili komunitu výskumu strojového učenia pri skúmaní nového, prísne obmedzeného problému strojového učenia. Chceli sme, aby bola výzva dostatočne zaujímavá na to, aby odmenila skutočnú technickú tvorivosť, a zároveň zostala koncepčne jednoduchá a ľahko overiteľná.
Účastníci museli minimalizovať stratu na vyhradenom datasete FineWeb a zároveň sa zmestiť do limitu artefaktu 16 MB vrátane váh modelu aj trénovacieho kódu, a do 10-minútového tréningového limitu na 8×H100. Poskytli sme baseline, dataset a vyhodnocovacie skripty, aby si účastníci mohli urobiť rozvetvenie repozitára, vylepšiť model a odoslať výsledky cez GitHub.
Počas ôsmich týždňov sme dostali viac než 2 000 podaní od viac než 1 000 účastníkov. Zaujala nás technická šírka, tvorivosť a ohýbanie pravidiel naprieč podaniami – od starostlivého ladenia optimizéra a práce na kvantizácii, až po nové nápady v modelovaní a trénovanie v čase testovania.
Jednou z najvzrušujúcejších častí výzvy bolo sledovať, ako široko účastníci používali kódovacích agentov umelej inteligencie. Agenti pomohli znížiť náklady na experimentovanie, uľahčili účasť väčšiemu počtu ľudí a zmenili tempo súťaže. Zároveň vytvorili nové výzvy pri kontrole podaní, pripisovaní zásluh a hodnotení.
Výzva sa pre nás stala aj zmysluplným priestorom na objavovanie talentov. To bol jeden z našich cieľov pri Parameter Golf a bol to užitočný signál, že otvorené technické výzvy dokážu odhaliť výnimočný cit pre strojové učenie a vytrvalosť.
V tomto príspevku vyzdvihujeme niektoré podania, ktoré nás prekvapili a zaujali, a delíme sa o to, čo sme sa naučili pri organizovaní programátorskej súťaže v ére výkonných AI agentov.
Každý príspevok v record-track rebríčku sme vyhodnotili a nezávisle reprodukovali a overili sme, že v čase odoslania predstavoval nový rekord. Ukázalo sa niekoľko výrazných trendov.
Optimalizácia tréningu
Niektoré z najsilnejších výsledkov vzišli zo starostlivého ladenia existujúcich komponentov.
| Príspevok | prispievateľ | technika | prečo to bolo dôležité | |||||
| „#60“ | @notapplica | „Kombinované predchádzajúce úspechy z #50 | #42 a pravdepodobne aj #39 potom umožnili sfunkčniť hlbší model s Muon weight decay | inicializáciou spektrálnych embeddingov | plánovaním residual-mix a kompilovaným vyhodnocovaním.“ | „A silný príklad disciplinovanej práce s leaderboardom: rozpoznať | ktoré existujúce vylepšenia sú dôležité | a elegantne ich skombinovať.“ |
Kvantizácia
Viaceré podania výrazne posunuli kompresiu a export.
| Príspevok | Prispievateľ | Technika | Prečo to bolo dôležité | ||
| #414 | @signalrush | „Bolo použité GPTQ-lite na kvantizáciu váh po trénovaní.“ | „Prvé odoslanie do rebríčka | ktoré úspešne použilo GPTQ-lite | čo viedlo k lepšiemu vyhodnoteniu.“ |
| #1060 | @dexhunter | „Nadviazal na #634 od @raahilshah a úspešne použil plný Hessian GPTQ.“ | „Rozvinulo skoršiu prácu na kvantizácii do silnejšieho postupu kompresie.“ |
Stratégie v čase testovania a vyhodnocovania
Niektoré podania posúvali hranicu medzi zlepšovaním modelu a stratégiou vyhodnocovania. Tieto prístupy boli podľa pravidiel platné, no od nás ako organizátorov si vyžadovali dôkladné posúdenie.
| Príspevok | Prispievateľ | Technika | Prečo to bolo dôležité | ||
| #77 | @samacqua | „Použitý tréning LoRA v čase testovania pre jednotlivé dokumenty s prístupom „najprv skórovať“: najprv skórovať | adaptovať sa iba na už ohodnotených segmentoch a resetovať na hraniciach dokumentov.“ | „Posunulo to hranicu medzi zlepšovaním modelu a stratégiou vyhodnocovania | pričom to zostalo preskúmateľné podľa pravidiel.“ |
| #1019 | @abaybektursun | „Použitá samogenerovaná kalibrácia GPTQ: vygenerujte kalibračný text z natrénovaného modelu a potom z týchto aktivácií zostavte Hessove matice GPTQ.“ | „A kreatívna kalibračná stratégia | ktorá vyžadovala dôkladnú kontrolu zo strany organizátorov.“ |
Nové nápady v modelovaní a práci s dátami
Niekoľko podaní prinieslo nápady v modelovaní alebo práci s dátami, ktoré boli mimoriadne tvorivé.
| Príspevok | Prispievateľ | Technika | Prečo to bolo dôležité | ||
| #1729 | @romeerp | „Zaviedol sa tokenizer CaseOps: bezztrátové tokeny operátora na zmenu veľkosti písmen s pomocnou evidenciou BPB podľa pôvodných bajtov.“ | „ Kreatívny nápad na tokenizér a reprezentáciu údajov.“ | ||
| „#265“ | @unnir | „Zavedené XSA | efektívny čiastočný prístup Exclusive Self Attention so zoskupenými pohľadmi zohľadňujúcimi GQA.“ | „Priniesol efektívny variant mechanizmu pozornosti do výzvy.“ | |
| „#65“ | @aquariouseworkman | „Zavedené SmearGate a BigramHash: naučená zmes embeddingu predchádzajúceho tokenu plus hašovacie príznaky párov susedných tokenov.“ | „Pridané mechanizmy nových funkcií od základov.“ | ||
| „#1204“ | @msisovic | „zavedené mini hĺbková rekurencia: opakované vrstvy 4 a 5 | odložená rekurencia až do polovice tréningu a čiastočne zrušené zdieľanie váh pri opakovaných MLP.“ | „prvý akceptovaný riadok v rebríčku | v ktorom rekurentné vrstvy fungovali efektívne.“ |
Rozhodli sme sa vyzdvihnúť týchto deväť podaní, pretože predstavujú rozsah výsledkov, ktoré sme dúfali, že výzva prinesie. Niektorí účastníci našli zlepšenia vďaka starostlivému ladeniu. Iní posunuli kvantizáciu a low-rank techniky. Niektorí skúmali hranice pravidiel vyhodnocovania. A viacerí priniesli nápady v modelovaní alebo práci s dátami, z literatúry alebo od nuly, ktoré priniesli nečakané zisky.
Z nonrecord tracku pochádzalo mnoho tvorivých podaní. Vyzdvihli sme 15 favoritov vrátane prístupov od neautoregresívneho modelovania textu po dynamickú tokenizáciu.
Keďže tento track bol experimentálnejší, menej sme sa sústredili na hrubý výkon a viac na to, či bol prístup technicky zaujímavý. Osobitne vynikli tri podania:
Toto boli naše tri obľúbené nerekordné podania, hoci nemuseli byť nevyhnutne tromi najlepšími podľa výkonu.
Napriek tomu bol nonrecord track kompetitívny. Polovica položiek v nerekordnom rebríčku prekonala naivný baseline 1,22 BPB a najvyššie umiestnená položka dosiahla 1,12 BPB.
Považovali sme to za povzbudivé. Aj proti silným baseline založeným na transformátore mohli alternatívne prístupy niekedy obstáť voči dominantnej architektúre.
Myslíme si tiež, že tejto trati obzvlášť prospieva dostupnosť silných kódovacích agentov. Agenti výrazne zlacnili prototypovanie špekulatívnych nápadov vrátane prístupov, ktoré sa predtým mohli v krátkej súťaži zdať príliš časovo náročné alebo neisté na vyskúšanie.
Veľkým rozdielom medzi Parameter Golf a podobnými skoršími súťažami bolo široké používanie kódovacích agentov. Drvivá väčšina odosielateľov uviedla, že agentov používala ako súčasť svojej práce.
Tým sa znížila vstupná bariéra. Účastníci mohli rýchlejšie pripravovať experimenty, skúmať neznámy kód a testovať nápady s menšími prekážkami. Sponzorský príspevok spoločnosti Runpod vo forme výpočtových zdrojov v hodnote 1 000 000 USD tiež zohral významnú úlohu pri sprístupnení výzvy väčšiemu počtu ľudí.
Zároveň však používanie agentov vytvorilo nové problémy pri podávaní a hodnotení. Mnohé podania boli skôr malými zmenami existujúcich najlepších výsledkov než zásadne novými prístupmi. Často to bolo užitočné: silné nápady sa šírili rýchlo a iní ich ďalej zdokonaľovali. Zároveň to však vytváralo šum. Keď podania, ktoré boli mimo pravidiel súťaže, dosiahli nezvyčajne silné skóre, iní agenti tieto nápady niekedy skopírovali a pokračovali po tej istej neplatnej ceste.
Objem podaní tiež zmenil spôsob, akým sme museli súťaž organizovať. Nemohli sme ručne kontrolovať každé podanie a zároveň udržiavať pohyb rebríčka. Počas výzvy sme vyvinuli interného triážneho bota založeného na Codex, ktorý monitoroval nové podania a označoval ich na ľudskú kontrolu. To bolo obzvlášť dôležité v obdobiach, keď sme dostávali stovky podaní denne.
AI agenti sa stali aj súčasťou komunity okolo výzvy. Po veľkú časť súťaže @notapplica a ich kódovací agent prevádzkovali bulletin „Live Updates“, v ktorom sledovali hlavné udalosti, vysvetľovali prístupy v rebríčku a pomáhali ostatným účastníkom sledovať súťaž. Objavili sa aj komunitné nástroje na kontrolu, ktoré menej skúseným účastníkom pomáhali overiť, či sú ich podania v súlade s pravidlami, a vyhnúť sa bežným neplatným prístupom.
Naším hlavným cieľom bolo spustiť výzvu, do ktorej sa mohli zapojiť oprávnení účastníci(otvorí sa v novom okne) a vyskúšať si výskum v oblasti strojového učenia. Parameter Golf priniesol široké spektrum technicky silných a tvorivých podaní a poskytol nám jasnejší pohľad na to, ako sa môžu otvorené výskumné súťaže meniť s tým, ako sa agenti umelej inteligencie stávajú schopnejšími a rozšírenejšími.
Uvažujeme o tom, že v budúcnosti spustíme viac podobných výziev. Ak máš záujem, vyplň formulár účastníka výzvy(otvorí sa v novom okne).


