Co nás Parameter Golf naučil
Poznatky od více než 1 000 účastníků, 2 000+ příspěvků a otevřené výzvy ve strojovém učení formované kódovacími agenty.
Soutěž Parameter Golf jsme spustili, abychom zapojili a podpořili komunitu výzkumu strojového učení při zkoumání nového, přísně omezeného problému strojového učení. Chtěli jsme, aby byla výzva dostatečně zajímavá na to, aby odměňovala skutečnou technickou kreativitu, a zároveň zůstala koncepčně jednoduchá a snadno ověřitelná.
Účastníci museli minimalizovat held-out loss na pevném datasetu FineWeb a zároveň se vejít do limitu artefaktu 16 MB, včetně vah modelu i trénovacího kódu, a do rozpočtu 10 minut tréninku na 8×H100. Poskytli jsme baseline, dataset a vyhodnocovací skripty, aby účastníci mohli větvit repozitář, vylepšit model a odeslat své výsledky přes GitHub.
Během osmi týdnů jsme obdrželi více než 2 000 příspěvků od více než 1 000 účastníků. Zaujala nás technická šíře, kreativita i posouvání pravidel napříč příspěvky — od pečlivého ladění optimalizátoru a práce s kvantizací až po nové modelovací nápady a trénink v čase testování.
Jednou z nejzajímavějších částí výzvy bylo sledovat, jak široce účastníci používali AI kódovací agenty. Agenti pomohli snížit náklady na experimentování, usnadnili účast většímu počtu lidí a změnili tempo soutěže. Zároveň vytvořili nové výzvy pro kontrolu příspěvků, přiřazování zásluh a bodování.
Výzva se pro nás také stala smysluplným prostorem pro objevování talentů. To byl jeden z našich cílů u Parameter Golf a byl to užitečný signál, že otevřené technické výzvy mohou odhalit výjimečný cit pro strojové učení a vytrvalost.
V tomto příspěvku vyzdvihujeme některé příspěvky, které nám připadaly překvapivé a zajímavé, a sdílíme, co jsme se naučili při pořádání programátorské soutěže v době výkonných AI agentů.
Posoudili jsme a nezávisle reprodukovali každý příspěvek v žebříčku rekordních záznamů a ověřili, že každý příspěvek byl v době odeslání rekordní. Vyniklo několik témat.
Optimalizace tréninku
Některé z nejlepších výsledků vzešly z pečlivého ladění existujících komponent.
| Příspěvek | Přispěvatel | Technika | Proč to bylo důležité |
| #60 | @notapplica | Kombinování předchozích výher z #50, #42 a pravděpodobně i #39 a následně umožnil efektivně fungovat hlubšímu modelu pomocí weight decay v Muonu, spektrální inicializace embeddingů, plánování residual-mix a kompilovaného vyhodnocování. | Přesvědčivý příklad disciplinované práce na žebříčku: rozpoznání toho, která stávající vylepšení jsou důležitá, a jejich čisté zkombinování. |
Kvantizace
Několik příspěvků výrazně posunulo kompresi a export.
| Příspěvek | Přispěvatel | Technika | Proč to bylo důležité |
| #414 | @signalrush | Použito GPTQ-lite ke kvantizaci vah po trénování. | první příspěvek do žebříčku, který úspěšně používá GPTQ-lite, což vedlo k lepšímu vyhodnocení. |
| #1060 | @dexhunter | Založeno na #634 od @raahilshah a úspěšně použito kompletní Hessian GPTQ. | Rozšířil dřívější práci na kvantizaci do silnější cesty komprese. |
Strategie v čase testování a vyhodnocování
Některé příspěvky posouvaly hranici mezi zlepšováním modelu a vyhodnocovací strategií. Tyto přístupy byly podle pravidel platné, ale jako organizátoři jsme je museli pečlivě posoudit.
| Příspěvek | Přispěvatel | Technika | Proč to bylo důležité | |||
| #77 | @samacqua | Použito trénování LoRA v testovacím čase po jednotlivých dokumentech: nejprve ohodnotit, adaptovat jen na již hodnocených segmentech a resetovat na hranicích dokumentů. Posunul hranici mezi zlepšováním modelu a strategií vyhodnocování, přičemž zůstal přezkoumatelný v rámci pravidel. | a href=""https://github.com/openai/parameter-golf/pull/1019""]#1019[/a]" | @abaybektursun | Použita kalibrace GPTQ generovaná samotným modelem: vygeneruj kalibrační text z natrénovaného modelu a poté z těchto aktivací sestav Hessovy matice GPTQ. | Kreativní kalibrační strategie, která vyžadovala pečlivé posouzení ze strany organizátorů. |
Nové modelovací a datové nápady
Několik příspěvků představilo modelovací nebo datové nápady, které byly obzvlášť kreativní.
| Příspěvek | Přispěvatel | Technika | Proč to bylo důležité |
| #1729 | @romeerp | Zaveden tokenizer CaseOps: bezeztrátové operátorové tokeny pro kapitalizaci s doprovodnou evidencí BPB podle původních bajtů. | kreativní nápad na tokenizér a reprezentaci dat. |
| #265 | @unnir | Zavedeno XSA, efektivní částečný přístup exkluzivního mechanismu self-attention se seskupenými pohledy zohledňujícími GQA. | Přináší do výzvy efektivní variantu mechanismu pozornosti. |
| #65 | @aquariouseworkman | Zavedeny SmearGate a BigramHash: naučené kombinování embeddingu předchozího tokenu spolu s hashovanými příznaky sousedních dvojic tokenů. | Přidány mechanismy nových funkcí od základu. |
| #1204 | @msisovic | Zavedena mini rekurence hloubky: opakované vrstvy 4 a 5, odložená rekurence až do poloviny trénování a částečně rozvázané opakované MLP. | První přijatý příspěvek do žebříčku, v němž rekurentní vrstvy fungovaly efektivně. |
Těchto devět příspěvků jsme se rozhodli vyzdvihnout, protože jsou na škále výsledků, o kterých jsme doufali, že je výzva přinese. Někteří účastníci našli zlepšení díky pečlivému ladění. Jiní posunuli kvantizaci a nízkohodnostní techniky. Někteří zkoumali hranice pravidel vyhodnocování. A několik dalších představilo modelovací nebo datové nápady, z literatury či od nuly, které přinesly nečekaná zlepšení.
Nerekordní záznamy byly domovem mnoha kreativních příspěvků. Vyzdvihli jsme 15 favoritů, včetně přístupů od neautoregresivního modelování textu po dynamickou tokenizaci.
Protože tyto záznamy byly experimentálnější, soustředili jsme se méně na hrubý výkon a více na to, zda byl přístup technicky zajímavý. Zvlášť vynikly tři příspěvky:
To byly naše tři nejoblíbenější nerekordní příspěvky, i když nemusely být nutně tři nejlepší podle výkonu.
Přesto byly nerekordní záznamy i nadále konkurenceschopné. Polovina položek v žebříčku nerekordních záznamů překonala naivní základnu 1,22 BPB a nejvýše umístěný záznam dosáhl 1,12 BPB.
To jsme považovali za povzbudivé. I proti silným základnám založeným na transformeru dokázaly alternativní přístupy někdy obstát vedle dominantní architektury.
Myslíme si také, že těmto záznamům zvlášť prospívá dostupnost silných kódovacích agentů. Agenti výrazně zlevnili prototypování spekulativních nápadů, včetně přístupů, které dříve mohly působit jako příliš časově náročné nebo nejisté na vyzkoušení v krátké soutěži.
Zásadním rozdílem mezi soutěží Parameter Golf a podobnými dřívějšími soutěžemi bylo rozsáhlé používání programovacích agentů. Drtivá většina přispěvatelů uvedla, že agenty používala jako součást své práce.
Tím se snížila vstupní bariéra. Účastníci mohli rychleji nastavovat experimenty, zkoumat neznámý kód a testovat nápady s menšími problémy. Sponzorský příspěvek společnosti Runpod v podobě výpočetních prostředků v hodnotě 1 000 000 USD také sehrál významnou roli při zpřístupnění této výzvy většímu počtu lidí.
Zároveň ale používání agentů vytvořilo nové problémy pro odesílání příspěvků a bodování. Mnoho příspěvků představovalo malé změny existujících nejlepších výsledků, spíše než zásadně nové přístupy. To bylo často užitečné: silné nápady se rychle šířily a ostatní je dále vylepšovali. Zároveň to ale vytvářelo šum. Když příspěvky, které byly mimo pravidla soutěže, dosáhly neobvykle silných skóre, jiní agenti tyto nápady někdy kopírovali a pokračovali stejnou neplatnou cestou.
Objem příspěvků také změnil způsob, jakým jsme museli soutěž provozovat. Nemohli jsme ručně kontrolovat každý příspěvek a zároveň udržovat žebříček v běhu. Během výzvy jsme vyvinuli interní třídicí bot založený na Codexu, který sledoval nové příspěvky a označoval je k lidské kontrole. To bylo obzvlášť důležité v obdobích, kdy jsme dostávali stovky příspěvků denně.
AI agenti se také stali součástí komunity kolem výzvy. Po velkou část soutěže @notapplica a jeho kódovací agent publikovali bulletin „Live Updates“, který sledoval hlavní události, vysvětloval přístupy v žebříčku a pomáhal ostatním účastníkům soutěž sledovat. Objevily se také komunitní nástroje pro kontrolu, které pomáhaly méně zkušeným účastníkům ověřit, zda jsou jejich příspěvky v souladu s pravidly, a vyhnout se běžným neplatným přístupům.
Naším hlavním cílem bylo spustit výzvu, do které se mohli zapojit účastníci splňující podmínky(otevře se v novém okně) a vyzkoušet si výzkum v oblasti strojového učení. Soutěž Parameter Golf přinesla rozsáhlou škálu technicky silných a kreativních příspěvků a poskytla nám jasnější pohled na to, jak se mohou otevřené výzkumné soutěže měnit s tím, jak se AI agenti stávají schopnějšími a rozšířenějšími.
Do budoucna zvažujeme spuštění dalších podobných výzev. Pokud máš zájem, vyplň formulář pro účastníky výzvy(otevře se v novém okně).


