Ugrás a fő tartalomra
OpenAI

2026. május 12.

Kutatások

Mire tanított minket a Parameter Golf

Több mint 1000 résztvevő, 2000+ beküldés és egy kódoló ügynökök által formált nyílt gépi tanulási kihívás tanulságai.

Betöltés…

A Parameter Golfot azért indítottuk el, hogy bevonjuk és támogassuk a gépi tanulási kutatóközösséget egy új, szigorúan korlátozott gépi tanulási probléma feltárásában. Azt szerettük volna, hogy a kihívás elég érdekes legyen ahhoz, hogy valódi technikai kreativitást jutalmazzon, miközben fogalmilag egyszerű és könnyen ellenőrizhető marad.

A résztvevőknek egy rögzített FineWeb adathalmazon kellett minimalizálniuk a held-out veszteséget, miközben bele kellett férniük egy 16 MB-os artifactkorlátba — ebbe a modell súlyai és a tanítókód is beletartozott —, valamint egy 10 perces tanítási keretbe 8×H100-on. Adtunk egy baseline-t, adathalmazt és kiértékelő szkripteket, hogy a résztvevők elágazást készíthessenek a repóból, javíthassák a modellt, és GitHubon keresztül beküldhessék az eredményeiket.

Nyolc hét alatt több mint 2000 beküldést érkezett több mint 1000 résztvevőtől. Lenyűgözött minket a beküldések technikai sokszínűsége, kreativitása és a szabályok feszegetése, a gondos optimalizálóhangolástól és kvantálási munkától az új modellezési ötletekig és a tesztidős tanításig.

A kihívás egyik legizgalmasabb része az volt, hogy láttuk, milyen széles körben használtak a résztvevők AI kódoló ügynököket. Az ügynökök csökkentették a kísérletezés költségét, megkönnyítették, hogy többen vegyenek részt, és megváltoztatták a verseny tempóját. Ugyanakkor új kihívásokat is teremtettek a beküldések felülvizsgálata, az attribúció és a pontozás terén.

A kihívás számunkra érdemi tehetségfelderítési felületté is vált. Ez a Parameter Golffal kapcsolatos céljaink egyike volt, és hasznos jelzésnek bizonyult arra, hogy a nyílt végű technikai kihívások kivételes gépi tanulási érzéket és kitartást tárhatnak fel.

Ebben a bejegyzésben kiemelünk néhány olyan beküldést, amelyet meglepőnek és érdekesnek találtunk, és megosztjuk, mit tanultunk abból, hogy egy kódolóversenyt szerveztünk a nagy teljesítményű AI ügynökök korában.

Technikai benyomások

Rekord kategória

A rekord kategória ranglistáján minden beküldést elbíráltunk és függetlenül reprodukáltunk, és ellenőriztük, hogy mindegyik a beküldés időpontjában rekordot döntött-e. Több visszatérő téma is kirajzolódott.

Tanításoptimalizálás

Néhány legerősebb eredmény a meglévő komponensek gondos finomhangolásából született.

BeküldésKözreműködőTechnikaMiért volt fontos
#60@notapplicaEgyesítették a korábbi győzelmekeet innen: #50, #42, és valószínűleg #39 is, ezután működésre bírt egy mélyebb modellt Muon weight decayjel, spektrális embedding-inicializálással, residual-mix ütemezéssel és kompilált kiértékeléssel.Kiváló példája a tudatos és fegyelmezett leaderboard-optimalizálásnak: annak felismerése, hogy a meglévő fejlesztések közül melyek igazán fontosak, majd ezek letisztult és hatékony kombinálása.

Kvantálás

Több beküldés is erősen a tömörítésre és az exportálásra összpontosított.

BeküldésKözreműködőTechnikaMiért volt fontos
#414@signalrushA tréning után GPTQ-lite kvantálást alkalmaztak a súlyokon.Ez volt az első leaderboard-beküldés, amely sikeresen használta a GPTQ-lite technológiát, ami jobb értékelési eredményeket hozott.
#1060@dexhunter@raahilshah #634 beküldésére építve sikeresen használta a teljes Hessian GPTQ-t.A korábbi kvantálási munkát egy erősebb tömörítési irányba vitte tovább.

Tesztidős és kiértékelési stratégiák

Néhány beküldés a modellfejlesztés és a kiértékelési stratégia közötti határt feszegette. Ezek a megközelítések a szabályok szerint érvényesek voltak, de szervezőként gondos felülvizsgálatot igényeltek tőlünk.

BeküldésKözreműködőTechnikaMiért volt fontos
#77@samacquaScore-first, dokumentumonkénti LoRA-alapú tesztidős betanítást alkalmaztak: először kiértékelték az adatokat, majd csak a már pontozott szegmenseken végeztek adaptációt, és minden dokumentumhatárnál visszaállították a modellt.A szabályok betartása mellett feszegették a modellfejlesztés és az értékelési stratégia közötti határokat, miközben a megoldás továbbra is átlátható és ellenőrizhető maradt.
#1019@abaybektursunÖnmaga által generált GPTQ-kalibrációt alkalmaztak: kalibrációs szöveg generálása a betanított modellből, majd GPTQ Hessian-mátrixok felépítése ezekből az aktivációkból.Olyan kreatív kalibrációs stratégiát, amely a szervezők részéről alapos felülvizsgálatot igényelt.

Új modellezési és adatötletek

Néhány beküldés különösen kreatív modellezési vagy adatötleteket vezetett be.

BeküldésKözreműködőTechnikaMiért volt fontos
#1729@romeerpBemutatták a CaseOps tokenizálót: veszteségmentes nagybetűsítési operátor-tokenek eredeti bájtalapú BPB sidecar nyilvántartással.Egy kreatív tokenizálási és adatreprezentációs ötletet.
#265@unnirBemutatták az XSA-t, egy hatékony, részleges Exclusive Self Attention megközelítést GQA-tudatos csoportosított nézetekkel.Egy hatékony attention-variánst vezettek be a kihívásba.
#65@aquariouseworkmanBemutatták a SmearGate és BigramHash megoldásokat: egy tanult előző-token embedding kombinációt, valamint szomszédos tokenpárok hash-alapú jellemzőit. Teljesen új feature-mechanizmusokat fejlesztettek a semmiből.
#1204@msisovicBemutatták a mini mélységi rekurziót: megismételték a 4-es és 5-ös rétegeket, a rekurziót csak a tréning közepétől vezették be, valamint részben szétválasztották (untied) az ismételt MLP-ket.Ez volt az elfogadott leaderboard-eredmény, amelyben a rekurzív rétegek hatékonyan működtek.”

Ezt a kilenc beküldést azért választottuk kiemelésre, mert jól mutatják azt az eredményskálát, amelynek felszínre kerülését reméltük a kihívástól. Egyes résztvevők gondos finomhangolással értek el sikereket. Mások a kvantálást és az alacsony rangú technikákat tolták előre. Voltak, akik a kiértékelési szabályok határait vizsgálták. Többen pedig modellezési vagy adatötleteket vezettek be — a szakirodalomból vagy teljesen újonnan —, amelyek váratlan javulást hoztak.

Nem rekord kategória

A nem rekord kategóriában sok kreatív beküldés született. 15 kedvencet emeltünk ki, köztük a nem autoregresszív szövegmodellezéstől a dinamikus tokenizálásig terjedő megközelítéseket.

Mivel ez a kategória kísérletibb volt, kevésbé a nyers teljesítményre, inkább arra figyeltünk, hogy a megközelítés technikailag érdekes-e. Három beküldés különösen kiemelkedett:

Ez volt a három kedvenc nem rekord beküldésünk, még ha teljesítmény alapján nem is feltétlenül ezek voltak az első három helyezettek.

Ettől függetlenül a nem rekord kategória is versengő volt. A nem rekord ranglista bejegyzéseinek fele felülmúlta az 1,22 BPB-s naiv baseline-t, a legjobb helyezett pedig elérte az 1,12 BPB-t.

Ezt biztatónak találtuk. Még az erős transzformer baseline-okkal szemben is előfordult, hogy az alternatív megközelítések megállták a helyüket a domináns architektúrával szemben.

Azt is gondoljuk, hogy ennek a kategóriának különösen sokat segít az erős kódoló ügynökök elérhetősége. Az ügynökök jóval olcsóbbá tették a spekulatív ötletek prototipizálását, beleértve azokat a megközelítéseket is, amelyeket korábban talán túl időigényesnek vagy bizonytalannak éreztek volna egy rövid versenyben.

Tanulságok

A Parameter Golf és a hozzá hasonló korábbi versenyek közötti egyik fő különbség a kódoló ügynökök széles körű használata volt. A beküldők túlnyomó többsége megemlítette, hogy munkája részeként ügynököket használt.

Ez csökkentette a belépési korlátot. A résztvevők gyorsabban tudtak kísérleteket előkészíteni, ismeretlen kódot áttekinteni, és gördülékenyebben tesztelni az ötleteiket. A Runpod 1 000 000 dollár értékű számítási kapacitással nyújtott támogatása szintén jelentős szerepet játszott abban, hogy a kihívás több ember számára váljon elérhetővé.

Ugyanakkor az ügynökhasználat új problémákat teremtett a beküldés és a pontozás terén. Sok beküldés inkább kis módosítás volt a már jól teljesítő megoldásokon, nem pedig alapvetően új megközelítés. Ez gyakran hasznos volt: az erős ötletek gyorsan terjedtek, és mások tovább finomították őket. De zajt is keltett. Amikor a versenyszabályokon kívül eső beküldések szokatlanul erős pontszámokat értek el, más ügynökök néha lemásolták ezeket az ötleteket, és ugyanazon az érvénytelen úton haladtak tovább.

A beküldések mennyisége azt is megváltoztatta, hogyan kellett működtetnünk a versenyt. Nem tudtunk minden beküldést kézzel átnézni úgy, hogy közben a ranglista is haladjon. A kihívás során egy belső, Codex-alapú triázsbotot fejlesztettünk, amely figyelte az új beküldéseket, és emberi felülvizsgálatra jelölte őket. Ez különösen fontossá vált azokban az időszakokban, amikor naponta több száz beküldést kaptunk.

Az AI ügynökök a kihívás körüli közösség részévé is váltak. A verseny nagy részében @notapplica és a kódoló ügynöke egy „Live Updates” hírfolyamot működtetett, amely nyomon követte a főbb eseményeket, magyarázta a ranglistás megközelítéseket, és segített a többi résztvevőnek követni a versenyt. Közösségi felülvizsgálati eszközök is megjelentek, hogy segítsenek a kevésbé tapasztalt résztvevőknek ellenőrizni, hogy beküldéseik megfelelnek-e a szabályoknak, és elkerülni a gyakori érvénytelen megközelítéseket.

Mi következik?

Elsődleges célunk az volt, hogy olyan kihívást indítsunk, amelyben a részvételre jogosult résztvevők(új ablakban nyílik meg) részt vehessenek, és tapasztalatot szerezhessenek a gépi tanulási kutatás terén. A Parameter Golf számos technikailag erős és kreatív megoldást vonultatott fel, és világosabb képet adott arról is, hogyan változhatnak az open research versenyek az AI-ügynökök fejlődésével és szélesebb körű elterjedéséve

A jövőben további hasonló kihívások indításán gondolkodunk. Ha érdekli Önt, kérlek, töltse ki a kihívás résztvevői űrlapját(új ablakban nyílik meg).

Szerző

OpenAI