12. maj 2026

Kaj nas je naučil Parameter Golf

Spoznanja več kot 1.000 udeležencev, več kot 2.000 prispevkov in odprtega izziva s področja strojnega učenja, ki so ga oblikovali agenti za programiranje.

Nalaganje …

Parameter Golf smo zagnali, da bi raziskovalno skupnost na področju strojnega učenja spodbudili k raziskovanju novega, strogo omejenega problema. Izziv smo zasnovali tako, da je bil dovolj zanimiv za resnično tehnično ustvarjalnost, hkrati pa konceptualno preprost in enostaven za preverjanje.

Naloga udeležencev je bila na fiksnem naboru FineWeb čim bolj zmanjšati izgubo na ločenem evalvacijskem delu podatkov. Pri tem so morali ostati znotraj omejitve 16 MB za celoten oddani paket, vključno z utežmi modela in kodo za učenje, ter znotraj 10-minutnega proračuna za učenje na sistemih 8×H100. Pripravili smo izhodiščni model, nabor podatkov in evalvacijske skripte, da so lahko udeleženci ustvarili kopijo repozitorija, izboljšali model in rezultate oddali prek GitHuba.

V osmih tednih smo prejeli več kot 2.000 oddaj več kot 1.000 udeležencev. Presenetili so nas tehnična raznolikost, ustvarjalnost in iznajdljivo raziskovanje meja pravil: od natančnega prilagajanja optimizatorjev in kvantizacije do novih modelirnih pristopov in prilagajanja med izvajanjem.

Posebej zanimiv je bil obseg uporabe kodirnih agentov. Udeležencem so pomagali hitreje eksperimentirati, olajšali sodelovanje širšemu krogu ljudi in pospešili ritem tekmovanja. Hkrati so prinesli nove izzive pri pregledovanju oddaj, ugotavljanju avtorstva in ocenjevanju.

Izziv se je za nas izkazal tudi kot koristen način odkrivanja talentov. To je bil eden od ciljev Parameter Golfa, hkrati pa dober pokazatelj, da lahko odprti tehnični izzivi razkrijejo izjemno presojo in vztrajnost na področju strojnega učenja.

V tej objavi izpostavljamo nekaj oddaj, ki so se nam zdele posebej presenetljive ali zanimive, ter povzemamo, kaj smo se naučili pri izvedbi tekmovanja v programiranju v času zmogljivih agentov UI.

Tehnični vtisi

Rekordna kategorija

Vsako oddajo na lestvici najboljših v rekordni kategoriji smo ocenili, neodvisno reproducirali in preverili, da je bila ob oddaji res rekordna. Pri tem je izstopilo več tem.

Optimizacija učenja

Nekateri najmočnejši rezultati so izhajali iz skrbnega prilagajanja obstoječih komponent.

Oddaja	Prispevalec	Tehnika	Zakaj je bilo pomembno
#60	@notapplica	Združil je prejšnje uspešne izboljšave iz #50, #42 in verjetno #39, nato pa z uporabo pojemanja uteži Muon, inicializacije spektralnih vdelav, razporejanja residual-mix in kompilirane evalvacije omogočil delovanje globljega modela.	Močan primer discipliniranega dela na lestvici najboljših: prepoznati pomembne obstoječe izboljšave in jih čisto združiti.

Kvantizacija

Več prispevkov je bilo močno osredotočenih na kompresijo in izvoz.

Oddaja	Prispevalec	Tehnika	Zakaj je bilo pomembno
#414	@signalrush	Po učenju je uteži kvantiziral z GPTQ-lite.	To je bila prva oddaja na lestvici najboljših, ki je uspešno uporabila GPTQ-lite in izboljšala evalvacijo.
#1060	@dexhunter	Nadgradil je #634 avtorja @raahilshah in uspešno uporabil polni Hessian GPTQ.	Prejšnje delo na področju kvantizacije je razvil v zmogljivejši pristop h kompresiji.

Strategije med izvajanjem in evalvacijo

Nekateri prispevki so zabrisali mejo med izboljševanjem modela in evalvacijsko strategijo. Po pravilih so bili veljavni, vendar so od nas kot organizatorjev zahtevali posebej natančen pregled.

Oddaja	Prispevalec	Tehnika	Zakaj je bilo pomembno
#77	@samacqua	Uporabil je pristop score-first in prilagajanje LoRA med izvajanjem po posameznih dokumentih: najprej oceni, prilagaja samo na že ocenjenih odsekih in se ponastavi na mejah dokumentov.	Pristop je premaknil mejo med izboljševanjem modela in evalvacijsko strategijo, hkrati pa ostal dovolj pregleden za pregled po pravilih.
#1019	@abaybektursun	Uporabil je samoustvarjeno kalibracijo GPTQ: kalibracijsko besedilo ustvari iz naučenega modela, nato pa iz teh aktivacij zgradi Hessove matrike GPTQ.	Ustvarjalna strategija kalibracije, ki je od organizatorjev zahtevala skrben pregled.

Nove ideje pri modeliranju in podatkih

Nekaj prispevkov je uvedlo ideje za modeliranje ali podatke, ki so bile posebej ustvarjalne.

Oddaja	Prispevalec	Tehnika	Zakaj je bilo pomembno
#1729	@romeerp	Uvedel je orodje za tokenizacijo CaseOps: brezizgubne operatorske žetone za velike in male črke z obračunavanjem BPB v stranski evidenci na podlagi izvirnih bajtov.	Ustvarjalna zamisel za orodje za tokenizacijo in predstavitev podatkov.
#265	@unnir	Uvedel je XSA, učinkovit delni pristop Exclusive Self Attention z združenimi pogledi, prilagojenimi GQA.	V izziv je prinesel učinkovito različico mehanizma pozornosti.
#65	@aquariouseworkman	Uvedel je SmearGate in BigramHash: naučeno mešanico vdelave prejšnjega žetona ter zgoščevalne značilke parov sosednjih žetonov.	Dodal je nove mehanizme značilk, razvite od začetka.
#1204	@msisovic	Uvedel je mini globinsko rekurenco: ponovil je plasti 4 in 5, rekurenco zamaknil do sredine učenja in delno razvezal ponovljene MLP-je.	To je bila prva sprejeta vrstica na lestvici najboljših, pri kateri so rekurentne plasti učinkovito delovale.

Izpostavili smo devet oddaj, ker dobro kažejo razpon rezultatov, ki smo jih želeli spodbuditi s tem izzivom. Nekateri udeleženci so napredovali z natančnim prilagajanjem. Drugi so se posvetili kvantizaciji in tehnikam nizkega ranga. Nekateri so raziskovali robne primere evalvacijskih pravil. Več oddaj pa je prineslo ideje pri modeliranju ali podatkih, bodisi iz literature bodisi razvite od začetka, ki so privedle do nepričakovanih izboljšav.

Nerekordna kategorija

V nerekordni kategoriji je bilo veliko ustvarjalnih oddaj. Izbrali smo 15 najzanimivejših, s pristopi od neavtoregresivnega modeliranja besedila do dinamične tokenizacije.

Ker je bila ta kategorija bolj eksperimentalna, nas ni zanimala samo zmogljivost, temveč predvsem tehnična zanimivost pristopa. Posebej so izstopale tri oddaje:

To so bile naše tri najljubše nerekordne oddaje, čeprav po zmogljivosti niso bile nujno prve tri.

Kljub temu je bila tudi nerekordna kategorija tekmovalna. Polovica vnosov na nerekordni lestvici najboljših je presegla naivni izhodiščni model z 1,22 BPB, najboljši vnos pa je dosegel 1,12 BPB.

To je bil spodbuden rezultat. Tudi ob močnih izhodiščnih modelih arhitekture Transformer so se alternativni pristopi včasih lahko uspešno kosali s prevladujočo arhitekturo.

Menimo tudi, da je tej kategoriji posebej koristila razpoložljivost zmogljivih kodirnih agentov. Z njimi je bilo precej lažje hitro preizkušati spekulativne ideje, tudi take, ki bi se v kratkem tekmovanju prej zdele preveč zamudne ali negotove.

Ključni poudarki

Parameter Golf se je od podobnih prejšnjih tekmovanj razlikoval predvsem po široki uporabi kodirnih agentov. Velika večina avtorjev oddaj je navedla, da so jih uporabljali pri svojem delu.

To je znižalo vstopno oviro. Udeleženci so lahko hitreje pripravili poskuse, pregledali neznano kodo in z manj zapletov preizkusili svoje zamisli. Runpodovo sponzorstvo v obliki dostopa do računalniške infrastrukture v vrednosti 1 mio USD je prav tako pomembno prispevalo k temu, da je bil izziv dostopen širšemu krogu ljudi.

Uporaba agentov pa je odprla tudi nova vprašanja pri oddajah in ocenjevanju. Veliko oddaj je vsebovalo manjše spremembe obstoječih najboljših rešitev, ne pa povsem novih pristopov. To je bilo pogosto koristno, saj so se dobre ideje hitro širile in jih je skupnost izboljševala. Hkrati pa je povzročalo tudi precej odvečnega dela. Ko so oddaje zunaj smernic tekmovanja dosegle nenavadno dobre rezultate, so drugi agenti včasih povzeli te ideje in nadaljevali v isti neveljavni smeri.

Tudi obseg oddaj je vplival na vodenje tekmovanja. Če smo želeli, da se lestvica najboljših sproti posodablja, nismo mogli ročno pregledati prav vsake oddaje. Med izzivom smo zato razvili internega bota na osnovi Codexa za razvrščanje težav po prioritetah. Spremljal je nove oddaje in jih označeval za človeški pregled. To je bilo posebej pomembno v obdobjih, ko smo prejeli več sto oddaj na dan.

Agenti UI so postali tudi del skupnosti okoli izziva. Večji del tekmovanja sta @notapplica in njegov kodirni agent pripravljala bilten »Posodobitve v živo«, v katerem sta spremljala pomembnejše dogodke, razlagala pristope z lestvice najboljših in drugim udeležencem pomagala slediti tekmovanju. Pojavila so se tudi skupnostna orodja za pregled oddaj, ki so manj izkušenim udeležencem pomagala preveriti skladnost s pravili in se izogniti pogostim neveljavnim pristopom.

Kaj sledi?

Naš glavni cilj je bil začeti izziv, v katerem bi lahko sodelovali upravičeni udeleženci⁠(odpre se v novem oknu) in izkusili raziskave na področju strojnega učenja. Parameter Golf je pritegnil širok nabor tehnično močnih in ustvarjalnih oddaj ter nam dal jasnejšo sliko o tem, kako se lahko odprta raziskovalna tekmovanja spreminjajo z razvojem vse zmogljivejših in širše uporabljenih agentov UI.

Razmišljamo, da bi v prihodnje pripravili še več podobnih izzivov. Če vas zanima, prosimo, izpolnite obrazec za udeležence izziva⁠(odpre se v novem oknu).

2026

Avtor

OpenAI

Berite naprej

Prikaži vse

Ločevanje signala od šuma pri evalvacijah kodiranja

Raziskave8. jul. 2026

Predstavljamo GeneBench-Pro

Raziskave30. jun. 2026

A near-autonomous AI chemist improves a challenging reaction

Skoraj avtonomni kemik z UI izboljša zahtevno reakcijo v medicinski kemiji

Raziskave17. jun. 2026