2026. gada 12. maijs

Ko mums iemācīja Parameter Golf

Mācības no vairāk nekā 1000 dalībniekiem, vairāk nekā 2000 iesniegumiem un atvērta mašīnmācīšanās izaicinājuma, ko veidoja kodēšanas aģenti.

Notiek ielāde…

Mēs izveidojām Parameter Golf, lai iesaistītu un atbalstītu mašīnmācīšanās pētniecības kopienu jaunas, stingri ierobežotas mašīnmācīšanās problēmas izpētē. Mēs vēlējāmies, lai izaicinājums būtu tik interesants, ka atsvērtu īstu tehnisko radošumu, vienlaikus saglabājot to konceptuāli vienkāršu un viegli pārbaudāmu.

Dalībniekiem bija jāsamazina held-out zudums fiksētā FineWeb datukopā, vienlaikus iekļaujoties 16 MB artefakta limitā un ieskaitot gan modeļa svarus, gan apmācības kodu, un 10 minūšu apmācības budžetā uz 8×H100. Mēs nodrošinājām bāzlīniju, datukopu un novērtēšanas skriptus, lai dalībnieki varētu sazarot repozitoriju, uzlabot modeli un iesniegt rezultātus GitHub.

Astoņu nedēļu laikā saņēmām vairāk nekā 2000 iesniegumu no vairāk nekā 1000 dalībniekiem. Mūs pārsteidza iesniegumu tehniskais plašums, radošums un noteikumu robežu pārbaudīšana — no rūpīgas optimizētāju pielāgošanas un kvantēšanas darba līdz jaunām modelēšanas idejām un apmācībai testēšanas laikā.

Viena no aizraujošākajām izaicinājuma daļām bija redzēt, cik plaši dalībnieki izmantoja MI kodēšanas aģentus. Aģenti palīdzēja samazināt eksperimentēšanas izmaksas, atviegloja dalību lielākam cilvēku skaitam un mainīja sacensību tempu. Tie radīja arī jaunus izaicinājumus iesniegumu pārskatīšanā, autorības noteikšanā un vērtēšanā.

Izaicinājums mums kļuva arī par nozīmīgu talantu atklāšanas platformu. Tas bija viens no mūsu Parameter Golf mērķiem, un tas bija noderīgs signāls, ka atvērti tehniski izaicinājumi var atklāt izcilu mašīnmācīšanās intuīciju un neatlaidību.

Šajā rakstā izceļam dažus iesniegumus, kas mums šķita pārsteidzoši un interesanti, un dalāmies ar to, ko iemācījāmies, rīkojot kodēšanas konkursu spēcīgu MI aģentu laikmetā.

Tehniskie iespaidi

Rekordu kategorija

Mēs novērtējām un neatkarīgi reproducējām katru iesniegumu rekordu kategorijas līderu tabulā un pārbaudījām, ka katrs iesniegums iesniegšanas brīdī pārspēja rekordus. Izcēlās vairākas tēmas.

Apmācības optimizācija

Daži no spēcīgākajiem rezultātiem tika sasniegti, rūpīgi pielāgojot esošos komponentus.

Iesniegums	Līdzautors	Metode	Kāpēc tas bija svarīgi
#60	@notapplica	Apvienots iepriekšējās uzvaras no #50, #42 un, visticamāk, arī #39, pēc tam panāca, ka dziļāks modelis darbojas ar Muon svaru samazināšanu, spektrālo iegulumu inicializāciju, residual-mix plānošanu un kompilētu izvērtēšanu.	A spēcīgs piemērs disciplinētam darbam ar līderu tabulu: noteikt, kuri esošie uzlabojumi ir būtiski, un tīri tos apvienot.

Kvantēšana

Vairāki iesniegumi īpaši koncentrējās uz saspiešanu un eksportēšanu.

Iesniegums	Līdzautors	Metode	Kāpēc tas bija svarīgi
#414	@signalrush	Izmantots GPTQ-lite, lai kvantizētu svarus pēc apmācības.	pirmais līderu saraksta iesniegums, kurā veiksmīgi izmantots GPTQ-lite, tādējādi nodrošinot labāku novērtēšanu.
#1060	@dexhunter	Balstījās uz @raahilshah #634, lai veiksmīgi izmantotu pilnu Hessian GPTQ.	Paplašināja agrāko kvantēšanas darbu līdz spēcīgākam saspiešanas risinājumam.

Testēšanas laika un novērtēšanas stratēģijas

Daži iesniegumi paplašināja robežu starp modeļa uzlabošanu un novērtēšanas stratēģiju. Šīs pieejas bija derīgas saskaņā ar noteikumiem, taču no mums kā organizatoriem prasīja rūpīgu pārskatīšanu.

Iesniegums	Līdzautors	Metode	Kāpēc tas bija svarīgi
#77	@samacqua	Izmantots vispirms novērtēšana, LoRA apmācība testa laikā katram dokumentam: vispirms novērtēt, pielāgot tikai jau novērtētiem fragmentiem un atiestatīt pie dokumentu robežām.	Paplašināja robežu starp modeļa uzlabošanu un novērtēšanas stratēģiju, vienlaikus paliekot pārskatāmam saskaņā ar noteikumiem.
#1019	@abaybektursun	Izmantots pašģenerēta GPTQ kalibrēšana: ģenerēt kalibrēšanas tekstu no apmācītā modeļa, pēc tam izveidot GPTQ Heses matricas no šīm aktivācijām.	A radoša kalibrēšanas stratēģija, kas prasīja organizatoru veiktu rūpīgu izvērtēšanu.

Jaunas modelēšanas un datu idejas

Daži iesniegumi ieviesa īpaši radošas modelēšanas vai datu idejas.

Iesniegums	Līdzautors	Metode	Kāpēc tas bija svarīgi
#1729	@romeerp	Ieviests CaseOps tekstvienību dalītājs: bezzudumu lielo/mazo burtu lietojuma operatora tekstvienības ar sākotnējo baitu BPB blakusuzskaiti.	A radoša tokenizētāja un datu attēlojuma ideja.
#265	@unnir	Ieviests XSA, efektīva daļējas ekskluzīvās pašuzmanības pieeja ar grupētiem skatiem, kas ņem vērā GQA.	Nodrošināja efektīvu uzmanības mehānisma variantu izaicinājumā.
#65	@aquariouseworkman	Ieviests SmearGate un BigramHash: apgūts iepriekšējās tekstvienības ieguluma sajaukums un blakus esošu tekstvienību pāru jaucējpazīmes.	Pievienots jaunu funkciju mehānismus no nulles.
#1204	@msisovic	Ieviests mini dziļuma rekurence: atkārtoti 4. un 5. slānis, rekurence atlikta līdz apmācības vidusposmam, un atkārtotie MLP daļēji atsaistīti.	Pirmā apstiprinātā līderu tabulas rinda, kurai izdevās panākt, ka rekurentie slāņi darbojas efektīvi.

Mēs izvēlējāmies izcelt šos deviņus iesniegumus, jo tie atspoguļo rezultātu spektru, ko cerējām ieraudzīt šajā izaicinājumā. Daži dalībnieki guva panākumus ar rūpīgu pielāgošanu. Citi attīstīja kvantēšanas un zema ranga paņēmienus. Daži pētīja novērtēšanas noteikumu robežas. Un vairāki ieviesa modelēšanas vai datu idejas — no literatūras vai pašu radītas —, kas deva negaidītus ieguvumus.

Bezrekordu kategorija

Bezrekordu kategorijā bija daudz radošu iesniegumu. Mēs izcēlām 15 favorītus, tostarp pieejas no bezautoregresīvas teksta modelēšanas līdz dinamiskai dalīšanai tekstvienībās.

Tā kā šī kategorija bija eksperimentālāka, mēs mazāk koncentrējāmies uz neapstrādātu veiktspēju un vairāk uz to, vai pieeja bija tehniski interesanta. Īpaši izcēlās trīs iesniegumi:

Šie bija mūsu trīs iecienītākie bezrekordu iesniegumi, lai gan tie ne vienmēr bija trīs labākie pēc veiktspējas.

Tomēr arī bezrekordu kategorija bija konkurētspējīga. Puse bezrekordu līderu tabulas ierakstu pārspēja naivo bāzlīniju 1,22 BPB (biti uz baitu), un augstāk ierindotais ieraksts sasniedza 1,12 BPB.

Mums tas šķita iedvesmojoši. Pat salīdzinājumā ar spēcīgām transformatoru bāzlīnijām alternatīvas pieejas dažkārt spēja konkurēt ar dominējošo arhitektūru.

Mēs arī domājam, ka šī kategorija īpaši gūst labumu no spēcīgu kodēšanas aģentu pieejamības. Aģenti ievērojami samazināja izmaksas, kas vajadzīgas spekulatīvu ideju prototipēšanai, tostarp pieejām, kuras iepriekš īsā konkursā varēja šķist pārāk laikietilpīgas vai neskaidras, lai tās izmēģinātu.

Secinājumi

Būtiska atšķirība starp Parameter Golf un agrākām līdzīgām sacensībām bija plašā kodēšanas aģentu izmantošana. Lielākā daļa iesniedzēju minēja, ka savā darbā izmantojuši aģentus.

Tas samazināja ienākšanas barjeru. Dalībnieki varēja ātrāk izveidot eksperimentus, izpētīt nepazīstamu kodu un vieglāk pārbaudīt idejas. Runpod sponsorētā skaitļošanas jauda 1 000 000 ASV dolāru vērtībā arī būtiski palīdzēja padarīt izaicinājumu pieejamāku plašākam cilvēku lokam.

Tajā pašā laikā aģentu izmantošana radīja jaunas problēmas iesniegšanā un vērtēšanā. Daudzi iesniegumi bija nelielas izmaiņas jau esošiem augstu novērtētiem risinājumiem, nevis principiāli jaunas pieejas. Tas bieži bija noderīgi: spēcīgas idejas ātri izplatījās, un citi tās pilnveidoja. Taču tas radīja arī troksni. Kad iesniegumi, kas neatbilda konkursa vadlīnijām, uzrādīja neparasti spēcīgus rezultātus, citi aģenti dažkārt kopēja šīs idejas un turpināja to pašu nederīgo virzienu.

Iesniegumu apjoms arī mainīja to, kā mums bija jāvada konkurss. Mēs nevarējām manuāli pārbaudīt katru iesniegumu un vienlaikus uzturēt līderu tabulas kustību. Izaicinājuma laikā izstrādājām iekšēju uz Codex balstītu triāžas botu, lai uzraudzītu jaunus iesniegumus un atzīmētu tos cilvēku pārskatīšanai. Tas kļuva īpaši svarīgi periodos, kad dienā saņēmām simtiem iesniegumu.

MI aģenti kļuva arī par daļu no kopienas saistībā ar izaicinājumu. Lielā sacensību daļā @notapplica un viņu kodēšanas aģents uzturēja “Tiešraides atjauninājumu” biļetenu, sekojot galvenajiem notikumiem, skaidrojot līderu tabulas pieejas un palīdzot citiem dalībniekiem sekot līdzi sacensībām. Parādījās arī kopienas pārskatīšanas rīki, kas palīdzēja mazāk pieredzējušiem dalībniekiem pārbaudīt, vai viņu iesniegumi atbilst noteikumiem, un izvairīties no biežākajām nederīgajām pieejām.

Kas tālāk?

Mūsu galvenais mērķis bija uzsākt izaicinājumu, kurā prasībām atbilstošie dalībnieki⁠(atveras jaunā logā) varētu piedalīties un gūt pieredzi mašīnmācīšanās pētniecībā. Parameter Golf piesaistīja plašu tehniski spēcīgu un radošu iesniegumu klāstu, un tas mums deva skaidrāku priekšstatu par to, kā atvērtas pētniecības sacensības var mainīties, MI aģentiem kļūstot spējīgākiem un plašāk izmantotiem.

Mēs domājam par vēl citu šādu izaicinājumu rīkošanu nākotnē. Ja tevi tas interesē, lūdzu, aizpildi izaicinājuma dalībnieka veidlapu⁠(atveras jaunā logā).

2026

Autors

OpenAI

Turpināt lasīt

Skatīt visu

Signāla nošķiršana no trokšņa programmēšanas izvērtējumos

Izpēte2026. g. 8. jūl.

Iepazīstinām ar GeneBench-Pro

Izpēte2026. g. 30. jūn.

A near-autonomous AI chemist improves a challenging reaction

Gandrīz autonoms MI ķīmiķis uzlabo sarežģītu reakciju medicīniskajā ķīmijā

Izpēte2026. g. 17. jūn.