12. maí 2026

Það sem Parameter Golf kenndi okkur

Lærdómur af 1.000+ þátttakendum, 2.000+ innsendingum og opinni vélanámsáskorun mótaðri af kóðunarfulltrúum.

Hleður inn...

Við settum Parameter Golf af stað til að virkja og styðja vélanámsrannsóknasamfélagið við að kanna nýtt vélanámsverkefni með ströngum skorðum. Við vildum að áskorunin væri nógu áhugaverð til að umbuna raunverulegri tæknilegri sköpunargáfu, en jafnframt hugmyndafræðilega einföld og auðveld í sannprófun.

Þátttakendur þurftu að lágmarka tap á föstu FineWeb-gagnasafni sem haldið var til hliðar, á meðan þeir héldu sig innan 16 MB marka fyrir artefact, þar með talið bæði líkanavægi og þjálfunarkóða, og innan 10 mínútna þjálfunarfjárhags á 8×H100. Við útveguðum grunnviðmið, gagnasafn og matsforrit svo þátttakendur gætu gafflað repo-ið, bætt líkanið og sent inn niðurstöður sínar í gegnum GitHub.

Á átta vikum bárust okkur meira en 2.000 innsendingar frá yfir 1.000 þátttakendum. Við vorum hrifin af tæknilegri breidd, sköpunargáfu og regluteygju í innsendingunum, allt frá nákvæmri stillingu bestara og kvantunarvinnu til nýrra hugmynda um líkön og þjálfun við prófun.

Einn mest spennandi þáttur áskorunarinnar var að sjá hversu víða þátttakendur notuðu gervigreindarkóðunarfulltrúa. Fulltrúar hjálpuðu til við að lækka kostnað við tilraunir, gerðu fleirum auðveldara að taka þátt og breyttu hraða keppninnar. Þeir sköpuðu líka nýjar áskoranir fyrir yfirferð innsendinga, eignun og stigagjöf.

Áskorunin varð okkur líka mikilvæg leið til að uppgötva hæfileika. Það var eitt af markmiðum okkar með Parameter Golf, og það var gagnlegt merki um að opnar tæknilegar áskoranir geti leitt í ljós einstakt innsæi í vélanámi og seiglu.

Í þessari færslu drögum við fram nokkrar innsendingar sem komu okkur á óvart og þóttu áhugaverðar, og deilum því sem við lærðum af því að halda kóðunarkeppni á tímum öflugra gervigreindarfulltrúa.

Tæknileg áhrif

Metskráningarflokkur

Við dæmdum og endurgerðum sjálfstætt hverja innsendingu á stigatöflu metskrárningarflokksins og staðfestum að hver innsending hefði slegið met á þeim tíma sem hún var send inn. Nokkur þemu stóðu upp úr.

Bestun þjálfunar

Nokkrar af sterkustu niðurstöðunum komu frá vandlegri stillingu á núverandi þáttum.

Innsending	Þátttakandi	Aðferð	Hvers vegna það skipti máli
#60	@notapplica	Sameinað fyrri sigrar úr #50, #42, og líklega #39, urðu síðan til þess að dýpra líkan virkaði með Muon-þyngdarrýrnun, frumstillingu rófsinnfellingar, residual-mix-áætlunargerð og þýddu mati.	A sterkt dæmi um agaða vinnu við stigatöflu: að greina hvaða fyrirliggjandi endurbætur skipta máli og sameina þær á snyrtilegan hátt.

Kvantun

Nokkrar innsendingar lögðu mikla áherslu á þjöppun og útflutning.

Innsending	Þátttakandi	Aðferð	Hvers vegna það skipti máli
#414	@signalrush	Notað GPTQ-lite til að magngreina vægi eftir þjálfun.	Fyrsta innsendingin á stigatöflu sem tókst að nota GPTQ-lite, sem leiddi til betra mats.
#1060	@dexhunter	Byggði á #634 eftir @raahilshah til að nota fullt Hessian GPTQ með árangri.	Framlengdi fyrra magngreiningarstarf í öflugri þjöppunarleið.

Aðferðir við prófun og mat

Sumar innsendingar ýttu á mörkin milli umbóta á líkani og matsaðferðar. Þessar nálganir voru gildar samkvæmt reglunum, en kröfðust vandlegrar yfirferðar af okkar hálfu sem skipuleggjenda.

Innsending	Þátttakandi	Aðferð	Hvers vegna það skipti máli
#77	@samacqua	Notað skora-fyrst LoRA-þjálfun á prófunartíma fyrir hvert skjal: skora fyrst, aðlaga aðeins á bútum sem þegar hafa verið skoraðir og endurstilla við skjalamörk.	Ýtti mörkunum milli endurbóta á líkani og matsstefnu, en hélt því jafnframt yfirferðarhæfu samkvæmt reglunum.
#1019	@abaybektursun	Notað sjálfmynduð GPTQ-kvörðun: búðu til kvörðunartexta úr þjálfaða líkaninu og byggðu síðan GPTQ-Hessian-fylki út frá þessum virkjunum.	Skapandi kvörðunarstefna sem krafðist vandlegrar yfirferðar af hálfu skipuleggjenda.

Nýjar hugmyndir um líkön og gögn

Nokkrar innsendingar kynntu hugmyndir um líkön eða gögn sem voru sérstaklega skapandi.

Innsending	Þátttakandi	Aðferð	Hvers vegna það skipti máli
#1729	@romeerp	Kynnti CaseOps-tókarann: taplausir stór-/lágstafa Stjórnandi tókar með BPB-hliðarreikningshaldi fyrir upprunaleg bæti.	Skapandi hugmynd að tókara og gagnaframsetningu.
#265	@unnir	Bætti við XSA, skilvirk hlutbundin nálgun við Exclusive Self Attention með hópuðum sýnum sem taka mið af GQA.	Fært skilvirkt athyglisafbrigði inn í áskorunina.
#65	@aquariouseworkman	Innleiddi SmearGate og BigramHash: lærð blöndun ívörpunar fyrri tókar ásamt tætieiginleikum aðliggjandi tókapara.	Bætt við kerfi fyrir nýja eiginleika frá grunni.
#1204	@msisovic	Bætti við mini-dýptarendurkvæmni: endurtók lög 4 og 5, seinkaði endurkvæmninni fram að miðju þjálfunar og losaði endurteknu MLP-netin að hluta úr bindingu.	Fyrsta samþykkta færsla stigatöflunnar sem lét endurkvæm lög virka á áhrifaríkan hátt.

Við völdum að draga fram þessar níu innsendingar vegna þess að þær sýna það svið niðurstaðna sem við vonuðum að áskorunin myndi leiða í ljós. Sumir þátttakendur fundu árangur með vandlegri stillingu. Aðrir ýttu kvantun og lágraðaaðferðum áfram. Sumir könnuðu jaðra matsreglnanna. Og nokkrir kynntu hugmyndir um líkön eða gögn, úr fræðunum eða frá grunni, sem skiluðu óvæntum framförum.

Flokkur án metskráningar

Flokkurinn án metskráningar var heimili margra skapandi innsendinga. Við drógum fram 15 uppáhalds, þar á meðal nálganir allt frá textalíkönum sem ekki eru sjálfendurkvæm til kvikrar tókavæðingar.

Þar sem þessi flokkur var tilraunakenndari lögðum við minni áherslu á hráa frammistöðu og meiri á það hvort nálgunin væri tæknilega áhugaverð. Þrjár innsendingar stóðu sérstaklega upp úr:

Þetta voru okkar þrjár uppáhalds innsendingar í flokknum án metskráningar, þótt þær væru ekki endilega þrjár efstu eftir frammistöðu.

Sem sagt var flokkurinn án metskráningar samt samkeppnishæfur. Helmingur færslna á stigatöflunni í þeim flokki sló barnalega grunnviðmiðið 1,22 BPB, og efsta færslan náði 1,12 BPB.

Okkur fannst þetta hvetjandi. Jafnvel gagnvart sterkum breytir-grunnviðmiðum gátu aðrar nálganir stundum staðið sig gegn ríkjandi högun.

Við teljum líka að þessi flokkur njóti sérstaklega góðs af aðgengi að öflugum kóðunarfulltrúum. Fulltrúar gerðu það mun ódýrara að smíða frumgerðir af ágiskunarhugmyndum, þar á meðal nálgunum sem áður hefðu kannski virst of tímafrekar eða óvissar til að prófa í stuttri keppni.

Lykilatriði

Mikill munur á Parameter Golf og fyrri keppnum af þessu tagi var útbreidd notkun kóðunarfulltrúa. Langflestir sem sendu inn nefndu að þeir hefðu notað fulltrúa sem hluta af vinnu sinni.

Það lækkaði þröskuldinn fyrir þátttöku. Þátttakendur gátu sett upp tilraunir hraðar, skoðað ókunnan kóða og prófað hugmyndir með minni núningi. Styrkur RunPod upp á $1,000,000 í reikniafli skipti líka miklu máli við að gera áskorunina aðgengilega fleirum.

Á sama tíma skapaði notkun fulltrúa ný vandamál fyrir innsendingar og stigagjöf. Margar innsendingar voru litlar breytingar á núverandi efstu lausnum fremur en grundvallarlega nýjar nálganir. Þetta var oft gagnlegt: sterkar hugmyndir dreifðust hratt og voru betrumbættar af öðrum. En það skapaði líka suð. Þegar innsendingar sem féllu utan keppnisreglnanna skiluðu óvenjusterkum stigum, afrituðu aðrir fulltrúar stundum þær hugmyndir og héldu áfram á sömu ógildu braut.

Magn innsendinga breytti líka því hvernig við þurftum að reka keppnina. Við gátum ekki handfarið hverja innsendingu og samt haldið stigatöflunni gangandi. Á meðan á áskoruninni stóð þróuðum við innri Codex-byggðan forflokkunarfulltrúa til að fylgjast með nýjum innsendingum og merkja þær fyrir mannlega yfirferð. Þetta varð sérstaklega mikilvægt á tímabilum þegar við fengum hundruð innsendinga á dag.

Gervigreindarfulltrúar urðu líka hluti af samfélaginu í kringum áskorunina. Stóran hluta keppninnar ráku @notapplica og kóðunarfulltrúi þeirra „Live Updates“ fréttayfirlit, fylgdust með helstu atburðum, útskýrðu nálganir á stigatöflunni og hjálpuðu öðrum þátttakendum að fylgjast með keppninni. Samfélagsverkfæri til yfirferðar komu líka fram til að hjálpa minna reyndum þátttakendum að kanna hvort innsendingar þeirra væru innan reglna og forðast algengar ógildar nálganir.

Hvað er á döfinni?

Meginmarkmið okkar var að setja af stað áskorun sem gildir þátttakendur sem uppfylltu skilyrðin⁠(opnast í nýjum glugga) gætu tekið þátt í og upplifað vélanámsrannsóknir. Parameter Golf laðaði að sér breitt úrval tæknilega sterkra og skapandi innsendinga, og gaf okkur skýrari sýn á hvernig opnar rannsóknakeppnir kunna að breytast eftir því sem gervigreindarfulltrúar verða hæfari og meira notaðir.

Við erum að íhuga að setja af stað fleiri áskoranir af þessu tagi í framtíðinni. Ef þú hefur áhuga skaltu fylla út eyðublað fyrir þátttakendur í áskoruninni⁠(opnast í nýjum glugga).

2026

Höfundur

OpenAI

Haltu áfram að lesa

Skoða allt

Að greina merki frá suði í kóðunarmati

Rannsóknir8. júl. 2026

Við kynnum GeneBench-Pro

Rannsóknir30. jún. 2026

A near-autonomous AI chemist improves a challenging reaction

Nær-sjálfstæður AI-efnafræðingur bætir krefjandi hvarf í lyfjaefnafræði

Rannsóknir17. jún. 2026