Jäta vahele ja mine põhisisu juurde
OpenAI

12. mai 2026

Teadustöö

Mida Parameter Golf meile õpetas

Õppetunnid enam kui 1000 osalejalt, 2000+ esituselt ja avatud masinõppeväljakutselt, mida kujundasid kodeerimisagendid.

Laadimine…

Käivitasime Parameter Golfi, et kaasata ja toetada masinõppe uurimiskogukonda uue, rangelt piiratud masinõppeprobleemi uurimisel. Soovisime, et väljakutse oleks piisavalt huvitav, et premeerida tõelist tehnilist loovust, kuid samas kontseptuaalselt lihtne ja hõlpsasti kontrollitav.

Osalejad pidid minimeerima fikseeritud FineWebi andmestikul held-out loss’i, jäädes samal ajal 16 MB artefaktiliidi piiresse, mis hõlmas nii mudeli kaale kui ka treenimiskoodi, ning 10-minutilise treenimiseelarve sisse 8×H100 peal. Andsime osalejatele baastaseme, andmestiku ja hindamisskriptid, et nad saaksid repositooriumist teha kahvli, mudelit täiustada ja oma tulemused GitHubi kaudu esitada.

Kaheksa nädala jooksul saime üle 2000 esituse enam kui 1000 osalejalt. Meile avaldas muljet esituste tehniline laiahaardelisus, loovus ja reeglite piire kompav lähenemine, alates hoolikast optimeerija häälestamisest ja kvantimistööst kuni uute modelleerimisideede ja testiaegse treenimiseni.

Väljakutse üks põnevamaid osi oli näha, kui laialdaselt kasutasid osalejad AI kodeerimisagente. Agendid aitasid vähendada eksperimenteerimise kulu, tegid osalemise rohkematele inimestele lihtsamaks ja muutsid võistluse tempot. Samuti tekitasid need uusi väljakutseid esituste ülevaatamisel, omistamisel ja punktiarvestuses.

Väljakutsest sai meie jaoks ka tähenduslik talentide avastamise kanal. See oli üks meie Parameter Golfi eesmärke ning andis kasuliku signaali, et avatud tehnilised väljakutsed võivad paljastada erakordset masinõppelist vaistu ja visadust.

Selles postituses toome esile mõned esitused, mis tundusid meile üllatavad ja huvitavad, ning jagame, mida õppisime kodeerimisvõistluse korraldamisest võimsate AI agentide ajastul.

Tehnilised muljed

Rekordirada

Hindasime ja taasesitasime sõltumatult iga esituse rekordiraja edetabelis ning kinnitasime, et iga esitus püstitas esitamise hetkel rekordi. Esile tõusis mitu teemat.

Treenimise optimeerimine

Mõned tugevaimad tulemused tulid olemasolevate komponentide hoolikast häälestamisest.

Esitatud töö Kaasautor Meetod Miks see oli oluline
#60@notapplica„Kombineeris varasemad võidud muudatustest #50-st #42 ja tõenäoliselt ka #39 seejärel pani sügavama mudeli tööle Muoni kaalude kahanemise spektraalse vektoriandmete algväärtustamise jääk-segu planeerimise ja kompileeritud hindamisega.“„Eeskujulik näide distsiplineeritud edetabelitööst: tuvastatakse millised olemasolevad parendused on olulised ning kombineeritakse need puhtalt.“

Kvantimine

Mitu esitust panustas tugevalt tihendamisse ja eksporti.

Esitatud töö Kaasautor Meetod Miks see oli oluline
#414@signalrush„Kasutas pärast treenimist kaalude kvantimiseks GPTQ-lite’i.“„Selles esikohale tõusnud esitatud töös kasutati edukalt GPTQ-lite’i mis tagas parema tulemuse.“
#1060@dexhunter„Arendas edasi @raahilshahi tööd #634 et kasutada edukalt täielikku Hessiani GPTQ-d.“„Laiendas varasemat kvantimistööd tugevamaks tihenduslahenduseks.“

Testiaegsed ja hindamisstrateegiad

Mõned esitused nihutasid piiri mudeli täiustamise ja hindamisstrateegia vahel. Need lähenemised olid reeglite järgi lubatud, kuid nõudsid meilt korraldajatena hoolikat ülevaatust.

Esitatud töö Kaasautor Meetod Miks see oli oluline
#77@samacqua„Kasutas dokumendipõhist LoRA testimisaegset treeningmeetodit kus esmalt arvutatakse skoor mudelit kohandatakse vaid juba skooritud fragmentide põhjal ning protsess algatatakse iga uue dokumendi puhul uuesti.“ „Laiendas mudeli optimeerimise ja valideerimisskeemi vahelisi piire tagades samal ajal täieliku vastavuse võistluse reeglitele.“
#1019@abaybektursun„Kasutas ise-genereeritud GPTQ kalibreerimist: genereeritakse kalibreerimistekst treenitud mudelist misjärel luuakse nendest aktivatsioonidest GPTQ Hessiani maatriksid.“„Loominguline kalibreerimisstrateegia mis nõudis korraldajatelt põhjalikku läbivaatamist.“

Uued modelleerimis- ja andmeideed

Mõni esitus tutvustas modelleerimis- või andmeideid, mis olid eriti loovad.

Esitatud töö Kaasautor Meetod Miks see oli oluline
#1729@romeerp„Tutvustati CaseOpsi tokenisaatorit: kadudeta täheregistri operator-tokenid koos originaalbaitide BPB kaasandmete arvestusega.“„Loominguline tokeniseerija ja andmeesituse idee.“
#265@unnir„Juurutas XSA mis kujutab endast tõhusat osalist eksklusiivset enesetähelepanu lahendust mis kasutab GQA-põhiseid rühmitatud vaateid.“„Tõi võistlusesse efektiivse tähelepanumehhanismi variandi.“
#65@aquariouseworkman„Juurutas SmearGate’i ja BigramHashi: masinõpitud eelneva märgi esituste sulami koos külgnevate märgipaaride räsitunnustega.“„Lisati uued funktsioonimehhanismid nullist.“
#1204@msisovic„Juurutas mini-sügavuskorduvuse: kordas kihte 4 ja 5 lükkas korduvuse edasi treeningu keskfaasi ning sidus korduvad mitmekihilised pertseptroonid (MLP-d) osaliselt lahti.“„Esimene heakskiidetud edetabeli rida mis pani korduvad kihid tõhusalt tööle.“

Otsustasime need üheksa esitust esile tõsta, sest need esindavad tulemuste vahemikku, mida lootsime väljakutselt näha. Mõned osalejad saavutasid edu hoolika häälestamisega. Teised surusid edasi kvantimise ja madala astaku tehnikatega. Mõned uurisid hindamisreeglite piire. Ja mitmed tõid sisse modelleerimis- või andmeideid, nii kirjandusest kui ka nullist, mis andsid ootamatuid võite.

Mitterekordirada

Mitterekordirada oli paljude loovate esituste kodu. Tõstsime esile 15 lemmikut, sealhulgas lähenemisi mitteautoregressiivsest tekstimodelleerimisest kuni dünaamilise tokeniseerimiseni.

Kuna see rada oli eksperimentaalsem, keskendusime vähem toorjõudlusele ja rohkem sellele, kas lähenemine oli tehniliselt huvitav. Eriti paistsid silma kolm esitust:

Need olid meie kolm lemmikut mitterekordiraja esituste seas, kuigi need ei olnud tingimata jõudluse järgi kolm parimat.

Seejuures oli mitterekordirada siiski konkurentsitihe. Pool mitterekordiraja edetabelikirjetest ületas naiivse baastaseme 1.22 BPB ning kõrgeima asetusega kirje jõudis 1.12 BPB-ni.

Leidsime, et see on julgustav. Isegi tugevate transformeri baastasemete vastu suutsid alternatiivsed lähenemised mõnikord domineeriva arhitektuuri kõrval oma positsiooni hoida.

Samuti arvame, et see rada võidab eriti palju tugevate kodeerimisagentide kättesaadavusest. Agendid muutsid spekulatiivsete ideede prototüüpimise palju odavamaks, sealhulgas selliste lähenemiste puhul, mis võisid varem tunduda lühikese võistluse jaoks liiga ajamahukad või ebakindlad.

Peamised järeldused

Üks suur erinevus Parameter Golfi ja varasemate sarnaste võistluste vahel oli kodeerimisagentide laialdane kasutus. Valdav enamus esitajatest mainis, et kasutas oma töös agente.

See vähendas sisenemisbarjääri. Osalejad said eksperimente kiiremini seadistada, võõrast koodi uurida ja ideid sujuvamalt katsetada. Runpodi 1 000 000 USA dollari väärtuses arvutusressursside sponsorlus mängis samuti olulist rolli väljakutse muutmisel kättesaadavaks rohkematele inimestele.

Samas tekitas agentide kasutamine uusi probleeme esituste ja punktiarvestuse jaoks. Paljud esitused olid olemasolevate tipptegijate väiksed muudatused, mitte põhimõtteliselt uued lähenemised. See oli sageli kasulik: tugevad ideed levisid kiiresti ja teised täiustasid neid. Kuid see tekitas ka müra. Kui võistluse juhistest väljapoole jäävad esitused andsid ebatavaliselt tugevaid tulemusi, kopeerisid teised agendid mõnikord neid ideid ja jätkasid sama kehtetut rada mööda.

Esituste maht muutis ka seda, kuidas pidime võistlust korraldama. Me ei saanud iga esitust käsitsi kontrollida ja samal ajal edetabelit liikumas hoida. Väljakutse ajal töötasime välja sisemise Codexil põhineva triaažiboti, mis jälgis uusi esitusi ja märkis need inimülevaatuseks. See muutus eriti oluliseks perioodidel, mil saime sadu esitusi päevas.

AI agendid said ka osaks väljakutset ümbritsevast kogukonnast. Suure osa võistlusest pidasid @notapplica ja nende kodeerimisagent „Live Updatesi” bülletääni, jälgides tähtsamaid sündmusi, selgitades edetabeli lähenemisi ja aidates teistel osalejatel võistlust jälgida. Ilmusid ka kogukonna ülevaatetööriistad, mis aitasid vähem kogenud osalejatel kontrollida, kas nende esitused vastavad reeglitele, ja vältida levinud kehtetuid lähenemisi.

Mis edasi?

Meie peamine eesmärk oli käivitada väljakutse, milles nõuetele vastavad osalejad(avaneb uues aknas) saaksid osaleda ja kogeda masinõppe uurimistööd. Parameter Golf tõi kokku laia valiku tehniliselt tugevaid ja loovaid esitusi ning andis meile selgema pildi sellest, kuidas avatud uurimisvõistlused võivad muutuda, kui AI agendid muutuvad võimekamaks ja laiemalt kasutatavaks.

Mõtleme tulevikus veel selliste väljakutsete käivitamisele. Kui oled huvitatud, täida väljakutses osalemise vorm(avaneb uues aknas).

Autor

OpenAI