12 maj 2026

Çfarë na mësoi Parameter Golf

Mësime nga mbi 1000 pjesëmarrës, mbi 2000 dorëzime dhe një sfidë e hapur e mësimit makinerik e formësuar nga agjentë programimi.

Duke ngarkuar…

Ne prezantuam Parameter Golf për të angazhuar dhe mbështetur komunitetin kërkimor të mësimit të makinerisë në eksplorimin e një problemi të ri të mësimit të makinerisë me kufizime të forta. Donim që sfida të ishte mjaftueshëm interesante për të shpërblyer kreativitet të vërtetë teknik, duke mbetur njëkohësisht konceptualisht e thjeshtë dhe e lehtë për t’u verifikuar.

Pjesëmarrësit duhej të minimizonin humbjen në të dhënat e testimit në një grup fiks të dhënash të FineWeb, duke qëndruar brenda një kufiri artefakti prej 16 MB, që përfshin si peshat e modelit ashtu edhe kodin e trajnimit, si dhe një buxhet trajnimi prej 10 minutash në 8×H100. Ne ofruam një model bazë, një grup të dhënash dhe skripte vlerësimi, në mënyrë që pjesëmarrësit të mund të krijonin një bigëzim të depos, të përmirësonin modelin dhe të dorëzonin rezultatet e tyre përmes GitHub.

Gjatë tetë javëve, morëm më shumë se 2000 dorëzime nga mbi 1000 pjesëmarrës. Na bëri përshtypje larmia teknike, krijimtaria dhe shkelja e rregullave për dorëzimet, nga sintonizimi i kujdesshëm i optimizuesve dhe puna me kuantizimin deri tek idetë e reja të modelimit dhe të trajnimit në kohën e testimit.

Një nga pjesët më emocionuese të sfidës ishte të shihnim sa gjerësisht pjesëmarrësit përdorën agjentë IA-je për kodim. Agjentët ndihmuan në uljen e kostos së eksperimentimit, lehtësuan pjesëmarrjen e shumë njerëzve dhe ndryshuan ritmin e konkurrencës. Ata krijuan gjithashtu sfida të reja për shqyrtimin e dorëzimeve, atribuimin dhe pikëzimin.

Sfida u bë gjithashtu një sipërfaqe domethënëse për zbulimin e talenteve për ne. Ky ishte një nga objektivët tanë për Parameter Golf dhe ishte një sinjal i dobishëm se sfidat teknike të hapura mund të nxjerrin në pah intuitë të jashtëzakonshme për mësimin makinerik dhe këmbëngulje.

Në këtë postim, ne nxjerrim në pah disa nga dorëzimet që na u dukën befasuese dhe interesante, dhe ndajmë çfarë mësuam nga organizimi i një konkursi programimi në epokën e agjentëve të fuqishëm të IA-së.

Përshtypje teknike

Kategoria e rekordeve

Ne vlerësuam dhe riprodhuam në mënyrë të pavarur secilin dorëzim në tabelën e liderëve të kategorisë së rekordeve dhe verifikuam që çdo dorëzim kishte thyer rekordin në momentin kur ishte paraqitur. Disa tema spikatën.

Optimizimi i trajnimit

Disa nga rezultatet më të forta erdhën nga sintonizimi i kujdesshëm i komponentëve ekzistues.

Dorëzimi	kontribuuesi	teknika	pse kishte rëndësi
#60	@notapplica	Kombinoi fitore të mëparshme nga #50, #42, dhe me gjasë #39, më pas u mundësua funksionimi i një modeli më të thellë me rënien e peshave Muon, inicializimin e integrimit spektral, planifikimin e përzierjes së mbetjeve dhe vlerësimin e përpiluar.	Një shembull i fortë i punës së disiplinuar me tabelën e renditjes: identifikimi i përmirësimeve ekzistuese që kanë rëndësi dhe kombinimi i tyre pastër

Kuantizimi

Disa dorëzime u përqendruan fort te kompresimi dhe eksportimi.

Dorëzimi	kontribuuesi	teknika	pse kishte rëndësi
#414	@signalrush	Përdori GPTQ-lite për të kuantizuar peshat pas trajnimit.	Dorëzimi i parë në tabelën e renditjes që përdori me sukses GPTQ-lite, duke çuar në një vlerësim më të mirë
#1060	@dexhunter	U bazua te #634 nga @raahilshah për të përdorur me sukses Hessian GPTQ të plotë.	Zgjeroi punën e mëparshme të kuantizimit në një shteg më të fortë kompresimi

Strategji të testimit dhe të vlerësimit

Disa dorëzime shtynë kufirin mes përmirësimit të modelit dhe strategjisë së vlerësimit. Këto qasje ishin të vlefshme sipas rregullave, por kërkuan shqyrtim të kujdesshëm nga ne si organizatorë.

Dorëzimi	kontribuuesi	teknika	pse kishte rëndësi
#77	@samacqua	Përdori trajnim LoRA në kohë testimi, për dokument, me vlerësim së pari: fillimisht vlerëson, pastaj përshtat vetëm në segmentet të vlerësuara dhe rivendos modelin në kufijtë e dokumentit.	Zgjeroi kufirin midis përmirësimit të modelit dhe strategjisë së vlerësimit, duke mbetur i rishikueshëm sipas rregullave
#1019	@abaybektursun	Përdori kalibrim GPTQ i vetëgjeneruar: gjeneroi tekst kalibrimi nga modeli i trajnuar, pastaj ndërtoi Hessian-et GPTQ nga ato aktivizime.	Një strategji kreative kalibrimi që kërkonte shqyrtim të kujdesshëm nga organizatorët

Ide të reja modelimi dhe të dhënash

Disa dorëzime prezantuan ide modelimi ose të dhënash që ishin veçanërisht krijuese.

Dorëzimi	kontribuuesi	teknika	pse kishte rëndësi
#1729	@romeerp	U prezantua tokenizuesi CaseOps: token operator kapitalizimi pa humbje, me llogaritje BPB sidecar për bajtët origjinalë.	Një ide krijuese për tokenizues dhe për përfaqësimin e të dhënave.
#265	@unnir	U prezantua XSA, një qasje efikase e pjesshme e vetë-vëmendjes ekskluzive me pamje të grupuara të vetëdijshme për GQA.	Solli një variant efikas të vëmendjes në sfidë
#65	@aquariouseworkman	Prezantoi SmearGate dhe BigramHash: një përzierje e mësuar integrimi për tokenin e mëparshëm plus veçori hash për çifte tokenësh ngjitur.	Shtoi mekanizma të veçorive të reja nga e para
#1204	@msisovic	Prezantoi rekurencë mini në thellësi: shtresa 4 dhe 5 të përsëritura, rekurencë e vonuar deri në mesin e trajnimit, dhe MLP-të e përsëritura pjesërisht të palidhura.	Rreshti i parë i pranuar në tabelën e renditjes që bëri shtresat rekurente të funksionojnë në mënyrë efektive

Zgjodhëm të nxjerrim në pah këto nëntë dorëzime sepse përfaqësojnë gamën e rezultateve që shpresonim se sfida do të nxirrte në dritë. Disa pjesëmarrës dolën të fituar falë sintonizimit të kujdesshëm. Të tjerë u morën me kuantizimin dhe teknikat me rang të ulët. Disa eksploruan skajet e rregullave të vlerësimit. Dhe disa prezantuan ide modelimi ose të dhënash, të marra nga literatura ose të nisura nga e para, që sollën përfitime të papritura.

Kategoria e jorekordeve

Kategoria e jorekordeve ishte shtëpia e shumë dorëzimeve krijuese. Ne nxorëm në pah 15 të preferuarat, duke përfshirë qasje që varionin nga modelimi jo-autoregresiv i tekstit deri te tokenizimi dinamik.

Për shkak se kjo kategori ishte më eksperimentale, u përqendruam më pak te performanca e papërpunuar dhe më shumë te fakti nëse qasja ishte teknikisht interesante. Tri dorëzime spikatën në mënyrë të veçantë:

Këto ishin tri dorëzimet tona të preferuara në kategorinë e jorekordeve, edhe pse nuk ishin domosdoshmërish tri të parat sipas performancës.

Megjithatë, kategoria e jorekordeve ishte ende konkurruese. Gjysma e hyrjeve në tabelën e renditjes së jorekordeve e tejkaluan bazën naive prej 1,22 BPB, ndërsa hyrja e renditur e para arriti 1,12 BPB.

Kjo na u duk inkurajuese. Edhe përballë bazave të forta shndërruese, qasjet alternative ndonjëherë mund të qëndronin denjësisht përballë arkitekturës dominuese.

Ne gjithashtu mendojmë se kjo kategori përfiton veçanërisht nga disponueshmëria e agjentëve të fuqishëm të programimit. Agjentët e bënë shumë më të lirë dhe më të lehtë krijimin e prototipit me ideve spekulative, përfshirë qasjet që më parë mund të ishin dukur sikur konsumonin shumë kohë ose të pasigurta për t’u provuar në një garë të shkurtër.

Përfundime

Një ndryshim i madh mes Parameter Golf dhe garave të mëparshme të ngjashme ishte përdorimi i gjerë i agjentëve të programimit. Shumica dërrmuese e dorëzuesve përmendën përdorimin e agjentëve si pjesë të punës së tyre.

Kjo e uli barrierën e hyrjes. Pjesëmarrësit mund të konfiguronin eksperimente më shpejt, të shqyrtonin kod të panjohur dhe të testonin ide me më pak pengesa. Sponsorizimi i Runpod prej 1 000 000 USD në kapacitet llogaritës luajti gjithashtu një rol të madh në bërjen e sfidës të aksesueshme për më shumë njerëz.

Në të njëjtën kohë, përdorimi i agjentëve krijoi probleme të reja për dorëzimin dhe pikëzimin. Shumë dorëzime kishin ndryshime të vogla mbi rezultatet më të larta ekzistuese, në vend të qasjeve thelbësisht të reja. Kjo ishte shpesh e dobishme: idetë e forta u përhapën shpejt dhe u rafinuan nga të tjerët. Por krijoi edhe zhurmë. Kur dorëzimet që nuk ndiqnin udhëzimet e garës prodhonin rezultate jashtëzakonisht të forta, agjentë të tjerë ndonjëherë i kopjonin ato ide dhe vazhdonin në të njëjtën rrugë të pavlefshme.

Vëllimi i dorëzimeve ndryshoi gjithashtu mënyrën se si duhej ta drejtonim garën. Nuk mund të inspektonim manualisht çdo dorëzim dhe njëkohësisht ta mbanim tabelën e renditjes në lëvizje. Gjatë sfidës, zhvilluam një bot të brendshëm prioritizimi të bazuar në Codex për të monitoruar dorëzimet e reja dhe për t’i sinjalizuar për shqyrtim njerëzor. Kjo u bë veçanërisht e rëndësishme gjatë periudhave kur merrnim qindra dorëzime në ditë.

Agjentët e IA-së u bënë gjithashtu pjesë e komunitetit rreth sfidës. Për një pjesë të madhe të garës, @notapplica dhe agjenti i tyre i programimit drejtuan një buletin “Përditësime të drejtëpërdrejta”, duke ndjekur ngjarjet kryesore, duke shpjeguar qasjet në tabelën e renditjes dhe duke ndihmuar pjesëmarrësit e tjerë të ndiqnin garën. U shfaqën gjithashtu mjete të rishikimit nga komuniteti për të ndihmuar pjesëmarrësit më pak me përvojë të kontrollonin nëse dorëzimet e tyre ishin brenda rregullave dhe të shmangnin qasjet e zakonshme të pavlefshme.

Çfarë vjen më pas?

Qëllimi ynë kryesor ishte të nisnim një sfidë ku pjesëmarrësit e kualifikuar⁠(hapet në një dritare të re) mund të merrnin pjesë dhe të njiheshin nga afër me kërkimin në fushën e të nxënit makinerik. Parameter Golf solli një gamë të gjerë dorëzimesh teknikisht të forta dhe krijuese, si edhe na dha një pamje më të qartë se si mund të ndryshojnë garat e hapura të kërkimit ndërsa agjentët e IA-së bëhen më të aftë dhe më gjerësisht të përdorur.

Po mendojmë të nisim më shumë sfida të ngjashme në të ardhmen. Nëse je i interesuar, plotëso formularin e pjesëmarrësit në sfidë⁠(hapet në një dritare të re).