Անցնել հիմնական բովանդակությանը
OpenAI

12 մայիսի, 2026 թ.

Հետազոտություններ

Ինչ սովորեցրեց մեզ Parameter Golf-ը

Դասեր 1,000+ մասնակիցներից, 2,000+ ներկայացումներից և բաց մեքենայական ուսուցման մարտահրավերից, որը ձևավորվել է կոդավորման ագենտների ազդեցությամբ։

Բեռնվում է…

Մենք գործարկեցինք Parameter Golf-ը՝ մեքենայական ուսուցման հետազոտական համայնքին ներգրավելու և աջակցելու համար, որպեսզի նրանք ուսումնասիրեն մեքենայական ուսուցման նոր, խիստ սահմանափակումներով խնդիր։ Մենք ցանկանում էինք, որ մարտահրավերը բավական հետաքրքիր լինի՝ իրական տեխնիկական ստեղծագործականությունը պարգևատրելու համար, միաժամանակ մնալով գաղափարապես պարզ և հեշտ ստուգելի։

Մասնակիցները պետք է նվազեցնեին վալիդացիոն կորուստը ֆիքսված FineWeb տվյալաշարի վրա՝ միաժամանակ մնալով 16 ՄԲ արտեֆակտի սահմանաչափի մեջ, ներառյալ թե՛ մոդելի կշիռները, թե՛ ուսուցման կոդը, ինչպես նաև 10 րոպեանոց ուսուցման բյուջեի սահմաններում՝ 8×H100-ների վրա։ Մենք տրամադրեցինք հիմնական նյութ, տվյալաշար և գնահատման սկրիպտներ, որպեսզի մասնակիցները կարողանային ստեղծել կոդային բազայի պատճենը պահոցից, բարելավել մոդելը և GitHub-ի միջոցով ներկայացնել իրենց արդյունքները։

Ութ շաբաթվա ընթացքում մենք ստացանք ավելի քան 2,000 ներկայացում՝ ավելի քան 1,000 մասնակցից։ Մեզ տպավորեցին ներկայացումների տեխնիկական լայնությունը, ստեղծագործականությունը և կանոնների սահմանները փորձարկելու մոտեցումները՝ օպտիմիզատորի մանրակրկիտ կարգավորումից և քվանտացման աշխատանքից մինչև մոդելավորման նոր գաղափարներ և թեստավորման պահին ուսուցում։

Մարտահրավերի ամենահետաքրքիր մասերից մեկը տեսնելն էր, թե որքան լայնորեն էին մասնակիցները օգտագործում ԱԲ-ի կոդավորման ագենտներ։ Ագենտներն օգնեցին նվազեցնել փորձարկումների արժեքը, ավելի շատ մարդկանց համար հեշտացրին մասնակցությունը և փոխեցին մրցույթի տեմպը։ Դրանք նաև նոր մարտահրավերներ ստեղծեցին ներկայացումների վերանայման, վերագրության և գնահատման համար։

Մարտահրավերը նաև մեզ համար դարձավ տաղանդների բացահայտման կարևոր հարթակ։ Դա Parameter Golf-ի մեր նպատակներից մեկն էր և օգտակար ազդանշան էր, որ բաց տեխնիկական մարտահրավերները կարող են բացահայտել մեքենայական ուսուցման բացառիկ ճաշակ և հաստատակամություն։

Այս գրառման մեջ մենք առանձնացնում ենք մի քանի ներկայացումներ, որոնք մեզ զարմացրին և հետաքրքրեցին և կիսվում ենք նրանով, թե ինչ սովորեցինք հզոր ԱԲ-ի ագենտների դարաշրջանում կոդավորման մրցույթ վարելուց։

Տեխնիկական տպավորություններ

Ռեկորդային ուղի

Մենք գնահատեցինք և անկախ վերարտադրեցինք հետևել-հետագծին վարկանիշային աղյուսակի յուրաքանչյուր ներկայացում և հաստատեցինք, որ յուրաքանչյուր ներկայացում ռեկորդային էր այն ներկայացվելու պահին։ Մի քանի թեմա առանձնացավ։

Ուսուցման օպտիմիզացում

Ամենաուժեղ արդյունքներից մի քանիսը ստացվեցին առկա բաղադրիչների մանրակրկիտ կարգավորումից։

ՆերկայացումՆերդրողՏեխնիկաԻնչու էր դա կարևոր
«#60"@notapplica«Համակցված նախորդ հաղթանակները #50-ից։ #42 և հավանաբար #39 ապա ապահովեցին ավելի խորը մոդելի աշխատանքը Muon-ի կշիռների նվազեցմամբ սպեկտրալ ներկառուցման սկզբնավորմամբ մնացորդային խառնման պլանավորմամբ և կազմված գնահատմամբ»։ «առաջատարների աղյուսակի վրա հետևողական աշխատանքի ուժեղ օրինակ՝ պարզելով թե առկա բարելավումներից որոնք են կարևոր և դրանք կոկիկ կերպով համադրելով»։

Քվանտացում

Մի քանի ներկայացումներ մեծապես կենտրոնացան սեղմման և արտահանման վրա։

ՆերկայացումՆերդրողՏեխնիկաԻնչու էր դա կարևոր
«#414"@signalrush«Օգտագործված GPTQ-lite՝ ուսուցումից հետո կշիռները քվանտացնելու համար»«Այն առաջատարների աղյուսակում առաջին ներկայացումը որը հաջողությամբ օգտագործեց GPTQ-lite-ը՝ ապահովելով ավելի լավ գնահատում»
«#1060"@dexhunter«Հիմնվեց @raahilshah-ի #634-ի վրա՝ լիարժեք հեսսիան GPTQ-ը հաջողությամբ օգտագործելու համար։»«Ընդլայնեց ավելի վաղ քվանտացման աշխատանքը՝ այն վերածելով ավելի ուժեղ սեղմման ուղու»։

Թեստավորման պահի և գնահատման ռազմավարություններ

Որոշ ներկայացումներ մոտեցան մոդելի բարելավման և գնահատման ռազմավարության սահմանագծին։ Այս մոտեցումները կանոնների շրջանակում վավեր էին, բայց որպես կազմակերպիչներ՝ մեզանից պահանջում էին մանրակրկիտ վերանայում։

ՆերկայացումՆերդրողՏեխնիկաԻնչու էր դա կարևոր
«#77"@samacqua«Օգտագործվել է գնահատումն առաջնային յուրաքանչյուր փաստաթղթի համար LoRA-ի թեստավորման ժամանակի ուսուցում՝ նախ գնահատել հարմարեցնել միայն արդեն գնահատված հատվածների վրա և վերակայել փաստաթղթերի սահմաններին։»«Առաջ մղեց մոդելի բարելավման և գնահատման ռազմավարության միջև սահմանը՝ միաժամանակ մնալով կանոնների շրջանակներում վերանայելի»։
«#1019"@abaybektursun«Օգտագործված ինքնուրույն գեներացված GPTQ կալիբրացում․ գեներացնել կալիբրացման տեքստը ուսուցված մոդելից ապա կառուցել GPTQ հեսսիաները այդ ակտիվացումներից։»«A ստեղծագործական կալիբրացման ռազմավարություն որը պահանջում էր կազմակերպիչների մանրակրկիտ վերանայում»։

Նոր մոդելավորման և տվյալների գաղափարներ

Մի քանի ներկայացումներ ներկայացրին մոդելավորման կամ տվյալների գաղափարներ, որոնք հատկապես ստեղծագործական էին։

ՆերկայացումՆերդրողՏեխնիկաԻնչու էր դա կարևոր
«#1729"@romeerp«Ներդրեց CaseOps թոքենիզատորը՝ անկորուստ մեծատառացման Օպերատոր թոքեններով և սկզբնական բայթերի BPB ուղեկից հաշվառմամբ»«A ստեղծագործական տոկենիզատորի և տվյալների ներկայացման գաղափար»։
«#265"@unnir«Ներկայացրեց XSA՝ մասնակի բացառիկ ինքնաուշադրության արդյունավետ մոտեցում՝ GQA-ն հաշվի առնող խմբավորված դիտումներով։»«Ներկայացված է ուշադրության արդյունավետ տարբերակ՝ մարտահրավերի մեջ»։
«#65"@aquariouseworkman«Ներկայացրեց SmearGate-ը և BigramHash-ը՝ ուսուցված նախորդ թոքենի ներդրման խառնուրդ և հարակից թոքենների զույգի հեշ հատկանիշներ։»«Ավելացվեց նոր ֆունկցիայի մեխանիզմներ զրոյից»։
«#1204"@msisovic«Ներդրվեց մինի խորքային կրկնություն. կրկնեց 4-րդ և 5-րդ շերտերը կրկնությունը հետաձգեց մինչև ուսուցման միջնամասը և մասամբ տարանջատեց կրկնվող MLP-ների քաշերը»։«Առաջատարների աղյուսակի առաջին ընդունված տողը որը կրկնվող շերտերին ստիպեց արդյունավետ աշխատել»։

Մենք որոշեցինք առանձնացնել այս ինը ներկայացումները, որովհետև դրանք ներկայացնում են այն արդյունքների շրջանակը, որը հույս ունեինք, որ մարտահրավերը կբացահայտի։ Որոշ մասնակիցներ հաջողության հասան մանրակրկիտ կարգավորման միջոցով։ Մյուսները զարգացրին քվանտացման և ցածրակարգ տեխնիկաները։ Ոմանք ուսումնասիրեցին գնահատման կանոնների սահմանները։ Եվ մի քանիսը ներկայացրին մոդելավորման կամ տվյալների գաղափարներ՝ գրականությունից կամ զրոյից, որոնք տվեցին անսպասելի շահույթներ։

Ոչ ռեկորդային ուղի

Ոչ ռեկորդային ուղին բազմաթիվ ստեղծագործական ներկայացումների տունն էր։ Մենք առանձնացրինք 15 սիրելի տարբերակ, ներառյալ մոտեցումներ՝ ոչ ավտոռեգրեսիվ տեքստային մոդելավորումից մինչև դինամիկ թոքենիզացիա։

Քանի որ այս ուղին ավելի փորձարարական էր, մենք ավելի քիչ կենտրոնացանք մաքուր արդյունավետության վրա ևավելի շատ մոտեցման տեխնիկապես հետաքրքիր լինելու վրա։ Հատկապես առանձնացավ երեք ներկայացում․

Սրանք մեր երեք ամենասիրելի ոչ ռեկորդային ներկայացումներն էին, թեև պարտադիր չէ, որ դրանք արդյունավետությամբ լավագույն երեքը լինեին։

Այդուհանդերձ, ոչ ռեկորդային ուղին նույնպես մրցակցային էր։ Ոչ ռեկորդային վարկանիշային աղյուսակի գրառումների կեսը գերազանցեց 1.22 BPB սկզբնական ցուցանիշը, իսկ ամենաբարձր վարկանիշ ունեցող գրառումը հասավ 1.12 BPB-ի։

Մենք սա ոգևորիչ համարեցինք։ Նույնիսկ ուժեղ տրանսֆորմեր հիմնական նյութերի դիմաց այլընտրանքային մոտեցումները երբեմն կարող էին մրցունակ լինել գերիշխող ճարտարապետության նկատմամբ։

Մենք նաև կարծում ենք, որ այս ուղին հատկապես շահում է ուժեղ կոդավորման ագենտների հասանելիությունից։ Ագենտները շատ ավելի էժան դարձրին ենթադրական գաղափարների նախատիպավորումը, ներառյալ այնպիսի մոտեցումներ, որոնք նախկինում կարող էին չափազանց ժամանակատար կամ անորոշ թվալ կարճ մրցույթի համար փորձելու տեսանկյունից։

Հիմնական եզրակացություններ

Parameter Golf-ի և դրան նման ավելի վաղ մրցույթների միջև հիմնական տարբերություններից մեկը կոդավորման ագենտների լայն տարածված օգտագործումն էր։ Ներկայացնողների ճնշող մեծամասնությունը նշել էր, որ իրենց աշխատանքի շրջանակում օգտագործել է ագենտներ։

Դա նվազեցրեց մուտքի շեմը։ Մասնակիցները կարող էին ավելի արագ կարգավորել փորձերը, ուսումնասիրել անծանոթ կոդը և փորձարկել գաղափարները ավելի քիչ խոչընդոտներով։ Runpod-ի կողմից տրամադրված 1,000,000 ԱՄՆ դոլարի հաշվողական ռեսուրսների հովանավորությունը նույնպես մեծ դեր խաղաց մարտահրավերը ավելի շատ մարդկանց համար հասանելի դարձնելու գործում։

Միևնույն ժամանակ, ագենտների օգտագործումը նոր խնդիրներ ստեղծեց ներկայացումների և գնահատման համար։ Շատ ներկայացումներ փոքր փոփոխություններ էին արդեն իսկ բարձր գնահատական ստացած աշխատանքների նկատմամբ, այլ ոչ թե հիմնովին նոր մոտեցումներ։ Սա հաճախ օգտակար էր. ուժեղ գաղափարները արագ տարածվում էին և կատարելագործվում ուրիշների կողմից։ Բայց դա նաև աղմուկ էր ստեղծում։ Երբ մրցույթի ուղեցույցներից դուրս գտնվող ներկայացումները տալիս էին անսովոր բարձր միավորներ, այլ ագենտներ երբեմն պատճենում էին այդ գաղափարները և շարունակում նույն անվավեր ուղով։

Ներկայացումների ծավալը նույնպես փոխեց, թե ինչպես պետք է վարեինք մրցույթը։ Մենք չէինք կարող ձեռքով ստուգել յուրաքանչյուր ներկայացում և միաժամանակ պահպանել վարկանիշային աղյուսակի շարժը։ Մարտահրավերի ընթացքում մենք մշակեցինք Codex-ի վրա հիմնված ներքին դասակարգող բոտ՝ նոր ներկայացումները վերահսկելու և դրանք մարդկային վերանայման համար նշելու նպատակով։ Սա հատկապես կարևոր դարձավ այն ժամանակահատվածներում, երբ օրական ստանում էինք հարյուրավոր ներկայացումներ։

ԱԲ-ի ագենտները նաև դարձան մարտահրավերի շուրջ ձևավորված համայնքի մի մասը։ Մրցույթի մեծ մասի ընթացքում @notapplica-ն և իրենց կոդավորման ագենտը վարում էին «Ուղիղ թարմացումներ» տեղեկագիրը՝ հետևելով հիմնական իրադարձություններին, բացատրելով վարկանիշային աղյուսակի մոտեցումները և օգնելով մյուս մասնակիցներին հետևել մրցույթին։ Հայտնվեցին նաև համայնքային վերանայման գործիքներ, որոնք օգնում էին պակաս փորձառու մասնակիցներին ստուգել՝ արդյոք իրենց ներկայացումները կանոնների շրջանակում են և խուսափել տարածված անվավեր մոտեցումներից։

Ի՞նչ կլինի հաջորդիվ։

Մեր հիմնական նպատակն էր մեկնարկել մի մրցույթ, որին իրավասու մասնակիցները(բացվում է նոր պատուհանում) կարող էին մասնակցել և մեքենայական ուսուցման հետազոտության փորձառություն ձեռք բերել։ Parameter Golf-ը համախմբեց տեխնիկապես ուժեղ և ստեղծագործական ներկայացումների լայն շրջանակ, և մեզ ավելի հստակ պատկերացում տվեց, թե ինչպես կարող են փոխվել բաց հետազոտական մրցույթները, երբ ԱԲ-ի ագենտները դառնում են ավելի կարող և լայնորեն կիրառվող։

Մենք մտածում ենք ապագայում այսպիսի ավելի շատ մարտահրավերներ գործարկելու մասին։ Եթե հետաքրքրված եք, խնդրում ենք լրացնել մարտահրավերի մասնակցի ձևը(բացվում է նոր պատուհանում)։

Հեղինակ

OpenAI