2026 ж. 12 мамыр

Parameter Golf бізге не үйретті

1 000-нан астам қатысушы, 2 000-нан астам жіберілім және кодтау агенттері қалыптастырған ашық машиналық оқыту сайысынан алынған сабақтар.

Жүктелуде…

Біз машиналық оқыту зерттеу қауымдастығын жаңа, қатаң шектелген машиналық оқыту мәселесін зерттеуге тарту және қолдау үшін Parameter Golf жобасын іске қостық. Біз бұл тапсырманың шынайы техникалық шығармашылықты бағалайтындай жеткілікті қызықты, сонымен қатар тұжырымдамалық тұрғыдан қарапайым және тексеруге оңай болғанын қаладық.

Қатысушылар модельдің салмақтары мен оқыту кодын қамтитын 16 MB артефакт шегінен аспай, сондай-ақ 8×H100s құрылғыларында 10 минуттық оқыту бюджеті аясында бекітілген FineWeb деректер жинағындағы бөлек қалдырылған деректердегі жоғалтуды барынша азайтуы керек болды. Қатысушылар репозиторийді тармақтап, модельді жақсартып, нәтижелерін GitHub арқылы ұсына алуы үшін біз базалық нұсқаны, деректер жиынтығын және бағалау скрипттерін ұсындық.

Сегіз апта ішінде, біз 1 000-нан астам қатысушыдан 2 000-нан астам өтінім алдық. Ұсынылған жұмыстардың барлығындағы техникалық ауқым, креативтілік және ережелерді шығармашылықпен икемдеу бізді таңғалдырды: мұқият оптимизаторды баптау мен кванттау жұмыстарынан бастап, жаңа модельдеу идеялары мен тестілеу кезіндегі оқытуға дейін.

Сынақтың ең қызықты тұстарының бірі қатысушылардың ЖИ негізіндегі кодтау агенттерін қаншалықты кеңінен пайдаланғанын көру болды. Агенттер эксперимент жасау құнын төмендетуге көмектесті, көбірек адамның қатысуын жеңілдетті және бәсекелестіктің қарқынын өзгертті. Олар сондай-ақ жіберілімдерді қарау, авторлықты анықтау және ұпай қою процестерінде жаңа қиындықтар туғызды.

Бұл сынақ біз үшін таланттарды анықтауға арналған маңызды алаңға айналды. Бұл Parameter Golf үшін қойған мақсаттарымыздың бірі еді және ашық форматтағы техникалық сынақтар машиналық оқыту саласындағы ерекше талғам мен табандылықты көрсете алатынының пайдалы белгісі болды.

Бұл жазбада бізді таңғалдырған әрі қызықтырған байқауға жіберілген кейбір жұмыстарды атап өтіп, қуатты ЖИ агенттері дәуірінде бағдарламалау байқауын өткізуден қандай сабақ алғанымызбен бөлісеміз.

Техникалық әсерлер

Тректі жазу

Біз көшбасшылар тақтасындағы әрбір жіберілімді бағалап, оларды тәуелсіз түрде қайта жасап шықтық және әр жіберілімнің ұсынылған сәтінде рекорд орнатқанын растадық. Бірнеше тақырып ерекше көзге түсті.

Оқытуды оңтайландыру

Ең үздік нәтижелердің кейбірі қолданыстағы компоненттерді мұқият баптау нәтижесінде алынды.

Жіберілім	үлес қосушы	әдіс	неліктен маңызды болды
#60	@notapplica	біріктірілген #50 бойынша алдыңғы жеңістер, #42, және, бәлкім, #39, содан кейін Muon салмақ ыдырауы, спектрлік ендірмені инициализациялау, residual-mix жоспарлауы және компиляцияланған бағалау арқылы тереңірек модельдің жұмыс істеуіне қол жеткізді.	A рейтинг кестесімен жүйелі жұмыстың мықты үлгісі: қолданыстағы жақсартулардың қайсысы маңызды екенін анықтап, оларды ұқыпты біріктіру.

Кванттау

Бірнеше ұсыныс қысу және экспорттау мүмкіндіктерін күшейтуге ерекше күш салды.

Жіберілім	үлес қосушы	әдіс	неліктен маңызды болды
#414	@signalrush	пайдаланылған Оқытудан кейін салмақтарды кванттау үшін GPTQ-lite қолданылды.	бұл GPTQ-lite-ты сәтті пайдаланған көшбасшылар кестесіндегі алғашқы жіберілім, бұл бағалауды жақсартуға мүмкіндік берді.
#1060	@dexhunter	толық Hessian GPTQ-ді сәтті пайдалану үшін @raahilshah жасаған #634 негізінде құрастырылды.	бұрынғы кванттау жұмысын күштірек сығымдау бағытына дейін кеңейтті.

Тест кезіндегі және бағалау стратегиялары

Кейбір жіберілген жұмыстар модельді жетілдіру мен бағалау стратегиясы арасындағы шекараны кеңейтті. Бұл тәсілдер ережелер бойынша рұқсат етілген еді, бірақ ұйымдастырушылар ретінде біздің тарапымыздан мұқият қарауды талап етті.

Жіберілім	үлес қосушы	әдіс	неліктен маңызды болды
#77	@samacqua	қолданылды алдымен бағалауға негізделген, әр құжат бойынша LoRA тест уақытындағы оқыту: алдымен бағалаңыз, тек бұрыннан бағаланған фрагменттерде ғана бейімдеңіз және құжат шекараларында бастапқы күйге қайтарыңыз.	ережелерге сай тексеруге жарамды қалыпта қала отырып, модельді жетілдіру мен бағалау стратегиясы арасындағы шекараны кеңейтті.
#1019	@abaybektursun	пайдаланылды Өздігінен жасалған GPTQ калибрлеуі: калибрлеу мәтінін үйретілген модельден жасаңыз, содан кейін сол активациялардан GPTQ Гессиан матрицаларын құрыңыз. Ұйымдастырушылар тарапынан мұқият қарауды талап еткен креативті калибрлеу стратегиясы.

Модельдеу және деректер бойынша жаңа идеялар

Бірнеше тапсырылған жұмыста ерекше шығармашылық идеялармен ерекшеленген модельдеу немесе деректерге қатысты ұсыныстар жасалды.

Жіберілім	үлес қосушы	әдіс	неліктен маңызды болды
#1729	@romeerp	CaseOps токенизаторы енгізілді: түпнұсқа байттық BPB қосалқы есебі бар шығынсыз бас әріптеу оператор токендері.	A креативті токенизатор және деректерді ұсыну идеясы.
#265	@unnir	енгізілді XSA, GQA-ны ескеретін топталған көріністері бар тиімді ішінара эксклюзивті өзіндік назар аудару тәсілі.	ұсынған тиімді зейін нұсқасын тапсырмаға енгізді.
#65	@aquariouseworkman	енгізілді SmearGate және BigramHash: үйретілген алдыңғы токен ендірулерінің үйлесімі және іргелес токен жұптарының хэш белгілері.	қосылды жаңа мүмкіндік механизмдерін нөлден бастап.
#1204	@msisovic	енгізілді Мини тереңдік рекурренциясы: 4 және 5-қабаттар қайталанды, рекурренция оқытудың ортасына дейін кейінге қалдырылды және қайталанған MLP-лердің байланысы ішінара ажыратылды.	рекуррентті қабаттардың тиімді жұмыс істеуін қамтамасыз еткен көшбасшылар кестесіндегі алғашқы қабылданған жол.

Біз осы тоғыз жұмысты ерекше атап өтуді жөн көрдік, өйткені олар байқаудан күткен нәтижелердің алуан түрлілігін көрсетеді. Кейбір қатысушылар мұқият баптау арқылы жетістіктерге қол жеткізді. Басқалары кванттау және төмен рангті әдістерді қолданды. Бағалау ережелерінің кейбір зерттелген қырлары. Сондай-ақ әдебиеттен алынған немесе нөлден бастап әзірленген, күтпеген жақсартуларға әкелген бірнеше модельдеу немесе деректерге қатысты идея енгізілді.

Жазылмайтын жол

Рекордтық емес бағытта көптеген шығармашылық жұмыстар ұсынылды. Біз авторегрессиялық емес мәтінді модельдеуден бастап динамикалық токенизацияға дейінгі тәсілдерді қамтитын 15 таңдаулысын ерекше атап өттік.

Бұл бағыт эксперименттік сипатта болғандықтан, біз өнімділіктің нақты көрсеткіштеріне емес, тәсілдің техникалық тұрғыдан қызықты болуына көбірек назар аудардық. Үш өтінім ерекше көзге түсті:

Бұл өнімділік көрсеткіші бойынша міндетті түрде үздік үштікке кірмесе де, рекорд орнатпаған жіберілімдердің ішіндегі бізге ең ұнаған үшеуі.

Дегенмен, рекордқа жатпайтын трек бәрібір тартысты болды. Көшбасшылар тақтасындағы рекордтық емес нәтижелердің жартысы, 1,22 BPB деңгейіндегі қарапайым базалық көрсеткіштен жақсы нәтиже көрсетті, ал ең жоғары орын алған нәтиже 1,12 BPB-ге жетті.

Бұл бізді жігерлендірді. Тіпті күшті трансформер базалық модельдермен салыстырғанда, балама тәсілдер кейде басым архитектураға қарсы бәсекеге қабілетті бола алды.

Сондай-ақ бұл бағыт қуатты код жазу агенттерінің қолжетімділігінен ерекше пайда көреді деп ойлаймыз. Агенттер болжамға негізделген идеяларды прототиптеуді әлдеқайда арзандатты, оған қысқа мерзімді байқауда байқап көру үшін бұрын тым көп уақыт алатындай немесе нәтижесі тым белгісіздей көрінген тәсілдер де кіреді.

Қорытындылар

Parameter Golf пен оған ұқсас бұрынғы жарыстардың арасындағы басты айырмашылық кодтау агенттерінің кеңінен қолданылуы болды. Материал жібергендердің басым көпшілігі агенттерді жұмысының бір бөлігі ретінде пайдаланатынын айтты.

Бұл кіру кедергісін төмендетті. Қатысушылар эксперименттерді тезірек орнатып, таныс емес кодты тексеріп, идеяларды аз кедергімен сынай алды. Runpod компаниясының есептеу ресурстары түріндегі 1 000 000 АҚШ доллары көлеміндегі демеушілігі де бұл байқауды көбірек адамға қолжетімді етуге үлкен үлес қосты.

Сонымен қатар, агент пайдалану тапсыру мен бағалауға қатысты жаңа мәселелер туындатты. Көптеген жіберілімдер түбегейлі жаңа тәсілдерден гөрі, қолданыстағы үздік нәтиже көрсеткен шешімдерге енгізілген шағын өзгерістер болды. Бұл көбіне пайдалы болды: күшті идеялар тез таралып, басқалар тарапынан жетілдірілді. Бірақ бұл сонымен қатар шу тудырды. Жарыс нұсқауларына сәйкес келмейтін жіберілімдер әдеттен тыс жоғары ұпайлар көрсеткенде, басқа агенттер кейде сол идеяларды көшіріп, сол жарамсыз бағытты жалғастырды.

Келіп түскен өтінімдердің көптігі байқауды өткізу тәсілімізді өзгертуге мәжбүр етті. Әрбір жіберілімді қолмен тексеріп отырып, көшбасшылар кестесін үздіксіз жаңартып отыру мүмкін болмады. Челлендж барысында біз жаңа жіберілімдерді бақылап, оларды адам қарап шығуы үшін белгілейтін Codex негізіндегі ішкі триаж ботын әзірледік. Бұл бізге күніне жүздеген өтінім келіп түсетін кезеңдерде ерекше маңызды болды.

Жасанды интеллект агенттері де осы сынақ төңірегінде қалыптасқан қауымдастықтың бір бөлігіне айналды. Жарыстың көп бөлігінде @notapplica және олардың кодтау агенті негізгі оқиғаларды қадағалап, көшбасшылар кестесіне қатысты тәсілдерді түсіндіріп, басқа қатысушыларға жарысты бақылауға көмектесіп, «Live Updates» бюллетенін жүргізді. Қауымдастықтың тексеру құралдары тәжірибесі аз қатысушыларға ұсынған материалдарының ережелерге сай екенін тексеруге және жиі кездесетін жарамсыз тәсілдерден аулақ болуға көмектесті.

Келесі не?

Біздің басты мақсатымыз талаптарға сай қатысушылар⁠(жаңа терезеде ашылады) қатысып, машиналық оқыту зерттеулерін тәжірибе жүзінде көре алатын байқауды іске қосу болды. Parameter Golf техникалық тұрғыдан мықты әрі шығармашылыққа толы кең ауқымды жұмыстарды тартты және ЖИ агенттері барған сайын қабілеттірек болып, кеңінен қолданылған сайын ашық зерттеу байқауларының қалай өзгеруі мүмкін екенін айқынырақ көруге мүмкіндік берді.

Болашақта осыған ұқсас тағы да осындай сынақтарды бастауды ойластырып жатырмыз. Қызығушылық танытсаңыз, сынақ қатысушысының формасын⁠(жаңа терезеде ашылады) толтырыңыз.

Автор

OpenAI

Оқуды жалғастырыңыз

Барлығын қарау

Бағдарламалау бағалауларында сигналды шудан ажырату

Зерттеу2026 ж. 8 шіл.

GeneBench-Pro-ны таныстырамыз

Зерттеу2026 ж. 30 мау.

A near-autonomous AI chemist improves a challenging reaction

Дерлік автономды ЖИ химик дәрілік химиядағы күрделі реакцияны жақсартты

Зерттеу2026 ж. 17 мау.