12 мај 2026 г.

Што нè научи Parameter Golf

Поуки од 1.000+ учесници, 2.000+ поднесоци и отворен предизвик за машинско учење обликуван од агенти за кодирање.

Се вчитува...

Го започнавме Parameter Golf за да ја вклучиме и поддржиме заедницата за истражување во машинското учење во истражување нов, строго ограничен проблем од машинското учење. Сакавме предизвикот да биде доволно интересен за да награди вистинска техничка креативност, а притоа да остане концептуално едноставен и лесен за проверка.

Учесниците требаше да ја минимизираат загубата на издвоен фиксен FineWeb збир на податоци, притоа останувајќи во рамки на ограничување од 16 MB за артефактот, вклучувајќи ги и тежините на моделот и кодот за обука, како и буџет од 10 минути за обука на 8×H100. Обезбедивме основна верзија, збир на податоци и скрипти за евалуација за учесниците да можат да го разгрануваат репозиториумот, да го подобрат моделот и да ги поднесат резултатите преку GitHub.

Во текот на осум недели, добивме повеќе од 2.000 поднесоци од над 1.000 учесници. Бевме импресионирани од техничката широчина, креативноста и поместувањето на правилата низ поднесоците, од внимателно поставување на оптимизаторот и работа на квантизација до нови идеи за моделирање и обука во време на тестирање.

Еден од највозбудливите делови од предизвикот беше да видиме колку широко учесниците користеа агенти за кодирање со ВИ. Агентите помогнаа да се намали цената на експериментирањето, им олеснија на повеќе луѓе да учествуваат и го сменија темпото на натпреварот. Тие создадоа и нови предизвици за преглед на поднесоците, атрибуција и бодување.

Предизвикот за нас стана и значајна површина за откривање талент. Тоа беше една од нашите цели со Parameter Golf и беше корисен сигнал дека техничките предизвици со отворен крај можат да откријат исклучителен истражувачки инстинкт и истрајност во машинското учење.

Во овој текст, истакнуваме некои од поднесоците што ни беа изненадувачки и интересни и споделуваме што научивме од организирање натпревар во кодирање во ерата на моќни агенти со ВИ.

Технички впечатоци

Рекордна патека

Го оценивме и независно го репродуциравме секој поднесок на табелата со резултати за рекордната патека и потврдивме дека секој поднесок бил рекорден во моментот кога бил поднесен. Се истакнаа неколку теми.

Оптимизација на обуката

Некои од најсилните резултати дојдоа од внимателно подесување на постојните компоненти.

Поднесок	Придонесувач	Техника	Зошто беше важно
#60	@notapplica	Комбинирано претходни победи од #50, #42, и веројатно #39, потоа овозможија подлабок модел да функционира со Muon распаѓање на тежините, иницијализација на спектрално вградување, распоредување на residual-mix и компајлирана евалуација.	A силен пример за дисциплинирана работа на табела со рангирање: идентификување кои постојни подобрувања се важни и нивно уредно комбинирање.

Квантизација

Неколку поднесоци силно се насочија кон компресија и извоз.

Поднесок	Придонесувач	Техника	Зошто беше важно
#414	@signalrush	Користено GPTQ-lite за квантизирање на тежините по обуката.	The првата пријава на ранг-листата што успешно користи GPTQ-lite, што доведе до подобра евалуација.
#1060	@dexhunter	Се надоврза на #634 од @raahilshah за успешно користење целосен Hessian GPTQ.	Ја прошири претходната работа за квантизација во посилна патека за компресија.

Стратегии за време на тестирање и евалуација

Некои поднесоци ја поместија границата меѓу подобрување на моделот и стратегија за евалуација. Овие пристапи беа валидни според правилата, но бараа внимателен преглед од нас како организатори.

Поднесок	Придонесувач	Техника	Зошто беше важно
#77	@samacqua	Користено прво оценување, LoRA тренинг при тестирање по документ: прво оцени, адаптирај само на веќе оценети сегменти и ресетирај на границите на документите.	Ја помести границата меѓу подобрувањето на моделот и стратегијата за евалуација, истовремено останувајќи прегледливо според правилата.
#1019	@abaybektursun	Користено самогенерирана GPTQ калибрација: генерирајте калибрациски текст од обучениот модел, потоа изградете GPTQ Хесијани од тие активации.	A креативна стратегија за калибрација што бараше внимателен преглед од страна на организаторите.

Нови идеи за моделирање и податоци

Неколку поднесоци воведоа идеи за моделирање или податоци што беа особено креативни.

Поднесок	Придонесувач	Техника	Зошто беше важно
#1729	@romeerp	Воведен е токенизаторот CaseOps: токени на оператори за употреба на големи букви без загуби со придружно BPB-евидентирање на оригиналните бајтови.	A креативна идеја за токенизатор и претставување на податоци.
#265	@unnir	Воведено XSA, ефикасен делумен пристап на ексклузивно само-внимание со групирани прикази свесни за GQA.	Донесено ефикасна варијанта на механизмот за внимание во предизвикот.
#65	@aquariouseworkman	Воведено SmearGate и BigramHash: научена мешавина на вградувања на претходниот токен плус хеш-карактеристики на парови соседни токени.	Додадено механизми за нови функции од нула.
#1204	@msisovic	Воведено мини рекурентност по длабочина: повторени слоеви 4 и 5, одложена рекурентност до средината на тренирањето и делумно разврзани повторените MLP.	Првиот прифатен ред на ранг-листата што направи рекурентните слоеви да функционираат ефективно.

Избравме да ги истакнеме овие девет поднесоци бидејќи го претставуваат опсегот на резултати што се надевавме дека предизвикот ќе ги изнесе на површина. Некои учесници дојдоа до успеси преку внимателно подесување. Други ги туркаа квантизацијата и техниките со низок ранг. Некои ги истражуваа рабовите на правилата за евалуација. А неколку воведоа идеи за моделирање или податоци, од литературата или од нула, што дадоа неочекувани подобрувања.

Нерекордна патека

Нерекордната патека беше дом на многу креативни поднесоци. Истакнавме 15 омилени, вклучувајќи пристапи од неавторегресивно текстуално моделирање до динамичка токенизација.

Бидејќи оваа патека беше поекспериментална, помалку се фокусиравме на суровите перформанси, а повеќе на тоа дали пристапот е технички интересен. Особено се истакнаа три поднесоци:

Ова беа нашите три омилени нерекордни поднесоци, иако не беа нужно првите три според перформанси.

Сепак, нерекордната патека и понатаму беше конкурентна. Половина од записите на нерекордната табела со резултати ја надминаа наивната основна линија од 1,22 BPB, а прворангираниот запис достигна 1,12 BPB.

Ова ни беше охрабрувачко. Дури и наспроти силни основни линии на трансформер, алтернативните пристапи понекогаш можеа да се носат со доминантната архитектура.

Исто така мислиме дека оваа патека особено има корист од достапноста на силни агенти за кодирање. Агентите значително ја намалија цената на прототипирање на шпекулативни идеи, вклучувајќи пристапи што претходно можеби изгледале премногу одземаат време или премногу неизвесни за да се пробаат во краток натпревар.

Клучни поуки

Голема разлика меѓу Parameter Golf и слични претходни натпревари беше широката употреба на агенти за кодирање. Огромното мнозинство поднесувачи споменаа дека користеле агенти како дел од својата работа.

Тоа ја намали бариерата за влез. Учесниците можеа побрзо да поставуваат експерименти, да прегледуваат непознат код и да тестираат идеи со помалку пречки. Спонзорството на Runpod со пресметковни ресурси во вредност од 1.000.000 американски долари исто така одигра значајна улога во тоа предизвикот да стане достапен за повеќе луѓе.

Во исто време, користењето агенти создаде нови проблеми за поднесување и бодување. Многу поднесоци беа мали измени на постојни најдобро рангирани решенија, наместо суштински нови пристапи. Тоа често беше корисно: силните идеи брзо се ширеа и беа доработувани од други. Но создаде и шум. Кога поднесоци што беа надвор од насоките на натпреварот даваа невообичаено силни резултати, други агенти понекогаш ги копираа тие идеи и продолжуваа по истата невалидна патека.

Обемот на поднесоци исто така го смени начинот на кој моравме да го водиме натпреварот. Не можевме рачно да го провериме секој поднесок и притоа табелата со резултати да продолжи да се движи. За време на предизвикот, развивме интерен бот за тријажа базиран на Codex за да ги следи новите поднесоци и да ги означува за човечки преглед. Ова стана особено важно во периоди кога добивавме стотици поднесоци дневно.

Агентите со ВИ станаа и дел од заедницата околу предизвикот. Во голем дел од натпреварот, @notapplica и нивниот агент за кодирање водеа билтен „Новости во живо“, следејќи ги главните настани, објаснувајќи ги пристапите на табелата со резултати и помагајќи им на другите учесници да го следат натпреварот. Се појавија и алатки за преглед од заедницата за да им помогнат на помалку искусните учесници да проверат дали нивните поднесоци се во рамки на правилата и да избегнат вообичаени невалидни пристапи.

Што е следно?

Нашата главна цел беше да покренеме предизвик во кој учесниците што ги исполнуваат условите⁠(се отвора во нов прозорец) би можеле да учествуваат и да искусат истражување во областа на машинското учење. Parameter Golf донесе широк спектар технички силни и креативни поднесоци и ни даде појасна слика за тоа како натпреварите за отворено истражување може да се менуваат како што стануваат агентите со ВИ поспособни и пошироко користени.

Размислуваме во иднина да започнеме уште вакви предизвици. Ако сте заинтересирани, пополнете го образецот за учество во предизвикот⁠(се отвора во нов прозорец).

2026

Автор

OpenAI

Продолжи да читаш

Види ги сите

Одвојување сигнал од шум во евалуации на кодирање

Истражување8 јул. 2026 г.

Претставување на GeneBench-Pro

Истражување30 јун. 2026 г.

A near-autonomous AI chemist improves a challenging reaction

Речиси автономен AI хемичар подобрува предизвикувачка реакција во медицинската хемија

Истражување17 јун. 2026 г.