12 май 2026 г.

Какво ни научи Parameter Golf

Уроци от над 1000 участници, над 2000 подавания и открито предизвикателство по машинно обучение, оформено от coding агенти.

Зареждане…

Стартирахме Parameter Golf, за да ангажираме и подкрепим научната общност в машинното обучение при изследването на нов, строго ограничен проблем в тази област. Искахме предизвикателството да бъде достатъчно интересно, за да възнагради истинската техническа креативност, като същевременно остане концептуално просто и лесно за проверка.

Участниците трябваше да минимизират загубата върху отделен (held-out) дял от фиксиран набор данни FineWeb, като същевременно се вместят в ограничение от 16 MB за артефакта, включително теглата на модела и кода за обучение, и в бюджет от 10 минути за обучение на 8×H100. Предоставихме базов модел, набор от данни и скриптове за оценка, така че участниците да могат да разклонят хранилището, да подобрят модела и да изпратят резултатите си чрез GitHub.

В рамките на осем седмици получихме повече от 2000 предложения от над 1000 участници. Бяхме впечатлени от техническата широта, креативността и нестандартния подход на подадените решения – от прецизната настройка на оптимизатори и работата по квантуването до нови идеи за моделиране и обучение по време на тестване.

Една от най-вълнуващите части на предизвикателството беше да видим колко широко участниците използваха AI агенти за програмиране. Агентите помогнаха за намаляване на разходите за експериментиране, улесниха участието на повече хора и промениха темпото на състезанието. Те също така създадоха нови предизвикателства за преглед, приписване и оценяване на предложенията.

Предизвикателството се превърна и в значима платформа за откриване на таланти. Това беше една от целите ни за Parameter Golf и беше полезен сигнал, че техническите предизвикателства с отворен край могат да разкрият изключителен усет и постоянство в машинното обучение.

В тази публикация представяме някои от предложенията, които ни се сториха изненадващи и интересни, и споделяме какво научихме от провеждането на състезание по програмиране в ерата на мощните AI агенти.

Технически впечатления

Класация за рекорди

Оценихме и извършихме независимо възпроизвеждане на всяко предложение от класацията за рекорди и потвърдихме, че към момента на подаването си всяко от тях действително е поставяло нов рекорд. Откроиха се няколко основни теми:

Оптимизация на обучението

Някои от най-силните резултати дойдоха от внимателната настройка на съществуващи компоненти.

Предложение	Автор	Техника	Защо е важно
#60	@notapplica	Комбинира предишни успехи от #50, #42, а вероятно и #39, след което създава по-задълбочен модел, който работи с разпад на теглото на мюоните, инициализация на спектрални вграждания, планиране на смесване на остатъци и компилирано оценяване.	Отличен пример за дисциплинирана работа по класацията: идентифициране кои съществуващи подобрения са от значение и комбинирането им по изчистен начин.

Квантуване

Няколко предложения наблегнаха значително на компресията и експортирането.

Предложение	Автор	Техника	Защо е важно
#414	@signalrush	Използва GPTQ-lite за квантуване на теглата след обучение.	Първото предложение в класацията, което използва успешно GPTQ-lite, водещо до по-добра оценка.
#1060	@dexhunter	Надгради #634 от @raahilshah, за да използва успешно пълен Hessian GPTQ.	Разшири предишна работа по квантуването в по-силен път за компресия.

Стратегии за тестване и оценяване

Някои предложения размиха границата между подобряването на модела и стратегията за оценяване. Тези подходи бяха допустими съгласно правилата, но изискваха внимателен преглед от наша страна като организатори.

Предложение	Автор	Техника	Защо е важно
#77	@samacqua	Използва обучение по време на тестване с LoRA, ориентирано към резултата за всеки документ: първо се изчислява резултатът, адаптира се само върху вече оценените части и се нулира при границите на документа.	Разшири границата между подобряването на модела и стратегията за оценяване, като същевременно остана подлежащ на преглед съгласно правилата.
#1019	@abaybektursun	Използва самогенерирано GPTQ калибриране: генериране на калибрационен текст от обучения модел, след което изграждане на GPTQ хесиани от тези активации.	Креативна стратегия за калибриране, която изисква внимателен преглед от организаторите.

Нови идеи за моделиране и данни

Няколко предложения представиха особено креативни идеи за моделиране или данни.

Предложение	Автор	Техника	Защо е важно
#1729	@romeerp	Въвежда токенизатора CaseOps: токени с оператор за регистъра на буквите без загуба на информация с отчитане на оригиналните байтове чрез BPB sidecar.	Креативна идея за токенизатор и представяне на данни.
#265	@unnir	Представя XSA, ефективен подход за частично изключващо самовнимание с групирани изгледи, съобразени с GQA.	Въвежда ефективен вариант на механизма за внимание в състезанието.
#65	@aquariouseworkman	Въвежда SmearGate и BigramHash: комбинация от научено вграждане на предишния токен и хеш характеристики на съседни двойки токени.	Добавя механизми за нови функции от нулата.
#1204	@msisovic	Въвежда мини рекурентност по дълбочина: повторени слоеве 4 и 5, отложена рекурентност до средата на обучението и частично развързани повтарящи се MLP модули.	Първият приет ред в класацията, който кара рекурентните слоеве да работят ефективно.

Избрахме да представим тези девет предложения, защото те демонстрират диапазона от резултати, които се надявахме да получим в рамките на състезанието. Някои участници намериха печеливши решения чрез внимателна настройка. Други заложиха на квантуването и техники с нисък ранг. Трети изследваха границите на правилата за оценяване. А други представиха идеи за моделиране или данни, взети от литературата или създадени от нулата, които доведоха до неочаквани подобрения.

Класация без рекорди

В категорията на нерекордните предложения бяха представени много креативни проекти. Избрахме 15 фаворита, включващи подходи, вариращи от неавторегресивно моделиране на текст до динамична токенизация.

Тъй като тази категория беше по-експериментална, ние се съсредоточихме по-малко върху суровите резултати и повече върху това дали подходът е технически интересен. Откроиха се най-вече три проекта:

Това са нашите три фаворита извън рекордните, въпреки че те не бяха непременно първите три по производителност.

Независимо от това класацията без рекорди беше конкурентна. Половината от предложенията в нея надминаха наивния базов резултат от 1,22 BPB, а най-високо класираният запис достигна 1,12 BPB.

За нас тези резултати са окуражаващи. Алтернативните подходи понякога можеха да се мерят с доминиращата архитектура дори срещу силни базови трансформаторни модели.

Смятаме също така, че тази категория се възползва особено от наличието на силни агенти за програмиране. Агентите намалиха значително цената на прототипирането на спекулативни идеи, включително подходи, които преди може да са изглеждали твърде времеемки или несигурни, за да бъдат изпробвани в кратко състезание.

Изводи

Основна разлика между Parameter Golf и по-ранни подобни състезания беше широкото използване на агенти за програмиране. По-голямата част от участниците споменаха, че са използвали агенти като част от работата си.

Това свали бариерата за участие. Участниците можеха да подготвят експериментите си по-бързо, да преглеждат непознат код и да тестват идеите си с по-малко затруднения. Спонсорството от Runpod под формата на изчислителни ресурси на стойност 1 000 000 щатски долара също изигра ключова роля за това предизвикателството да стане достъпно за по-широк кръг участници.

В същото време използването на агенти създаде нови проблеми за подаването и оценяването. Много от предложенията представляваха малки промени в съществуващите решения с най-висок резултат, а не фундаментално нови подходи. Това често беше полезно: добрите идеи се разпространяваха бързо и се усъвършенстваха от другите. Но също така създаваше „шум“. Когато предложения, които не отговаряха на правилата на състезанието, получаваха необичайно високи резултати, други агенти понякога копираха тези идеи и продължаваха по същия невалиден път.

Обемът на подадените предложения промени и начина, по който трябваше да провеждаме състезанието. Не можехме ръчно да проверяваме всяко предложение и едновременно с това да поддържаме класацията в движение. По време на предизвикателството разработихме вътрешен бот за сортиране, базиран на Codex, за да следим новите предложения и да ги маркираме за преглед от човек. Това стана особено важно през периодите, когато получавахме стотици предложения на ден.

AI агентите също станаха част от общността около предизвикателството. През по-голямата част от състезанието @notapplica и техният агент за програмиране водеха бюлетин „Live Updates“, проследяващ важните събития, обясняващ подходите в класацията и помагащ на другите участници да следят състезанието. Появиха се и инструменти за преглед от общността, които помагаха на по-неопитните участници да проверят дали предложенията им са в рамките на правилата и да избягват често срещани невалидни подходи.

Какво следва?

Основната ни цел беше да стартираме предизвикателство, в което участниците, отговарящи на условията⁠(отваря се в нов прозорец), да могат да се включат и да се запознаят с изследванията в областта на машинното обучение. Parameter Golf привлече широк спектър от технически издържани и креативни предложения и ни даде по-ясна представа как отворените изследователски състезания могат да се променят, когато AI агентите станат по-способни и по-широко използвани.

Обмисляме да организираме и други подобни предизвикателства в бъдеще. Ако проявявате интерес, попълнете формуляра за участие в предизвикателството⁠(отваря се в нов прозорец).

2026 г.

Автор

OpenAI

Продължавайте да четете

Вижте всички

Отделяне на сигнала от шума в оценките за кодиране

Проучване8.07.2026 г.

Представяме GeneBench-Pro

Проучване30.06.2026 г.

A near-autonomous AI chemist improves a challenging reaction

Почти автономен ИИ химик подобрява трудна реакция в медицинската химия

Проучване17.06.2026 г.