Переход к основному контенту
OpenAI

12 мая 2026 г.

Исследования

Чему нас научил Parameter Golf

Уроки, извлеченные на основе опыта более 1000 участников, 2000 заявок и открытого челленджа по машинному обучению, на ход которого повлияли ИИ-агенты для написания кода.

Загрузка…

Мы запустили Parameter Golf, чтобы привлечь сообщество исследователей в области машинного обучения к изучению новой задачи с жестко заданными ограничениями. Мы хотели, чтобы этот челлендж был достаточно интересным для проявления настоящей технической изобретательности и в то же время оставался концептуально простым и легко проверяемым.

Участники должны были минимизировать потери на отложенной выборке (held-out loss) из фиксированного датасета FineWeb, соблюдая при этом строгие лимиты: размер артефакта (включая веса модели и код обучения) не должен был превышать 16 МБ, а время обучения на 8×H100 — 10 минут. Мы предоставили базовое решение, датасет и скрипты оценки, чтобы участники могли сделать форк репозитория, улучшить модель и отправить свои результаты через GitHub.

За восемь недель мы получили более 2 000 заявок от более чем 1 000 участников. Нас впечатлили техническая широта, креативность и умением участников «играть на грани правил» — от тщательной настройки оптимизатора и работы с квантованием до новых идей в моделировании и обучения во время тестирования.

Одной из самых захватывающих частей челленджа было увидеть, насколько широко участники использовали ИИ-агентов для программирования. Агенты помогли снизить стоимость экспериментов, упростили участие для большего числа людей и изменили темп соревнования. Они также создали новые сложности для проверки заявок, атрибуции и подсчета результатов.

Челлендж также стал для нас эффективным инструментом поиска талантов. Это была одна из целей Parameter Golf, и конкурс подтвердил: открытые технические задачи помогают выявлять людей с исключительным чутьем в машинном обучении и выдающейся настойчивостью.

В этом посте мы выделим некоторые заявки, которые показались нам неожиданными и интересными, и поделимся тем, чему научились, проводя соревнование по программированию в эпоху мощных ИИ-агентов.

Технические впечатления

Рекордный зачет

Мы оценили и независимо воспроизвели каждую заявку в таблице лидеров рекордного зачета и подтвердили, что каждая заявка на момент подачи устанавливала рекорд. Особенно выделилось несколько тем.

Оптимизация обучения

Некоторые из самых сильных результатов были получены благодаря тщательной настройке существующих компонентов.

ЗаявкаУчастникМетодПочему это было важно
#60@notapplicaОбъединение предыдущих побед из #50, #42 и, вероятно, #39, после чего более глубокую модель удалось эффективно использовать за счет затухания весов Muon, спектральной инициализации эмбеддингов, планирования residual-mix и скомпилированной оценки. Яркий дисциплинированной работы с таблицей лидеров: автор определил, какие из существующих улучшений действительно важны, и аккуратно их объединил.

Квантование

В нескольких заявках основной упор был сделан на экстремальное сжатие и экспорт моделей..

ЗаявкаУчастникМетодПочему это было важно
#414@signalrushПрименение GPTQ-lite для квантования весов после обучения. Первая заявка в таблице лидеров, где GPTQ-lite был успешно применен и помог повысить качество оценки.
#1060@dexhunterРазвитие идеи #634 от @raahilshah: успешное применение полноматричного Hessian GPTQ.Развитие ранних наработок по квантованию в сторону более эффективного подхода к сжатию.

Стратегии во время тестирования и оценки

Некоторые заявки раздвигали границу между улучшением модели и стратегией оценки. Эти подходы были допустимы по правилам, но требовали от нас как организаторов тщательной проверки.

ЗаявкаУчастникМетодПочему это было важно
#77@samacquaПрименение score-first LoRA-обучения во время тестирования для каждого документа: сначала выполняется оценка, затем адаптация только на уже оцененных фрагментах с последующим сбросом состояния на границах документов.Подход, размывающий границу между улучшением модели и стратегией оценки, при этом оставаясь проверяемым в рамках правил.
#1019@abaybektursunПрименение самогенерируемой калибровки GPTQ: калибровочный текст генерируется обученной моделью, после чего на основе этих активаций строятся Hessian-матрицы GPTQ. Креативная стратегия калибровки, потребовавшая тщательной проверки со стороны организаторов.

Новые идеи в моделировании и данных

Несколько заявок представили особенно креативные идеи в моделировании или данных.

ЗаявкаУчастникМетодПочему это было важно
#1729@romeerpВведение токенизатора CaseOps: операторных токенов капитализации без потерь с сопутствующим учётом BPB исходных байтов. Креативная идея для токенизатора и представления данных.
#265@unnirПредставление эффективного подхода partial Exclusive Self Attention со сгруппированными представлениями с учетом GQA.Привнес эффективный вариант механизма внимания в челлендж.
#65@aquariouseworkmanПредставление SmearGate и BigramHash: обучаемого смешивания эмбеддингов предыдущих токенов и хеш-признаков пар соседних токенов.Добавлены новые механизмы признаков, разработанные с нуля.
#1204@msisovicПредставление мини-рекуррентности по глубине: повторили слои 4 и 5, отложили рекуррентность до середины обучения и частично развязали веса повторяющихся MLP.Первая принятая запись в таблице лидеров, в которой удалось заставить рекуррентные слои эффективно работать.

Мы решили выделить эти девять заявок, потому что они отражают тот диапазон результатов, который, как мы надеялись, проявит этот челлендж. Одни участники добились успеха благодаря тщательной настройке. Другие продвигали квантование и низкоранговые методы. Некоторые исследовали границы правил оценки. А несколько представили идеи в моделировании или данных — из литературы или созданные с нуля, — которые дали неожиданный прирост.

Основной зачет

Основной зачет собрал множество креативных заявок. Мы отобрали 15 наиболее интересных работ с самыми разными подходами — от неавторегрессионного моделирования текста до динамической токенизации.

Поскольку этот зачет был более экспериментальным, мы меньше фокусировались на чистой производительности и больше — на том, был ли подход технически интересным. Особенно выделились три заявки:

Это были три наши любимые заявки вне рекордного зачета, хотя по производительности они не обязательно входили в топ-3.

Тем не менее, конкуренция в основном зачете была не менее острой. Половина всех заявок в этом списке превзошла «наивное» базовое решение (1,22 BPB), а результат лидера рейтинга достиг 1,12 BPB.

Мы сочли это обнадеживающим. Даже на фоне сильных базовых трансформеров альтернативные подходы иногда могли достойно конкурировать с доминирующей архитектурой.

Мы также считаем, что этот трек особенно выигрывает от доступности сильных агентов для написания кода. Агенты значительно удешевили прототипирование спекулятивных идей, включая подходы, которые раньше могли казаться слишком затратными по времени или слишком неопределенными для короткого соревнования.

Выводы

Ключевым отличием Parameter Golf от похожих более ранних соревнований стало широкое использование кодинговых агентов. Подавляющее большинство участников упоминали, что использовали агентов как часть своей работы.

Это снизило порог входа. Участники могли быстрее настраивать эксперименты, разбираться в незнакомом коде и проверять идеи с меньшим количеством препятствий. Спонсорская поддержка Runpod в виде вычислительных ресурсов на сумму 1,000,000 долларов США также сыграла важную роль в том, чтобы сделать этот конкурс доступным для большего числа людей.

В то же время использование агентов создало новые проблемы для подачи заявок и подсчета результатов. Многие заявки представляли собой небольшие изменения по сравнению с существующими лидерами, а не принципиально новые подходы. Часто это было полезно: сильные идеи быстро распространялись и дорабатывались другими. Но это также создавало «шум». Когда заявки, выходившие за рамки правил соревнования, показывали необычно сильные результаты, другие агенты иногда копировали эти идеи и продолжали двигаться по тому же недопустимому пути.

Объем заявок также изменил то, как нам пришлось проводить соревнование. Мы не могли вручную проверять каждую заявку и при этом поддерживать движение таблицы лидеров. Во время челленджа мы разработали внутреннего бота для сортировки на базе Codex, чтобы отслеживать новые заявки и помечать их для проверки человеком. Это стало особенно важно в периоды, когда мы получали сотни заявок в день.

ИИ-агенты также стали частью сообщества, сформировавшегося вокруг челленджа. На протяжении большей части соревнований пользователь @notapplica и его кодинговый агент вели бюллетень «Live Updates»: они отслеживали важные события, объясняли подходы лидеров и помогали другим участникам следить за ходом борьбы. Также появились инструменты для комьюнити-ревью, которые помогали менее опытным участникам проверять свои заявки на соответствие правилам и избегать типичных ошибок.

Что дальше?

Наша главная цель заключалась в том, чтобы запустить соревнование, которое позволило бы участникам, отвечающим требованиям(открывается в новом окне) принять в нем участие и получить опыт участия в исследованиях в области машинного обучения. Parameter Golf привлек широкий спектр технически сильных и креативных заявок и дал нам более ясное представление о том, как могут меняться открытые исследовательские соревнования по мере того, как ИИ-агенты становятся более способными и широко используемыми.

Мы думаем о запуске новых подобных челленджей в будущем. Если вам интересно, пожалуйста, заполните форму участника челленджа(открывается в новом окне).

Автор

OpenAI