12 травня 2026 р.

Чого нас навчив Parameter Golf

Корисні уроки від понад 1 000 учасників, із 2 000+ заявок і відкритого конкурсу з машинного навчання, які було отримано завдяки агентам програмування.

Завантаження…

Ми запустили Parameter Golf, щоб залучити й підтримати дослідницьку спільноту машинного навчання в дослідженні нової задачі машинного навчання з жорсткими обмеженнями. Ми хотіли, щоб цей конкурс був достатньо цікавим, аби винагороджувати справжню технічну креативність, водночас залишаючись концептуально простим і легким для перевірки.

Учасники мали мінімізувати held-out loss на фіксованому наборі даних FineWeb, залишаючись у межах ліміту артефакту 16 МБ, включно з вагами моделі та кодом навчання, а також бюджету навчання 10 хвилин на 8×H100. Ми надали базове рішення, набір даних і скрипти оцінювання, щоб учасники могли створити форк репозиторію, покращити модель і подати результати через GitHub.

За вісім тижнів ми отримали понад 2 000 заявок від більш ніж 1 000 учасників. Нас вразили технічна широта, креативність і готовність розсувати межі правил у цих заявках — від ретельного налаштування оптимізатора та роботи з квантизацією до нових ідей моделювання й навчання під час тестування.

Однією з найцікавіших частин конкурсу було побачити, наскільки широко учасники використовували ШІ-агентів для програмування. Агенти допомогли знизити вартість експериментів, полегшили участь для більшої кількості людей і змінили темп змагання. Водночас вони створили нові виклики для перевірки заявок, атрибуції та оцінювання.

Цей конкурс також став для нас важливим майданчиком для виявлення талантів. Це було однією з наших цілей у рамках Parameter Golf, і стало корисним сигналом того, що відкриті технічні конкурси можуть виявляти виняткове чуття до машинного навчання та наполегливість.

У цій публікації ми висвітлюємо деякі заявки, які здалися нам несподівано цікавими, і ділимося тим, чого навчилися, проводячи конкурс із програмування в епоху потужних ШІ-агентів.

Технічні враження

Відстеження рекордів

Ми оцінили й незалежно відтворили кожну заявку в таблиці лідерів із відстеженням рекордів та перевірили, що кожна заявка на момент надсилання встановлювала рекорд. Особливо вирізнялося кілька тем.

Оптимізація навчання

Деякі з найсильніших результатів були отримані завдяки ретельному налаштуванню наявних компонентів.

Заявка	Учасник	Техніка	Чому це важливо
#60	@notapplica	Об’єднано попередні успіхи з #50, #42, і, ймовірно, #39, після чого глибша модель запрацювала із Muon weight decay, ініціалізацією спектральних ембедингів, плануванням residual-mix і скомпільованим оцінюванням.	Сильний приклад дисциплінованої роботи з таблицею лідерів: визначення того, які з наявних покращень мають значення, та акуратне їх поєднання.

Квантизація

Кілька заявок активно просували стиснення та експорт.

Заявка	Учасник	Техніка	Чому це важливо
#414	@signalrush	Використано GPTQ-lite для квантування ваг після навчання.	Перша заявка в таблиці лідерів, в якій було успішно використано GPTQ-lite, що забезпечило краще оцінювання.
#1060	@dexhunter	Побудовано на основі #634 за авторством @raahilshah із метою успішного використання Hessian GPTQ у повному обсязі.	Розширено попередню роботу з квантизації до більшого стиснення.

Стратегії під час тестування та оцінювання

Деякі заявки розмивали межу між покращенням моделі та стратегією оцінювання. Ці підходи були допустимими за правилами, але вимагали від нас як організаторів ретельної перевірки.

Заявка	Учасник	Техніка	Чому це важливо
#77	@samacqua	Використано навчання LoRA під час тестування за принципом score-first для кожного документа: спершу оцінювати, адаптувати лише на вже оцінених фрагментах і скидати стан на межах документів.	Розсунуто межу між покращенням моделі та стратегією оцінювання, при цьому рішення залишалося придатним для перевірки за правилами.
#1019	@abaybektursun	Використано самозгенероване калібрування GPTQ: згенерувати калібрувальний текст на основі навченої моделі, а потім побудувати матриці Гессе GPTQ на основі цих активацій.	Креативна стратегія калібрування, яка вимагала ретельної перевірки з боку організаторів.

Нові ідеї моделювання та даних

Кілька заявок представили ідеї щодо моделювання або даних, які були особливо креативними.

Заявка	Учасник	Техніка	Чому це важливо
#1729	@romeerp	Запроваджено токенізатор CaseOps: токени операторів капіталізації без втрат із супутнім обліком BPB за початковими байтами.	Креативна ідея токенізатора та представлення даних.
#265	@unnir	Впроваджено XSA, ефективний підхід часткової ексклюзивної самоуваги зі згрупованими поданнями з урахуванням GQA.	У це завдання додано ефективний варіант механізму уваги.
#65	@aquariouseworkman	Запроваджено SmearGate і BigramHash: навчена суміш вбудовувань попереднього токена плюс хеш-ознаки пар суміжних токенів.	Додано механізми нових функцій з нуля.
#1204	@msisovic	Запроваджено міні-рекурентність за глибиною: повторено шари 4 і 5, рекурентність відкладено до середини навчання, а повторювані MLP частково розв’язано.	Перший прийнятий рядок таблиці лідерів, у якому вдалося забезпечити ефективну роботу рекурентних шарів.

Ми вирішили виділити ці дев’ять заявок, бо вони представляють той спектр результатів, який, як ми сподівалися, виявить цей конкурс. Деякі учасники досягли успіху завдяки ретельному налаштуванню. Інші просували квантизацію та низькорангові техніки. Дехто досліджував межі правил оцінювання. Іще кілька учасників запропонували ідеї моделювання або даних — з існуючої бази чи створені з нуля, — які дали неочікувані покращення.

Етап без відстеження рекордів

Цей етап став домівкою для багатьох креативних заявок. Ми відзначили 15 фаворитів, зокрема тих, що просували різноманітні підходи від неавторегресивного моделювання тексту до динамічної токенізації.

Оскільки цей етап був більш експериментальним, ми менше зосереджувалися на сирій продуктивності й більше — на тому, чи був підхід технічно цікавим. Особливо вирізнялися три заявки:

Це були наші три улюблені нерекордні заявки, хоча вони не обов’язково входили до трійки найкращих за продуктивністю.

Водночас нерекордний етап усе ще був конкурентним. Половина записів у таблиці лідерів нерекордного етапу перевершила нативне базове значення 1.22 BPB, а запис із першим місцем досяг 1.12 BPB.

Ми вважаємо це обнадійливим. Навіть проти сильних базових рішень на основі трансформерів альтернативні підходи іноді могли гідно конкурувати з домінантною архітектурою.

Ми також вважаємо, що цей етап особливо виграє від доступності сильних агентів для програмування. Агенти значно здешевили прототипування спекулятивних ідей, зокрема підходів, які раніше могли здаватися надто затратними за часом або надто невизначеними, щоб пробувати їх у короткому змаганні.

Висновки

Головною відмінністю між Parameter Golf і схожими попередніми змаганнями стало широке використання агентів для програмування. Переважна більшість учасників згадували, що використовували агентів як частину своєї роботи.

Це знизило бар’єр входу. Учасники могли швидше налаштовувати експерименти, аналізувати незнайомий код і тестувати ідеї з меншими труднощами. Спонсорська підтримка Runpod у вигляді $1 000 000 на обчислення також відіграла велику роль у тому, щоб зробити конкурс доступним для більшої кількості людей.

Водночас використання агентів створило нові проблеми для заявок та оцінювання. Багато заявок представляли собою невеликі зміни для наявних лідерів, а не принципово нові підходи. Часто це було корисно: сильні ідеї швидко поширювалися й доопрацьовувалися іншими. Але це також створювало інформаційний шум. Коли заявки, що виходили за межі правил змагання, показували незвично сильні результати, інші агенти іноді копіювали ці ідеї й продовжували рухатися тим самим недійсним шляхом.

Обсяг заявок також змінив те, як нам довелося проводити змагання. Ми не могли вручну перевіряти кожну заявку й водночас підтримувати рух таблиці лідерів. Під час конкурсу ми розробили внутрішнього бота для сортування на базі Codex, який відстежував нові заявки та позначав їх для перевірки людьми. Це стало особливо важливим у періоди, коли ми отримували сотні заявок на день.

ШІ-агенти також стали частиною спільноти навколо цього конкурсу. Протягом значної частини змагання @notapplica та їхній агент для програмування вели дайджест «Оперативні оновлення», відстежуючи головні події, пояснюючи підходи в таблиці лідерів і допомагаючи іншим учасникам стежити за змаганням. Також з’явилися інструменти спільнотної перевірки, які допомагали менш досвідченим учасникам перевіряти, чи відповідають їхні заявки правилам, і уникати поширених недійсних підходів.

Що далі?

Нашою основною метою було запустити конкурс, у якому відповідні учасники⁠(відкривається у новому вікні) могли б взяти участь і відчути, що таке дослідження в машинному навчанні. Parameter Golf зібрав широкий спектр технічно сильних і креативних заявок, а також дав нам чіткіше уявлення про те, як можуть змінюватися відкриті дослідницькі змагання в міру того, як ШІ-агенти стають потужнішими й ширше використовуються.

Ми думаємо про запуск нових подібних конкурсів у майбутньому. Якщо вам це цікаво, будь ласка, заповніть форму учасника конкурсу⁠(відкривається у новому вікні).

2026

Автор

OpenAI

Продовжити читати

Переглянути всі

Відокремлення сигналу від шуму в оцінюваннях коду

Дослідження8 лип. 2026 р.

Представляємо GeneBench-Pro

Дослідження30 черв. 2026 р.

A near-autonomous AI chemist improves a challenging reaction

Майже автономний ШІ-хімік оптимізував складну реакцію в медичній хімії

Дослідження17 черв. 2026 р.