12. мај 2026.

Шта нас је Parameter Golf научио

Лекције од 1000 и више учесника, 2000 и више поднесака и отвореног изазова из области машинског учења, обликованог агентима за кодирање.

Учитавање…

Покренули смо Parameter Golf како бисмо ангажовали и подржали истраживачку заједницу у области машинског учења у истраживању новог, строго ограниченог проблема машинског учења. Желели смо да изазов буде довољно занимљив да награди стварну техничку креативност, а да истовремено остане концептуално једноставан и лак за проверу.

Учесници су морали да на најмању меру сведу губитак на издвојеном делу фиксног скупа података FineWeb, уз поштовање ограничења артефакта од 16 MB, које обухвата тежине модела и шифру за обучавање, као и буџет за обучавање од 10 минута на 8×H100 GPU. Обезбедили смо основну верзију, скуп података и скрипте за процену како би учесници могли да додатно копирају депо, унапреде модел и пошаљу своје резултате путем услуге GitHub.

Током осам седмица курса примили смо више од 2000 поднесака од преко 1000 учесника. Били смо импресионирани техничком ширином, креативношћу и померањем граница у пристиглим радовима, од пажљивог подешавања оптимизатора и рада на квантизацији до нових идеја за моделовање и обуке у фази тестирања.

Један од најузбудљивијих делова изазова био је посматрање тога у којој су мери учесници користили агенте за програмирање засноване на вештачкој интелигенцији. Агенти су помогли у смањењу трошкова експериментисања, олакшали учешће већем броју људи и променили темпо такмичења. Такође су створили нове изазове у прегледу поднесака, приписивању заслуга и бодовању.

Изазов је за нас постао и значајна површина за откривање талената. То је био један од наших циљева за Parameter Golf, и представљао је користан сигнал да технички изазови отвореног типа могу открити изузетан осећај за машинско учење и истрајност.

У овој објави истичемо неке од радова који су нас изненадили и заинтересовали, те делимо оно што смо научили водећи такмичење у програмирању у доба моћних агената вештачке интелигенције.

Технички утисци

Праћење рекорда

Оценили смо и независно репродуковали сваки поднесак на листи рекорда и потврдили да је свака пријава обарала рекорд у тренутку када је поднета. Неколико тема се издвојило.

Оптимизација обуке

Неки од најбољих резултата проистекли су из пажљивог подешавања постојећих компонената.

Поднесак	Сарадник	Техника	Зашто је то важно
#60	@notapplica	Комбиноване претходне победе из #50, #42, а вероватно и #39, затим су омогућили да дубљи модел ради са мионским опадањем тежина, иницијализацијом спектралног уграђивања, распоређивањем преостале мешавине и израђеном проценом.	Јак пример дисциплинованог рада на ранг-листи: утврђивање која су постојећа побољшања важна и њихово уредно комбиновање.

Квантизација

Неколико поднетих решења нагласило је значај компресије и извоза.

Поднесак	Сарадник	Техника	Зашто је то важно
#414	@signalrush	Коришћено GPTQ-lite за одређивање количине тежине након обуке.	Први поднесак на ранг-листи који је успешно користио GPTQ-lite, што је довело до боље процене.
#1060	@dexhunter	Засновано на #634 аутора @raahilshah ради успешног коришћења GPTQ са пуном Хесијановом матрицом.	Проширен је ранији рад на квантизацији у снажнији пут компресије.

Стратегије времена тестирања и процене

Неки пријављени радови померили су границу између унапређења модела и стратегије процене. Ови приступи су били дозвољени према правилима, али су захтевали пажљиву проверу од нас као организатора.

Поднесак	Сарадник	Техника	Зашто је то важно
#77	@samacqua	Коришћено прво оцењивање, обука LoRA у време тестирања по документу: прво оценити, прилагођавати само на већ оцењеним сегментима и поништити на границама докумената.	Померио је границу између унапређења модела и стратегије процене, остајући подложан прегледу у складу са правилима.
#1019	@abaybektursun	Коришћена самогенерисана калибрација GPTQ: генеришите текст за калибрацију из обученог модела, а затим направите GPTQ по Хесијановој матрици из тих активација.	Креативна стратегија калибрације која је захтевала пажљиву проверу од стране организатора.

Идеје за нове моделе и податке

Неколико радова је представило изузетно креативне идеје у области моделирања или података.

Поднесак	Сарадник	Техника	Зашто је то важно
#1729	@romeerp	Представљен је токенизатор CaseOps: токени оператера за капитализацију без губитака са пратећим обрачуном оригиналних бајтова BPB.	Креативна идеја за токенизатор и представљање података.
#265	@unnir	Уведен је XSA, ефикасан приступ делимичне ексклузивне самопажње са груписаним приказима прилагођеним GQA-у.	Унео је ефикасну варијанту пажње у изазов.
#65	@aquariouseworkman	Уведени су SmearGate и BigramHash: научена мешавина уграђивања претходног токена уз карактеристике хешовања парова суседних токена.	Додати механизми нових функција од нуле.
#1204	@msisovic	Уведен минирекурентност по дубини: поновљени слојеви 4 и 5, одложена рекурентност до средине обуке и делимично развезани поновљени MLP-ови.	Први прихваћени ред на ранг-листи који је омогућио да рекурентни слојеви ефикасно функционишу.

Одлучили смо да истакнемо ових девет радова јер представљају распон резултата за које смо се надали да ће их изазов открити. Неки учесници су остварили успехе пажљивим подешавањем. Други су унапређивали технике квантизације и ниског ранга. Неки су истраживали границе правила процене. И неколико идеја у вези са моделирањем или подацима, из литературе или осмишљених од нуле, које су донеле неочекивана побољшања.

Праћење без рекорда

Категорија ван званичне евиденције била је полазиште за бројне креативне пријаве. Издвојили смо 15 фаворита, укључујући приступе који се крећу од неауторегресивног моделирања текста до динамичке токенизације.

Пошто је ова категорија била експерименталнија, мање смо се фокусирали на сирови учинак, а више на то да ли је приступ технички занимљив. Посебно су се истакла три поднеска:

Ово су била наша три омиљена поднеска која нису оборила рекорд, иако нису нужно била три најбоља по учинку.

Ипак, нерекордна категорија и даље је била такмичарска. Половина нерекордних уноса на ранг-листи била је боља од наивног почетног стања од 1,22 BPB, а првопласирани унос достигао је 1,12 BPB.

Ово нас је охрабрило. Чак и у поређењу са јаким референтним моделима заснованим на трансформаторима, алтернативни приступи су понекад могли успешно да парирају доминантној архитектури.

Такође сматрамо да ово праћење има посебну корист од доступности јаких агената за кодирање. Агенти су знатно појефтинили израду прототипа за спекулативне идеје, укључујући приступе који су раније можда деловали као да одузимају превише времена или су превише неизвесни да би се испробали у кратком такмичењу.

Кључне поуке

Главна разлика између изазова Parameter Golf и ранијих сличних такмичења била је у широкој употреби агената за програмирање. Велика већина подносилаца навела је да користи агенте у оквиру рада.

То је смањило улазну баријеру. Учесници су могли брже да конфигуришу експерименте, прегледају непознат кôд и тестирају идеје са мање потешкоћа. Спонзорство привредног друштва Runpod од 1.000.000 USD у рачунарским ресурсима такође је одиграло значајну улогу у томе да изазов буде доступан већем броју људи.

Истовремено, употреба агената створила је нове проблеме у вези са подношењем и оцењивањем. Многи поднети радови били су мање промене постојећих најбоље оцењених решења, а не суштински нови приступи. Ово је често било корисно: снажне идеје су се брзо шириле и други су их усавршавали. Али је то створило и шум. Када су поднесци који нису били у складу са смерницама такмичења остваривали неуобичајено високе резултате, други агенти су понекад копирали те идеје и настављали истим неважећим путем.

Обим пристиглих поднесака такође је променио начин на који смо морали да организујемо такмичење. Нисмо могли ручно да прегледамо сваки поднесак, а да ранг-листа и даље буде ажурна. Током изазова развили смо интерног бота за тријажу заснованог на услузи Codex који прати нове поднеске и означава их за људски преглед. То је постало нарочито важно током периода када смо примали на стотине поднесака дневно.

Агенти вештачке интелигенције такође су постали део заједнице окупљене око изазова. Током већег дела такмичења, @notapplica и њихов агент за кодирање водили су билтен „Ажурирања уживо”, пратећи главне догађаје, објашњавајући приступе табели са резултатима и помажући другим учесницима да прате такмичење. Такође се чинило да алатке за рецензирање од стране заједнице помажу мање искусним учесницима да провере да ли су њихови поднесци у складу са правилима и да избегну уобичајене неважеће приступе.

Шта је следеће?

Наш примарни циљ био је да покренемо изазов у којем би учесници који испуњавају услове⁠(отвара се у новом прозору) могли да учествују и стекну искуство у истраживању машинског учења. Parameter Golf је привукао широк спектар технички јаких и креативних пријављених решења и пружио нам јаснији увид у то како би отворена истраживачка такмичења могла да се мењају како агенти вештачке интелигенције постају способнији и у све широј употреби.

Размишљамо о покретању још оваквих изазова у будућности. Ако сте заинтересовани, попуните образац за учеснике изазова⁠(отвара се у новом прозору).

Аутор

OpenAI

Наставите са читањем

Прикажи све

Раздвајање сигнала од шума у проценама програмирања

Истраживање8. јул 2026.

Представљамо GeneBench-Pro

Истраживање30. јун 2026.

A near-autonomous AI chemist improves a challenging reaction

Скоро аутономни AI хемичар побољшава изазовну реакцију у медицинској хемији

Истраживање17. јун 2026.