Przejdź do treści głównej
OpenAI

12 maja 2026

Badania

Czego nauczył nas Parameter Golf?

Ponad 1000 uczestników, ponad 2000 zgłoszeń i otwarte wyzwanie w zakresie uczenia maszynowego kształtowanego przez agentów kodujących.

Ładowanie…

Celem Parameter Golf było zaangażowanie społeczności badawczej z obszaru uczenia maszynowego i zachęcenie do badania nowego problemu z obszaru uczenia maszynowego przy restrykcyjnym obwarowaniu. Chcieliśmy, by wyzwanie było na tyle interesujące, aby nagradzało prawdziwą techniczną kreatywność, a jednocześnie pozostawało koncepcyjnie proste i łatwe do zweryfikowania.

Uczestnicy musieli zminimalizować stratę na wydzielonym zbiorze FineWeb, mieszcząc się jednocześnie w limicie artefaktu wynoszącym 16 MB, obejmującym wagi modelu i kod treningowy, oraz w 10-minutowym budżecie treningowym 8×H100. Udostępniliśmy punkt odniesienia, zbiór danych i skrypty ewaluacyjne, aby uczestnicy mogli pracować na repozytorium, ulepszać model i przesyłać wyniki przez GitHub.

W ciągu ośmiu tygodni otrzymaliśmy ponad 2000 zgłoszeń od ponad 1000 uczestników. Zaimponowała nam techniczna rozpiętość, kreatywność i naginanie zasad, staranne dostrajanie optymalizatora, kwantyzacja, nowe podejścia do modelowania i treningu w czasie testu.

Jedną z najbardziej ekscytujących części wyzwania było obserwowanie, w jak szerokim zakresie uczestnicy korzystali z agentów AI do kodowania. Pomogły one obniżyć koszt eksperymentowania, zapewniły udział większej liczbie osób i zmieniły tempo rywalizacji. Stworzyły też nowe wyzwania związane z przeglądem zgłoszeń, atrybucją i punktacją.

Wyzwanie stało się dla nas także doskonałą okazją do odkrywania talentów. To był jeden z naszych celów i sygnał, że otwarte wyzwania techniczne mogą ujawniać wyjątkowe wyczucie uczenia maszynowego i wytrwałość.

W tym wpisie wyróżniamy niektóre zgłoszenia, które uznaliśmy za zaskakujące i interesujące, oraz dzielimy się wiedzą zdobytą podczas prowadzenia wyzwania programistycznego w erze potężnych agentów AI.

Wrażenia techniczne

Ścieżka oficjalna

Oceniliśmy i niezależnie odtworzyliśmy każde zgłoszenie z tablicy wyników ścieżki oficjalnej oraz zweryfikowaliśmy, że każde zgłoszenie było rekordowe w momencie przesłania. Szczególnie wyróżniło się kilka motywów.

Optymalizacja treningu

Niektóre najlepsze wyniki osiągnięto dzięki starannemu dostrojeniu istniejących komponentów.

ZgłoszenieAutorTechnikaDlaczego istotne
#60@notapplicaPołączenie wcześniejszych sukcesów z #50, #42 i prawdopodobnie z #39, następnie sprawiono, że głębszy model działał z zanikiem wag Muon, inicjalizacją osadzeń spektralnych, harmonogramowaniem residual-mix i skompilowaną ewaluacją. Mocny przykład zdyscyplinowanej pracy nad rankingiem: identyfikacja, które istniejące usprawnienia są istotne, i łączenie ich w przejrzysty sposób.

Kwantyzacja

W kilku zgłoszeniach mocno wykorzystano kompresję i eksport.

ZgłoszenieAutorTechnikaDlaczego istotne
#414@signalrushUżycie GPTQ-lite do kwantyzacji wag po treningu. Pierwsze zgłoszenie, w którym z powodzeniem użyło GPTQ-lite, co przełożyło się na lepszą ocenę.
#1060@dexhunterOparcie na #634 autorstwa @raahilshah skutecznie wykorzystuje pełny hesjan GPTQ.Rozwinięcie wcześniejszej pracy nad kwantyzacją w kierunku silniejszej kompresji.

Strategie czasu testu i ewaluacji

Niektóre zgłoszenia przesuwały granicę między ulepszaniem modelu a strategią ewaluacji. Podejścia te były zgodne z zasadami, ale wymagały od nas uważnej weryfikacji.

ZgłoszenieAutorTechnikaDlaczego istotne
#77@samacquaUżyto podejścia „najpierw ocenianie” oraz trening LoRA w czasie testowania dla każdego dokumentu: najpierw ocenianie, adaptacja tylko na już ocenionych fragmentach i resetowanie na granicach dokumentów.Przesunięcie granicy między ulepszaniem modelu a strategią ewaluacji z zachowaniem możliwości weryfikacji zgodnie z zasadami.
#1019@abaybektursunUżyto samodzielnie wygenerowanej kalibracji GPTQ: wygenerowanie tekstu kalibracyjnego z wytrenowanego modelu, a następnie utworzenie hesjany GPTQ na podstawie tych aktywacji. Kreatywna strategia kalibracji, która wymagała starannej weryfikacji ze strony organizatorów.

Nowe pomysły na modelowanie i dane

Kilka zgłoszeń wprowadziło pomysły dotyczące modelowania lub danych, które były nadzwyczaj kreatywne.

ZgłoszenieAutorTechnikaDlaczego istotne
#1729@romeerpWprowadzono tokenizer CaseOps: bezstratne tokeny operatora wielkości liter z rozliczaniem BPB oryginalnych bajtów w danych sidecar. kreatywny pomysł na tokenizer i reprezentację danych.
#265@unnirZastosowanie XSA, wydajnego, częściowego podejścia opartego na Exclusive Self Attention z grupowanymi widokami uwzględniającymi GQA.Wprowadzenie wydajny wariant mechanizmu uwagi do wyzwania.
#65@aquariouseworkmanZastosowanie SmearGate i BigramHash: wyuczona mieszanka osadzenia poprzedniego tokenu oraz funkcje haszujące par sąsiednich tokenów.Dodanie nowych mechanizmów funkcji od podstaw.
#1204@msisovicWprowadzenie mini rekurencja głębokościowa: powtórzone warstwy 4 i 5, opóźniona rekurencja do połowy treningu oraz częściowo rozdzielone powtarzane MLP.Pierwszy zaakceptowany wynik na tabeli rankingowej, w którym warstwy rekurencyjne działają skutecznie.

Wyróżniliśmy 9 zgłoszeń, ponieważ reprezentują one zakres wyników, które – jak mieliśmy nadzieję – wyłoni to wyzwanie. Niektórzy uczestnicy osiągali sukces dzięki starannemu dostrajaniu. Inni rozwijali kwantyzację i techniki niskiego rzędu. Część badała granice zasad ewaluacji. A kilku wprowadziło pomysły dotyczące modelowania lub danych, zaczerpnięte z literatury albo stworzone od podstaw, które przyniosły nieoczekiwane korzyści.

Ścieżka nieoficjalna

Ścieżka nieoficjalna była pełna kreatywnych zgłoszeń. Wyróżniliśmy 15 zgłoszeń, w tym podejścia od nieautoregresyjnego modelowania tekstu po dynamiczną tokenizację.

Ponieważ ta ścieżka była bardziej eksperymentalna, mniej skupialiśmy się na samej wydajności, a bardziej na tym, czy dane podejście było technicznie interesujące. Szczególnie wyróżniły się trzy zgłoszenia:

To były nasze trzy ulubione zgłoszenia nieoficjalne, choć niekoniecznie były to trzy najlepsze pod względem wyników.

Ścieżka nieoficjalna była pełna ciekawych prac. Połowa wpisów na tablicy wyników pobiła punkt odniesienia na poziomie 1,22 BPB, a najwyżej sklasyfikowany wpis osiągnął wynik 1,12 BPB.

Uznaliśmy to za interesujące, ponieważ nawet w przypadku wysokich punktów odniesienia opartych na transformatorach alternatywne podejścia mogły czasem skutecznie konkurować z dominującą architekturą.

Uważamy też, że ta ścieżka szczególnie korzysta z dostępności silnych agentów kodujących. Agenty znacznie obniżyły koszt prototypowania spekulatywnych pomysłów, w tym podejść, które wcześniej mogły wydawać się zbyt czasochłonne lub niepewne, by próbować ich w krótkim konkursie.

Wnioski

Główną różnicą między Parameter Golf a wcześniejszymi podobnymi konkursami było powszechne użycie agentów kodujących. Zdecydowana większość zgłaszających wspominała, że korzystała z agentów.

Obniżyło to próg wejścia. Uczestnicy mogli szybciej konfigurować eksperymenty, analizować nieznany kod i łatwiej testować pomysły. Sponsoring RunPod w postaci 1 000 000 USD w mocy obliczeniowej również odegrał dużą rolę w zwiększeniu dostępności wyzwania.

Jednak użycie agentów stworzyło również nowe problemy związane ze zgłoszeniami i punktacją. Wiele zgłoszeń cechowało się niewielkimi zmianami względem najlepszych wyników, a nie było zasadniczo nowymi podejściami. Często było to użyteczne: dobre pomysły szybko się rozprzestrzeniały i były dopracowywane przez innych. Ale tworzyło to też szum informacyjny. Gdy zgłoszenia wykraczające poza wytyczne konkursu osiągały niezwykle mocne wyniki, inne agenty czasem kopiowały te pomysły i podążały dalej tą samą nieprawidłową ścieżką.

Skala zgłoszeń zmieniła też sposób, w jaki musieliśmy przeprowadzić konkurs. Nie mogliśmy ręcznie sprawdzać każdego z nich i jednocześnie zarządzać tablicą wyników. W trakcie wyzwania opracowaliśmy wewnętrznego bota opartego na Codex, który monitorował nowe zgłoszenia i oznaczał je do weryfikacji przez ludzi. Było to szczególnie ważne w okresach, gdy otrzymywaliśmy setki zgłoszeń dziennie.

Agenty AI stały się też aspektem społeczności konkursu. Przez znaczną część konkursu @notapplica wraz z jego agentem kodującym prowadzili aktualizowany na żywo serwis informacyjny komentujący najważniejsze wydarzenia, objaśniający strategie i pomagający innym uczestnikom śledzić przebieg konkursu. Pojawiły się też narzędzia do weryfikacji społecznościowej, które pomagały mniej doświadczonym uczestnikom sprawdzać, czy ich zgłoszenia są zgodne z zasadami, i unikać typowych nieprawidłowych podejść.

Co dalej?

Naszym głównym celem było zorganizowanie konkursu, w którym kwalifikujący się uczestnicy(otwiera nowe okno) mogliby wziąć udział i zdobyć doświadczenie w badaniach nad uczeniem maszynowym. W ramach Parameter Golf otrzymaliśmy różnorodne pod względem technicznym i kreatywnym zgłoszenia, co zapewniło nam bardziej przejrzysty obraz zmian zachodzących w otwartych konkursach badawczych, gdy agenty AI stają się coraz bardziej zdolne i powszechne.

W przyszłości planujemy zorganizowanie kolejnych podobnych wyzwań. Jeśli masz ochotę wziąć w nich udział, wypełnij formularz uczestnictwa(otwiera nowe okno).

Autor

OpenAI