12 de maig del 2026

El que Parameter Golf ens va ensenyar

Lliçons apreses de més de 1000 participants, més de 2000 propostes i un repte obert d’aprenentatge automàtic modelat per agents de programació.

S'està carregant…

Vam llançar Parameter Golf per implicar i donar suport a la comunitat de recerca en aprenentatge automàtic en l’exploració d’un nou problema d’aprenentatge automàtic amb restriccions molt estrictes. Volíem que el repte fos prou interessant per premiar una autèntica creativitat tècnica, tot mantenint-se conceptualment senzill i fàcil de verificar.

Els participants havien de minimitzar la pèrdua sobre un conjunt de dades FineWeb fix, tot mantenint-se dins d’un límit de 16 MB per a l’artefacte, incloent-hi tant els pesos del model com el codi d’entrenament, i d’un pressupost de 10 minuts d’entrenament amb 8 × H100. Vam proporcionar una línia base, el conjunt de dades i els scripts d’avaluació perquè els participants poguessin bifurcar el repositori, millorar el model i enviar els seus resultat.

Al llarg de vuit setmanes, vam rebre més de 2000 propostes de més de 1000 participants. Ens va impressionar l’amplitud tècnica, la creativitat i la manera d’estirar les regles en les propostes presentades, des d’un ajustament acurat dels optimitzadors i treballs de quantització fins a noves idees de modelatge i entrenament en temps d’inferència.

Una de les parts més emocionants del repte va ser veure fins a quin punt els participants van utilitzar agents d’IA per programar. Els agents van ajudar a reduir el cost de l’experimentació, van facilitar la participació de més persones i van canviar el ritme de la competició. També van generar nous reptes per a la revisió de les propostes, l’atribució i l’avaluació.

El repte també es va convertir en una font significativa de descoberta de talent per a nosaltres. Aquest era un dels nostres objectius amb Parameter Golf, i va ser un senyal útil que els reptes tècnics oberts poden posar de manifest un gust excepcional per l’aprenentatge automàtic i una gran perseverança.

En aquesta publicació, destaquem algunes de les propostes que vam trobar sorprenents i interessants, i compartim el que vam aprendre de l’organització d’un concurs de programació en l’era dels potents agents d’IA.

Impressions tècniques

Categoria rècord

Vam avaluar i reproduir de manera independent cada proposta del rànquing de la categoria rècord, i vam verificar que cadascuna batia un rècord en el moment en què es va enviar. Van destacar diversos temes.

Optimització de l'entrenament

Alguns dels millors resultats van provenir d’un ajust acurat de components existents.

Enviament	Col·laborador/a	Tècnic/a	Per què era important
#60	@notapplica	Va combinar millores prèvies de #50, #42, i probablement #39, i després va fer funcionar un model més profund amb weight decay de Muon, inicialització d'incrustacions espectrals, programació de mescla residual i avaluació compilada.	Un exemple sòlid de treball disciplinat al rànquing: identificar quines millores existents importen i combinar-les de manera neta.

Quantització

Diverses propostes van treballar intensament en la compressió i l’exportació.

Enviament	Col·laborador/a	Tècnic/a	Per què era important
#414	@signalrush	Va utilitzar Va utilitzar GPTQ-lite per quantitzar els pesos després de l’entrenament.	Va Va ser la primera proposta del rànquing a utilitzar amb èxit GPTQ-lite, cosa que va conduir a una millor avaluació.
#1060	@dexhunter	Basat en #634 de @raahilshah per utilitzar amb èxit GPTQ amb Hessiana completa.	Va ampliar el treball de quantització anterior en una via de compressió més robusta.

Estratègies en el moment de la prova i de l’avaluació

Algunes propostes van difuminar la frontera entre la millora del model i l’estratègia d’avaluació. Aquests enfocaments eren vàlids segons les regles, però van requerir una revisió acurada per part nostra com a organitzadors.

Enviament	Col·laborador/a	Tècnic/a	Per què era important
#77	@samacqua	Va utilitzar entrenament en temps d’inferència amb LoRA per document i basat en puntuació: primer es calcula la puntuació, després s’adapta només sobre fragments ja puntuats, i es reinicia als límits de document.	Va empènyer la frontera entre la millora del model i l’estratègia d’avaluació, alhora que continuava sent revisable segons les normes.
#1019	@abaybektursun	Va utilitzar una calibració GPTQ auto-generada: generar text de calibració amb el model entrenat i, després, construir les Hessianes de GPTQ a partir d’aquestes activacions.	Una estratègia de calibració creativa que va requerir una revisió acurada per part dels organitzadors.

Noves idees de modelatge i de dades

Algunes propostes van introduir idees de modelatge o de dades especialment creatives.

Enviament	Col·laborador/a	Tècnic/a	Per què era important
#1729	@romeerp	Va introduir el tokenitzador CaseOps: operadors de majúscules sense pèrdua basats en segments, amb un càlcul auxiliar de BPB sobre bytes originals.	Una idea creativa de tokenització i de representació de dades.
#265	@unnir	Va introduir XSA, un enfocament eficient d’atenció pròpia exclusiva parcial amb vistes agrupades conscients de GQA.	Va aportar una variant eficient del mecanisme d’atenció al repte.
#65	@aquariouseworkman	Va introduir SmearGate i BigramHash: una mescla apresa d’embolcalls del segment anterior i característiques de hash de parelles de segments adjacents.	Va afegir nous mecanismes de característiques des de zero.
#1204	@msisovic	Va introduir una recurrència de profunditat reduïda: repetició de les capes 4 i 5, recurrència retardada fins a la meitat de l’entrenament i desempat parcial dels MLP repetits.	Va ser la primera entrada acceptada al rànquing que aconseguia fer funcionar de manera efectiva capes recurrents.

Hem escollit destacar aquestes nou propostes perquè representen la varietat de resultats que esperàvem que el repte pogués fer emergir. Alguns participants van aconseguir millores gràcies a un ajust acurat. Altres van explorar i empènyer les tècniques de quantització i de rang baix. Alguns van explorar els límits de les regles d’avaluació. I diversos participants van introduir idees de modelització o de dades, provinents de la bibliografia o creades des de zero, que van produir millores inesperades.

Categoria no rècord

La categoria no rècord va acollir nombroses propostes creatives. Hem destacat 15 favorites, amb enfocaments que van des de la modelització de text no autoregressiva fins a la tokenització dinàmica.

Com que aquesta categoria era més experimental, ens vam centrar menys en el rendiment brut i més en si l’enfocament era tècnicament interessant. En particular, van destacar tres propostes:

Aquestes van ser les nostres tres propostes no rècord preferides, encara que no fossin necessàriament les tres millors en termes de rendiment.

Dit això, la categoria no rècord continuava sent competitiva. La meitat de les entrades del rànquing no rècord van superar la línia base ingènua de 1,22 BPB, i la millor entrada va assolir 1,12 BPB.

Això ens va semblar encoratjador. Fins i tot davant de línies base de tipus transformador sòlides, alguns enfocaments alternatius podien arribar a competir amb l’arquitectura dominant.

També pensem que aquesta categoria es veu especialment afavorida per la disponibilitat d’agents de programació potents. Els agents van abaratir molt el cost de prototipar idees especulatives, incloent-hi enfocaments que abans podrien haver semblat massa costosos en temps o massa incerts per provar-los en una competició curta.

Aprenentatges

Una diferència important entre Parameter Golf i competicions anteriors similars va ser l’ús generalitzat d’agents de programació. La gran majoria de participants van indicar que havien utilitzat agents com a part del seu treball.

Això va reduir la barrera d’entrada. Els participants podien muntar experiments més ràpidament, inspeccionar codi desconegut i provar idees amb menys fricció. El patrocini de Runpod d’1.000.000 de dòlars en càlcul també va tenir un paper important a l’hora de fer que el repte fos accessible a més persones.

Al mateix temps, l’ús d’agents va crear nous problemes en la presentació de les propostes i en l’avaluació. Moltes propostes eren petits canvis sobre els millors resultats existents, més que no pas enfocaments fonamentalment nous. Això sovint era útil: les idees més sòlides s’estenien ràpidament i eren refinades per altres. Però també va generar soroll. Quan algunes propostes que quedaven fora de les normes de la competició obtenien puntuacions inusualment altes, altres agents de vegades copiaven aquestes idees i continuaven avançant per un camí igualment no vàlid.

El volum de propostes també va canviar la manera com vam haver de gestionar la competició. No podíem inspeccionar manualment totes les propostes i, al mateix temps, mantenir el rànquing en moviment. Durant el repte, vam desenvolupar un bot intern de triatge basat en Codex per monitorar les noves propostes i marcar-les per a revisió humana. Això va esdevenir especialment important durant els períodes en què rebíem centenars de propostes al dia.

Els agents d’IA també es van convertir en part de la comunitat al voltant del repte. Durant gran part de la competició, @notapplica i el seu agent de programació van publicar un butlletí de “Live Updates”, en què seguien els principals esdeveniments, explicaven els enfocaments del rànquing i ajudaven altres participants a seguir la competició. Les eines de revisió comunitària també van semblar ajudar els participants menys experimentats a comprovar si les seves propostes complien les normes i a evitar enfocaments habitualment no vàlids.

Evolucions previstes

El nostre objectiu principal era llançar un repte en què els participants elegibles⁠(s'obre en una finestra nova) poguessin participar i experimentar la recerca en aprenentatge automàtic. Parameter Golf va reunir una àmplia gamma de propostes tècnicament sòlides i creatives, i ens va donar una visió més clara de com poden canviar les competicions de recerca oberta a mesura que els agents d’IA esdevenen més capaços i més utilitzats.

Estem pensant a llançar més reptes com aquest en el futur. Si t’interessa, emplena el formulari de participació en el repte⁠(s'obre en una finestra nova), si us plau.

Autor

OpenAI

Continuar llegint

Veure-ho tot

Separar el senyal del soroll en les avaluacions de codi

Recerca8 de jul. del 2026

Presentem GeneBench-Pro

Recerca30 de juny del 2026

A near-autonomous AI chemist improves a challenging reaction

Un químic d’IA gairebé autònom millora una reacció difícil en química medicinal

Recerca17 de juny del 2026