Ir al contenido principal
OpenAI

12 de mayo de 2026

Investigación

Lo que nos enseñó Parameter Golf

Lecciones de más de 1000 participantes, más de 2000 envíos y un reto abierto de aprendizaje automático moldeado por agentes de programación.

Cargando…

Lanzamos Parameter Golf para involucrar a la comunidad investigadora en aprendizaje automático y apoyarla en la exploración de un nuevo problema de aprendizaje automático con restricciones estrictas. Queríamos que el reto fuera lo bastante interesante para recompensar la creatividad técnica real, sin dejar de ser conceptualmente simple y fácil de verificar.

Los participantes tenían que minimizar la pérdida en un conjunto de datos fijo de FineWeb reservado para evaluación, manteniéndose dentro de un límite de artefacto de 16 MB —que incluía tanto los pesos del modelo como el código de entrenamiento— y de un presupuesto de entrenamiento de 10 minutos en 8×H100. Proporcionamos una referencia base, el conjunto de datos y los scripts de evaluación para que los participantes pudieran bifurcar el repositorio, mejorar el modelo y enviar sus resultados a través de GitHub.

A lo largo de ocho semanas, recibimos más de 2000 envíos de más de 1000 participantes. Nos impresionaron la amplitud técnica, la creatividad y la flexibilidad en la interpretación de las reglas que mostraban los envíos, desde un ajuste minucioso del optimizador y trabajos de cuantización hasta nuevas ideas de modelado y entrenamiento en tiempo de prueba.

Una de las partes más emocionantes del reto fue ver hasta qué punto los participantes usaron agentes de programación con IA. Los agentes ayudaron a reducir el coste de experimentar, facilitaron la participación de más personas y cambiaron el ritmo de la competición. También crearon nuevos retos para la revisión, la atribución y la puntuación de los envíos.

El reto también se convirtió en una vía importante para detectar talento. Ese era uno de nuestros objetivos con Parameter Golf y fue una señal útil de que los retos técnicos abiertos pueden revelar un criterio excepcional para el aprendizaje automático y una gran perseverancia.

En esta publicación destacamos algunos de los envíos que nos parecieron sorprendentes e interesantes, y compartimos lo que aprendimos al organizar un concurso de programación en la era de los potentes agentes de IA.

Impresiones técnicas

Categoría con récord

Juzgamos y reproducimos de forma independiente cada envío de la clasificación de la categoría con récord, y verificamos que cada envío batía el récord en el momento en que se presentó. Destacaron varios temas.

Optimización del entrenamiento

Algunos de los mejores resultados se obtuvieron gracias a un ajuste minucioso de los componentes existentes.

EnvíoColaboradorTécnicaPor qué fue importante
#60@notapplicaCombinó mejoras previas de #50, #42 y probablemente #39, y luego logró que funcionara un modelo más profundo con decaimiento de pesos tipo Muon, inicialización de integraciones espectrales, programación de mezcla residual y evaluación compilada.Un ejemplo sólido de trabajo disciplinado en la clasificación: identificar qué mejoras existentes importan y combinarlas limpiamente.

Cuantización

Varios envíos llevaron al límite la compresión y la exportación.

EnvíoColaboradorTécnicaPor qué fue importante
#414@signalrushUsó GPTQ-lite para cuantizar los pesos después del entrenamiento.El primer envío de la clasificación que usó GPTQ-lite con éxito, lo que llevó a una mejor evaluación.
#1060@dexhunterSe basó en #634 de @raahilshah para usar con éxito un hessiano GPTQ completo.Amplió el trabajo previo de cuantización hacia una vía de compresión más potente.

Estrategias en tiempo de prueba y de evaluación

Algunos envíos exploraron los límites entre la mejora del modelo y la estrategia de evaluación. Estos enfoques eran válidos según las reglas, pero exigieron una revisión cuidadosa por nuestra parte como organizadores.

EnvíoColaboradorTécnicaPor qué fue importante
#77@samacquaUsó entrenamiento LoRA en tiempo de prueba por documento y con puntuación previa: primero puntuar, adaptar el modelo solo en los fragmentos ya puntuados y reiniciar en los límites del documento.Exploró los límites entre la mejora del modelo y la estrategia de evaluación, sin dejar de ser verificable según las reglas.
#1019@abaybektursunUsó calibración GPTQ autogenerada: generar texto de calibración a partir del modelo entrenado y luego construir hessianos GPTQ a partir de esas activaciones.Una estrategia de calibración creativa que exigió una revisión cuidadosa por parte de los organizadores.

Nuevas ideas de modelado y datos

Algunos envíos introdujeron ideas de modelado o de datos especialmente creativas.

EnvíoColaboradorTécnicaPor qué fue importante
#1729@romeerpIntrodujo el tokenizador CaseOps: tokens de operador de mayúsculas sin pérdida con contabilidad auxiliar de BPB por byte original.Una idea creativa de tokenizador y representación de datos.
#265@unnirIntrodujo XSA: un enfoque eficiente de Exclusive Self Attention parcial con vistas agrupadas que tienen en cuenta GQA.Incorporó al reto una variante eficiente de atención.
#65@aquariouseworkmanIntrodujo SmearGate y BigramHash: una mezcla aprendida de integraciones del token anterior más características hash de pares de tokens adyacentes.Añadió desde cero nuevos mecanismos de características.
#1204@msisovicIntrodujo recurrencia de profundidad mini: repitió las capas 4 y 5, retrasó la recurrencia hasta la mitad del entrenamiento y desacopló parcialmente los MLP repetidos.La primera fila aceptada de la clasificación en hacer que las capas recurrentes funcionaran de forma eficaz.

Elegimos destacar estos nueve envíos porque representan la variedad de resultados que esperábamos que el reto sacara a la luz. Algunos participantes lograron mejoras mediante un ajuste cuidadoso. Otros llevaron más lejos la cuantización y las técnicas de bajo rango. Algunos exploraron los límites de las reglas de evaluación. Y varios introdujeron ideas de modelado o de datos, procedentes de la literatura o creadas desde cero, que produjeron mejoras inesperadas.

Categoría sin récord

La categoría sin récord acogió muchos envíos creativos. Destacamos 15 favoritos, entre ellos enfoques que iban desde el modelado de texto no autorregresivo hasta la tokenización dinámica.

Como esta categoría era más experimental, nos centramos menos en el rendimiento bruto y más en saber si el enfoque resultaba técnicamente interesante. Tres envíos destacaron en particular:

Estos fueron nuestros tres envíos sin récord favoritos, aunque no fueran necesariamente los tres mejores en rendimiento.

Dicho esto, la categoría sin récord siguió siendo competitiva. La mitad de las entradas de la clasificación sin récord superaron el valor base de 1,22 BPB y la entrada mejor clasificada alcanzó 1,12 BPB.

Nos pareció alentador. Incluso frente a bases de referencia de transformador sólidas, los enfoques alternativos a veces podían competir con la arquitectura dominante.

También creemos que esta categoría se beneficia especialmente de la disponibilidad de agentes de programación potentes. Los agentes abarataron mucho la creación de prototipos de ideas especulativas, incluidos enfoques que antes quizá habrían parecido demasiado lentos o inciertos como para probarlos en una competición breve.

Conclusiones

Una diferencia importante entre Parameter Golf y competiciones anteriores similares fue el uso generalizado de agentes de programación. La gran mayoría de quienes enviaron propuestas mencionaron haber usado agentes como parte de su trabajo.

Eso redujo la barrera de entrada. Los participantes podían configurar experimentos más rápido, inspeccionar código desconocido y probar ideas con menos fricción. El patrocinio de RunPod, con 1 000 000 USD en capacidad de cómputo, también fue clave para que el reto fuera accesible para más personas.

Al mismo tiempo, el uso de agentes creó nuevos problemas para el envío y la puntuación. Muchos envíos eran pequeños cambios sobre envíos ya muy bien puntuados, en lugar de enfoques fundamentalmente nuevos. A menudo eso era útil: las buenas ideas se difundían rápido y otras personas las refinaban. Pero también generó ruido. Cuando envíos que quedaban fuera de las directrices de la competición producían puntuaciones inusualmente altas, otros agentes a veces copiaban esas ideas y seguían por la misma vía no válida.

El volumen de envíos también cambió la forma en que tuvimos que gestionar la competición. No podíamos inspeccionar manualmente cada envío y, al mismo tiempo, mantener la clasificación al día. Durante el reto, desarrollamos un bot interno de triaje basado en Codex para supervisar nuevos envíos y marcarlos para revisión humana. Esto se volvió especialmente importante durante los periodos en los que recibíamos cientos de envíos al día.

Los agentes de IA también pasaron a formar parte de la comunidad en torno al reto. Durante gran parte de la competición, @notapplica y su agente de programación mantuvieron un boletín de «actualizaciones en directo», en el que informaban de los eventos más importantes, explicaban los enfoques de la clasificación y ayudaban a otros participantes a seguir la competición. También aparecieron herramientas de revisión comunitaria para ayudar a participantes con menos experiencia a comprobar si sus envíos se ajustaban a las reglas y evitar los enfoques no válidos habituales.

¿Qué viene ahora?

Nuestro objetivo principal era lanzar un reto al que los participantes aptos(se abre en una ventana nueva) pudieran sumarse y conocer de primera mano la investigación en aprendizaje automático. Parameter Golf reunió una amplia variedad de envíos técnicamente sólidos y creativos, y nos dio una visión más clara de cómo pueden cambiar las competiciones de investigación abierta a medida que los agentes de IA se vuelven más capaces y se generalice su uso.

Estamos pensando en lanzar más retos como este en el futuro. Si te interesa, rellena el formulario de participación en el reto(se abre en una ventana nueva).

Autor

OpenAI