Pasar al contenido principal
OpenAI

12 de mayo de 2026

Investigación

Lo que nos enseñó Parameter Golf

Lecciones de más de 1 000 participantes, más de 2 000 envíos y un desafío abierto de aprendizaje automático moldeado por agentes de programación.

Cargando...

Lanzamos Parameter Golf para involucrar y apoyar a la comunidad de investigación en aprendizaje automático en la exploración de un problema nuevo de aprendizaje automático con restricciones estrictas. Queríamos que el desafío fuera lo bastante interesante como para recompensar la creatividad técnica real, sin dejar de ser conceptualmente simple y fácil de verificar.

Los participantes tenían que minimizar la pérdida en la validación sobre un conjunto de datos FineWeb fijo, sin exceder un límite de artefacto de 16 MB, que incluía tanto los pesos del modelo como el código de entrenamiento y un presupuesto de entrenamiento de 10 minutos en 8×H100. Proporcionamos un modelo de referencia, el conjunto de datos y herramientas de evaluación para que los participantes pudieran hacer fork del repositorio, mejorar el modelo y enviar sus resultados a través de GitHub.

A lo largo de ocho semanas, recibimos más de 2000 propuestas de más de 1000 participantes. Nos sorprendieron la amplitud técnica, la creatividad y la flexibilidad en la interpretación de las reglas en las propuestas, desde ajustes minuciosos del optimizador y trabajo de cuantización hasta nuevas ideas de modelado y entrenamiento en tiempo de prueba.

Una de las partes más emocionantes del desafío fue ver el uso tan extendido que los participantes hicieron de los agentes de programación con IA. Los agentes ayudaron a reducir el costo de la experimentación, facilitaron la participación de más personas y cambiaron el ritmo de la competencia. También crearon nuevos desafíos para la revisión, la atribución y la puntuación de las propuestas.

El desafío también se convirtió para nosotros en una valiosa fuente de descubrimiento de talento. Ese era uno de nuestros objetivos con Parameter Golf y resultó ser una señal útil de que los desafíos técnicos abiertos pueden revelar un criterio excepcional para el aprendizaje automático y mucha perseverancia.

En esta publicación, destacamos algunas de las propuestas que nos parecieron sorprendentes e interesantes, y compartimos lo que aprendimos al organizar un concurso de programación en la era de agentes poderosos de IA.

Impresiones técnicas

Categoría récord

Juzgamos y reproducimos de forma independiente cada propuesta en la tabla de posiciones de la categoría récord, y verificamos que cada propuesta hubiera batido el récord en el momento en que se presentó. Se destacaron varios temas.

Optimización del entrenamiento

Algunos de los resultados más sólidos provinieron de un ajuste cuidadoso de componentes existentes.

PropuestaColaboradorTécnicaPor qué fue importante
#60@notapplicaCombinó victorias anteriores de #50, #42, y probablemente #39, luego hicieron que un modelo más profundo funcionara con decaimiento de pesos Muon, inicialización de embeddings espectrales, programación de mezcla residual y evaluación compilada.Un sólido ejemplo de trabajo disciplinado en la tabla de posiciones: identificar qué mejoras existentes importan y combinarlas de forma limpia.

Cuantización

Varias propuestas llevaron al límite la compresión y la exportación.

PropuestaColaboradorTécnicaPor qué fue importante
#414@signalrushSe usó GPTQ-lite para cuantizar los pesos después del entrenamiento.La primera propuesta de la tabla de posiciones que usó correctamente GPTQ-lite, lo que permitió una mejor evaluación.
#1060@dexhunterSe basó en #634 de @raahilshah para usar con éxito Hessian GPTQ completo.Amplió el trabajo previo de cuantización hacia una vía de compresión más sólida.

Estrategias de evaluación y en tiempo de prueba

Algunas propuestas llevaron al límite la línea entre la mejora del modelo y la estrategia de evaluación. Estos enfoques eran válidos según las reglas, pero requirieron una revisión minuciosa de nuestra parte como organizadores.

PropuestaColaboradorTécnicaPor qué fue importante
#77@samacquaUsó entrenamiento en tiempo de prueba LoRA por documento, con puntuación primero: puntuar primero, adaptar solo en fragmentos ya puntuados y restablecer en los límites de documento.Amplió los límites entre la mejora del modelo y la estrategia de evaluación, sin perder la posibilidad de revisión conforme a las reglas.
#1019@abaybektursunUsó calibración GPTQ autogenerada: genera texto de calibración a partir del modelo entrenado y, luego, crea hessianas GPTQ a partir de esas activaciones.Una estrategia de calibración creativa que requirió una revisión minuciosa por parte de los organizadores.

Nuevas ideas de modelado y datos

Algunas propuestas introdujeron ideas de modelado o de datos especialmente creativas.

PropuestaColaboradorTécnicaPor qué fue importante
#1729@romeerpSe introdujo el tokenizador CaseOps: token de operador de capitalización sin pérdida con contabilización BPB auxiliar de bytes originales.Una idea creativa de tokenizador y representación de datos.
#265@unnirIntrodujo XSA, un enfoque eficiente de atención propia exclusiva y parcial con vistas agrupadas compatibles con GQA.Presentó una variante de atención eficiente al desafío.
#65@aquariouseworkmanSe introdujo SmearGate y BigramHash: una combinación aprendida de embeddings de token anterior más características hash de pares de tokens adyacentes.Agregó mecanismos de nuevas funciones desde cero.
#1204@msisovicIntrodujo recurrencia en profundidad mini: capas 4 y 5 repetidas, recurrencia retrasada hasta la mitad del entrenamiento y los MLP repetidos parcialmente desvinculados.La primera fila aceptada de la tabla de posiciones que logró que las capas recurrentes funcionaran de manera efectiva.

Elegimos destacar estas nueve propuestas porque representan la variedad de resultados que esperábamos que el desafío sacara a la luz. Algunos participantes lograron mejoras mediante ajustes minuciosos. Otros llevaron más lejos las técnicas de cuantización y de bajo rango. Algunos exploraron los límites de las reglas de evaluación, y varios introdujeron ideas de modelado o de datos, provenientes de la literatura o creadas desde cero, que dio como resultado mejoras inesperadas.

Categoría no récord

La categoría no récord dio lugar a muchas propuestas creativas. Destacamos 15 favoritas, incluidas las que iban desde el modelado de texto no autorregresivo hasta la tokenización dinámica.

Como esta categoría era más experimental, nos enfocamos menos en el rendimiento bruto y más en si el enfoque era técnicamente interesante. Tres propuestas se destacaron en particular:

Estas fueron nuestras tres propuestas no récord favoritas, aunque no necesariamente fueron las tres con mejor rendimiento.

Dicho eso, la categoría no récord siguió siendo competitiva. La mitad de las entradas de la tabla de posiciones no récord superó la referencia ingenua de 1.22 BPB, y la entrada mejor clasificada alcanzó 1.12 BPB.

Nos pareció alentador. Incluso frente a referencias sólidas de transformador, los enfoques alternativos a veces podían defenderse frente a la arquitectura dominante.

También creemos que esta categoría se beneficia especialmente de la disponibilidad de agentes de programación sólidos. Los agentes hicieron mucho más barato crear prototipos de ideas especulativas, incluidas propuestas que antes podrían haber parecido demasiado lentas o inciertas para probarse en una competencia corta.

Conclusiones

Una diferencia importante entre Parameter Golf y competencias anteriores similares fue el uso generalizado de agentes de programación. La gran mayoría de quienes enviaron propuestas mencionó haber usado agentes como parte de su trabajo.

Eso redujo la barrera de entrada. Los participantes pudieron configurar experimentos más rápido, revisar código desconocido y probar ideas con menos fricción. El patrocinio de Runpod de USD 1 000 000 en capacidad de cómputo también desempeñó un papel importante para hacer que el desafío fuera accesible para más personas.

Al mismo tiempo, el uso de agentes creó nuevos problemas para las propuestas y la puntuación. Muchas propuestas fueron cambios pequeños a propuestas ya mejor puntuadas, en lugar de enfoques fundamentalmente nuevos. Esto a menudo fue útil: las ideas sólidas se difundían rápido y otros las refinaban, pero también generó ruido. Cuando propuestas fuera de las pautas de la competencia lograban puntuaciones inusualmente altas, otros agentes a veces copiaban esas ideas y seguían por la misma vía no válida.

El volumen de propuestas también cambió la forma en que tuvimos que gestionar la competencia. No podíamos inspeccionar manualmente cada una y al mismo tiempo mantener en movimiento la tabla de posiciones. Durante el desafío, desarrollamos un bot interno de triaje basado en Codex para monitorear las nuevas propuestas y marcarlas para revisión humana. Esto se volvió especialmente importante durante los períodos en que recibíamos cientos de propuestas al día.

Los agentes de IA también pasaron a formar parte de la comunidad en torno al desafío. Durante gran parte de la competencia, @notapplica y su agente de programación publicaron un boletín de "Actualizaciones en vivo", en el que seguían los principales acontecimientos, explicaban los enfoques de la tabla de posiciones y ayudaban a otros participantes a seguir la competencia. También aparecieron herramientas de revisión comunitaria para ayudar a participantes con menos experiencia a comprobar si sus propuestas cumplían las reglas y a evitar enfoques no válidos comunes.

¿Qué sigue?

Nuestro objetivo principal era lanzar un desafío en el que los participantes elegibles(se abre en una nueva ventana) pudieran participar y vivir la experiencia de la investigación en aprendizaje automático. Parameter Golf reunió una amplia variedad de propuestas técnicamente sólidas y creativas, y nos dio una visión más clara de cómo pueden cambiar las competencias de investigación abiertas a medida que los agentes de IA se vuelven más capaces y más usados.

Estamos pensando en lanzar más desafíos como este en el futuro. Si te interesa, completa el formulario para participantes del desafío(se abre en una nueva ventana).

Autor

OpenAI