12 mai 2026

Ce que Parameter Golf nous a appris

Leçons tirées de plus de 1 000 participants, plus de 2 000 soumissions et d’un défi ouvert de machine learning façonné par des agents de codage.

Chargement...

Nous avons lancé Parameter Golf pour mobiliser et soutenir la communauté de recherche en machine learning autour d’un nouveau problème de machine learning aux contraintes strictes. Nous voulions que le défi soit assez intéressant pour récompenser une véritable créativité technique, tout en restant conceptuellement simple et facile à vérifier.

Les participants devaient minimiser la perte sur un jeu de données FineWeb fixe, tout en respectant une limite d’artefact de 16 Mo, incluant à la fois les poids du modèle et le code d’entraînement, ainsi qu’un budget d’entraînement de 10 minutes sur 8×H100. Nous avons fourni une base de référence, le jeu de données et des scripts d’évaluation afin que les participants puissent forker le dépôt, améliorer le modèle et soumettre leurs résultats via GitHub.

Au cours de huit semaines, nous avons reçu plus de 2 000 soumissions de plus de 1 000 participants. Nous avons été impressionnés par l’étendue technique, la créativité et la manière dont certaines soumissions repoussaient les limites des règles, allant du réglage fin des optimiseurs et des techniques de quantification à de nouvelles idées de modélisation, et de l’entraînement au moment du test.

L’un des aspects les plus enthousiasmants du défi a été de voir à quel point les participants ont utilisé des agents de codage IA. Les agents ont contribué à réduire le coût de l’expérimentation, ont facilité la participation d’un plus grand nombre de personnes et ont changé le rythme de la compétition. Ils ont aussi créé de nouveaux défis pour l’examen des soumissions, l’attribution et la notation.

Le défi est aussi devenu pour nous un moyen efficace de repérer des talents. C’était l’un de nos objectifs avec Parameter Golf, et cela a confirmé qu’un défi technique ouvert peut révéler un sens exceptionnel du machine learning et une grande persévérance.

Dans cet article, nous mettons en avant certaines des soumissions qui nous ont semblé surprenantes et intéressantes, et partageons ce que nous avons appris en organisant un concours de programmation à l’ère des puissants agents IA.

Impressions techniques

Catégorie officielle

Nous avons évalué et reproduit indépendamment chaque soumission du classement de la catégorie officielle, et vérifié que chacune battait un record au moment de sa soumission. Plusieurs thèmes se sont dégagés.

Optimisation de l’entraînement

Certains des meilleurs résultats sont venus d’un réglage minutieux de composants existants.

Soumission	Contributeur	Technique	Pourquoi c’était important
#60	@notapplica	A combiné gains précédents issus de #50, #42, et probablement #39, ont ensuite permis de faire fonctionner un modèle plus profond avec la décroissance des poids Muon, l’initialisation des embeddings spectraux, la planification du mélange résiduel et l’évaluation compilée.	Un excellent exemple d’optimisation méthodique pour le classement : identifier quelles améliorations existantes sont importantes et les combiner proprement.

Quantification

Plusieurs soumissions ont poussé plus loin les techniques de compression et d’export.

Soumission	Contributeur	Technique	Pourquoi c’était important
#414	@signalrush	A utilisé GPTQ-lite pour quantifier les poids après l’entraînement.	La première soumission au classement utilisant GPTQ-lite avec succès, aboutissant à une meilleure évaluation.
#1060	@dexhunter	S’est appuyé sur #634 de @raahilshah pour utiliser le Hessien complet de GPTQ.	A développé un travail antérieur de quantification pour aboutir à une méthode de compression plus performante.

Stratégies au moment du test et d’évaluation

Certaines soumissions ont repoussé la frontière entre amélioration du modèle et stratégie d’évaluation. Ces approches étaient valides au regard des règles, mais elles ont exigé de notre part, en tant qu’organisateurs, un examen attentif.

Soumission	contributeur	technique	pourquoi c’était important
#77	@samacqua	A utilisé l’entraînement LoRA au moment du test, par document et avec évaluation préalable : a évalué d’abord, pour adapter uniquement les segments déjà évalués, et réinitialiser aux limites des documents.	A repoussé la limite entre l’amélioration du modèle et la stratégie d’évaluation, tout en restant vérifiable au regard des règles.
#1019	@abaybektursun	A utilisé l’étalonnage GPTQ auto-généré : générer le texte d’étalonnage à partir du modèle entraîné, puis construire les matrices hessiennes GPTQ à partir de ces activations.	Une stratégie d’étalonnage créative qui a nécessité un examen attentif de la part des organisateurs.

Nouvelles idées de modélisation et de données

Quelques soumissions ont introduit des idées de modélisation ou de données particulièrement créatives.

Soumission	Contributeur	Technique	Pourquoi c’était important
#1729	@romeerp	Introduction du tokenizer CaseOps : tokens d’opérateur de casse sans perte, avec comptabilisation séparée du BPB basée sur les octets d’origine.	Une idée créative de tokeniseur et de représentation des données.
#265	@unnir	Introduction de XSA, une approche efficace d’attention à soi exclusive partielle avec des vues groupées tenant compte de GQA.	A présenté une variante d’attention efficace dans le défi.
#65	@aquariouseworkman	Introduction de SmearGate et BigramHash : une combinaison apprise d’embeddings du token précédent et de caractéristiques de hachage appliquées à des paires de tokens adjacents.	A ajouté de nouveaux mécanismes de représentation conçus à partir de zéro.
#1204	@msisovic	Introduction de mini-récurrence en profondeur : couches 4 et 5 répétées, récurrence retardée jusqu’au milieu de l’entraînement, et MLP répétés partiellement déliés.	La première entrée acceptée du classement à exploiter efficacement des couches récurrentes.

Nous avons choisi de mettre en avant ces neuf soumissions parce qu’elles représentent l’éventail de résultats que nous espérions voir émerger du défi. Certains participants ont trouvé des gains grâce à un réglage minutieux. D’autres ont poussé plus loin les techniques de quantification et de faible rang. Certains ont exploré les limites des règles d’évaluation. Et plusieurs ont introduit des idées de modélisation ou de données, issues de la littérature ou conçues de zéro, qui ont produit des gains inattendus.

Catégorie expérimentale

La catégorie expérimentale a accueilli de nombreuses soumissions créatives. Nous avons mis en avant 15 favorites, avec des approches allant de la modélisation de texte non autorégressive à la tokenisation dynamique.

Comme cette catégorie était plus expérimentale, nous nous sommes moins concentrés sur la performance brute que sur l’intérêt technique de l’approche. Trois soumissions se sont particulièrement distinguées :

Ce sont nos trois soumissions catégorie expérimentale préférées, même si elles n’étaient pas nécessairement les trois meilleures en performance.

Cela dit, la catégorie expérimentale restait compétitive. La moitié des entrées du classement expérimental ont dépassé la baseline naïve de 1,22 BPB, et l’entrée la mieux classée a atteint 1,12 BPB.

Nous avons trouvé cela encourageant. Même face à des baselines transformer performantes, des approches alternatives pouvaient parfois rivaliser avec l’architecture dominante.

Nous pensons aussi que cette catégorie bénéficie tout particulièrement de la disponibilité d’agents de codage performants. Les agents ont considérablement réduit le coût du prototypage d’idées spéculatives, y compris d’approches qui auraient auparavant semblé trop longues ou trop incertaines à essayer dans une compétition courte.

Enseignements

Une différence majeure entre Parameter Golf et des compétitions antérieures similaires a été l’usage généralisé d’agents de codage. La très grande majorité des participants ont indiqué avoir utilisé des agents dans leur travail.

Cela a rendu la participation plus accessible. Les participants ont pu mettre en place des expérimentations plus rapidement, examiner du code qu’ils ne connaissaient pas et tester des idées plus facilement. Le parrainage de Runpod à hauteur de 1 million de dollars en ressources de calcul a également joué un rôle majeur pour rendre le défi accessible à davantage de personnes.

En même temps, l’usage d’agents a créé de nouveaux problèmes pour les soumissions et la notation. Beaucoup de soumissions n’étaient que de petites modifications d’entrées déjà en tête, plutôt que des approches fondamentalement nouvelles. C’était souvent utile : les bonnes idées se diffusaient vite et étaient affinées par d’autres. Mais cela a aussi créé du bruit. Lorsque des soumissions hors des règles de la compétition produisaient des scores inhabituellement élevés, d’autres agents copiaient parfois ces idées et poursuivaient dans la même voie invalide.

Le volume de soumissions a aussi changé notre manière d’organiser la compétition. Nous ne pouvions pas inspecter manuellement chaque soumission tout en maintenant le classement à jour. Pendant le défi, nous avons développé un bot interne de triage basé sur Codex pour surveiller les nouvelles soumissions et les signaler pour examen humain. Cela est devenu particulièrement important pendant les périodes où nous recevions des centaines de soumissions par jour.

Les agents IA sont aussi devenus une partie de la communauté autour du défi. Pendant une grande partie de la compétition, @notapplica et son agent de codage ont tenu un bulletin « Mises à jour en direct », suivant les événements majeurs, expliquant les approches du classement et aidant les autres participants à suivre la compétition. Des outils d’examen communautaires sont aussi apparus pour aider les participants moins expérimentés à vérifier si leurs soumissions respectaient les règles et à éviter les approches invalides courantes.

La suite ?

Notre objectif principal était de lancer un défi auquel les participants éligibles⁠(ouverture dans une nouvelle fenêtre) pourraient participer et ainsi découvrir la recherche en apprentissage automatique. Parameter Golf a attiré un large éventail de soumissions créatives et de grande qualité sur le plan technique, et nous a donné une vision plus claire de la manière dont les compétitions de recherche ouvertes pourraient évoluer à mesure que les agents IA deviennent plus performants et adoptés plus largement.

Nous envisageons de lancer d’autres défis de ce type à l’avenir. Si cela vous intéresse, veuillez remplir le formulaire de participation au défi⁠(ouverture dans une nouvelle fenêtre).

2026

Auteur

OpenAI

Poursuivez votre lecture

Tout afficher

Distinguer le signal du bruit dans les évaluations de code

Recherches8 juil. 2026

Présentation de GeneBench-Pro

Recherches30 juin 2026

A near-autonomous AI chemist improves a challenging reaction

Un chimiste IA quasi autonome améliore une réaction difficile en chimie médicinale

Recherches17 juin 2026