12 mai 2026

Ce que Parameter Golf nous a appris

Leçons tirées de plus de 1 000 participants, plus de 2 000 soumissions et d’un défi ouvert d’apprentissage automatique façonné par des agents de codage.

Chargement…

Nous avons lancé Parameter Golf pour mobiliser et soutenir la communauté de recherche en apprentissage automatique dans l’exploration d’un nouveau problème d’apprentissage automatique soumis à des contraintes très strictes. Nous voulions que le défi soit suffisamment intéressant pour récompenser une véritable créativité technique, tout en restant simple sur le plan conceptuel et facile à vérifier.

Les participants devaient minimiser la perte sur un ensemble de données FineWeb fixe réservé à l’évaluation tout en respectant une limite d’artéfact de 16 Mo, incluant à la fois les poids du modèle et le code d’entraînement, ainsi qu’un budget d’entraînement de 10 minutes sur 8×H100. Nous avons fourni une base de référence, un ensemble de données et des scripts d’évaluation afin que les participants puissent forker le dépôt, améliorer le modèle et soumettre leurs résultats par GitHub.

Au cours de huit semaines, nous avons reçu plus de 2 000 soumissions de plus de 1 000 participants. Nous avons été impressionnés par l’étendue technique, la créativité et la tendance à repousser les règles dans les soumissions, allant d’un réglage minutieux de l’optimiseur et de travaux de quantification à de nouvelles idées de modélisation et à l’entraînement au moment du test.

L’un des aspects les plus stimulants du défi a été de voir à quel point les participants ont largement utilisé des agents de codage IA. Les agents ont contribué à réduire le coût de l’expérimentation, ont facilité la participation d’un plus grand nombre de personnes et ont changé le rythme de la compétition. Ils ont aussi créé de nouveaux défis pour l’examen des soumissions, l’attribution et l’évaluation.

Le défi est aussi devenu pour nous un moyen concret de repérer des talents. C’était l’un de nos objectifs avec Parameter Golf, et cela a confirmé utilement que des défis techniques ouverts peuvent révéler un jugement exceptionnel en apprentissage automatique ainsi qu’une grande persévérance.

Dans cette publication, nous mettons en lumière certaines des soumissions qui nous ont semblé surprenantes et intéressantes, et nous partageons ce que nous avons appris en organisant un concours de codage à l’ère des puissants agents IA.

Impressions techniques

Volet record

Nous avons évalué et reproduit de manière indépendante chaque soumission figurant au classement des records, et vérifié que chacune d’entre elles constituait un record au moment de son envoi. Plusieurs thèmes se sont démarqués.

Optimisation de l’entraînement

Certains des meilleurs résultats sont venus d’un réglage minutieux de composants existants.

Soumission	Contributeur	Technique	Pourquoi c’était important
#60	@notapplica	A combiné gains précédents issus de #50, #42, et probablement #39, puis a fait fonctionner un modèle plus profond avec décroissance des poids Muon, initialisation d’embeddings spectraux, planification du mélange résiduel et évaluation compilée.	Un bon exemple de travail rigoureux sur le classement : identifier quelles améliorations existantes comptent et les combiner proprement.

Quantification

Plusieurs soumissions ont fortement misé sur la compression et l’exportation.

Soumission	Contributeur	Technique	Pourquoi c’était important
#414	@signalrush	A utilisé GPTQ-lite pour quantifier les poids après l’entraînement.	première soumission au classement à avoir utilisé GPTQ-lite avec succès, ce qui a permis d’obtenir une meilleure évaluation.
#1060	@dexhunter	S’est appuyé sur #634 de @raahilshah pour utiliser avec succès le Hessian de GPTQ.	A prolongé un travail antérieur de quantification vers une voie de compression plus performante.

Stratégies au moment du test et d’évaluation

Certaines soumissions ont repoussé la frontière entre l’amélioration du modèle et la stratégie d’évaluation. Ces approches étaient valides selon les règles, mais elles ont exigé un examen attentif de notre part en tant qu’organisateurs.

Soumission	Contributeur	Technique	Pourquoi c’était important
#77	@samacqua	A utilisé un entraînement LoRA au moment du test, par document et avec attribution du score en premier : attribuer le score d’abord, adapter uniquement sur les segments déjà notés, puis réinitialiser aux limites des documents.	A repoussé la frontière entre l’amélioration du modèle et la stratégie d’évaluation tout en restant vérifiable selon les règles.
#1019	@abaybektursun	A utilisé un calibrage GPTQ autogénéré : générer un texte de calibrage à partir du modèle entraîné, puis construire les Hessiens GPTQ à partir de ces activations.	Une stratégie d’étalonnage créative qui a nécessité un examen attentif de la part des organisateurs."

Nouvelles idées de modélisation et de données

Certaines soumissions présentaient des idées de modélisation ou de traitement des données particulièrement créatives.

Soumission	Contributeur	Technique	Pourquoi c’était important
#1729	@romeerp	A introduit le tokeniseur CaseOps : des tokens d’opérateur de capitalisation sans perte avec comptabilisation sidecar du BPB en octets d’origine.	Une idée créative de tokeniseur et de représentation des données.
#265	@unnir	A introduit XSA, une approche efficace d’Exclusive Self Attention partielle avec vues groupées compatibles GQA.	A apporté au défi une variante efficace de l’attention.
#65	@aquariouseworkman	A introduit SmearGate et BigramHash : un mélange appris d’embeddings du token précédent, plus des caractéristiques de hachage sur des paires de tokens adjacents.	A ajouté de nouveaux mécanismes de fonctionnalités à partir de zéro.
#1204	@msisovic	A introduit une récurrence de profondeur minimale : répétition des couches 4 et 5, récurrence retardée jusqu’au milieu de l’entraînement, et désolidarisation partielle des MLP répétés.	"Première entrée acceptée du classement à rendre les couches récurrentes réellement efficaces."

Nous avons choisi de mettre en avant ces neuf soumissions parce qu’elles illustrent bien la diversité des résultats que nous espérions voir émerger de ce défi. Certains participants ont obtenu des gains grâce à un réglage minutieux. D’autres ont poussé plus loin la quantification et les techniques de faible rang. Certains ont exploré les limites des règles d’évaluation. Et plusieurs ont proposé des approches de modélisation ou de données, issues de la littérature ou créées de toutes pièces, qui ont produit des gains inattendus.

Volet non record

Le volet non record a accueilli de nombreuses soumissions créatives. Nous avons sélectionné 15 de nos coups de cœur, parmi lesquels figuraient des approches allant de la modélisation de texte non autorégressive à la tokenisation dynamique.

Comme ce volet était plus expérimental, nous nous sommes moins concentrés sur la performance brute et davantage sur l’intérêt technique de l’approche. Trois soumissions se sont particulièrement démarquées :

Il s’agissait de nos trois soumissions non record préférées, même si elles n’étaient pas nécessairement les trois meilleures en matière de performance.

Cela dit, le volet non record restait compétitive. La moitié des entrées du classement non record ont surpassé la base de référence naïve de 1,22 BPB, et l’entrée classée au premier rang a atteint 1,12 BPB.

Nous avons trouvé cela encourageant. Même face à des modèles de référence puissants basés sur les transformers, d’autres approches ont parfois réussi à rivaliser avec l’architecture dominante.

Nous pensons aussi que ce volet bénéficie particulièrement de la disponibilité d’agents de codage performants. Ces agents ont permis de réduire considérablement le coût de la mise au point de prototypes pour des idées novatrices, y compris des approches qui auraient auparavant pu sembler trop chronophages ou trop hasardeuses pour être testées dans le cadre d’une brève compétition.

Constats

Une différence majeure entre Parameter Golf et les compétitions similaires qui l’ont précédé résidait dans l’utilisation généralisée d’agents de codage. La grande majorité des participants ont indiqué avoir utilisé des agents dans le cadre de leur travail.

Cela a réduit les obstacles à l’entrée. Les participants pouvaient mettre en place des expériences plus rapidement, examiner du code qu’ils ne connaissaient pas et tester des idées plus facilement. La commandite de Runpod, d’une valeur d’un million de dollars en ressources de calcul, a également joué un rôle majeur pour rendre ce défi accessible à un plus grand nombre de personnes.

Parallèlement, l’utilisation d’agents a créé de nouveaux enjeux pour les soumissions et l’évaluation. De nombreuses soumissions n’étaient que de petites modifications apportées à des approches déjà en tête du classement, plutôt que des approches fondamentalement nouvelles. C’était souvent utile : les idées fortes se diffusaient rapidement et étaient raffinées par d’autres. Mais cela a aussi généré du bruit. Lorsque des soumissions ne respectant pas les directives du concours obtenaient des scores exceptionnellement élevés, d’autres agents copiaient parfois ces idées et continuaient sur la même voie, pourtant non valide.

Le volume de soumissions a également modifié la manière dont nous avons dû organiser le concours. Il nous était impossible d’examiner manuellement chaque soumission tout en continuant à mettre à jour le classement. Pendant la compétition, nous avons développé un bot de triage interne basé sur Codex afin de surveiller les nouvelles soumissions et de les signaler pour qu’elles soient examinées par des humains. Cela s’est avéré particulièrement important pendant les périodes où nous recevions des centaines de soumissions par jour.

Les agents IA sont aussi devenus une partie de la communauté entourant le défi. Pendant une grande partie de la compétition, @notapplica et son agent de codage ont tenu un bulletin « Mises à jour en direct », suivant les événements majeurs, expliquant les approches du classement et aidant les autres participants à suivre la compétition. Des outils d’examen communautaires sont aussi apparus pour aider les participants moins expérimentés à vérifier si leurs soumissions respectaient les règles et à éviter les approches invalides courantes.

Et ensuite?

Notre objectif principal était de lancer un défi auquel les participants⁠(s'ouvre dans une nouvelle fenêtre) admissibles pourraient prendre part afin de découvrir la recherche en apprentissage automatique. Parameter Golf a donné lieu à un large éventail de soumissions à la fois techniquement solides et créatives, et nous a permis de mieux comprendre comment les concours de recherche ouverts pourraient évoluer à mesure que les agents d’IA gagnent en performances et se généralisent.

Nous envisageons de lancer d’autres défis de ce type à l’avenir. Si cela vous intéresse, veuillez remplir le formulaire de participation au défi⁠(s'ouvre dans une nouvelle fenêtre).

2026

Auteur

OpenAI

Poursuivez votre lecture

Afficher tout

Distinguer le signal du bruit dans les évaluations de code

Recherche8 juill. 2026

Présentation de GeneBench-Pro

Recherche30 juin 2026

A near-autonomous AI chemist improves a challenging reaction

Un chimiste IA quasi autonome améliore une réaction difficile en chimie thérapeutique

Recherche17 juin 2026