Was Parameter Golf uns gelehrt hat
Erkenntnisse aus einer offenen, von Coding-Agenten geprägten Machine-Learning-Challenge mit über 1.000 Teilnehmenden und über 2.000 Einreichungen.
Wir haben Parameter Golf gestartet, um die Machine-Learning-Forschungsgemeinschaft dabei zu unterstützen, ein neues, stark eingeschränktes Machine-Learning-Problem zu erkunden. Die Challenge sollte interessant genug sein, um echte technische Kreativität zu belohnen, und zugleich konzeptionell einfach und leicht überprüfbar bleiben.
Die Teilnehmenden mussten den Held-out-Loss auf einem festen FineWeb-Datensatz minimieren und dabei innerhalb eines Artifact-Limits von 16 MB bleiben, einschließlich Modellgewichten und Trainingscode, sowie eines Trainingsbudgets von 10 Minuten auf 8×H100s. Wir stellten eine Baseline, den Datensatz und Evaluierungsskripte bereit, damit Teilnehmende das Repo forken, das Modell verbessern und ihre Ergebnisse über GitHub einreichen konnten.
Im Verlauf von acht Wochen erhielten wir mehr als 2.000 Einreichungen von über 1.000 Teilnehmenden. Beeindruckt haben uns die technische Bandbreite, die Kreativität und das Ausreizen der Regeln in den Einreichungen – von sorgfältigem Optimizer-Tuning und Quantisierungsarbeit bis hin zu neuen Modellierungsansätzen und Test-Time-Training.
Einer der spannendsten Aspekte der Challenge war zu sehen, wie breit Teilnehmende KI-Coding-Agenten einsetzten. Agenten halfen dabei, die Kosten des Experimentierens zu senken, machten die Teilnahme für mehr Menschen einfacher und veränderten das Tempo des Wettbewerbs. Sie schufen aber auch neue Herausforderungen bei der Prüfung von Einreichungen, der Zuschreibung und der Bewertung.
Die Challenge wurde für uns auch zu einer wertvollen Möglichkeit, Talente zu entdecken. Das war eines unserer Ziele mit Parameter Golf, und es war ein nützliches Signal dafür, dass offene technische Challenges außergewöhnliches Gespür für Machine Learning und Ausdauer sichtbar machen können.
In diesem Beitrag heben wir einige Einreichungen hervor, die wir überraschend und interessant fanden, und teilen, was wir daraus gelernt haben, einen Coding-Wettbewerb im Zeitalter leistungsfähiger KI-Agenten durchzuführen.
Wir bewerteten und reproduzierten jede Einreichung auf dem Leaderboard des Rekord-Tracks unabhängig und verifizierten, dass jede Einreichung zum Zeitpunkt ihrer Einreichung einen Rekord aufstellte. Mehrere Themen stachen hervor.
Trainingsoptimierung
Einige der stärksten Ergebnisse kamen durch sorgfältiges Tuning bestehender Komponenten zustande.
| Einreichung | Beitragende:r | Technik | Warum es wichtig war |
| #60 | @notapplica | Kombinierte frühere Erfolge aus #50, #42 und wahrscheinlich #39 und brachte dann ein tieferes Modell mit Muon-Weight-Decay, spektraler Embedding-Initialisierung, Residual-Mix-Scheduling und kompilierter Evaluierung zum Laufen. | Ein starkes Beispiel für disziplinierte Leaderboard-Arbeit: zu erkennen, welche bestehenden Verbesserungen wichtig sind, und sie sauber zu kombinieren. |
Quantisierung
Mehrere Einreichungen trieben Komprimierung und Export stark voran.
| Einreichung | Beitragende:r | Technik | Warum es wichtig war |
| #414 | @signalrush | Verwendete GPTQ-lite, um Gewichte nach dem Training zu quantisieren. | Die erste Leaderboard-Einreichung, die GPTQ-lite erfolgreich nutzte, was zu einer besseren Bewertung führte. |
| #1060 | @dexhunter | Baute auf #634 von @raahilshah auf, um Full-Hessian-GPTQ erfolgreich zu nutzen. | Erweiterte frühere Quantisierungsarbeit zu einem stärkeren Komprimierungspfad. |
Test-Time- und Evaluierungsstrategien
Einige Einreichungen verschoben die Grenze zwischen Modellverbesserung und Evaluierungsstrategie. Diese Ansätze waren nach den Regeln zulässig, erforderten von uns als Organisator:innen jedoch eine sorgfältige Prüfung.
| Einreichung | Beitragende:r | Technik | Warum es wichtig war |
| #77 | @samacqua | Verwendete score-first, dokumentweises LoRA-Test-Time-Training: erst bewerten, nur auf bereits bewerteten Abschnitten anpassen und an Dokumentgrenzen zurücksetzen. | Verschob die Grenze zwischen Modellverbesserung und Evaluierungsstrategie und blieb dabei nach den Regeln überprüfbar. |
| #1019 | @abaybektursun | Verwendete selbstgenerierte GPTQ-Kalibrierung: Kalibrierungstext aus dem trainierten Modell erzeugen und dann GPTQ-Hessian-Matrizen aus diesen Aktivierungen erstellen. | Eine kreative Kalibrierungsstrategie, die eine sorgfältige Prüfung durch die Organisator:innen erforderte. |
Neue Modellierungs- und Datenideen
Einige Einreichungen brachten Modellierungs- oder Datenideen ein, die besonders kreativ waren.
| Einreichung | Beitragende:r | Technik | Warum es wichtig war |
| #1729 | @romeerp | Führte den CaseOps-Tokenizer ein: verlustfreie Großschreibungs-Operator-Token mit Sidecar-Abrechnung nach Original-Byte-BPB. | Eine kreative Idee für Tokenizer und Datenrepräsentation. |
| #265 | @unnir | Führte XSA ein, einen effizienten partiellen Exclusive-Self-Attention-Ansatz mit GQA-bewussten gruppierten Views. | Brachte eine effiziente Attention-Variante in die Challenge ein. |
| #65 | @aquariouseworkman | Führte SmearGate und BigramHash ein: eine gelernte Mischung aus Previous-Token-Embeddings plus Hash-Features für benachbarte Token-Paare. | Fügte neue Feature-Mechanismen von Grund auf hinzu. |
| #1204 | @msisovic | Führte Mini-Depth-Recurrence ein: wiederholte die Layer 4 und 5, verzögerte die Rekurrenz bis zur Mitte des Trainings und entkoppelte die wiederholten MLPs teilweise. | Der erste akzeptierte Leaderboard-Eintrag, bei dem rekurrente Layer effektiv funktionierten. |
Wir haben diese neun Einreichungen hervorgehoben, weil sie die Bandbreite der Ergebnisse repräsentieren, die die Challenge unserer Hoffnung nach sichtbar machen sollte. Einige Teilnehmende erzielten Erfolge durch sorgfältiges Tuning. Andere trieben Quantisierung und Low-Rank-Techniken voran. Manche loteten die Grenzen der Evaluierungsregeln aus. Und mehrere brachten Modellierungs- oder Datenideen ein – aus der Literatur oder von Grund auf neu –, die unerwartete Zugewinne brachten.
Der Nicht-Rekord-Track beherbergte viele kreative Einreichungen. Wir hoben 15 Favoriten hervor, darunter Ansätze von nicht-autoregressiver Textmodellierung bis hin zu dynamischer Tokenisierung.
Da dieser Track experimenteller war, konzentrierten wir uns weniger auf die reine Leistung und stärker darauf, ob der Ansatz technisch interessant war. Drei Einreichungen stachen besonders hervor:
Das waren unsere drei Favoriten bei den Nicht-Rekord-Einreichungen, auch wenn sie leistungsmäßig nicht unbedingt die Top drei waren.
Dennoch blieb der Nicht-Rekord-Track wettbewerbsintensiv. Die Hälfte der Nicht-Rekord-Einträge auf dem Leaderboard übertraf die naive Baseline von 1,22 BPB, und der bestplatzierte Eintrag erreichte 1,12 BPB.
Das fanden wir ermutigend. Selbst gegenüber starken Transformer-Baselines konnten alternative Ansätze sich manchmal gegenüber der dominanten Architektur behaupten.
Wir denken auch, dass dieser Track besonders von der Verfügbarkeit starker Coding-Agenten profitierte. Agenten machten es deutlich günstiger, Prototypen spekulativer Ideen zu entwickeln, einschließlich Ansätzen, die zuvor in einem kurzen Wettbewerb vielleicht als zu zeitaufwendig oder zu unsicher gegolten hätten.
Ein wesentlicher Unterschied zwischen Parameter Golf und ähnlichen früheren Wettbewerben war der breite Einsatz von Coding-Agenten. Die große Mehrheit der Einreichenden erwähnte, Agenten als Teil ihrer Arbeit genutzt zu haben.
Das senkte die Einstiegshürde. Teilnehmende konnten Experimente schneller aufsetzen, sich in unbekanntem Code zurechtfinden und Ideen mit weniger Reibung testen. Auch das Sponsoring von Runpod in Höhe von 1.000.000 US-Dollar an Compute spielte eine wichtige Rolle dabei, die Challenge für mehr Menschen zugänglich zu machen.
Gleichzeitig brachte der Einsatz von Agenten neue Probleme für Einreichung und Bewertung mit sich. Viele Einreichungen waren kleine Änderungen an bestehenden Top-Ergebnissen statt grundlegend neue Ansätze. Das war oft nützlich: Starke Ideen verbreiteten sich schnell und wurden von anderen weiter verfeinert. Es war aber auch störend. Wenn Einreichungen, die nicht den Wettbewerbsrichtlinien entsprachen, ungewöhnlich starke Werte erzielten, kopierten andere Agenten diese Ideen manchmal und verfolgten denselben ungültigen Weg weiter.
Auch das Volumen der Einreichungen veränderte, wie wir den Wettbewerb durchführen mussten. Wir konnten nicht jede Einreichung manuell prüfen und gleichzeitig das Leaderboard zeitnah aktualisieren. Während der Challenge entwickelten wir intern einen auf Codex basierenden Triage-Bot, um neue Einreichungen zu überwachen und sie zur menschlichen Prüfung zu markieren. Das wurde besonders wichtig in Phasen, in denen wir Hunderte Einreichungen pro Tag erhielten.
KI-Agenten wurden auch Teil der Community rund um die Challenge. Während eines großen Teils des Wettbewerbs betrieben @notapplica und ihr Coding-Agent ein Bulletin mit „Live Updates“, verfolgten wichtige Ereignisse, erklärten Ansätze auf dem Leaderboard und halfen anderen Teilnehmenden, dem Wettbewerb zu folgen. Es entstanden auch Community-Review-Tools, die weniger erfahrenen Teilnehmenden dabei halfen zu prüfen, ob ihre Einreichungen den Regeln entsprachen, und häufige ungültige Ansätze zu vermeiden.
Unser Hauptziel war es, eine Challenge zu starten, an der teilnahmeberechtigte Teilnehmer:innen(wird in einem neuen Fenster geöffnet) mitmachen und Machine-Learning-Forschung erleben konnten. Parameter Golf brachte eine große Bandbreite technisch starker und kreativer Einreichungen zusammen und gab uns einen klareren Blick darauf, wie sich offene Forschungswettbewerbe verändern könnten, wenn KI-Agenten leistungsfähiger werden und breiter eingesetzt werden.
Wir denken darüber nach, künftig weitere Challenges dieser Art zu starten. Wenn du interessiert bist, fülle bitte das Formular für die Challenge-Teilnahme(wird in einem neuen Fenster geöffnet) aus.


