2026年5月12日

Parameter Golf から得た教訓

1,000 人超の参加者、2,000 件超の提出、そしてコーディングエージェントが形作ったオープンな機械学習チャレンジから得た学び。

読み込んでいます...

私たちは、厳しい制約のある新しい機械学習課題を探究する機械学習研究コミュニティを支援するために、Parameter Golf を立ち上げました。このチャレンジは、実際の技術的創造性が報われるだけの面白さを持ちながら、概念としてはシンプルで、検証しやすいものにしたいと考えていました。

参加者は、固定された FineWeb データセットに対するホールドアウト損失を最小化しながら、モデル重みと学習コードを含めて16 MB以内に収め、さらに 8×H100 上で10分以内という学習時間の制約を守る必要がありました。私たちはベースライン、データセット、評価スクリプトを提供し、参加者がリポジトリをフォークしてモデルを改善し、GitHub 経由で結果を提出できるようにしました。

8週間にわたり、1,000人を超える参加者から2,000件以上の提出が寄せられました。オプティマイザの丁寧な調整や量子化の工夫から、新しいモデリングの発想やテスト時学習まで、提出全体に見られた技術的な幅広さ、創造性、そしてルールの限界に挑む姿勢に、私たちは感銘を受けました。

このチャレンジで特に印象的だったのは、参加者が AI コーディングエージェントを非常に広く活用していたことです。エージェントは試行錯誤のコストを下げ、より多くの人が参加しやすくなっただけでなく、競争のスピードそのものも変えました。一方で、提出内容のレビュー、帰属、スコアリングには新たな課題も生まれました。

このチャレンジは、私たちにとって有意義な人材発掘の場にもなりました。これは Parameter Golf の目標の1つでもあり、オープンエンドな技術チャレンジを通じて、優れた機械学習のセンスや粘り強さが見えてくることも示されました。

本記事では、特に印象に残った提出の一部を紹介するとともに、強力な AI エージェントの時代にコーディングコンテストを運営して得られた知見を紹介します。

技術的な所感

記録トラック

私たちは、記録トラックのリーダーボードに掲載された各提出を審査し、独自に再現したうえで、それぞれが提出時点で記録更新となっていたことを確認しました。その中で、いくつかの傾向が特に際立っていました。

学習の最適化

特に優れた結果の中には、既存コンポーネントの丁寧な調整によって生まれたものもありました。

提出物	貢献者	手法	重要だった理由
#60	@notapplica	#50、#42、そしておそらく #39 の成果を組み合わせたうえで、Muon の weight decay、スペクトル埋め込み初期化、residual-mix スケジューリング、コンパイル済み評価を用いて、より深いモデルを成立させた。	既存の改善のうち本当に重要なものを見極め、それらを無駄なく組み合わせるという、規律あるリーダーボード改善の好例。

量子化

圧縮やエクスポートを徹底的に追求した提出も複数見られました。

提出物	貢献者	手法	重要だった理由
#414	@signalrush	学習後にGPTQ-lite を用いて重みを量子化。	GPTQ-lite を初めて実用的に活用したリーダーボード提出であり、評価性能の向上につながった。
#1060	@dexhunter	@raahilshah による #634 を基に、full Hessian GPTQ の活用に成功。	従来の量子化手法を、より強力な圧縮アプローチへ発展させた。

テスト時および評価戦略

一部の提出は、モデル改善と評価戦略の境界に踏み込むものでした。これらの手法はルール上は有効でしたが、主催者として慎重なレビューが必要でした。

提出物	貢献者	手法	重要だった理由
#77	@samacqua	スコア優先のドキュメント単位 LoRA テスト時学習を採用。まずスコアリングを行い、すでに評価済みのチャンクだけに適応を適用し、ドキュメント境界でリセットする方式。	ルール上レビュー可能な状態を維持しながら、モデル改善と評価戦略の境界を押し広げた。
#1019	@abaybektursun	自己生成 GPTQ キャリブレーションを採用。学習済みモデルからキャリブレーション用テキストを生成し、その活性化を基に GPTQ Hessian を構築。	主催者による慎重なレビューを要した、独創的なキャリブレーション戦略。

新しいモデリングとデータの発想

特に創造的なモデリングやデータのアイデアを導入した提出もいくつかありました。

提出物	貢献者	手法	重要だった理由
#1729	@romeerp	CaseOps トークナイザーを導入。元バイト単位の BPB サイドカー計上に対応した、ロスレスな大文字化オペレータートークンを採用。	独創的なトークナイザーおよびデータ表現のアイデア。
#265	@unnir	GQA を考慮したグループ化ビューを備える、効率的な部分的 Exclusive Self Attention 手法「XSA」を導入。	効率的な Attention 手法をこのチャレンジに持ち込んだ。
#65	@aquariouseworkman	SmearGate と BigramHash を導入。学習済みの前トークン埋め込みブレンドと、隣接トークンペアのハッシュ特徴量を組み合わせた手法。	新しい特徴量メカニズムをゼロから構築した。
#1204	@msisovic	mini depth recurrence を導入。レイヤー4と5を繰り返し使用し、学習中盤まで再帰を遅延させつつ、繰り返し使われる MLP を部分的に非共有化。	再帰レイヤーを実用的に機能させた、初の承認済みリーダーボード提出。

私たちがこれら9件の提出を取り上げたのは、このチャレンジを通じて見えてきてほしいと考えていた成果の幅をよく表していたからです。丁寧な調整によって成果を出した参加者もいれば、量子化や低ランク手法を押し進めた参加者もいました。評価ルールの境界を探るアプローチもあれば、文献を応用したものやゼロから生み出されたものまで、予想外の改善につながるモデリングやデータの発想も見られました。

非記録トラック

非記録トラックには、創造性に富んだ提出が数多く集まりました。非自己回帰型テキストモデリングから動的トークン化まで、多彩なアプローチの中から、特に印象的だった15件を取り上げています。

このトラックは実験的な性格が強かったため、純粋な性能だけでなく、そのアプローチ自体がどれだけ技術的に面白いかを重視しました。中でも特に印象に残ったのが、次の3件です。

これらは性能面で必ずしも上位ではありませんでしたが、私たちにとって特に印象深かった非記録トラックの提出です。

とはいえ、非記録トラックも十分に競争的でした。リーダーボード掲載エントリの半数が 1.22 BPB の単純ベースラインを上回り、最上位のエントリは 1.12 BPB に到達しました。

私たちは、この結果を非常に心強く感じました。強力な Transformer ベースラインが主流である中でも、代替アプローチが十分に対抗できる可能性を示していたからです。

また、このトラックでは、強力なコーディングエージェントの存在が特に大きな後押しになっていたとも感じています。以前であれば、短期間のコンペティションでは試すには時間がかかりすぎる、あるいは不確実すぎると思われていたような手法も含め、実験的なアイデアを低コストで素早く試せるようになったからです。

主な学び

Parameter Golf と過去の類似コンペティションとの大きな違いは、コーディングエージェントが広く使われていたことでした。提出者の大多数が、作業の一部としてエージェントを活用していたと述べています。

これにより、参入のハードルは大きく下がりました。参加者は、実験をより素早く立ち上げ、初めて触れるコードを解析し、より少ない負担でアイデアを試せるようになりました。また、Runpod による100万ドル相当のコンピュート提供も、このチャレンジをより多くの人が参加しやすいものにするうえで大きな役割を果たしました。

一方で、エージェントの利用は、提出やスコアリングに新たな課題ももたらしました。多くの提出は、根本的に新しいアプローチというより、既存の高得点提出に小さな変更を加えたものでした。これは、優れたアイデアが素早く広まり、他の参加者によって洗練されていくという点では有益でもありました。しかし同時に、ノイズも生みました。コンペティションのガイドラインから外れた提出が異常に高いスコアを出した場合、他のエージェントがその発想を模倣し、同じ無効な方向へ進み続けてしまうこともありました。

提出数の多さは、コンペティション運営のあり方そのものも変えました。すべての提出を手作業で確認しながら、リーダーボードを継続的に更新することは現実的ではありませんでした。そこで私たちは、チャレンジ期間中に、新しい提出を監視し、人によるレビューが必要なものをフラグ付けする Codex ベースの内部トリアージボットを開発しました。これは、1日に数百件の提出が寄せられる時期には特に重要な役割を果たしました。

AI エージェントは、このチャレンジを取り巻くコミュニティの一部にもなっていきました。コンペティション期間の大半にわたり、@notapplica とそのコーディングエージェントは「Live Updates」速報を運営し、主要な出来事を追跡したり、リーダーボード上のアプローチを解説したりしながら、他の参加者がコンペティションを追いやすいよう支援していました。また、経験の浅い参加者が、自分の提出がルールに沿っているかを確認し、よくある無効なアプローチを避けられるよう支援するコミュニティレビュー用ツールも登場しました。

今後について

私たちの主な目標は、参加資格のある人⁠（新しいウィンドウで開く）が実際に参加し、機械学習研究を体験できるチャレンジを立ち上げることでした。Parameter Golf には、技術的に優れた創造的な提出が幅広く集まりました。また、AI エージェントがより高性能になり、広く普及していく中で、オープンな研究コンペティションがどのように変化していくのかについて、私たちにより鮮明な視点を与えてくれました。

私たちは今後、このようなチャレンジをさらに実施していくことを検討しています。ご興味のある方は、チャレンジ参加者フォーム⁠（新しいウィンドウで開く）にご記入ください。