跳至主要内容
OpenAI

2026年5月12日

研究

Parameter Golf 带来的启示

1000+ 名参与者、2000+ 份提交,以及一场由 AI 编程智能体塑造的开放式机器学习挑战赛

正在加载…

我们推出 Parameter Golf 挑战赛的初衷,是为了汇聚并助力机器学习研究社区,共同探索一个全新且限制极严的机器学习难题。在设计这场挑战赛时,我们希望它既能兼顾趣味性,以激发出真正的技术创新;同时又能保持概念上的简洁,便于结果的验证。

比赛的规则非常严苛:参赛者需要在固定的 FineWeb 数据集上最小化留出损失 (held-out loss)。与此同时,包含模型权重和训练代码在内的产物大小被严格限制在 16 MB 以内,且在 8 张 H100 显卡上的训练时间不能超过 10 分钟。为了方便大家参赛,我们提供了基准模型 (baseline)、数据集和评估脚本。参赛者只需克隆 (fork) 代码仓库,优化模型,然后通过 GitHub 提交成果即可。

在为期八周的赛程里,我们收到了来自 1000 多位参赛者的 2000 多份提交。选手们展现出的技术广度、创新思维以及对规则边界的探索,让我们惊叹不已 — 从精细的优化器微调、量化工作,到全新的模型架构构想,再到测试时训练 (test-time training),可谓亮点纷呈。

而本场挑战赛最令人兴奋的现象之一,莫过于 AI 编程智能体 (coding agent) 的广泛应用。这些智能体不仅大幅降低了实验成本,吸引了更多人参与其中,更彻底改变了比赛的竞争节奏。当然,它们也给成果审核、归属判定以及评分机制带来全新挑战。

此外,这场挑战赛还成为我们发掘顶尖人才的重要窗口。这正是我们举办 Parameter Golf 的初衷之一,也用事实证明了:开放式的技术挑战赛,能够非常精准地甄别出在机器学习领域具备敏锐嗅觉与坚韧毅力的卓越人才。

在本文中,我们将带大家回顾一些令人意想不到且极为精彩的提交成果,并分享在高性能 AI 智能体时代举办编程大赛的经验总结。

技术亮点与观察

纪录刷新者

针对刷新了纪录榜单的每一份提交成果,我们不仅进行了评审,还独立完成了复现,以确保其在提交时确实打破了当时的纪录。在这个过程中,几大核心技术方向脱颖而出:

训练优化

部分最出色的比赛结果,往往源于对现有组件的匠心微调。

提交贡献者技术价值
#60@notapplica融合了 #50#42,以及可能包含 #39 的前期优胜方案;在此基础上,通过引入 Muon 权重衰减 (weight decay)、谱嵌入初始化 (spectral embedding initialization)、残差混合调度 (residual-mix scheduling) 以及编译评估 (compiled evaluation),成功让更深的模型跑出了效果。堪称高水平打榜的典范:精准识别出哪些现有的优化方案真正有效,并将其干净利落地融合在一起。

量化技术

有几份提交在压缩与导出上做到了极致。

提交贡献者技术价值
#414@signalrush在模型训练完成后,利用 GPTQ-lite 对模型权重进行了量化处理。这是榜单中首个成功应用 GPTQ-lite 的提交方案,有效提升了评估表现。
#1060@dexhunter基于 @raahilshah 的 #634 方案进行迭代,成功实现了全海森矩阵 GPTQ (full hessian gptq) 的应用。进一步拓展了前期的量化探索,开辟了一条更出色的压缩路径。

测试时与评估策略

部分选手巧妙地模糊了“模型优化”与“评估策略”之间的边界。尽管这些方法在规则允许的范围内完全合规,但作为主办方,我们仍对其进行了极其严谨的审核。

提交贡献者技术价值
#77@samacqua采用“评分优先”的单文档 LoRA 测试时训练策略:先进行评分,且仅在已评分的数据块 (chunk) 上进行自适应调整,并在遇到文档边界时进行重置。巧妙地模糊了“模型优化”与“评估策略”之间的边界,同时其方案在规则范围内依然保持了可审核性。
#1019@abaybektursun采用自生成 GPTQ 校准策略:先通过训练好的模型自身生成校准文本,再利用这些激活值构建 GPTQ 海森矩阵。一种极具创意的校准策略,促使主办方对其进行了极其严谨的审核。

创新的模型与数据构想

还有少数提交引入了极具创意的全新架构或数据处理思路。

提交贡献者技术价值
#1729@romeerp引入了 CaseOps Tokenizer:采用无损大小写操作符 Token,并辅以原字节 BPB 侧车 (sidecar) 记账机制一种极具创意的 Tokenizer 与数据表示构想。
#265@unnir引入了 XSA 技术:一种具备 GQA 感知型分组视图的高效局部排他性自注意力 (exclusive self attention) 机制。成功为本次挑战赛引入了一种高效的注意力机制变体。
#65@aquariouseworkman引入了 SmearGate 与 BigramHash:通过学习得到的前一 Token 嵌入融合机制,并结合了相邻 Token 对的哈希特征。完全从零开始,加入了全新的特征机制。
#1204@msisovic引入了微型深度循环 (mini depth recurrence) 机制:通过重复堆叠第 4 层和第 5 层,将循环机制推迟至训练中期引入,并对重复的 MLP 进行了部分解耦 (untied)。这是榜单中首个通过审核并成功让循环层发挥出显著功效的提交方案。

我们之所以专门挑选出这 9 份提交进行重点解析,是因为它们完美呈现了我们此前对这场挑战赛所寄予的种种期待。有些参赛者通过精细调优稳扎稳打;有些选手则出色地运用了量化和低秩技术 (low-rank technique);还有人精准切入了评估规则的边缘地带。不仅如此,几位选手还从前沿文献中汲取灵感或干脆从零开始,引入了独特的模型或数据构想,并最终带来了意料之外的性能飞跃。

非纪录榜单

在非纪录榜单中,涌现出了大量极具创意的提交成果。我们从中精心挑选出了 15 份成果,其技术路线涵盖了从非自回归文本建模 (non-autoregressive text modeling) 到动态 Token 化处理的诸多领域。

由于该赛道更偏向于前瞻性实验,因此我们减弱了对绝对性能指标的关注,转而将侧重点放在方案本身是否具备技术趣味性上。其中,有三份提交尤为引人瞩目:

尽管从纯粹的性能数据来看,这三份方案未必能高居前三,但它们无疑是我们在非纪录赛道中最欣赏的作品。

即便如此,非纪录赛道的竞争依旧异常激烈。该榜单中有一半的入围作品都成功超越了 1.22 BPB 的朴素基准线 (naive baseline),而名列榜首的成绩更是达到了惊人的 1.12 BPB。

这一结果令人振奋。它有力地证明了:即便面对强大的 Transformer 基准模型,非主流的替代架构在某些特定场景下依然能够与这一统治级的主流架构分庭抗礼。

同时我们认为,高性能 AI 编程智能体的普及,让这一赛道受益匪浅。智能体大幅降低了验证各类猜想的代码构建成本,这使得许多此前在短暂赛期内因过于耗时、结果难料而被放弃的创新方案,如今都拥有了落地的可能。

总结与启示

与以往同类赛事相比,Parameter Golf 最显著的差异在于 AI 编程智能体的全面普及。绝大多数参赛者都在复盘中提到,智能体已成为其研发工作不可或缺的一部分。

这种变革最直接的影响就是降低了参赛门槛。参赛者得以大幅缩短实验的配置周期,更轻松地读懂陌生代码,并以极低的试错成本去验证新的构想。此外,Runpod 慷慨赞助的 100 万美元算力额度,也对降低参赛门槛、让更多人参与其中起到了决定性的作用。

然而,智能体的广泛应用也给成果提交和评分机制带来了全新的挑战。许多提交的成果并非源自底层的架构创新,而仅仅是对当时高分方案进行的微调。从积极的角度来看,这种模式确实促成了优秀创新的快速裂变与群体迭代;但与此同时,它也带来了不小的噪声。例如,当某些违反大赛指南的提交意外跑出了极高分数时,其他智能体有时会盲目跟风复制,导致后续的尝试在错误的道路上越走越远。

海量的提交数据同样迫使我们不得不重构赛事的运营方式。如果单凭人工审核每一份提交,榜单的实时刷新将无从谈起。为此,我们在比赛期间开发了一款基于 Codex 的内部初筛机器人 (triage bot),专门用来监控新提交的成果,并精准识别出需要人工介入复核的样本。在日收件量高达数百份的冲刺阶段,这一自动化机制发挥了举足轻重的作用。

值得一提的是,AI 智能体甚至融入并重塑了本场挑战赛的社区生态。在比赛的大部分时间里,选手 @notapplica 携手其编程智能体创办了一个“赛事直播”简报栏目。他们实时追踪赛场重大动向、深度解释排行榜上方案,帮助其他选手紧跟比赛节奏。与此同时,社区内还自发涌现出了各类审查工具,帮助经验尚浅的参赛者自查成果是否合规,从而有效避免了因低级错误导致成绩无效的情况。

未来展望

我们举办这场挑战赛的初衷,是希望能为符合条件的参与者(在新窗口中打开)提供一个亲身实践、深入体验机器学习研究的平台。Parameter Golf 不仅吸引了大量技术过硬、创意十足的优秀成果,更让我们清晰地预见到,随着 AI 智能体能力的不断跃升与全面普及,开放式研究型赛事未来将迎来怎样的深刻变革。

我们目前正计划推出更多类似的挑战赛。如果您对此感兴趣,欢迎填写挑战赛参赛意向表(在新窗口中打开)

作者

OpenAI