跳到主要內容
OpenAI

2026年5月12日

研究

Parameter Golf 帶給我們的啟示

來自 1,000 多名參與者、2,000 多份提交項目,以及一項由編碼智能代理共同塑造的開放式機器學習挑戰的經驗。

正在載入...

我們推出 Parameter Golf,旨在連繫並支持機器學習研究社群,探索一項全新、限制嚴格的機器學習問題。我們希望這項挑戰足以鼓勵真正的技術創意,同時在概念上保持簡單,並易於驗證。

參與者需要在固定 FineWeb 數據集上盡量降低保留驗證損失,同時遵守 16MB 成品限制,當中包括模型權重和訓練程式碼,並須在 8×H100 上於 10 分鐘訓練預算內完成。我們提供了基準、數據集和評估腳本,讓參與者可以分支複製程式碼庫、改良模型,並透過 GitHub 提交結果。

在八星期期間,我們收到來自 1,000 多名參與者的 2,000 多份提交項目。這些提交項目在技術廣度、創意和規則探索方面都令人印象深刻,從仔細調校優化器和量化工作,到新的建模思路和測試時訓練,均有涵蓋。

這項挑戰最令人興奮的部分之一,是看到參與者廣泛使用 AI 編碼智能代理。智能代理有助降低實驗成本,讓更多人更容易參與,並改變了比賽節奏。與此同時,智能代理亦為提交項目審核、歸因和評分帶來新的挑戰。

這項挑戰亦成為我們發掘人才的重要渠道。這是我們舉辦 Parameter Golf 的目標之一,也是一個有用訊號,顯示開放式技術挑戰能夠展現出色的機器學習判斷力和堅持。

在本文中,我們會重點介紹一些令我們感到意外和有趣的提交項目,並分享在強大 AI 智能代理時代舉辦編碼比賽的經驗。

技術觀察

紀錄賽道

我們對紀錄賽道排行榜上的每份提交項目進行評審及獨立重現,並確認每份提交項目在提交時均打破紀錄。當中有幾個主題特別突出。

訓練優化

部分最強結果來自對現有元件的仔細調校。

提交項目貢獻者技術重要之處
#60@notapplica結合來自提交項目 #50#42 及很可能 #39 的既有成果,然後透過 Muon weight decay、spectral embedding 初始化、residual-mix 排程及編譯式評估,令更深層模型成功運作。這是嚴謹推進排行榜上已有工作的出色例子:能夠識別哪些現有改良真正重要,並清晰整合起來。

量化

有幾份提交項目在壓縮和匯出方面大力推進。

提交項目貢獻者技術重要之處
#414@signalrush在訓練後使用 GPTQ-lite 量化權重。首個成功使用 GPTQ-lite 的排行榜提交項目,帶來更佳評估效果。
#1060@dexhunter建基於 @raahilshah 的提交項目 #634,成功使用完整 Hessian GPTQ。把早期量化工作延伸成更強的壓縮路徑。

測試時和評估策略

部分提交項目推進了模型改良與評估策略之間的界線。這些方法在規則下有效,但作為主辦方,我們需要仔細審查。

提交項目貢獻者技術重要之處
#77@samacqua使用評分優先、按文件進行的 LoRA 測試時訓練:先評分,只在已評分的區塊上適應,並在文件邊界重設。在符合規則且可審閱的情況下,推進了模型改進與評估策略之間的界線。
#1019@abaybektursun使用自生成 GPTQ 校準:由已訓練模型生成校準文本,再根據這些激活值建立 GPTQ Hessian。一種富創意的校準策略,需要主辦方仔細審查。

新的建模和數據思路

有幾份提交項目提出了特別有創意的建模或數據思路。

提交項目貢獻者技術重要之處
#1729@romeerp引入 CaseOps tokenizer:採用無損大小寫運算符 Token,並另行記錄原始位元組數,以準確計算 BPB。一個富創意的 Tokenizer 與數據表示思路。
#265@unnir引入 XSA,一種高效的部分 Exclusive Self Attention 方法,配合具 GQA 感知的分組視圖。把一種高效注意力變體帶入這項挑戰。
#65@aquariouseworkman引入 SmearGate 和 BigramHash:使用經學習的前一個 Token 嵌入混合,並加入相鄰 Token 配對的雜湊特徵。從零開始加入新的特徵機制。
#1204@msisovic引入小型深度循環:重複第 4 與第 5 層、延至訓練中期才啟用循環,並把重複的 MLP 部分解綁。首個獲接受並有效運用循環層的排行榜參賽提交項目。

我們選擇重點介紹這九份提交項目,因為它們代表了我們希望這項挑戰能發掘到的成果範圍。有些參與者透過仔細調校取得進展。另一些則推進了量化和低秩技術。有些探索了評估規則的邊界。亦有數份提交項目引入來自文獻或從零開始發展的建模或數據思路,帶來意想不到的提升。

非紀錄賽道

非紀錄賽道匯聚了不少富創意的提交項目。我們重點介紹了 15 個喜愛的項目,涵蓋從非自回歸文本建模到動態 Token 化處理等方法。

由於這條賽道更具實驗性,我們較少着眼於原始表現,而是更關注所用的方法在技術上是否有趣。其中三份提交項目尤其突出:

這三份是我們最喜愛的非紀錄提交項目,雖然它們按表現計不一定排名前三。

不過,非紀錄賽道仍然競爭激烈。非紀錄排行榜中有一半參賽提交項目都超越了 1.22 BPB 的簡單基準,排名最高的參賽提交項目達到 1.12 BPB。

這讓我們感到鼓舞。即使面對強大的 Transformer 基準,其他替代方法有時仍能與主流架構分庭抗禮。

我們亦認為,這條賽道尤其受惠於強大編碼智能代理的普及。智能代理大幅降低了為推測性想法製作原型的成本,包括一些以往在短期比賽中可能因太花時間或不確定性太高而不會嘗試的方法。

重點總結

Parameter Golf 與過往同類比賽的一個主要分別,是編碼智能代理被廣泛使用。絕大多數提交者都提到在工作中使用了智能代理。

這降低了參與門檻。參與者可以更快設置實驗、檢查不熟悉的程式碼,並以更少阻力測試想法。Runpod 贊助的 1,000,000 美元運算資源,亦在令更多人能夠參與這項挑戰方面發揮了重大作用。

同時,使用智能代理亦為提交和評分帶來新問題。許多提交項目只是對現有高分項目作出小幅修改,而非提出根本上全新的方法。這通常有其價值:好的想法可以快速傳播,並由其他人加以改良。但這亦造成雜訊。當不符合比賽指引的提交項目取得異常高分時,其他智能代理有時會複製這些想法,並沿着同一條無效路徑繼續前進。

提交項目的數量亦改變了我們營運比賽的方式。我們無法手動檢查每份提交項目,同時又讓排行榜持續更新。在挑戰期間,我們開發了一個以 Codex 為基礎的內部分流機械人,用於監察新提交項目,並標記需要人工審核的項目。在我們每天收到數百份提交項目的時段,這一點尤其重要。

AI 智能代理亦成為挑戰社群的一部分。在比賽的大部分時間,@notapplica 與其編碼智能代理都在運行一份「最新動態」公告,追蹤重大事件、解說排行榜上的方法,並協助其他參與者掌握比賽進展。社群審核工具亦相繼出現,幫助經驗較少的參與者檢查其提交項目是否符合規則,並避免常見的無效方法。

下一步是甚麼?

我們的首要目標,是推出一項讓合資格參加者(在新視窗中開啟)能夠參與並體驗機器學習研究的挑戰。Parameter Golf 吸引了各類技術實力強而且富創意的提交項目,也讓我們更清楚看到,隨着 AI 智能代理變得更有能力並被廣泛使用,開放研究比賽可能會如何改變。

我們正考慮日後推出更多同類挑戰。如果你有興趣,請填寫挑戰參加者表格(在新視窗中開啟)

作者

OpenAI