跳至主要內容
OpenAI

2026年5月12日

研究

我們從 Parameter Golf 學到什麼

來自 1,000 多名參與者、2,000 多份參賽作品,以及由程式碼編寫智慧體塑造的開放式機器學習挑戰的啟示。

載入中…

我們推出 Parameter Golf,希望支持機器學習研究社群踴躍參與這項挑戰,探索一個全新且限制嚴格的機器學習問題。我們希望這項挑戰夠有趣,能獎勵真正的技術創意,同時在概念上保持簡單且易於驗證。

參與者必須在固定的 FineWeb 資料集上最小化保留集損失,同時遵守 16 MB 的成品大小限制(包含模型權重與訓練程式碼),以及在 8×H100 上 10 分鐘的訓練預算。我們提供了基準、資料集與評估腳本,讓參與者可以分支這個 repo、改進模型,並透過 GitHub 提交結果。

在八週期間,我們收到了來自超過 1,000 名參與者的 2,000 多份參賽作品。從細緻的最佳化器調校與量化工作,到新的建模想法與測試時訓練,這些作品在技術廣度、創意,以及對規則邊界的探索上都令我們印象深刻。

這項挑戰最令人興奮的部分之一,是看到參與者如此廣泛地使用 AI 程式碼編寫智慧體。智慧體幫助降低了實驗成本,讓更多人更容易參與,也改變了競賽的節奏。同時,它們也為作品審查、歸因與評分帶來了新的挑戰。

這項挑戰也成為我們發掘人才的重要場域。這原本就是我們對 Parameter Golf 的目標之一,而結果也提供了有力訊號:開放式技術挑戰能揭示出色的機器學習品味與堅持力。

在這篇文章中,我們會介紹讓我們感到驚喜且有趣的參賽作品,並分享在強大 AI 智慧體時代舉辦寫程式競賽後,我們從中學習到了什麼。

技術觀察

排名組

我們評審並獨立重現了排名組排行榜上的每一個參賽作品,並確認每個作品在送出當時都刷新了紀錄。有幾個主題特別突出。

訓練最佳化

一些最強的結果來自對既有元件的細緻調校。

參賽作品貢獻者技術重要性
#60@notapplica整合了#50#42,以及可能來自 #39 的先前成功方法,接著透過 Muon 權重衰減、頻譜嵌入初始化、殘差混合排程與編譯式評估,讓更深的模型成功運作。這是嚴謹排行榜工作的有力範例:辨識哪些既有改進真正重要,並加以有效整合。

量化

有幾份參賽作品大力推進了壓縮與匯出。

參賽作品貢獻者技術重要性
#414@signalrush使用了 GPTQ-lite 在訓練後量化權重。第一個成功使用 GPTQ-lite 的排名組參賽作品,進而帶來更佳的評估結果。
#1060@dexhunter基於 @raahilshah 的 #634,成功使用完整 Hessian GPTQ。將先前的量化工作延伸為更強的壓縮路徑。

測試時與評估策略

有些參賽作品模糊了模型改進與評估策略之間的界線。這些方法符合規則,但作為主辦方,我們仍需要仔細審查。

參賽作品貢獻者技術重要性
#77@samacqua使用了先評分、逐文件 LoRA 測試時訓練:先評分,僅在已評分的區塊上進行調適,並在文件邊界重設。在遵守規則且仍可審查的前提下,推進了模型改進與評估策略之間的界線。
#1019@abaybektursun使用了自我生成的 GPTQ 校準:從訓練好的模型產生校準文字,然後根據這些啟用值建構 GPTQ Hessian 矩陣。有創意的校準策略,需要主辦方仔細審查。

新的建模與資料想法

有幾份參賽作品提出了特別有創意的建模或資料想法。

參賽作品貢獻者技術重要性
#1729@romeerp引入了 CaseOps 分詞器:使用無損大小寫操作 Token,並搭配原始位元組 BPB sidecar 計算。有創意的分詞器與資料表示構想。
#265@unnir引入了XSA,一種高效率的部分排他式自注意力方法,具備 GQA 感知的分組視圖。將高效率的注意力變體實際應用到這項挑戰中。
#65@aquariouseworkman引入了 SmearGate 和 BigramHash:經學習的前一個 Token 嵌入混合,加上相鄰 Token 對的雜湊特徵。從零開始打造新特徵機制。
#1204@msisovic引入了迷你深度循環:重複第 4 層和第 5 層,將循環延後到訓練中期才啟用,並部分解除重複 MLP 的權重綁定。第一個成功讓循環層有效運作,並正式登上排行榜的作品。

我們選擇重點介紹這九份參賽作品,因為它們代表了我們希望這項挑戰能呈現的成果範圍。有些參與者透過細緻調校取得進展;有些則推進了量化與低秩技術;有些探索了評估規則的邊界;還有一些引入來自文獻或自行提出的建模與資料想法,帶來出乎意料的提升。

非排名組

非排名組匯聚了許多富有創意的參賽作品。我們精選了 15 個最喜歡的作品,其中的方法涵蓋從非自回歸文字建模到動態 Token 化處理。

由於這個組別更具實驗性,我們較少關注純粹的效能,而更重視方法在技術上是否有趣。其中有三份作品特別突出:

這三份是我們最喜歡的非排名組作品,儘管它們不一定是效能排名前三的作品。

話雖如此,非排名組仍然競爭激烈。一半的非排名組排行榜作品都超越了 1.22 BPB 的樸素基準模型,而排名第一的作品達到了 1.12 BPB。

我們認為這令人鼓舞。即使面對強大的 Transformer 基準,替代方法有時仍能與這種主流架構分庭抗禮。

我們也認為,這個組別尤其受益於強大程式碼編寫智慧體的普及。智慧體大幅降低了原型化推測性想法的成本,包括那些在過去的短期競賽中,可能因太耗時或不確定性太高而不會嘗試的方法。

重點收穫

Parameter Golf 與過往類似競賽的一大差異,在於程式碼編寫智慧體的廣泛使用。絕大多數參與者都提到,他們在研究過程中使用了智慧體。

這降低了進入門檻。參與者能夠更快地設定實驗、檢視不熟悉的程式碼,並以更少阻礙測試想法。Runpod 贊助價值 1,000,000 美元的運算資源,也在讓更多人能夠參與這項挑戰方面發揮了重要作用。

與此同時,智慧體的使用也為作品審查與評分帶來新的問題。許多參賽作品只是對既有高分作品做小幅修改,而不是提出根本上全新的方法。這通常是有幫助的:好的想法能快速傳播,並由其他人加以改進。但這也帶來了雜訊。當某些不符合競賽規範的參賽作品產生異常強的分數時,其他智慧體有時會複製這些想法,並沿著同樣無效的方向繼續發展。

大量參賽作品也改變了我們營運這場競賽的方式。我們無法手動檢查每一份作品,同時又維持排行榜持續更新。在挑戰期間,我們開發了一個以 Codex 為基礎的內部分流機器人,用來監控新作品並標記給人工審查。這在我們一天收到數百份作品的時期尤其重要。

AI 智慧體也成為這個挑戰社群的一部分。在競賽的大部分時間裡,@notapplica 和他們的程式碼編寫智慧體經營了一份「即時更新」公告,追蹤重大事件、解釋排行榜上的方法,並幫助其他參與者掌握競賽進展。社群也出現了審查工具,幫助經驗較少的參與者檢查自己的參賽作品是否符合規則,並避免常見的無效方法。

下一步

我們的主要目標是推出一項挑戰賽,讓符合資格的參與者(在新視窗中開啟)能夠參與其中並體驗機器學習研究。Parameter Golf 吸引了各式各樣技術實力強且富有創意的參賽作品,也讓我們更清楚看見,隨著 AI 智慧體能力提升並被更廣泛使用,開放式研究競賽可能會如何改變。

我們正在考慮未來推出更多這類挑戰。如果你有興趣,歡迎你填寫挑戰參與者表單(在新視窗中開啟)