2026年5月12日

我們從 Parameter Golf 學到什麼

來自 1,000 多名參與者、2,000 多份參賽作品，以及由程式碼編寫智慧體塑造的開放式機器學習挑戰的啟示。

載入中…

我們推出 Parameter Golf，希望支持機器學習研究社群踴躍參與這項挑戰，探索一個全新且限制嚴格的機器學習問題。我們希望這項挑戰夠有趣，能獎勵真正的技術創意，同時在概念上保持簡單且易於驗證。

參與者必須在固定的 FineWeb 資料集上最小化保留集損失，同時遵守 16 MB 的成品大小限制（包含模型權重與訓練程式碼），以及在 8×H100 上 10 分鐘的訓練預算。我們提供了基準、資料集與評估腳本，讓參與者可以分支這個 repo、改進模型，並透過 GitHub 提交結果。

在八週期間，我們收到了來自超過 1,000 名參與者的 2,000 多份參賽作品。從細緻的最佳化器調校與量化工作，到新的建模想法與測試時訓練，這些作品在技術廣度、創意，以及對規則邊界的探索上都令我們印象深刻。

這項挑戰最令人興奮的部分之一，是看到參與者如此廣泛地使用 AI 程式碼編寫智慧體。智慧體幫助降低了實驗成本，讓更多人更容易參與，也改變了競賽的節奏。同時，它們也為作品審查、歸因與評分帶來了新的挑戰。

這項挑戰也成為我們發掘人才的重要場域。這原本就是我們對 Parameter Golf 的目標之一，而結果也提供了有力訊號：開放式技術挑戰能揭示出色的機器學習品味與堅持力。

在這篇文章中，我們會介紹讓我們感到驚喜且有趣的參賽作品，並分享在強大 AI 智慧體時代舉辦寫程式競賽後，我們從中學習到了什麼。

技術觀察

排名組

我們評審並獨立重現了排名組排行榜上的每一個參賽作品，並確認每個作品在送出當時都刷新了紀錄。有幾個主題特別突出。

訓練最佳化

一些最強的結果來自對既有元件的細緻調校。

參賽作品	貢獻者	技術	重要性
#60	@notapplica	整合了#50、#42，以及可能來自 #39 的先前成功方法，接著透過 Muon 權重衰減、頻譜嵌入初始化、殘差混合排程與編譯式評估，讓更深的模型成功運作。	這是嚴謹排行榜工作的有力範例：辨識哪些既有改進真正重要，並加以有效整合。

量化

有幾份參賽作品大力推進了壓縮與匯出。

參賽作品	貢獻者	技術	重要性
#414	@signalrush	使用了 GPTQ-lite 在訓練後量化權重。	第一個成功使用 GPTQ-lite 的排名組參賽作品，進而帶來更佳的評估結果。
#1060	@dexhunter	基於 @raahilshah 的 #634，成功使用完整 Hessian GPTQ。	將先前的量化工作延伸為更強的壓縮路徑。

測試時與評估策略

有些參賽作品模糊了模型改進與評估策略之間的界線。這些方法符合規則，但作為主辦方，我們仍需要仔細審查。

參賽作品	貢獻者	技術	重要性
#77	@samacqua	使用了先評分、逐文件 LoRA 測試時訓練：先評分，僅在已評分的區塊上進行調適，並在文件邊界重設。	在遵守規則且仍可審查的前提下，推進了模型改進與評估策略之間的界線。
#1019	@abaybektursun	使用了自我生成的 GPTQ 校準：從訓練好的模型產生校準文字，然後根據這些啟用值建構 GPTQ Hessian 矩陣。	有創意的校準策略，需要主辦方仔細審查。

新的建模與資料想法

有幾份參賽作品提出了特別有創意的建模或資料想法。

參賽作品	貢獻者	技術	重要性
#1729	@romeerp	引入了 CaseOps 分詞器：使用無損大小寫操作 Token，並搭配原始位元組 BPB sidecar 計算。	有創意的分詞器與資料表示構想。
#265	@unnir	引入了XSA，一種高效率的部分排他式自注意力方法，具備 GQA 感知的分組視圖。	將高效率的注意力變體實際應用到這項挑戰中。
#65	@aquariouseworkman	引入了 SmearGate 和 BigramHash：經學習的前一個 Token 嵌入混合，加上相鄰 Token 對的雜湊特徵。	從零開始打造新特徵機制。
#1204	@msisovic	引入了迷你深度循環：重複第 4 層和第 5 層，將循環延後到訓練中期才啟用，並部分解除重複 MLP 的權重綁定。	第一個成功讓循環層有效運作，並正式登上排行榜的作品。

我們選擇重點介紹這九份參賽作品，因為它們代表了我們希望這項挑戰能呈現的成果範圍。有些參與者透過細緻調校取得進展；有些則推進了量化與低秩技術；有些探索了評估規則的邊界；還有一些引入來自文獻或自行提出的建模與資料想法，帶來出乎意料的提升。

非排名組

非排名組匯聚了許多富有創意的參賽作品。我們精選了 15 個最喜歡的作品，其中的方法涵蓋從非自回歸文字建模到動態 Token 化處理。

由於這個組別更具實驗性，我們較少關注純粹的效能，而更重視方法在技術上是否有趣。其中有三份作品特別突出：

這三份是我們最喜歡的非排名組作品，儘管它們不一定是效能排名前三的作品。

話雖如此，非排名組仍然競爭激烈。一半的非排名組排行榜作品都超越了 1.22 BPB 的樸素基準模型，而排名第一的作品達到了 1.12 BPB。

我們認為這令人鼓舞。即使面對強大的 Transformer 基準，替代方法有時仍能與這種主流架構分庭抗禮。

我們也認為，這個組別尤其受益於強大程式碼編寫智慧體的普及。智慧體大幅降低了原型化推測性想法的成本，包括那些在過去的短期競賽中，可能因太耗時或不確定性太高而不會嘗試的方法。

重點收穫

Parameter Golf 與過往類似競賽的一大差異，在於程式碼編寫智慧體的廣泛使用。絕大多數參與者都提到，他們在研究過程中使用了智慧體。

這降低了進入門檻。參與者能夠更快地設定實驗、檢視不熟悉的程式碼，並以更少阻礙測試想法。Runpod 贊助價值 1,000,000 美元的運算資源，也在讓更多人能夠參與這項挑戰方面發揮了重要作用。

與此同時，智慧體的使用也為作品審查與評分帶來新的問題。許多參賽作品只是對既有高分作品做小幅修改，而不是提出根本上全新的方法。這通常是有幫助的：好的想法能快速傳播，並由其他人加以改進。但這也帶來了雜訊。當某些不符合競賽規範的參賽作品產生異常強的分數時，其他智慧體有時會複製這些想法，並沿著同樣無效的方向繼續發展。

大量參賽作品也改變了我們營運這場競賽的方式。我們無法手動檢查每一份作品，同時又維持排行榜持續更新。在挑戰期間，我們開發了一個以 Codex 為基礎的內部分流機器人，用來監控新作品並標記給人工審查。這在我們一天收到數百份作品的時期尤其重要。

AI 智慧體也成為這個挑戰社群的一部分。在競賽的大部分時間裡，@notapplica 和他們的程式碼編寫智慧體經營了一份「即時更新」公告，追蹤重大事件、解釋排行榜上的方法，並幫助其他參與者掌握競賽進展。社群也出現了審查工具，幫助經驗較少的參與者檢查自己的參賽作品是否符合規則，並避免常見的無效方法。