自 2024 年 8 月我們首次發佈 SWE-bench Verified 以來,業界廣泛應用以衡量模型在自主軟件工程任務上的進展。在發佈後,SWE-bench Verified 提供了強而有力的能力進展訊號,並成為前沿模型發佈中報告的標準指標。追蹤及預測這些能力的進展亦是 OpenAI 防範應對架構的重要一環。我們最初建立 Verified 基準測試時,曾嘗試解決原始評估中的問題,這些問題令某些任務在 SWE-bench 資料集(在新視窗中開啟)中無法完成。
在最初的躍升之後,頂尖模型在 SWE‑bench Verified 上的進展已放緩,過去 6 個月僅由 74.9% 提升(在新視窗中開啟)至 80.9%。這衍生出一個問題:其餘的失敗反映出模型的限制,還是資料集本身的特性?
在一項新的分析中,我們發現 Verified 資料集存在兩個主要問題,顯示在現今的效能水平下,該基準測試已不再適合用於衡量前沿發佈的自主軟件工程能力進展:
- 測試拒絕正確的解決方案:我們審核了資料集的一個 27.6% 子集,該子集包含模型經常無法解決的問題,並發現至少 59.4% 的已審核問題包含瑕疵測試案例,會拒絕在功能上正確的提交,儘管我們在最初建立 SWE-bench Verified 時已盡量改善此問題。
- 在解決方案上訓練:由於大型前沿模型可以從其訓練中學習資訊,因此這些模型絕對不能在其評估的問題和解決方案上進行訓練。這就好比在考試前,先把接下來的考試題目和解答分享給學生,他們未必會死記硬背答案,但看過答案的學生肯定會比沒看過的學生表現得更好。SWE-bench 問題源自許多模型供應商用來訓練的開源程式碼庫。在我們的分析中,我們發現所測試的所有前沿模型都能夠重現作為真實參考依據的原始人手撰寫錯誤修正(稱為黃金修補),或在某些任務中逐字呈現問題陳述的具體細節,表示這些模型均至少在訓練期間看過部分問題及解決方案。
我們亦發現,有證據顯示在訓練期間曾經看過這些問題的模型成功機會更大,因為它們擁有透過這些未有明確規格的測試所需的額外資訊。
這意味著在 SWE-bench Verified 上的改進,不再反映模型在現實世界軟件開發能力方面的有意義提升。相反,它們越發反映模型在訓練時接觸該基準測試的程度。因此我們已停止報告 SWE-bench Verified 分數,並建議其他模型開發商亦停止報告。
我們正在建立全新、未受污染的評估方式,以更有效地追蹤編碼能力,而我們認為這是值得廣大研究社群重點關注的重要領域。在此之前,OpenAI 建議為 SWE-bench Pro 報告結果。
原始 SWE-bench(在新視窗中開啟) 評估於 2023 年發布。每個問題都源自 12 個開源 Python 程式碼庫之一中已解決的 GitHub 問題,並與對應的 pull request (PR) 配對。如要判斷模型生成的程式碼更改是否正確,每個問題都附有兩組測試:
- 在未修改的程式碼庫上失敗但在正確修復問題後通過的測試
- 在修復前後均通過的回歸測試,以確保不相關的功能保持完整。
模型看不到測試。其必須僅根據原始問題文字以及修復前的程式碼庫狀態,產生一個代碼變更。只有在套用程式碼變更後通過所有測試,才算通過一個問題。
我們發現該評估存在許多問題,可能導致低估模型的能力。
- 部分單元測試過於具體或與任務不一致,導致正確的修正可能會被拒絕。
- 許多任務陳述的規格不夠明確,可能導致多種合理的詮釋,而測試只涵蓋其中一種特定詮釋。
- 視乎環境的設定(例如 Linux 對比 Windows,或 Python 版本),部分測試可能出現非預期失敗
我們於 2024 年建立 SWE-bench Verified,以解決這些問題。我們與資深軟件工程師合作,審查 1,699 個 SWE-bench 問題,並篩選出存在這些問題的題目。每個問題均由三位專家獨立審核。此審查流程產生了 SWE-bench Verified,此為一套包含 500 個問題的精選集。
雖然 SWE-bench Verified 與初始版本相比有很大改進,但仍然存在一些殘留問題。我們審核了 138 個 OpenAI o3 在 64 次獨立運行中無法穩定解決的 SWE‑bench Verified 問題。每宗個案均由至少六名具備豐富經驗的軟件工程師獨立審閱。如果專家標記了某個問題,該問題會由另一個團隊重新驗證。
我們發現,在 138 條問題中,有 59.4% 在測試設計及/或問題描述方面存在重大缺陷,導致即使是最有能力的模型或人類,也極其困難甚至不可能解決。
- 35.5% 的經審核任務具有嚴格的測試案例,強制執行特定的落實細節,令許多功能上正確的提交無效,我們稱之為狹窄測試案例。
- 18.8% 的經審核任務包含測試,用來檢查問題描述中未指定的額外功能,我們稱之為過寬測試案例。
- 其餘 5.1% 的任務出現了其他問題,未能以此分類法妥善歸類。
第一種失敗模式的說明例子是 pylint-dev__pylint-4551(在新視窗中開啟),其中 PR 引入了一個新函數 `get_annotation` 作為整體解決方案的一部分。此函數名稱未在問題描述中提及,而是由測試直接匯入。雖然有些模型可能會直覺地建立此類函數,但要正確解決問題,並不一定需要落實一個具有此特定名稱的函數。許多有效的解決方案因匯入錯誤而未能通過測試。
問題描述
PR 測試片段
PR 測試失敗(為方便閱讀而截短)
過於寬泛的測試案例例子是 sympy__sympy-18199(在新視窗中開啟)。此任務源自一個 PR,其處理 `nthroot_mod` 函數的三個不同問題,分別是 #17373(在新視窗中開啟)、#17377(在新視窗中開啟) 及 #18212(在新視窗中開啟)。不過,SWE-bench Verified 任務的描述只涵蓋最後一個問題 #18212(在新視窗中開啟)。這會造成錯配:PR 測試涵蓋全部三個問題,但描述只詳述其中一個。在我們的運行中,模型往往能正確落實所描述的修正,然後在涵蓋另外兩個問題落實的測試中失敗。
原始 PR 描述(來自 GitHub PR)
#18212 的問題描述
SWE-bench Verified 任務的問題描述(僅取自 #18212):
SWE-bench Verified 以及這些程式碼庫(程式碼基礎和發行備註)都是開源,並且獲廣泛使用和討論,令模型開發商難以避免污染。
我們最初在自家的模型中發現了污染跡象。例如,GPT‑5.2 曾解決 31 個我們判定幾乎不可能解決的任務。在 django__django-14725(在新視窗中開啟) 中,測試需要一個特定的新參數 `edit_only`,但問題陳述並未明確要求。在解決問題的過程中,GPT‑5.2 在其思路鏈中顯示其掌握了關於發行備註的資訊,當中詳述對程式碼庫的變更,並且正確指出 `edit_only` 參數是在 Django 4.1 中引入的。
GPT‑5.2 CoT
為了更廣泛地評估污染的嚴重程度,我們建立了一套自動化的紅隊演練設定。對於每個 SWE-bench Verified 問題,我們指派 GPT‑5 去探測 GPT‑5.2‑Chat、Claude Opus 4.5 及 Gemini 3 Flash Preview 所受的污染。選擇這些模型是為了排除推理模型,但我們承認它們之間很可能存在不容忽視的能力差距。
為了探測污染,GPT‑5 收到:SWE-bench Verified 任務的 ID、描述、黃金修補及 PR 測試。在超過 15 個回合中,我們讓 GPT‑5 變更系統/開發商提示詞、用戶提示詞,以及助理預填內容和不同的誘發策略。每個回合結束後,評判模型都會標記出現了多少新的特定任務資訊,而每個回覆都會標記出從「無」到「嚴重」的污染嚴重程度。GPT‑5 獲允許根據先前回合調整其策略,以逐步還原特定任務的細節。對於每個嚴重污染的例子,我們會與另一位評判核實,確保 GPT‑5 沒有向目標模型洩漏過多資訊。最後,我們再對構成本文逐字稿的「嚴重」例子進行人手審核。
以下是不同模型供應商之間嚴重污染的例子。
因應任務描述中的一段簡短片段,GPT‑5.2 會輸出完全一致的黃金修補。具體而言,其知道確切的類別和方法名稱,以及所引入的新提前傳回條件 `if username is None or password is None`。
污染誘發
標準修補方案
Opus 不僅能準確回憶 PR 引入的 4 行程式修改,以及其觸及的特定檔案名稱和方法,還會逐字引用差異中包含的內嵌註解。
污染誘發
標準修補方案
Gemini 3 Flash 在除了 ID 之外未獲提供任何關於任務的進一步資訊時,仍能逐字輸出任務描述及黃金修補中的細節。當中包括用於驗證用戶名稱的新正則表達式公式,以及變更的確切行號。
污染誘發
標準修補方案
從這次對 SWE-bench Verified 的審核中,我們觀察到兩個關於評估設計的更廣泛啟示。首先,源自公開可用資料的基準測試存在污染風險,因為訓練資料曝光可能會在不知不覺中推高分數。如果在基準測試構建中使用公開檢索的資料,模型開發商應進行額外的污染測試。公開發布的基準測試,甚至其解決方案,最終都可能會納入訓練資料。在資料集發布方式(即密碼保護)及訓練資料篩選方面(即嚴格遵守 canary 字串)都應格外謹慎。
其次,自動計分難以正確掌握;理想的測試案例應能完整驗證功能正確性,既不依賴特定且不重要的落實細節,又能抵禦捷徑式的解決方案。這些問題本質上很複雜,而且難以解決。要發現這些問題,需要進行多次大規模的人手標註工作。
我們已將這些發現納入我們近期的評估工作中。在過去幾個月,我們已選擇報告來自 SWE-Bench Pro 公開分組的結果。我們建議其他模型開發商亦同樣處理。SWE-bench Pro 並不完美,但從實證結果來看,其似乎較少受到污染問題影響。我們的污染管線發現一些污染案例,但這些案例明顯比 SWE-bench Verified 更罕見且較不嚴重,而且沒有任何模型能夠產生完整的逐字黃金修補。
我們將繼續投資於原創、私人撰寫的基準測試,並邀請業界和學術界協助一同投資。在 GDPVal 中,任務由領域專家私人撰寫,降低曝光風險,而解決方案則由經過訓練的審核員以整體方式評分。這種方法耗費資源較多,但對於衡量真正的能力改進而言,這種方法變得越來越重要。


