自從我們於 2024 年 8 月首次發布 SWE-bench Verified 以來,業界已廣泛使用它來衡量模型在自主軟體工程任務上的進展。在發布後,SWE-bench Verified 提供了能力進展的強烈訊號,並成為前沿模型發布中常見的標準指標。追蹤並預測這些能力的進展也是 OpenAI 的 應變整備框架的重要組成部分。當我們最初建立 Verified 基準測試時,我們嘗試解決原始評估中的一些問題,這些問題使得 SWE-bench dataset(在新視窗中開啟) 中的某些任務無法完成。
在初期大幅躍進之後,SWE-bench Verified 的最先進進展已放緩,過去 6 個月僅從 74.9% 提升(在新視窗中開啟)至 80.9%。這就引發了一個問題:剩餘的失敗究竟反映的是模型的限制,還是資料集本身的特性?
在一項新的分析中,我們發現 Verified 集合存在兩個重大問題,這些問題顯示,在當今的性能水準下,該基準已不再適合用於衡量前沿發佈的自主軟體工程能力進展:
- 測試拒絕正確解答:我們稽核了資料集的 27.6% 子集(該子集是模型經常無法解出的部分),並發現至少 59.4% 的受稽核問題包含有瑕疵的測試案例,會拒絕功能上正確的提交,儘管我們在最初建立 SWE-bench Verified 時已盡最大努力改善此問題。
- 針對解決方案的訓練: 由於大型前沿模型可以從其訓練中學習資訊,因此重要的是,絕不可在它們被評估的問題與解決方案上對其進行訓練。這就像是在考試前,把即將到來的考試題目與解法先分享給學生——他們也許不會把答案背起來,但看過答案的學生肯定會比沒看過的學生表現得更好。SWE-bench 的問題來源於許多模型供應商用於訓練目的的開放原始碼程式碼庫。在我們的分析中,我們發現我們測試的所有前沿模型都能重現作為基準真值參考的原始人類撰寫錯誤修補(稱為 gold patch),或在某些任務中逐字重現問題陳述的具體細節,這表示它們在訓練期間至少看過部分問題與解法。
我們也發現證據顯示,在訓練期間看過這些問題的模型更有可能成功,因為它們具備通過規格不夠明確的測試所需的額外資訊。
這表示,SWE-bench Verified 上的改進不再反映模型在真實世界軟體開發能力上的有意義提升。相反地,它們愈來愈反映出模型在訓練時接觸該基準測試的程度。這就是為什麼我們已停止回報 SWE-bench Verified 分數,並建議其他模型開發者也這麼做。
我們正在建立全新、未受污染的評測,以便更妥善追蹤程式設計能力,我們也認為這是更廣泛研究社群值得重點關注的重要領域。在我們取得那些之前,OpenAI 建議回報 SWE-bench Pro 的結果。
原始的 SWE-bench(在新視窗中開啟) 評估於 2023 年發布。每個問題都源自 12 個開源 Python 程式碼庫之一中已解決的 GitHub issue,並與對應的 pull request (PR) 配對。為了判斷模型生成的程式碼變更是否正確,每個問題都附有兩組測試:
- 在未修改的程式碼庫上會失敗,但在正確修復問題後會通過的測試
- 在修正前後皆通過的回歸測試,以確保不相關的功能仍保持完整。
模型看不到測試。它必須僅根據原始問題文字以及修正前的程式碼庫狀態,產出一個程式碼變更。只有在套用程式碼變更後通過所有測試時,它才會通過問題。
我們發現該評估存在許多問題,可能導致低估模型的能力。
- 部分單元測試過於具體或與任務不一致,因此正確的修復可能會被拒絕。
- 許多任務陳述的規格不夠明確,可能導致多種合理的解讀 - 而測試只涵蓋其中一種特定解讀。
- 視環境設定而定(例如 Linux 與 Windows,或 Python 版本),有些測試可能會偶發性地失敗
我們在 2024 年建立了 SWE-bench Verified,以解決這些問題。我們與專業軟體工程師合作,審查 1,699 個 SWE-bench 問題,並篩除具有這些問題的題目。每個問題皆由三位專家獨立審查。此審查流程產生了 SWE-bench Verified 測試集,這是一組精選的 500 個問題。
雖然 SWE-bench Verified 相較於初始版本有很大的改進,但仍存在一些殘留問題。我們針對 OpenAI o3 在 64 次獨立執行中未能一致解決的 138 個 SWE-bench Verified 問題進行了稽核。每個案例皆由至少六位經驗豐富的軟體工程師獨立審查。如果專家標記了問題,則會由另一個團隊再次驗證。
我們發現,在 138 個問題中有 59.4% 包含測試設計和/或問題描述中的重大瑕疵,使得即使對最有能力的模型或人類而言,也極其困難或根本不可能解決。
- 35.5% 的受稽核任務具有嚴格的測試案例,這些測試案例強制要求特定的實作細節,導致許多功能上正確的提交內容失效,我們稱之為狹隘的測試案例。
- 受審核的任務中有 18.8% 的測試會檢查問題描述中未指定的額外功能,我們稱之為廣泛測試案例。
- 其餘 5.1% 的任務出現了各式各樣的問題,無法很好地依照此分類法歸類。
第一種失敗模式的一個說明性範例是 pylint-dev__pylint-4551(在新視窗中開啟),其中該 PR 作為整體解決方案的一部分引入了一個新函式 `get_annotation`。此函式名稱未在問題描述中提及,但測試會直接匯入。雖然有些模型可能會直覺地建立這樣的函式,但要正確解決這個問題,並不一定需要實作一個具有此特定名稱的函式。許多有效的解決方案因匯入錯誤而未通過測試。
問題描述
PR 測試片段
PR 測試失敗(為了方便閱讀已截斷)
過於寬泛的測試案例的一個例子是 sympy__sympy-18199(在新視窗中開啟)。此任務源自一個 PR,該 PR 針對 `nthroot_mod` 函式處理了三個不同的問題,分別是 #17373(在新視窗中開啟)、#17377(在新視窗中開啟),以及 #18212(在新視窗中開啟)。然而,SWE-bench Verified 任務的描述僅涵蓋最終的問題 #18212(在新視窗中開啟)。這會造成不一致:PR 測試涵蓋了全部三個問題,但描述只詳述其中一個。在我們的執行中,模型往往能正確實作所描述的修正,接著卻在涵蓋另外兩個問題實作的測試中失敗。
原始 PR 說明(來自 GitHub PR)
#18212 的問題描述
SWE-bench Verified 任務的問題描述(僅取自 #18212):
SWE-bench Verified 以及這些程式碼庫(程式碼基底與發行說明)皆為開放原始碼,且被廣泛使用與討論,這使得模型開發者難以避免污染。
我們最先在自家的模型中發現污染的跡象。例如,當 GPT‑5.2 解決了我們認定幾乎不可能解決的 31 項任務時。在 django__django-14725(在新視窗中開啟) 中,測試需要一個特定的新參數 `edit_only`,但問題陳述並未明確要求此參數。在解決問題的過程中,GPT‑5.2 在其思路鏈中顯示它掌握了關於發行說明的資訊,這些發行說明詳述了程式碼庫的變更,並且正確指出 `edit_only` 參數是在 Django 4.1 中引入的。
GPT‑5.2 CoT
為了更廣泛地評估污染的嚴重程度,我們建立了一套自動化的紅隊演練設定。針對每個 SWE-bench Verified 問題,我們指派 GPT‑5 去探查一個 GPT‑5.2‑Chat,Claude Opus 4.5 和 Gemini 3 Flash Preview 用於污染。選擇這些模型是為了排除推理模型,但我們承認它們之間很可能存在不容小覷的能力差距。
為了探查污染,GPT‑5 收到 SWE-bench Verified 任務的 ID、描述、gold patch 和 PR 測試。在超過 15 個回合中,我們讓 GPT‑5 變更系統/開發者提示詞、使用者提示詞、助理預填內容和不同的引導策略。在每一輪之後,judge 模型會標示出出現了多少新的特定任務資訊,且每個回應都會依污染嚴重性從「none」到「strong」進行標示。GPT‑5 可根據先前的回合調整策略,以反覆迭代的方式找回任務特定的細節。針對每個強污染的範例,我們與另一位評審確認 GPT‑5 沒有向目標模型洩漏過多資訊。最後,我們接著人工審查了構成本篇貼文逐字稿的「強」範例。
以下是不同模型供應商之間嚴重污染的範例。
給定任務描述中的一小段片段,GPT‑5.2 會輸出完全相符的 gold patch。特別是,它知道確切的類別與方法名稱,以及所引入的新提前返回條件 `if username is None or password is None`。
污染引導
金色補丁
Opus 不僅能夠回想起該 PR 引入的精確 4 行功能變更,以及它所觸及的特定檔名與方法,還能逐字引用差異 (diff) 中包含的內嵌註解。
污染誘發
黃金修補
Gemini 3 Flash 在除了 ID 之外未提供任何關於任務的進一步資訊時,仍能逐字輸出任務描述和 gold 修補程式中的細節。這包括用於使用者名稱驗證的新正規表示式公式,以及變更的確切行號。
污染誘發
黃金修補
從這次對 SWE-bench Verified 的稽核中,我們看到評估設計的兩個更廣泛的啟示。首先,來自公開可取得資料的基準測試存在汙染風險,因為訓練資料的接觸可能會在不知不覺中抬高分數。如果在基準測試建構中使用公開爬取的資料,模型開發者應進行額外的污染測試。基準測試,甚至是其解決方案,若公開張貼,最終可能會進入訓練資料。在資料集的發布方式(亦即密碼保護) 和訓練資料篩選 (i.e.嚴格遵守金絲雀字串)。
其次,自動化評分很難做到正確;完美的測試案例應能完整驗證正確功能,既不依賴特定且不重要的實作細節,同時也能對捷徑解法保持穩健。這些問題本質上很複雜,且難以解決。發現這些問題需要多次大規模的人工標註活動。
我們已將這些發現納入近期的評估工作中。在過去幾個月中,我們選擇回報來自 SWE-Bench Pro 公開拆分的結果。我們建議其他模型開發人員也這麼做。SWE-bench Pro 並不完美,但經實證顯示,其受污染問題影響似乎較小。我們的資料污染管線發現了一些資料污染案例,但這些案例相較於 SWE-bench Verified 明顯更罕見且情節較不嚴重,而且沒有任何模型能夠產生完整的逐字 gold patch。
我們將持續投資原創、由私人撰寫的基準測試,並請產業界與學術界協助採取相同的方式。在 GDPVal 中,任務由領域專家以私密方式撰寫,降低曝露風險,且解答由受訓審查員以整體方式評分。這種方法相當耗費資源,但為了衡量真正的能力改進,正變得愈來愈必要。


