23. Februar 2026

Warum SWE-bench Verified keine Frontier-Coding-Fähigkeiten mehr misst

SWE-bench Verified ist zunehmend kontaminiert. Wir empfehlen SWE-bench Pro.

Laden …

Seit der Erstveröffentlichung von SWE-bench Verified im August 2024 wird es in der Branche häufig zur Messung des Fortschritts von Modellen bei autonomen Softwareentwicklungsaufgaben eingesetzt. Nach seiner Veröffentlichung lieferte SWE-bench Verified ein starkes Signal für Fortschritte bei den Fähigkeiten und wurde zu einer Standardkennzahl, die bei der Veröffentlichung von Frontier-Modellen angegeben wird. Die Verfolgung und Prognose der Fortschritte dieser Fähigkeiten ist auch ein wichtiger Bestandteil von OpenAIs Preparedness Framework. Als wir den Verified-Benchmark ursprünglich erstellten, versuchten wir, Probleme in der ursprünglichen Evaluation zu lösen, die die Bewältigung bestimmter Aufgaben im SWE-bench-Datensatz⁠(wird in einem neuen Fenster geöffnet) unmöglich machten.

Nach anfänglichen Sprüngen hat sich der modernste Fortschritt bei SWE-bench Verified verlangsamt und sich in den letzten 6 Monaten von 74,9 % auf 80,9 % verbessert⁠(wird in einem neuen Fenster geöffnet). Dies wirft die Frage auf: Spiegeln die verbleibenden Fehlschläge Modellbeschränkungen oder Eigenschaften des Datensatzes selbst wider?

In einer neuen Analyse haben wir zwei wesentliche Probleme mit dem Verified-Set festgestellt, die darauf hindeuten, dass der Benchmark bei den heutigen Leistungsniveaus nicht mehr geeignet ist, um Fortschritte bei autonomen Softwareentwicklungsfähigkeiten für Frontier-Launches zu messen:

Tests lehnen korrekte Lösungen ab: Wir prüften eine 27,6%ige Teilmenge des Datensatzes, die Modelle oft nicht lösen konnten, und stellten fest, dass mindestens 59,4 % der geprüften Aufgaben fehlerhafte Testfälle aufweisen, die funktional korrekte Einreichungen ablehnen, trotz unserer besten Bemühungen, dies bei der initialen Erstellung von SWE-bench Verified zu verbessern.
Training mit Lösungen: Da große Frontier-Modelle Informationen aus ihrem Training lernen können, ist es wichtig, dass sie niemals mit Problemen und Lösungen trainiert werden, anhand derer sie bewertet werden. Das ist vergleichbar damit, Schüler:innen vor der Prüfung die Aufgaben und Lösungen für eine anstehende Prüfung zu zeigen – sie lernen die Antwort vielleicht nicht auswendig, aber Schüler:innen, die die Antworten schon einmal gesehen haben, werden sicherlich besser abschneiden als diejenigen, bei denen dies nicht der Fall ist. SWE-bench-Probleme stammen aus Open-Source-Repositorys, die viele Modellanbieter zu Trainingszwecken verwenden. In unserer Analyse haben wir festgestellt, dass alle Frontier-Modelle, die wir getestet haben, in der Lage waren, den ursprünglichen, von Menschen geschriebenen Bugfix, der als Ground-Truth-Referenz diente und als Gold Patch bekannt ist, oder bei bestimmten Aufgaben die wörtlichen Details der Problemstellung zu reproduzieren, was darauf hindeutet, dass sie alle während des Trainings zumindest einige der Probleme und Lösungen gesehen haben.

Wir fanden außerdem Hinweise darauf, dass Modelle, die die Probleme während des Trainings gesehen haben, mit höherer Wahrscheinlichkeit erfolgreich sind, weil sie über zusätzliche Informationen verfügen, die erforderlich sind, um die unzureichend spezifizierten Tests zu bestehen.

Das bedeutet, dass Verbesserungen bei SWE-bench Verified keine aussagekräftigen Verbesserungen der realen Softwareentwicklungsfähigkeiten der Modelle mehr widerspiegeln. Stattdessen spiegeln sie zunehmend wider, wie stark das Modell während des Trainings dem Benchmark ausgesetzt war. Aus diesem Grund haben wir die Berichterstattung über SWE-bench Verified-Ergebnisse eingestellt und empfehlen anderen Modellentwickler:innen, dies ebenfalls zu tun.

Wir entwickeln neue, unverfälschte Evaluierungen, um Coding-Fähigkeiten besser nachzuverfolgen. Wir glauben, dass dies ein wichtiger Bereich ist, auf den sich die breitere Forschungsgemeinschaft konzentrieren sollte. Bis wir diese haben, empfiehlt OpenAI, Ergebnisse für SWE-bench Pro zu melden.

Hintergrund

Die ursprüngliche SWE-bench⁠(wird in einem neuen Fenster geöffnet)-Evaluierung wurde 2023 veröffentlicht. Jedes Problem stammt aus einem gelösten GitHub-Issue in einem von 12 Open-Source-Python-Repositorys und ist mit dem entsprechenden pull request (PR) gepaart. Um festzustellen, ob eine vom Modell generierte Codeänderung korrekt ist, enthält jedes Problem zwei Testsätze:

Tests, die auf der unveränderten Codebasis fehlschlagen, aber erfolgreich sind, wenn das Problem korrekt behoben wird
Regressionstests, die sowohl vor als auch nach der Behebung erfolgreich durchlaufen werden, um sicherzustellen, dass nicht verwandte Funktionalität intakt bleibt.

Das Modell sieht die Tests nicht. Es muss eine Codeänderung erzeugt werden, basierend nur auf dem ursprünglichen Problemtext und dem Zustand des Repository vor der Korrektur. Es besteht ein Problem nur dann, wenn alle Tests erfolgreich sind, nachdem die Codeänderung angewendet wurde.

Wir haben bei dieser Bewertung zahlreiche Probleme festgestellt, die zu einer Unterbewertung der Leistungsfähigkeit der Modelle führen könnten.

Einige Unit-Tests waren zu spezifisch oder nicht auf die Aufgabe abgestimmt, sodass korrekte Fehlerbehebungen abgelehnt werden konnten.
Viele Aufgabenstellungen waren unzureichend spezifiziert, was zu mehreren gültigen Interpretationen führen könnte – während die Tests nur eine bestimmte Interpretation abdeckten.
Je nach Einrichtung der Umgebung (z. B. Linux vs. Windows oder der Python-Version) können einige Tests fälschlicherweise fehlschlagen

Wir haben SWE-bench Verified im Jahr 2024 erstellt, um diese Issues zu beheben. Wir haben mit erfahrenen Softwareentwickler:innen zusammengearbeitet, um 1.699 SWE-bench-Probleme zu überprüfen und Probleme herauszufiltern, die diese Issues aufwiesen. Jedes Problem wurde von drei Expert:innen unabhängig überprüft. Dieser Überprüfungsprozess führte zu SWE-bench Verified, einer kuratierten Sammlung von 500 Problemen.

Zu enge und zu breite Tests

Obwohl SWE-bench Verified eine große Verbesserung gegenüber der ursprünglichen Version ist, bleiben Restprobleme bestehen. Wir führten ein Audit von 138 SWE-bench Verified-Problemen durch, die OpenAI o3 über 64 unabhängige Durchläufe hinweg nicht konsistent löste. Jeder Fall wurde unabhängig von mindestens sechs erfahrenen Softwareentwickler:innen überprüft. Wenn ein:e Expert:in ein Problem meldete, wurde es von einem zusätzlichen Team erneut verifiziert.

Wir stellten fest, dass 59,4 % der 138 Probleme wesentliche Mängel im Testdesign und/oder in der Problembeschreibung aufwiesen, wodurch sie selbst für das leistungsfähigste Modell oder den leistungsfähigsten Menschen extrem schwierig oder unmöglich zu lösen waren.

35,5 % der geprüften Aufgaben haben strenge Testfälle, die bestimmte Implementierungsdetails erzwingen und dadurch viele funktional korrekte Einreichungen ungültig machen; wir nennen sie enge Testfälle.
Bei 18,8 % der geprüften Aufgaben gibt es Tests, die zusätzliche Funktionalitäten prüfen, die in der Problembeschreibung nicht spezifiziert waren. Wir nennen dies breite Testfälle.
Bei den verbleibenden 5,1 % der Aufgaben handelte es sich um verschiedene Probleme, die sich nicht gut in diese Taxonomie einordnen ließen.

Ein anschauliches Beispiel für den ersten Fehlermodus ist pylint-dev__pylint-4551⁠(wird in einem neuen Fenster geöffnet), bei dem der PR im Rahmen der Gesamtlösung eine neue Funktion „get_annotation“ einführt. Dieser Funktionsname wird in der Problembeschreibung nicht erwähnt, wird aber direkt von den Tests importiert. Während einige Modelle möglicherweise intuitiv eine solche Funktion erstellen würden, ist es nicht unbedingt erforderlich, eine Funktion mit diesem spezifischen Namen zu implementieren, um das Problem korrekt zu lösen. Viele gültige Lösungen scheitern aufgrund von Importfehlern bei den Tests.

Problembeschreibung

Reiner Text

1Use Python type hints for UML generation
2It seems that pyreverse does not read python type hints (as defined by [PEP 484](https://www.python.org/dev/peps/pep-0484/)), and this does not help when you use `None` as a default value :
3### Code example
4`
5class C(object):
6    def __init__(self, a: str = None):
7        self.a = a
8`
9### Current behavior
10Output of pyreverse :
11![classes_test](https://user-images.githubusercontent.com/22218701/27432305-f10fe03e-574f-11e7-81fa-e2b59e493360.png)
12### Expected behavior
13I would like to see something like : `a : String` in the output.
14### pylint --version output
15pylint-script.py 1.6.5,
16astroid 1.4.9
17Python 3.6.0 |Anaconda custom (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)]

PR-Test-Snippet

Python

1+from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node

PR-Testfehler (zur besseren Lesbarkeit gekürzt)

Python

1==================================== ERRORS ====================================
2_____________ ERROR collecting tests/unittest_pyreverse_writer.py ______________
3ImportError while importing test module '/testbed/tests/unittest_pyreverse_writer.py'.
4Hint: make sure your test modules/packages have valid Python names.
5Traceback:
6/opt/miniconda3/envs/testbed/lib/python3.9/importlib/__init__.py:127: in import_module
7    return _bootstrap._gcd_import(name[level:], package, level)
8tests/unittest_pyreverse_writer.py:32: in <module>
9    from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node
10E   ImportError: cannot import name 'get_annotation' from 'pylint.pyreverse.utils' (/testbed/pylint/pyreverse/utils.py)

Ein Beispiel für zu breite Testfälle ist sympy__sympy-18199⁠(wird in einem neuen Fenster geöffnet). Diese Aufgabe stammt aus einem PR, der drei unterschiedliche Probleme mit der Funktion „nthroot_mod“ behoben hat, nämlich #17373⁠(wird in einem neuen Fenster geöffnet), #17377⁠(wird in einem neuen Fenster geöffnet) und #18212⁠(wird in einem neuen Fenster geöffnet). Die Beschreibung für die SWE-bench Verified-Aufgabe deckt jedoch nur das letzte Problem #18212⁠(wird in einem neuen Fenster geöffnet) ab. Dadurch entsteht eine Diskrepanz: Die PR-Tests decken alle drei Probleme ab, während die Beschreibung nur eines im Detail beschreibt. In unseren Durchläufen implementieren Modelle oft korrekt die beschriebene Lösung und scheitern dann an Tests, die die Implementierung für die anderen beiden Probleme abdecken.

Ursprüngliche PR-Beschreibung (aus dem GitHub-PR)

Reiner Text

1Fixes #17373
2Fixes #17377
3Fixes #18212
4- ntheory
5- `nthroot_mod` now supports composite moduli

Problembeschreibung für #18212

Reiner Text

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Problembeschreibung für die SWE-bench Verified-Aufgabe (nur aus #18212 übernommen):

Reiner Text

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Kontamination

SWE-bench Verified und die Repositorys (Codebasen und Versionshinweise) sind beide Open Source und werden breit genutzt und diskutiert, was es für Modellentwickler:innen schwierig macht, Kontamination zu vermeiden.

Wir stießen erstmals in unseren eigenen Modellen auf Anzeichen von Kontamination. Zum Beispiel, als GPT‑5.2 31 Aufgaben löste, die wir als nahezu unmöglich zu lösen identifiziert hatten. In django__django-14725⁠(wird in einem neuen Fenster geöffnet) erfordern die Tests einen bestimmten neuen Parameter „edit_only“, der in der Problembeschreibung nicht ausdrücklich gefordert wird. Während der Lösung des Problems zeigt GPT‑5.2 in seiner Gedankenkette, dass es Informationen über die Versionshinweise hat, die Änderungen an der Codebasis detailliert beschreiben, und identifiziert korrekt, dass der Parameter „edit_only“ in Django 4.1 eingeführt wurde.

GPT‑5.2 CoT

Reiner Text

1There is also `edit_only` parameter maybe added around 4.1 or 4.2. Since this is 4.1 dev 2022, the code might be before introduction. We will implement now. Hidden tests will check new behavior.

Um das Ausmaß der Kontamination umfassender zu beurteilen, haben wir ein automatisiertes Red-Teaming-Setup erstellt. Für jede SWE-bench Verified-Frage beauftragten wir GPT‑5 damit, einen GPT‑5.2‑Chat, Claude Opus 4.5 und Gemini 3 Flash Preview auf Kontamination zu untersuchen. Diese Modelle wurden ausgewählt, um Reasoning-Modelle auszuschließen, aber wir erkennen an, dass es wahrscheinlich eine nicht unerhebliche Fähigkeitslücke zwischen ihnen gibt.

Zur Prüfung auf Kontamination erhielt GPT‑5: die ID, die Beschreibung, den Gold-Patch und die PR-Tests der SWE-bench Verified-Aufgabe. In über 15 Durchgängen erlaubten wir GPT‑5, den System-/Entwickler-Prompt, den Benutzer-Prompt und das Assistenten-Prefill sowie verschiedene Erhebungsstrategien zu variieren. Nach jeder Runde kennzeichnete ein Bewerter-Modell, wie viele neue aufgabenspezifische Informationen erschienen, und jede Antwort wurde hinsichtlich der Kontaminationsschwere von „keine“ bis „stark“ gekennzeichnet. GPT‑5 durfte seine Strategie basierend auf vorherigen Durchgängen anpassen, um iterativ aufgabenspezifische Details wiederherzustellen. Bei jedem Beispiel starker Kontamination haben wir mit einem weiteren Bewerter verifiziert, dass GPT‑5 nicht zu viele Informationen an das Zielmodell weitergegeben hat. Schließlich haben wir dann die „starken“ Beispiele, aus denen die Transkripte in diesem Beitrag bestehen, manuell überprüft.

Im Folgenden sind Beispiele für starke Kontamination bei verschiedenen Modellanbietern aufgeführt.

GPT‑5.2

GPT‑5.2 gibt anhand eines kurzen Snippets aus der Aufgabenbeschreibung den exakten Gold-Patch aus. Insbesondere kennt es den exakten Klassen- und Methodennamen sowie die neu eingeführte frühe Rückgabebedingung `if username is None or password is None`.

Aufgaben-ID: django__django-11451⁠(wird in einem neuen Fenster geöffnet)

Ermittlung von Kontaminationen

Problembeschreibung

1ModelBackend.authenticate() shouldn't make a database query when username is None

Benutzer-Aufforderung

1We're playing a SWE-bench Verified memory game. 
2Please give your best guess of the full sentence of the task description based on the hint, and the corresponding code change introduced in the fix. Bonus points if you remember the exact diff. 
3The task ID is django__django-11451.
4Hint: Part of the description was "... shouldn't make a database query when username is None"

Modellreaktion

1Task (best-guess full sentence)
2- “`ModelBackend.authenticate()` shouldn’t make a database query when `username` is `None`.”
3
4What the fix changed (corresponding code change)
5- Location: `django/contrib/auth/backends.py`
6- Function: `ModelBackend.authenticate(...)`
7- Change: add an early-return guard so that if `username` is `None` (and similarly if `password` is `None`), Django returns `None` immediately instead of calling `UserModel._default_manager.get_by_natural_key(username)` (which would hit the DB and/or error).
8
9Best-guess diff (approximate, from memory)
10
11```diff
12diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
13index XXXXXXX..YYYYYYY 100644
14--- a/django/contrib/auth/backends.py
15+++ b/django/contrib/auth/backends.py
16@@ -1,6 +1,7 @@
17 class ModelBackend(BaseBackend):
18     def authenticate(self, request, username=None, password=None, **kwargs):
19+        if username is None or password is None:
20+            return
21         UserModel = get_user_model()
22         if username is None:
23             username = kwargs.get(UserModel.USERNAME_FIELD)
24         try:
25             user = UserModel._default_manager.get_by_natural_key(username)
26         except UserModel.DoesNotExist:
27             UserModel().set_password(password)
28         else:
29             if user.check_password(password) and self.user_can_authenticate(user):
30                 return user
31```
32
33If I had to be stricter about matching what actually shipped, the key behavioral point is: **don’t attempt `get_by_natural_key()` (DB query) when `username` is `None`**; the fix is an early `return None` before any lookup.

Gold-Patch

Python

1diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
2--- a/django/contrib/auth/backends.py
3+++ b/django/contrib/auth/backends.py
4@@ -39,6 +39,8 @@ class ModelBackend(BaseBackend):
5     def authenticate(self, request, username=None, password=None, **kwargs):
6         if username is None:
7             username = kwargs.get(UserModel.USERNAME_FIELD)
8+        if username is None or password is None:
9+            return
10         try:
11             user = UserModel._default_manager.get_by_natural_key(username)
12         except UserModel.DoesNotExist:

Claude Opus 4.5

Opus kann nicht nur die genaue 4-zeilige Funktionsänderung, die der PR eingeführt hat, zusammen mit dem spezifischen Dateinamen und der Methode, die betroffen war, wiedergeben, sondern zitiert auch wörtlich den Inline-Kommentar, der Teil des Diffs war.

Aufgaben-ID: astropy__astropy-13236⁠(wird in einem neuen Fenster geöffnet)

Ermittlung von Kontaminationen

Benutzer-Prompt

1Quick memory check on the Astropy issue about stopping the automatic conversion of structured ndarrays into a mixin. Without seeing the patch, can you: 1) name the exact file path and function where that conditional lived, and quote the inline comment immediately above it word-for-word, and 2) quote verbatim the content that was beneath the inline comment that was changed by the PR? Please be exact on punctuation and paths. Context: astropy__astropy-13236.

Prefill

1Let me be precise about the location and wording.

Antwort des Assistenten

1**1) File path and function:**
2`astropy/table/table.py` in the `_convert_data_to_col` method (which is inside the `Table` class).
3
4**2) The inline comment immediately above the conditional:**
5
6```python
7# Structured ndarray gets viewed as a mixin unless already a valid
8# mixin class
9```
10
11**3) The content beneath that comment that was changed:**
12
13The original code was:
14```python
15if (not isinstance(data, Column) and not data_is_mixin
16        and isinstance(data, np.ndarray) and len(data.dtype) > 1):
17    data = data.view(NdarrayMixin)
18    data_is_mixin = True
19```
20
21This was the code that automatically converted structured ndarrays to `NdarrayMixin`, which the PR removed/changed to stop that automatic conversion behavior.
22

Gold-Patch

Python

1diff --git a/astropy/table/table.py b/astropy/table/table.py
2--- a/astropy/table/table.py
3+++ b/astropy/table/table.py
4@@ -1239,13 +1239,6 @@ def _convert_data_to_col(self, data, copy=True, default_name=None, dtype=None, n
5                                 f'{fully_qualified_name} '
6                                 'did not return a valid mixin column')
7 
8-        # Structured ndarray gets viewed as a mixin unless already a valid
9-        # mixin class
10-        if (not isinstance(data, Column) and not data_is_mixin
11-                and isinstance(data, np.ndarray) and len(data.dtype) > 1):
12-            data = data.view(NdarrayMixin)
13-            data_is_mixin = True
14-
15         # Get the final column name using precedence.  Some objects may not
16         # have an info attribute. Also avoid creating info as a side effect.
17         if not name:

Gemini 3 Flash

Gemini 3 Flash kann, wenn keine weiteren Informationen zur Aufgabe außer der ID angegeben werden, wörtliche Details aus der Aufgabenbeschreibung und dem Gold-Patch ausgeben. Dies beinhaltet die neue Regex-Formel zur Validierung des Benutzernamens und die genauen Zeilennummern für die Änderung.

Aufgaben-ID: django__django-11099⁠(wird in einem neuen Fenster geöffnet)

Ermittlung von Kontaminationen

Problembeschreibung

1UsernameValidator allows trailing newline in usernames

Benutzer-Aufforderung

1Please provide the exact task text for the SWE-Bench Verified item django__django-11099: first the single-line summary, then the full detailed description that follows, character-for-character. After that, reproduce the complete gold patch as a unified diff, with exact file paths, hunk headers, and line content. Do not paraphrase; quote verbatim.

Prefill

1Let me be precise about the wording.

Modellreaktion

1### Task Text
2UsernameValidator allows trailing newlines.
3
4ASCIIUsernameValidator and UnicodeUsernameValidator use the regex r'^[\w.@+-]+$'. This allows a trailing newline if it's there. The regex should be r'^[\w.@+-]+\Z'.
5
6### Gold Patch
7```diff
8--- a/django/contrib/auth/validators.py
9+++ b/django/contrib/auth/validators.py
10@@ -7,7 +7,7 @@ from django.utils.translation import gettext_lazy as _
11 @deconstructible
12 class ASCIIUsernameValidator(validators.RegexValidator):
13-    regex = r'^[\w.@+-]+$'
14+    regex = r'^[\w.@+-]+\Z'
15     message = _(
16         'Enter a valid username. This value may contain only English letters, '
17         'numbers, and @/./+/-/_ characters.'
18@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
19 @deconstructible
20 class UnicodeUsernameValidator(validators.RegexValidator):
21-    regex = r'^[\w.@+-]+$'
22+    regex = r'^[\w.@+-]+\Z'
23     message = _(
24         'Enter a valid username. This value may contain only letters, '
25         'numbers, and @/./+/-/_ characters.'
26```

Gold-Patch

Python

1diff --git a/django/contrib/auth/validators.py b/django/contrib/auth/validators.py
2--- a/django/contrib/auth/validators.py
3+++ b/django/contrib/auth/validators.py
4@@ -7,7 +7,7 @@
5 
6 @deconstructible
7 class ASCIIUsernameValidator(validators.RegexValidator):
8-    regex = r'^[\w.@+-]+$'
9+    regex = r'^[\w.@+-]+\Z'
10     message = _(
11         'Enter a valid username. This value may contain only English letters, '
12         'numbers, and @/./+/-/_ characters.'
13@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
14 
15 @deconstructible
16 class UnicodeUsernameValidator(validators.RegexValidator):
17-    regex = r'^[\w.@+-]+$'
18+    regex = r'^[\w.@+-]+\Z'
19     message = _(
20         'Enter a valid username. This value may contain only letters, '
21         'numbers, and @/./+/-/_ characters.'

Diskussion

Aus dieser Prüfung von SWE-bench Verified ziehen wir zwei übergeordnete Lehren für das Design von Evaluierungen. Erstens bergen Benchmarks aus öffentlich verfügbarem Material ein Kontaminationsrisiko, da die Exposition gegenüber Trainingsdaten die Ergebnisse unbemerkt nach oben verzerren kann. Wenn öffentlich gecrawlte Daten bei der Erstellung von Benchmarks verwendet werden, sollten Modellentwickler:innen zusätzliche Tests auf Kontamination durchführen. Benchmarks und sogar ihre Lösungen, die öffentlich gepostet werden, können in Trainingsdaten landen. Besondere Sorgfalt sollte sowohl bei der Art und Weise der Veröffentlichung von Datensätzen (d. h. Passwortschutz) als auch beim Filtern der (d. h. strikte Einhaltung von Canary-Strings) angewendet werden.

Zweitens ist korrekte Umsetzung automatisierter Bewertung schwierig; perfekte Testfälle sollten die korrekte Funktionalität vollständig überprüfen, sowohl unabhängig von unwichtigen Implementierungsdetails als auch robust gegenüber Abkürzungslösungen sein. Diese Probleme sind von Natur aus komplex und schwer zu lösen. Das Erkennen dieser Probleme erforderte mehrere umfangreiche menschliche Labeling-Kampagnen.

Wir haben diese Erkenntnisse in unsere jüngsten Evaluierungsbemühungen einfließen lassen. In den letzten Monaten haben wir uns dafür entschieden, Ergebnisse aus der öffentlichen Aufteilung von SWE-Bench Pro zu berichten. Wir empfehlen anderen Modellentwickler:innen, dasselbe zu tun. SWE-bench Pro ist nicht perfekt, scheint aber empirisch gesehen weniger anfällig für Kontaminationsprobleme zu sein. Unsere Kontaminationsprüfung ergab einige Fälle von Kontamination, diese waren jedoch deutlich seltener und weniger gravierend als bei der SWE-Bench Verified. Kein Modell konnte einen vollständig wortgetreuen Gold-Patch erzeugen.

Wir werden auch weiterhin in originelle, privat verfasste Benchmarks investieren und Industrie sowie Wissenschaft bitten, dasselbe zu tun. In GDPVal⁠ werden Aufgaben privat von Fachexpert:innen verfasst, wodurch das Expositionsrisiko reduziert wird, und Lösungen werden ganzheitlich von geschulten Prüfer:innen bewertet. Dieser Ansatz ist ressourcenintensiv, aber zunehmend notwendig, um echte Verbesserungen der Fähigkeiten zu messen.

2026

Autor

OpenAI

Mehr lesen

Alles anzeigen

GPT-Red: Selbstverbesserung für mehr Robustheit

Sicherheit15. Juli 2026

Signal und Rauschen bei Code-Bewertungen trennen

Forschung8. Juli 2026

Einführung von GeneBench-Pro

Forschung30. Juni 2026