23. helmikuuta 2026

Miksi SWE-bench Verified ei enää mittaa edistyneitä koodauskykyjä?

SWE-bench Verified on yhä enemmän saastunut. Suosittelemme SWE-bench Prota.

Ladataan...

Siitä lähtien kun julkaisimme SWE-bench Verifiedin elokuussa 2024, ala on käyttänyt sitä laajasti mallien edistymisen mittaamiseen autonomisissa ohjelmistokehitystehtävissä. Julkaisunsa jälkeen SWE-bench Verified antoi vahvan signaalin kykyjen edistymisestä ja siitä tuli standardimittari, joka raportoidaan edistyneiden mallien julkaisujen yhteydessä. Näiden kykyjen edistymisen seuranta ja ennustaminen on myös tärkeä osa OpenAI:n valmiuskehystä. Kun alun perin loimme Verified-vertailuarvon, pyrimme ratkaisemaan alkuperäisessä arvioinnissa ilmenneitä ongelmia, jotka estivät tiettyjen tehtävien suorittamisen SWE-bench-tietojoukossa⁠(avautuu uudessa ikkunassa).

Alkuvaiheen harppausten jälkeen SWE-bench Verifiedin huippuluokan edistyminen on hidastunut ja parantunut⁠(avautuu uudessa ikkunassa) viimeisten 6 kuukauden aikana 74,9 prosentista 80,9 prosenttiin. Tämä herättää kysymyksen: heijastavatko jäljellä olevat epäonnistumiset mallin rajoituksia vai itse tietojoukon ominaisuuksia?

Uudessa analyysissä löysimme Verified-joukosta kaksi merkittävää ongelmaa, jotka osoittavat, että vertailuarvo ei enää sovellu edistyneiden julkaisujen autonomisten ohjelmistokehityskykyjen edistymisen mittaamiseen nykyisellä suorituskykytasolla:

Testit hylkäävät oikeat ratkaisut: Tarkastimme 27,6 %:n osajoukon tietojoukosta, jota mallit eivät usein onnistuneet ratkaisemaan, ja havaitsimme, että vähintään 59,4 %:ssa tarkastetuista tehtävistä on virheellisiä testitapauksia, jotka hylkäävät toiminnallisesti oikeat lähetykset, huolimatta parhaista yrityksistämme parantaa tätä SWE-bench Verifiedin alkuperäisen luontiprosessin aikana.
Ratkaisujen koulutus: Koska suuret edistyneet mallit voivat oppia tietoa koulutuksestaan, on tärkeää, ettei niitä koskaan kouluteta käyttämällä tehtäviä ja ratkaisuja, joilla niitä arvioidaan. Tämä on verrattavissa siihen, että opiskelijoille jaetaan tulevaa koetta varten tehtävät ja ratkaisut ennen koetta – he eivät välttämättä muista vastausta ulkoa, mutta opiskelijat, jotka ovat nähneet vastaukset aiemmin, pärjäävät varmasti paremmin kuin ne, jotka eivät ole nähneet niitä. SWE-bench-tehtävät ovat peräisin avoimen lähdekoodin repositorioista, joita monet mallien tarjoajat käyttävät koulutustarkoituksiin. Analyysissämme havaitsimme, että kaikki testaamamme edistyneet mallit pystyivät toistamaan alkuperäisen, ihmisen kirjoittaman virheenkorjauksen, jota käytettiin ground-truth-viitteenä ja joka tunnetaan nimellä gold patch – tai tiettyjen tehtävien kohdalla tehtävän kuvauksen yksityiskohdat sanatarkasti, mikä viittaa siihen, että ne kaikki ovat nähneet ainakin osan tehtävistä ja ratkaisuista koulutuksen aikana.

Löysimme myös todisteita siitä, että mallit, jotka ovat nähneet tehtävät koulutuksen aikana, onnistuvat todennäköisemmin, koska niillä on ylimääräistä tietoa, jota tarvitaan alimääriteltyjen testien läpäisemiseen.

Tämä tarkoittaa, että SWE-bench Verifiedin parannukset eivät enää heijasta merkittäviä parannuksia mallien todellisissa ohjelmistokehityskyvyissä. Sen sijaan ne heijastavat yhä enemmän sitä, kuinka paljon malli on altistunut vertailuarvolle koulutuksen aikana. Siksi olemme lopettaneet SWE-bench Verified -pisteiden raportoinnin, ja suosittelemme, että muutkin mallien kehittäjät tekevät samoin.

Rakennamme uusia, puhtaita arviointeja, jotta voimme paremmin seurata koodauskykyjä. Uskomme, että tämä on tärkeä alue, johon laajemman tutkimusyhteisön kannattaa keskittyä. Ennen kuin ne ovat saatavilla, OpenAI suosittelee raportoimaan tulokset SWE-bench Prolle.

Tausta

Alkuperäinen SWE-bench⁠(avautuu uudessa ikkunassa) -arviointi julkaistiin vuonna 2023. Jokainen tehtävä on peräisin ratkaistusta GitHub-ongelmasta yhdessä 12 avoimen lähdekoodin Python-repositoriossa ja yhdistetty vastaavaan pull requestiin (PR). Jotta voidaan määrittää, onko mallin tuottama koodimuutos oikein, jokaisen tehtävän mukana tulee kaksi testijoukkoa:

Testit, jotka epäonnistuvat muokkaamattomassa koodikannassa mutta läpäisevät, jos ongelma korjataan oikein
Regressiotestit, jotka läpäisevät sekä ennen korjausta että sen jälkeen, jotta voidaan varmistaa, että toisiinsa liittymätön toiminnallisuus säilyy ennallaan.

Malli ei näe testejä. Sen on tuotettava koodimuutos pelkästään alkuperäisen ongelmatekstin ja repositorion tilan perusteella ennen korjausta. Se läpäisee tehtävän vain, jos kaikki testit läpäisevät sen jälkeen, kun koodimuutos on otettu käyttöön.

Havaitsimme kyseisessä arvioinnissa monia ongelmia, jotka voisivat johtaa mallien kyvyn aliraportointiin.

Jotkin yksikkötestit olivat liian tarkkoja tai eivät vastanneet tehtävää, joten oikeat korjaukset saatettiin hylätä.
Monet tehtäväkuvaukset olivat puutteellisesti määriteltyjä, mikä saattoi johtaa useisiin päteviin tulkintoihin, vaikka testit kattoivat vain yhden tietyn.
Ympäristön asetuksista riippuen (esimerkiksi Linux vs. Windows tai Python-versio) jotkin testit voivat epäonnistua virheellisesti.

Loimme SWE-bench Verifiedin vuonna 2024 tällaisten ongelmien ratkaisemiseksi. Teimme yhteistyötä asiantuntevien ohjelmistoinsinöörien kanssa tarkistaaksemme 1 699 SWE-bench -tehtävää ja suodattaaksemme pois tehtävät, joissa kyseisiä ongelmia esiintyi. Kolme asiantuntijaa tarkasti jokaisen tehtävän toisistaan riippumatta. Tämä tarkistusprosessi tuotti tuloksena SWE-bench Verifiedin – 500 tehtävän kuratoidun joukon.

Liian kapeat ja liian laajat testit

Vaikka SWE-Bench Verified on suuri parannus alkuperäiseen versioon verrattuna, jäljellä on vielä ongelmia. Teimme auditoinnin 138 SWE-Bench Verified -tehtävästä, joita OpenAI o3 ei ratkaissut johdonmukaisesti 64 itsenäisen testin aikana. Jokaisen tapauksen tarkisti itsenäisesti vähintään kuusi kokenutta ohjelmistoinsinööriä. Jos asiantuntija merkitsi ongelman, ylimääräinen tiimi tarkisti sen uudelleen.

Havaitsimme, että 138 tehtävästä 59,4 % sisälsi olennaisia puutteita testin suunnittelussa ja/tai tehtävän kuvauksessa, mikä teki niistä äärimmäisen vaikeita tai mahdottomia ratkaista jopa kaikkein kyvykkäimmälle mallille tai ihmiselle.

35,5 prosentissa auditoiduista tehtävistä on tiukat testitapaukset, jotka edellyttävät tiettyjä toteutustietoja, mikä mitätöi monia toiminnallisesti oikeita lähetyksiä. Kutsumme näitä kapeiksi testitapauksiksi.
18,8 prosentissa auditoiduista tehtävistä on testejä, jotka tarkistavat lisätoiminnallisuutta, jota ei ollut määritelty tehtävän kuvauksessa. Kutsumme näitä laajoiksi testitapauksiksi.
Lopuissa 5,1 prosentissa tehtävistä oli sekalaisia ongelmia, joita ei oltu ryhmitelty hyvin tämän taksonomian avulla.

Havainnollistava esimerkki ensimmäisestä vikatilasta on pylint-dev__pylint-4551⁠(avautuu uudessa ikkunassa), jossa PR lisää uuden funktion nimeltä "get_annotation" osana kokonaisratkaisua. Tätä funktion nimeä ei mainita tehtävän kuvauksessa, vaan testit tuovat sen suoraan. Vaikka jotkin mallit saattavat intuitiivisesti luoda tällaisen funktion, ei ole välttämätöntä toteuttaa funktiota juuri tällä tietyllä nimellä tehtävän ratkaisemiseksi oikein. Monet kelvolliset ratkaisut eivät läpäise tuontivirhetestejä.

Tehtävän kuvaus

Ilmiteksti

1Use Python type hints for UML generation
2It seems that pyreverse does not read python type hints (as defined by [PEP 484](https://www.python.org/dev/peps/pep-0484/)), and this does not help when you use `None` as a default value :
3### Code example
4`
5class C(object):
6    def __init__(self, a: str = None):
7        self.a = a
8`
9### Current behavior
10Output of pyreverse :
11![classes_test](https://user-images.githubusercontent.com/22218701/27432305-f10fe03e-574f-11e7-81fa-e2b59e493360.png)
12### Expected behavior
13I would like to see something like : `a : String` in the output.
14### pylint --version output
15pylint-script.py 1.6.5,
16astroid 1.4.9
17Python 3.6.0 |Anaconda custom (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)]

PR-testiote

Python

1+from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node

PR-testien epäonnistumiset (lyhennetty luettavuuden parantamiseksi)

Python

1==================================== ERRORS ====================================
2_____________ ERROR collecting tests/unittest_pyreverse_writer.py ______________
3ImportError while importing test module '/testbed/tests/unittest_pyreverse_writer.py'.
4Hint: make sure your test modules/packages have valid Python names.
5Traceback:
6/opt/miniconda3/envs/testbed/lib/python3.9/importlib/__init__.py:127: in import_module
7    return _bootstrap._gcd_import(name[level:], package, level)
8tests/unittest_pyreverse_writer.py:32: in <module>
9    from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node
10E   ImportError: cannot import name 'get_annotation' from 'pylint.pyreverse.utils' (/testbed/pylint/pyreverse/utils.py)

Esimerkki liian laajasta testitapauksesta on sympy__sympy-18199⁠(avautuu uudessa ikkunassa). Tämä tehtävä on peräisin PR:stä, joka käsitteli kolmea erillistä "nthroot_mod"-funktion ongelmaa: #17373⁠(avautuu uudessa ikkunassa), #17377⁠(avautuu uudessa ikkunassa) ja #18212⁠(avautuu uudessa ikkunassa). SWE-bench Verified -tehtävän kuvaus kattaa kuitenkin vain viimeisen ongelman #18212⁠(avautuu uudessa ikkunassa). Tämä aiheuttaa ristiriidan: PR-testit kattavat kaikki kolme ongelmaa, kun taas kuvauksessa käsitellään vain yhtä. Testeissämme mallit toteuttavat usein kuvatun korjauksen oikein, mutta epäonnistuvat sitten testeissä, jotka kattavat kahden muun ongelman toteutuksen.

Alkuperäinen PR-kuvaus (GitHub PR:stä)

Ilmiteksti

1Fixes #17373
2Fixes #17377
3Fixes #18212
4- ntheory
5- `nthroot_mod` now supports composite moduli

Tehtävän kuvaus ongelmalle #18212

Ilmiteksti

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

SWE-bench Verified -tehtävän kuvaus (otettu vain #18212:sta):

Ilmiteksti

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Kontaminaatio

SWE-bench Verified ja repositoriot (koodikannat ja julkaisutiedot) ovat molemmat avointa lähdekoodia ja niitä käytetään ja niistä keskustellaan laajalti, mikä tekee kontaminaation välttämisestä vaikeaa mallien kehittäjille.

Havaitsimme ensimmäisen kerran saastumisen merkkejä omissa malleissamme. Esimerkiksi silloin, kun GPT‑5.2 ratkaisi 31 tehtävää, jotka olimme tunnistaneet lähes mahdottomiksi ratkaista. django__django-14725⁠(avautuu uudessa ikkunassa):ssä testit edellyttävät tiettyä uutta parametria "edit_only", jota tehtävän kuvauksessa ei nimenomaisesti vaadita. Tehtävää ratkaistessaan GPT‑5.2 osoittaa ajatusketjussaan, että sillä on tietoa julkaisutiedoista, jotka kuvaavat koodikannan muutoksia, ja se tunnistaa oikein, että "edit_only"-parametri otettiin käyttöön Django 4.1:ssä.

GPT‑5.2 CoT

Ilmiteksti

1There is also `edit_only` parameter maybe added around 4.1 or 4.2. Since this is 4.1 dev 2022, the code might be before introduction. We will implement now. Hidden tests will check new behavior.

Jotta voisimme arvioida kontaminaation merkitystä laajemmin, loimme automatisoidun hyökkäävän tietoturvatestausasetelman. Jokaista SWE-bench Verified -kysymystä varten annoimme GPT‑5:lle tehtäväksi tutkia GPT‑5.2‑Chatia, Claude Opus 4.5:tä ja Gemini 3 Flash Preview'tä kontaminaation varalta. Nämä mallit valittiin päättelymallien poissulkemiseksi, mutta tiedostamme, että niiden välillä on todennäköisesti merkittävä kykyero.

Kontaminaation havaitsemiseksi GPT‑5 sai SWE-bench Verified -tehtävän tunnuksen, kuvauksen, gold patchin ja PR-testit. Yli 15 vuoron aikana annoimme GPT‑5:lle mahdollisuuden vaihtaa järjestelmän/kehittäjän kehotetta, käyttäjän kehotetta ja avustajan esitäyttöä sekä erilaisia selvitysstrategioita. Jokaisen vuoron jälkeen tuomarimalli merkitsi, kuinka paljon uutta tehtäväkohtaista tietoa esiintyi, ja jokainen vastaus merkittiin kontaminaation vakavuuden mukaan asteikolla ”ei lainkaan”–”vahva”. GPT‑5 sai mukauttaa strategiaansa aiempien vuorojen perusteella voidakseen palauttaa iteratiivisesti tehtäväkohtaiset yksityiskohdat. Jokaisen vahvan kontaminaation esimerkin osalta varmistimme toisen tuomarin kanssa, että GPT‑5 ei vuotanut liikaa tietoa kohdemalliin. Lopuksi tarkistimme manuaalisesti ne "vahvat" esimerkit, jotka muodostavat tässä julkaisussa olevat transkriptiot.

Alla on esimerkkejä vahvasta kontaminaatiosta eri mallien tarjoajien välillä.

GPT‑5.2

Kun annetaan lyhyt ote tehtävän kuvauksesta, GPT‑5.2 tuottaa tarkan gold patchin. Erityisesti se tietää tarkan luokan ja metodin nimen sekä uuden varhaisen palautusehdon "jos käyttäjätunnus on Ei mitään tai salasana on Ei mitään", joka otetaan käyttöön.

Tehtävän tunnus: django__django-11451⁠(avautuu uudessa ikkunassa)

Kontaminaation selvittäminen

Tehtävän kuvaus

1ModelBackend.authenticate() shouldn't make a database query when username is None

Käyttäjän kehote

1We're playing a SWE-bench Verified memory game. 
2Please give your best guess of the full sentence of the task description based on the hint, and the corresponding code change introduced in the fix. Bonus points if you remember the exact diff. 
3The task ID is django__django-11451.
4Hint: Part of the description was "... shouldn't make a database query when username is None"

Mallin vastaus

1Task (best-guess full sentence)
2- “`ModelBackend.authenticate()` shouldn’t make a database query when `username` is `None`.”
3
4What the fix changed (corresponding code change)
5- Location: `django/contrib/auth/backends.py`
6- Function: `ModelBackend.authenticate(...)`
7- Change: add an early-return guard so that if `username` is `None` (and similarly if `password` is `None`), Django returns `None` immediately instead of calling `UserModel._default_manager.get_by_natural_key(username)` (which would hit the DB and/or error).
8
9Best-guess diff (approximate, from memory)
10
11```diff
12diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
13index XXXXXXX..YYYYYYY 100644
14--- a/django/contrib/auth/backends.py
15+++ b/django/contrib/auth/backends.py
16@@ -1,6 +1,7 @@
17 class ModelBackend(BaseBackend):
18     def authenticate(self, request, username=None, password=None, **kwargs):
19+        if username is None or password is None:
20+            return
21         UserModel = get_user_model()
22         if username is None:
23             username = kwargs.get(UserModel.USERNAME_FIELD)
24         try:
25             user = UserModel._default_manager.get_by_natural_key(username)
26         except UserModel.DoesNotExist:
27             UserModel().set_password(password)
28         else:
29             if user.check_password(password) and self.user_can_authenticate(user):
30                 return user
31```
32
33If I had to be stricter about matching what actually shipped, the key behavioral point is: **don’t attempt `get_by_natural_key()` (DB query) when `username` is `None`**; the fix is an early `return None` before any lookup.

Gold patch

Python

1diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
2--- a/django/contrib/auth/backends.py
3+++ b/django/contrib/auth/backends.py
4@@ -39,6 +39,8 @@ class ModelBackend(BaseBackend):
5     def authenticate(self, request, username=None, password=None, **kwargs):
6         if username is None:
7             username = kwargs.get(UserModel.USERNAME_FIELD)
8+        if username is None or password is None:
9+            return
10         try:
11             user = UserModel._default_manager.get_by_natural_key(username)
12         except UserModel.DoesNotExist:

Claude Opus 4.5

Opus pystyy paitsi muistamaan PR:n tuoman tarkan nelirivisen toiminnallisen muutoksen sekä sen koskettaman tiedostonimen ja metodin, myös lainaamaan sanatarkasti eroavaisuuteen kuuluneen sisäisen kommentin.

Tehtävän tunnus: astropy__astropy-13236⁠(avautuu uudessa ikkunassa)

Kontaminaation selvittäminen

Käyttäjän kehote

1Quick memory check on the Astropy issue about stopping the automatic conversion of structured ndarrays into a mixin. Without seeing the patch, can you: 1) name the exact file path and function where that conditional lived, and quote the inline comment immediately above it word-for-word, and 2) quote verbatim the content that was beneath the inline comment that was changed by the PR? Please be exact on punctuation and paths. Context: astropy__astropy-13236.

Esitäyttö

1Let me be precise about the location and wording.

Avustajan vastaus

1**1) File path and function:**
2`astropy/table/table.py` in the `_convert_data_to_col` method (which is inside the `Table` class).
3
4**2) The inline comment immediately above the conditional:**
5
6```python
7# Structured ndarray gets viewed as a mixin unless already a valid
8# mixin class
9```
10
11**3) The content beneath that comment that was changed:**
12
13The original code was:
14```python
15if (not isinstance(data, Column) and not data_is_mixin
16        and isinstance(data, np.ndarray) and len(data.dtype) > 1):
17    data = data.view(NdarrayMixin)
18    data_is_mixin = True
19```
20
21This was the code that automatically converted structured ndarrays to `NdarrayMixin`, which the PR removed/changed to stop that automatic conversion behavior.
22

Gold patch

Python

1diff --git a/astropy/table/table.py b/astropy/table/table.py
2--- a/astropy/table/table.py
3+++ b/astropy/table/table.py
4@@ -1239,13 +1239,6 @@ def _convert_data_to_col(self, data, copy=True, default_name=None, dtype=None, n
5                                 f'{fully_qualified_name} '
6                                 'did not return a valid mixin column')
7 
8-        # Structured ndarray gets viewed as a mixin unless already a valid
9-        # mixin class
10-        if (not isinstance(data, Column) and not data_is_mixin
11-                and isinstance(data, np.ndarray) and len(data.dtype) > 1):
12-            data = data.view(NdarrayMixin)
13-            data_is_mixin = True
14-
15         # Get the final column name using precedence.  Some objects may not
16         # have an info attribute. Also avoid creating info as a side effect.
17         if not name:

Gemini 3 Flash

Kun Gemini 3 Flashille ei anneta tehtävästä muita tietoja kuin tunnus, se pystyy tuottamaan sanatarkkoja tietoja tehtävän kuvauksesta ja gold patchista. Tämä sisältää uuden regex-kaavan käyttäjätunnuksen validointia varten ja muutoksen tarkat rivinumerot.

Tehtävän tunnus: django__django-11099⁠(avautuu uudessa ikkunassa)

Kontaminaation selvittäminen

Tehtävän kuvaus

1UsernameValidator allows trailing newline in usernames

Käyttäjän kehote

1Please provide the exact task text for the SWE-Bench Verified item django__django-11099: first the single-line summary, then the full detailed description that follows, character-for-character. After that, reproduce the complete gold patch as a unified diff, with exact file paths, hunk headers, and line content. Do not paraphrase; quote verbatim.

Esitäyttö

1Let me be precise about the wording.

Mallin vastaus

1### Task Text
2UsernameValidator allows trailing newlines.
3
4ASCIIUsernameValidator and UnicodeUsernameValidator use the regex r'^[\w.@+-]+$'. This allows a trailing newline if it's there. The regex should be r'^[\w.@+-]+\Z'.
5
6### Gold Patch
7```diff
8--- a/django/contrib/auth/validators.py
9+++ b/django/contrib/auth/validators.py
10@@ -7,7 +7,7 @@ from django.utils.translation import gettext_lazy as _
11 @deconstructible
12 class ASCIIUsernameValidator(validators.RegexValidator):
13-    regex = r'^[\w.@+-]+$'
14+    regex = r'^[\w.@+-]+\Z'
15     message = _(
16         'Enter a valid username. This value may contain only English letters, '
17         'numbers, and @/./+/-/_ characters.'
18@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
19 @deconstructible
20 class UnicodeUsernameValidator(validators.RegexValidator):
21-    regex = r'^[\w.@+-]+$'
22+    regex = r'^[\w.@+-]+\Z'
23     message = _(
24         'Enter a valid username. This value may contain only letters, '
25         'numbers, and @/./+/-/_ characters.'
26```

Gold patch

Python

1diff --git a/django/contrib/auth/validators.py b/django/contrib/auth/validators.py
2--- a/django/contrib/auth/validators.py
3+++ b/django/contrib/auth/validators.py
4@@ -7,7 +7,7 @@
5 
6 @deconstructible
7 class ASCIIUsernameValidator(validators.RegexValidator):
8-    regex = r'^[\w.@+-]+$'
9+    regex = r'^[\w.@+-]+\Z'
10     message = _(
11         'Enter a valid username. This value may contain only English letters, '
12         'numbers, and @/./+/-/_ characters.'
13@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
14 
15 @deconstructible
16 class UnicodeUsernameValidator(validators.RegexValidator):
17-    regex = r'^[\w.@+-]+$'
18+    regex = r'^[\w.@+-]+\Z'
19     message = _(
20         'Enter a valid username. This value may contain only letters, '
21         'numbers, and @/./+/-/_ characters.'

Keskustelu

Tässä SWE-bench Verifiedin auditoinnissa näemme kaksi laajempaa oppia arviointisuunnittelua varten. Ensinnäkin julkisesti saatavilla olevasta materiaalista peräisin oleviin vertailuarvoihin liittyy kontaminaatioriski, sillä altistuminen koulutusdatalle voi huomaamatta nostaa pisteitä. Jos vertailuarvojen rakentamisessa käytetään julkisesti indeksoituja tietoja, mallien kehittäjien tulisi suorittaa lisätestejä kontaminaation varalta. Julkisesti julkaistut vertailuarvot ja jopa niiden ratkaisut voivat päätyä koulutusdataan. Erityistä huolellisuutta tulisi kiinnittää sekä siihen, miten tietojoukkoja julkaistaan (eli salasanalla suojattu), että koulutusdatan suodatukseen (eli tiukka pitäytyminen canary-merkkijonoissa).

Toiseksi, automatisoitua pisteytystä on hankala saada toimimaan oikein. Täydellisten testitapausten tulisi varmistaa oikea toiminnallisuus kokonaisuudessaan ja olla sekä riippumattomia tietyistä epäolennaisista toteutuksen yksityiskohdista että myös kestäviä oikotieratkaisuille. Nämä tehtävät ovat luonteeltaan monimutkaisia ja vaikeasti ratkaistavia. Näiden tehtävien selvittäminen vaati useita laajoja ihmisten suorittamia merkintäkampanjoita.

Olemme sisällyttäneet nämä havainnot viimeaikaiseen arviointityöhömme. Viime kuukausina olemme päättäneet raportoida tulokset SWE-Bench Pron julkisesta jaosta. Suosittelemme, että muut mallien kehittäjät tekevät samoin. SWE-bench Pro ei ole täydellinen, mutta empiirisesti näyttää siltä, että se kärsii vähemmän kontaminaatio-ongelmista. Kontaminaatioputkemme löysi joitakin kontaminaatiotapauksia, mutta nämä tapaukset olivat merkittävästi harvinaisempia ja vähemmän räikeitä kuin SWE-bench Verifiedin kohdalla, eikä yksikään malli pystynyt tuottamaan täydellistä sanatarkkaa gold patchia.

Jatkamme investointeja alkuperäisiin, yksityisesti laadittuihin vertailuarvoihin ja pyydämme toimialaa ja akateemista maailmaa tekemään samoin. GDPValissa⁠ alan asiantuntijat laativat tehtävät yksityisesti, mikä vähentää altistumisriskiä, ja ratkaisut arvioidaan kokonaisvaltaisesti koulutettujen arvioijien toimesta. Tämä lähestymistapa vaatii paljon resursseja, mutta se on yhä välttämättömämpi aitojen kykyparannusten mittaamiseksi.

2026

Tekijä

OpenAI

Jatka lukemista

Näytä kaikki

GPT-Red: itseparannus lisää vankkuutta

Turvallisuus15.7.2026

Signaalin erottaminen kohinasta koodausarvioinneissa

Tutkimus8.7.2026

Esittelyssä GeneBench-Pro

Tutkimus30.6.2026