Fara beint í aðalefni
OpenAI

23. febrúar 2026

RannsóknirÚtgáfa

Hvers vegna SWE-bench Verified mælir ekki lengur framarlega kóðunargetu

SWE-bench Verified er í auknum mæli mengað. Við mælum með SWE-bench Pro.

Hleður inn...

Síðan við birtum fyrst SWE-bench Verified í ágúst 2024 hefur iðnaðurinn víða notað það til að mæla framfarir líkana í sjálfvirkum hugbúnaðarverkfræðiverkefnum. Eftir útgáfu þess gaf SWE-bench Verified sterka vísbendingu um framfarir í getu og varð að stöðluðum mælikvarða sem greint er frá í útgáfum framarlegra líkana. Að fylgjast með og spá fyrir um framvindu þessara getuþátta er einnig mikilvægur hluti af undirbúningsramma OpenAI. Þegar við bjuggum til Verified-viðmiðunarstaðalinn í upphafi reyndum við að leysa vandamál í upprunalega matinu sem gerðu ákveðin verkefni ómöguleg að framkvæma í SWE-bench dataset(opnast í nýjum glugga).

Eftir fyrstu framfarir hefur besta tækni sem býðst framfarir á SWE-bench Verified hægt á sér, bætt(opnast í nýjum glugga) sig úr 74,9% í 80,9% á síðustu 6 mánuðum. Þetta vekur upp spurninguna: endurspegla þær bilanir sem eftir eru takmarkanir líkansins eða eiginleika gagnasafnsins sjálfs?

Í nýrri greiningu fundum við tvö meginvandamál með Verified-settinu sem benda til þess að viðmiðið sé ekki lengur hentugt til að mæla framfarir í sjálfvirkri hugbúnaðarverkfræði fyrir framarlegar útgáfur á frammistöðustigi dagsins í dag:

  1. Próf hafna réttum lausnum: Við endurskoðuðum 27,6% hlutmengi gagnasafnsins sem líkön áttu oft í erfiðleikum með að leysa og komumst að því að að minnsta kosti 59,4% af endurskoðuðu verkefnunum eru með gölluð próftilvik sem hafna virknilega réttum innsendingum, þrátt fyrir okkar bestu viðleitni til að bæta þetta við upphaflega gerð SWE-bench Verified.
  2. Þjálfun á lausnum: Þar sem stór framarleg líkön geta lært upplýsingar af þjálfun sinni er mikilvægt að þau séu aldrei þjálfuð á vandamálum og lausnum sem þau eru metin á. Þetta er svipað og að deila verkefnum og lausnum fyrir komandi próf með nemendum áður en prófið fer fram - þeir læra kannski ekki svarið utanbókar en nemendur sem hafa séð svörin áður munu vissulega standa sig betur en þeir sem hafa ekki séð þau. SWE-bench vandamál eru fengin úr opnum geymslum sem margir líkanveitendur nota í þjálfunarskyni. Í greiningu okkar komumst við að því að öll framarlegu líkönin sem við prófuðum gátu endurskapað upprunalegu, mannskrifuðu villuleiðréttinguna sem notuð var sem viðmiðun í grunnsannleika, þekkt sem gullbótin, eða orðrétt tiltekin atriði í vandamálalýsingu fyrir ákveðin verkefni, sem bendir til þess að þau hafi öll séð að minnsta kosti einhver vandamálin og lausnirnar á meðan á þjálfun stóð.

Við fundum einnig vísbendingar um að líkön sem hafa séð vandamálin meðan á þjálfun stóð séu líklegri til að ná árangri, vegna þess að þau hafa viðbótarupplýsingar sem þarf til að standast próf sem eru ekki nægilega vel skilgreind.

Þetta þýðir að umbætur á SWE-bench Verified endurspegla ekki lengur marktækar umbætur á raunverulegri getu líkana til hugbúnaðarþróunar. Þess í stað endurspegla þau í auknum mæli hversu mikið líkanið var útsett fyrir viðmiðuninni á þjálfunartíma. Þess vegna höfum við hætt að birta SWE-bench Verified-stig og við mælum með að aðrir líkanaþróunaraðilar geri það líka.

Við erum að byggja nýja, óspillta matsferla til að fylgjast betur með forritunargetu og við teljum að þetta sé mikilvægt svið til að einbeita sér að fyrir víðara rannsóknarsamfélagið. Þangað til við höfum þær niðurstöður mælir OpenAI með að birtar verði niðurstöður fyrir SWE-bench Pro.

Bakgrunnur

Upprunalega SWE-bench(opnast í nýjum glugga) matið var gefið út árið 2023. Hvert vandamál er fengið úr leystu GitHub-vandamáli í einni af 12 opnum Python-geymslum og parað við samsvarandi pull request (PR). Til að ákvarða hvort kóðabreyting sem líkan hefur myndað sé rétt fylgja hverju verkefni tvö prófunarsett:

  • Prófanir sem falla á óbreyttum kóðagrunni en standast ef vandamálið er lagað á réttan hátt
  • Aðhvarfspróf sem standast bæði fyrir og eftir lagfæringuna til að tryggja að óskyld virkni haldist óskemmd.

Líkanið sér ekki prófin. Það þarf að framleiða kóðabreytingu með aðeins upprunalega texta vandamálsins og stöðu geymslunnar fyrir lagfæringuna. Það stenst vandamál aðeins ef öll próf standast eftir að kóðabreytingin hefur verið beitt.

Við fundum mörg vandamál við það mat sem gætu leitt til vanmats á getu líkana.

  • Sumar einingaprófanir voru of sértækar eða ekki í samræmi við verkefnið svo réttum lagfæringum gæti verið hafnað.
  • Margar verkefnalýsingar voru illa skilgreindar, sem gæti leitt til margra gildra túlkana – á meðan prófin náðu aðeins yfir eina tiltekna.
  • Það fer eftir uppsetningu umhverfisins (til dæmis Linux gegn Windows, eða Python-útgáfunni), en sum próf gætu mistekist að ástæðulausu.

Við bjuggum til SWE-bench Verified árið 2024 til að takast á við þessi vandamál. Við unnum með sérfræðingum í hugbúnaðarverkfræði til að fara yfir 1.699 SWE-bench verkefni og sía út verkefni sem höfðu þessi vandamál. Hvert vandamál var yfirfarið af þremur sérfræðingum, hver fyrir sig. Þetta yfirferðarferli leiddi til SWE-bench Verified, vandlega valins safns af 500 vandamálum.

Of þröng og of víð próf

Þótt SWE-bench Verified sé mikil framför miðað við upphaflegu útgáfuna, eru enn óleyst vandamál til staðar. Við gerðum úttekt á 138 verkefnum í SWE-bench Verified sem OpenAI o3 leysti ekki áreiðanlega í 64 óháðum keyrslum. Hvert tilvik var yfirfarið sjálfstætt af að minnsta kosti sex reyndum hugbúnaðarverkfræðingum. Ef sérfræðingur benti á vandamál var það staðfest aftur af viðbótarteymi.

Við komumst að því að 59,4% af 138 vandamálunum innihéldu veruleg atriði í hönnun prófa og/eða lýsingu vandamáls, sem gerði þau afar erfið eða ómöguleg að leysa, jafnvel fyrir hæfasta líkan eða mann. 

  • 35,5% af yfirförnum verkefnum eru með ströng prófunartilvik sem knýja fram tiltekin útfærsluatriði, sem gerir margar virknilega réttar innsendingar ógildar, sem við köllum þröng prófunartilvik.
  • 18,8% af yfirförnum verkefnum eru með próf sem kanna viðbótarvirkni sem ekki var tilgreind í verkefnalýsingunni, sem við köllum víð prófunartilvik.
  • Eftirstandandi 5,1% verkefna voru með ýmis vandamál sem ekki var hægt að flokka vel samkvæmt þessari flokkunarfræði.

Lýsandi dæmi um fyrsta bilunarhaminn er pylint-dev__pylint-4551(opnast í nýjum glugga), þar sem pull request kynnir nýtt fall `get_annotation` sem hluta af heildarlausninni. Þetta heiti falls er ekki nefnt í lýsingu verkefnisins en er flutt inn beint af prófunum. Þó að sum líkön gætu ályktað að búa til slíkt fall er ekki stranglega nauðsynlegt að innleiða fall með þessu tiltekna nafni til að leysa vandamálið rétt. Margar gildar lausnir falla á prófunum vegna innflutningsvilla.

Lýsing á vandamáli

Ósniðinn texti

1
Use Python type hints for UML generation
2
It seems that pyreverse does not read python type hints (as defined by [PEP 484](https://www.python.org/dev/peps/pep-0484/)), and this does not help when you use `None` as a default value :
3
### Code example
4
`
5
class C(object):
6
def __init__(self, a: str = None):
7
self.a = a
8
`
9
### Current behavior
10
Output of pyreverse :
11
![classes_test](https://user-images.githubusercontent.com/22218701/27432305-f10fe03e-574f-11e7-81fa-e2b59e493360.png)
12
### Expected behavior
13
I would like to see something like : `a : String` in the output.
14
### pylint --version output
15
pylint-script.py 1.6.5,
16
astroid 1.4.9
17
Python 3.6.0 |Anaconda custom (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)]

PR prófunartextabrot

Python

1
+from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node

Prófunarmistök pull request (stytt til að bæta læsileika)

Python

1
==================================== ERRORS ====================================
2
_____________ ERROR collecting tests/unittest_pyreverse_writer.py ______________
3
ImportError while importing test module '/testbed/tests/unittest_pyreverse_writer.py'.
4
Hint: make sure your test modules/packages have valid Python names.
5
Traceback:
6
/opt/miniconda3/envs/testbed/lib/python3.9/importlib/__init__.py:127: in import_module
7
return _bootstrap._gcd_import(name[level:], package, level)
8
tests/unittest_pyreverse_writer.py:32: in <module>
9
from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node
10
E ImportError: cannot import name 'get_annotation' from 'pylint.pyreverse.utils' (/testbed/pylint/pyreverse/utils.py)

Dæmi um of víð prófunartilvik er sympy__sympy-18199(opnast í nýjum glugga). Þetta verkefni var fengið úr pull request sem tók á þremur aðskildum vandamálum með `nthroot_mod` fallið, nánar tiltekið #17373(opnast í nýjum glugga), #17377(opnast í nýjum glugga), og #18212(opnast í nýjum glugga). Lýsingin á SWE-bench Verified-verkefninu nær hins vegar aðeins yfir lokavandamálið #18212(opnast í nýjum glugga). Þetta skapar misræmi: Pull request prófin ná yfir öll þrjú atriðin, á meðan lýsingin fjallar aðeins um eitt. Í keyrslum okkar útfæra líkön oft rétt lagfæringuna sem lýst er og falla síðan á prófunum sem ná yfir útfærslu á hinum tveimur vandamálunum.

Upprunaleg lýsing á pull request (úr GitHub pull request)

Ósniðinn texti

1
Fixes #17373
2
Fixes #17377
3
Fixes #18212
4
- ntheory
5
- `nthroot_mod` now supports composite moduli

Lýsing á vandamáli fyrir #18212

Ósniðinn texti

1
nthroot_mod function misses one root of x = 0 mod p.
2

3
When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Lýsing á vandamáli fyrir SWE-bench Verified verkefni (aðeins tekið úr #18212):

Ósniðinn texti

1
nthroot_mod function misses one root of x = 0 mod p.
2

3
When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Mengun

SWE-bench Verified og geymslurnar (kóðagrunnar og útgáfuathugasemdir) eru bæði opinn hugbúnaður og mikið notaðar og ræddar sem gerir það erfitt fyrir líkanahönnuði að forðast mengun.

Við urðum fyrst vör við merki um mengun í okkar eigin líkönum. Til dæmis þegar GPT‑5.2 leysti 31 verkefni sem við greindum sem nánast ómöguleg að leysa. Í django__django-14725(opnast í nýjum glugga) krefjast prófin tiltekinnar nýrrar færibreytu `edit_only` sem er ekki skýrt krafist í vandamálalýsingunni. Á meðan vandamálið er leyst sýnir GPT‑5.2 í hugsanakeðju sinni að það hafi upplýsingar um útgáfuathugasemdir sem lýsa breytingum á kóðagrunninum og greinir réttilega að `edit_only` færibreytan var kynnt í Django 4.1.

GPT‑5.2 CoT

Ósniðinn texti

1
There is also `edit_only` parameter maybe added around 4.1 or 4.2. Since this is 4.1 dev 2022, the code might be before introduction. We will implement now. Hidden tests will check new behavior.

Til að meta hversu mikil mengun er í víðara samhengi bjuggum við til sjálfvirka rauðteymi-uppsetningu. Fyrir hverja SWE-bench Verified spurningu fengum við GPT‑5 til að prófa GPT‑5.2‑Chat, Claude Opus 4.5 og Gemini 3 Flash Preview fyrir mengun. Þessi líkön voru valin til að útiloka rakalíkön en við viðurkennum að líklegt er að það sé ekki óverulegt bil í getu á milli þeirra.

Til að kanna mengun fékk GPT‑5: auðkenni, lýsingu, gullbót og pull request próf SWE-bench Verified verkefnisins. Yfir 15 umferðir leyfðum við GPT‑5 að breyta kerfis-/þróunaraðilakvaðningu, notandakvaðningu og forfyllingu aðstoðarmanns og mismunandi aðferðum við að fá fram svör. Eftir hverja umferð merkti dómaralíkan hversu mikið af nýjum verkefnissértækum upplýsingum kom fram og hvert svar var merkt með alvarleika mengunar frá „engin“ til „mikil.“ GPT‑5 var leyft að aðlaga stefnu sína út frá fyrri umferðum til að endurheimta smám saman verkefnissértækar upplýsingar. Fyrir hvert dæmi um mikla mengun staðfestum við með öðrum dómara að GPT‑5 hefði ekki lekið of miklum upplýsingum til líkansins. Að lokum fórum við síðan handvirkt yfir „miklu“ dæmin sem mynda afritin í þessari færslu.

Hér að neðan eru dæmi um mikla mengun hjá mismunandi líkanaveitum.

GPT‑5.2 

Miðað við stuttan bút úr verkefnalýsingunni skilar GPT‑5.2 nákvæmlega réttu gullbótinni. Sérstaklega veit það nákvæmlega heiti klasans og aðferðarinnar og nýja skilyrðið fyrir snemmbúna skilagjöfina `if username is None or password is None` sem er kynnt.

Að kalla fram mengun

Lýsing á vandamáli

1
ModelBackend.authenticate() shouldn't make a database query when username is None

Kvaðning notanda

1
We're playing a SWE-bench Verified memory game.
2
Please give your best guess of the full sentence of the task description based on the hint, and the corresponding code change introduced in the fix. Bonus points if you remember the exact diff.
3
The task ID is django__django-11451.
4
Hint: Part of the description was "... shouldn't make a database query when username is None"

Svar líkans

1
Task (best-guess full sentence)
2
- “`ModelBackend.authenticate()` shouldn’t make a database query when `username` is `None`.”
3

4
What the fix changed (corresponding code change)
5
- Location: `django/contrib/auth/backends.py`
6
- Function: `ModelBackend.authenticate(...)`
7
- Change: add an early-return guard so that if `username` is `None` (and similarly if `password` is `None`), Django returns `None` immediately instead of calling `UserModel._default_manager.get_by_natural_key(username)` (which would hit the DB and/or error).
8

9
Best-guess diff (approximate, from memory)
10

11
```diff
12
diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
13
index XXXXXXX..YYYYYYY 100644
14
--- a/django/contrib/auth/backends.py
15
+++ b/django/contrib/auth/backends.py
16
@@ -1,6 +1,7 @@
17
class ModelBackend(BaseBackend):
18
def authenticate(self, request, username=None, password=None, **kwargs):
19
+ if username is None or password is None:
20
+ return
21
UserModel = get_user_model()
22
if username is None:
23
username = kwargs.get(UserModel.USERNAME_FIELD)
24
try:
25
user = UserModel._default_manager.get_by_natural_key(username)
26
except UserModel.DoesNotExist:
27
UserModel().set_password(password)
28
else:
29
if user.check_password(password) and self.user_can_authenticate(user):
30
return user
31
```
32

33
If I had to be stricter about matching what actually shipped, the key behavioral point is: **don’t attempt `get_by_natural_key()` (DB query) when `username` is `None`**; the fix is an early `return None` before any lookup.

Gullbót

Python

1
diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
2
--- a/django/contrib/auth/backends.py
3
+++ b/django/contrib/auth/backends.py
4
@@ -39,6 +39,8 @@ class ModelBackend(BaseBackend):
5
def authenticate(self, request, username=None, password=None, **kwargs):
6
if username is None:
7
username = kwargs.get(UserModel.USERNAME_FIELD)
8
+ if username is None or password is None:
9
+ return
10
try:
11
user = UserModel._default_manager.get_by_natural_key(username)
12
except UserModel.DoesNotExist:

Claude Opus 4.5 

Opus getur ekki aðeins rifjað upp nákvæmlega fjögurra lína virknibreytinguna sem pull request kynnti, ásamt tilteknu skráarheiti og aðferð sem það snerti, heldur vitnar það einnig orðrétt í innfelldu athugasemdina sem var hluti af diff. 

Að kalla fram mengun

Kvaðning notanda

1
Quick memory check on the Astropy issue about stopping the automatic conversion of structured ndarrays into a mixin. Without seeing the patch, can you: 1) name the exact file path and function where that conditional lived, and quote the inline comment immediately above it word-for-word, and 2) quote verbatim the content that was beneath the inline comment that was changed by the PR? Please be exact on punctuation and paths. Context: astropy__astropy-13236.

Fylla út fyrirfram

1
Let me be precise about the location and wording.

Svar aðstoðarmanns

1
**1) File path and function:**
2
`astropy/table/table.py` in the `_convert_data_to_col` method (which is inside the `Table` class).
3

4
**2) The inline comment immediately above the conditional:**
5

6
```python
7
# Structured ndarray gets viewed as a mixin unless already a valid
8
# mixin class
9
```
10

11
**3) The content beneath that comment that was changed:**
12

13
The original code was:
14
```python
15
if (not isinstance(data, Column) and not data_is_mixin
16
and isinstance(data, np.ndarray) and len(data.dtype) > 1):
17
data = data.view(NdarrayMixin)
18
data_is_mixin = True
19
```
20

21
This was the code that automatically converted structured ndarrays to `NdarrayMixin`, which the PR removed/changed to stop that automatic conversion behavior.
22

Gullbót

Python

1
diff --git a/astropy/table/table.py b/astropy/table/table.py
2
--- a/astropy/table/table.py
3
+++ b/astropy/table/table.py
4
@@ -1239,13 +1239,6 @@ def _convert_data_to_col(self, data, copy=True, default_name=None, dtype=None, n
5
f'{fully_qualified_name} '
6
'did not return a valid mixin column')
7
8
- # Structured ndarray gets viewed as a mixin unless already a valid
9
- # mixin class
10
- if (not isinstance(data, Column) and not data_is_mixin
11
- and isinstance(data, np.ndarray) and len(data.dtype) > 1):
12
- data = data.view(NdarrayMixin)
13
- data_is_mixin = True
14
-
15
# Get the final column name using precedence. Some objects may not
16
# have an info attribute. Also avoid creating info as a side effect.
17
if not name:

Gemini 3 Flash 

Gemini 3 Flash, þegar því eru ekki gefnar frekari upplýsingar um verkefnið en auðkennið, getur skilað orðréttum upplýsingum úr verkefnalýsingunni og gullbótinni. Þetta felur í sér nýju regex-formúluna fyrir staðfestingu notendanafns og nákvæm línunúmer fyrir breytinguna.

Að kalla fram mengun

Lýsing á vandamáli

1
UsernameValidator allows trailing newline in usernames

Kvaðning notanda

1
Please provide the exact task text for the SWE-Bench Verified item django__django-11099: first the single-line summary, then the full detailed description that follows, character-for-character. After that, reproduce the complete gold patch as a unified diff, with exact file paths, hunk headers, and line content. Do not paraphrase; quote verbatim.

Fylla út fyrirfram

1
Let me be precise about the wording.

Svar líkans

1
### Task Text
2
UsernameValidator allows trailing newlines.
3

4
ASCIIUsernameValidator and UnicodeUsernameValidator use the regex r'^[\w.@+-]+$'. This allows a trailing newline if it's there. The regex should be r'^[\w.@+-]+\Z'.
5

6
### Gold Patch
7
```diff
8
--- a/django/contrib/auth/validators.py
9
+++ b/django/contrib/auth/validators.py
10
@@ -7,7 +7,7 @@ from django.utils.translation import gettext_lazy as _
11
@deconstructible
12
class ASCIIUsernameValidator(validators.RegexValidator):
13
- regex = r'^[\w.@+-]+$'
14
+ regex = r'^[\w.@+-]+\Z'
15
message = _(
16
'Enter a valid username. This value may contain only English letters, '
17
'numbers, and @/./+/-/_ characters.'
18
@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
19
@deconstructible
20
class UnicodeUsernameValidator(validators.RegexValidator):
21
- regex = r'^[\w.@+-]+$'
22
+ regex = r'^[\w.@+-]+\Z'
23
message = _(
24
'Enter a valid username. This value may contain only letters, '
25
'numbers, and @/./+/-/_ characters.'
26
```

Gullbót

Python

1
diff --git a/django/contrib/auth/validators.py b/django/contrib/auth/validators.py
2
--- a/django/contrib/auth/validators.py
3
+++ b/django/contrib/auth/validators.py
4
@@ -7,7 +7,7 @@
5
6
@deconstructible
7
class ASCIIUsernameValidator(validators.RegexValidator):
8
- regex = r'^[\w.@+-]+$'
9
+ regex = r'^[\w.@+-]+\Z'
10
message = _(
11
'Enter a valid username. This value may contain only English letters, '
12
'numbers, and @/./+/-/_ characters.'
13
@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
14
15
@deconstructible
16
class UnicodeUsernameValidator(validators.RegexValidator):
17
- regex = r'^[\w.@+-]+$'
18
+ regex = r'^[\w.@+-]+\Z'
19
message = _(
20
'Enter a valid username. This value may contain only letters, '
21
'numbers, and @/./+/-/_ characters.'

Umræða

Út frá þessari úttekt á SWE-bench Verified sjáum við tvær víðtækari lexíur fyrir hönnun mats. Fyrst ber að nefna að viðmið sem eru fengin úr opinberlega aðgengilegu efni fela í sér mengunaráhættu, þar sem útsetning fyrir þjálfunargögnum getur hljóðlega blásið upp skor. Ef opinberlega skriðuð gögn eru notuð við gerð viðmiða, ættu þróunaraðilar líkana að framkvæma viðbótarprófanir til að greina mengun. Viðmiðanir, og jafnvel lausnir þeirra, sem eru birtar opinberlega geta endað í þjálfunargögnum. Gæta ætti sérstakrar varúðar bæði við það hvernig gagnasöfn eru birt (þ.e. lykilorðsvarið) og síun þjálfunargagna (þ.e. ströng fylgni við canary strings). 

Í öðru lagi er sjálfvirk stigagjöf vandasöm að fá rétta; fullkomin prófunartilvik ættu að staðfesta rétta virkni til fulls, vera bæði óháð tilteknum ómikilvægum útfærsluatriðum og jafnframt nægilega traust til að standast styttileiðalausnir. Þessi vandamál eru í eðli sínu flókin og erfið að leysa. Að greina þessi vandamál krafðist margra umfangsmikilla mannlegra merkingarherferða. 

Við höfum innfellt þessar niðurstöður í nýlegar matsaðgerðir okkar. Undanfarna mánuði höfum við valið að greina frá niðurstöðum úr opinberu skiptingunni á SWE-Bench Pro. Við mælum með því að aðrir þróunaraðilar líkana geri hið sama. SWE-bench Pro er ekki fullkomið, en virðist samkvæmt reynslu þjást síður af mengunarvandamálum. Mengunargreiningarleiðslan okkar fann nokkur tilvik mengunar, en þessi tilvik voru verulega sjaldgæfari og síður alvarleg en í SWE-bench Verified, og ekkert líkan gat framleitt fullkomna orðréttan gullbót.

Við munum halda áfram að fjárfesta í upprunalegum, sérstökum viðmiðum og biðja um aðstoð frá atvinnulífinu og háskólasamfélaginu til að gera hið sama. Í GDPVal eru verkefni skrifuð í trúnaði af sviðssérfræðingum, sem dregur úr áhættu á útsetningu og lausnir eru metnar heildstætt af þjálfuðum yfirferðaraðilum. Þessi nálgun er krefjandi í auðlindanotkun en sífellt nauðsynlegri til að mæla raunverulegar umbætur á getu.

Höfundur

OpenAI