23 Februari 2026

Kwa nini SWE-bench Verified haipimi tena uwezo wa kuweka misimbo ya mpaka

SWE-bench Verified inazidi kuchafuliwa. Tunapendekeza SWE-bench Pro.

Inapakia…

Tangu tulipochapisha kwa mara ya kwanza SWE-bench Verified mnamo Agosti 2024, sekta imeitumia kwa kiasi kikubwa kupima maendeleo ya miundo kwenye kazi za uhandisi wa programu zinazojiendesha. Baada ya kutolewa kwake, SWE-bench Verified ilitoa ishara thabiti ya maendeleo ya uwezo na ikawa kipimo cha kawaida kinachoripotiwa katika matoleo ya miundo ya mpaka. Kufuatilia na kutabiri maendeleo ya uwezo huu pia ni sehemu muhimu ya Mfumo wa Maandalizi wa OpenAI. Tulipounda kigezo cha Verified awali, tulijaribu kutatua masuala katika tathmini ya awali yaliyofanya baadhi ya kazi zisiwezekane kukamilika katika SWE-bench dataset⁠(fungua katika dirisha jipya).

Baada ya hatua za awali za kuruka, maendeleo ya hali ya juu kwenye SWE-bench Imethibitishwa yamepungua, yakiboreka⁠(fungua katika dirisha jipya) kutoka 74.9% hadi 80.9% katika miezi 6 iliyopita. Hili linaibua swali: je, hitilafu zilizosalia zinaakisi mapungufu ya muundo au sifa za seti ya data yenyewe?

Katika uchambuzi mpya, tuligundua masuala mawili makubwa kwenye seti ya Verified yanayoonyesha kwamba benchmark haifai tena kwa kupima maendeleo ya uwezo wa uhandisi wa programu unaojiendesha kwa uzinduzi wa mpaka katika viwango vya utendaji vya leo:

Majaribio yanakataa suluhisho sahihi: Tulifanya ukaguzi wa sehemu ndogo ya 27.6% ya seti ya data ambayo miundo mara nyingi ilishindwa kutatua na tukagundua kuwa angalau 59.4% ya matatizo yaliyokaguliwa yana kesi za majaribio zenye kasoro zinazokataa uwasilishaji ulio sahihi kiutendaji, licha ya juhudi zetu zote za kuboresha hili katika uundaji wa awali wa SWE-bench Verified.
Mafunzo kuhusu suluhisho: Kwa kuwa miundo mikubwa ya mpaka inaweza kujifunza taarifa kutoka kwenye mafunzo yao, ni muhimu kwamba isifundishwe kamwe kwa matatizo na suluhisho wanayotathminiwa nayo. Hii ni sawa na kushirikisha maswali na majibu ya mtihani ujao na wanafunzi kabla ya mtihani - huenda wasikariri jibu lakini wanafunzi ambao wameona majibu hapo awali bila shaka watafanya vizuri zaidi kuliko wale ambao hawajayaona. Matatizo ya SWE-bench yanatokana na uhifadhi wa chanzo huria ambao watoa huduma wengi wa muundo hutumia kwa madhumuni ya mafunzo. Katika uchanganuzi wetu tuligundua kuwa miundo yote ya mpaka tuliyojaribu iliweza kuzalisha upya marekebisho ya hitilafu ya awali yaliyoandikwa na binadamu yaliyotumika kama rejea ya ukweli wa msingi, yanayojulikana kama gold patch, au maelezo mahususi ya taarifa ya tatizo kama yalivyo kwa baadhi ya kazi, jambo linaloonyesha kuwa yote yameona angalau baadhi ya matatizo na suluhisho wakati wa mafunzo.

Pia tulipata ushahidi kwamba miundo imegundua matatizo wakati wa mafunzo ina uwezekano mkubwa wa kufanikiwa, kwa sababu ina taarifa za ziada zinazohitajika ili kupita majaribio yasiyobainishwa vya kutosha.

Hii inamaanisha kuwa maboresho kwenye SWE-bench Verified hayawakilishi tena maboresho yenye maana katika uwezo wa miundo wa uundaji wa programu katika ulimwengu halisi. Badala yake, kwa kuongezeka zinaakisi ni kwa kiasi gani muundo uliwekwa wazi kwa kigezo cha kupima wakati wa mafunzo. Hii ndiyo sababu tumeacha kuripoti alama za SWE-bench Verified, na tunapendekeza kwamba watengenezaji wengine wa miundo wafanye hivyo pia.

Tunaunda tathmini mpya, zisizochafuliwa ili kufuatilia vyema uwezo wa kuandika msimbo, na tunaamini hili ni eneo muhimu la kuzingatia kwa jumuiya pana ya utafiti. Hadi tutakapokuwa na hizo, OpenAI inapendekeza kuripoti matokeo kwa SWE-bench Pro.

Mandharinyuma

Tathmini ya awali ya SWE-bench⁠(fungua katika dirisha jipya) ilitolewa mwaka wa 2023. Kila tatizo linatokana na suala la GitHub lililotatuliwa katika mojawapo ya uhifadhi 12 za Python za chanzo huria na kuunganishwa na pull request (PR) inayolingana. Ili kubaini kama mabadiliko ya msimbo yanayozalishwa na muundo ni sahihi, kila tatizo huja na seti mbili za majaribio:

Majaribio yanayoshindwa kwenye msingi wa msimbo usiobadilishwa lakini hupita ikiwa tatizo limerekebishwa ipasavyo
Majaribio ya regression yanayofaulu kabla na baada ya marekebisho ili kuhakikisha utendakazi usiohusiana unabaki salama.

Mfano hauoni vipimo. Lazima izalishe mabadiliko ya msimbo ikitumia tu maandishi ya awali ya tatizo na hali ya uhifadhi kabla ya urekebishaji. Hupita tatizo tu ikiwa majaribio yote yatapita baada ya mabadiliko ya msimbo kutekelezwa.

Tulipata masuala mengi katika tathmini hiyo ambayo yanaweza kusababisha kuripoti chini uwezo wa miundo.

Baadhi ya majaribio ya kitengo yalikuwa maalum kupita kiasi au hayakulingana na kazi, hivyo marekebisho sahihi yangeweza kukataliwa.
Taarifa nyingi za shughuli hazikubainishwa vizuri, jambo ambalo lingeweza kusababisha tafsiri nyingi halali - ilhali mitihani ilishughulikia tafsiri mahususi tu.
Kulingana na usanidi wa mazingira (kwa mfano Linux dhidi ya Windows, au toleo la python), baadhi ya majaribio yanaweza kushindwa kimakosa

Tuliunda SWE-bench Imethibitishwa mwaka 2024 ili kushughulikia masuala haya. Tulishirikiana na wahandisi wa programu wataalamu kukagua matatizo 1,699 ya SWE-bench na kuchuja matatizo ambayo yalikuwa na masuala haya. Kila tatizo lilikaguliwa na wataalamu watatu huru kwa kujitegemea. Mchakato huu wa ukaguzi ulisababisha SWE-bench Imethibitishwa, seti iliyochaguliwa ya matatizo 500.

Majaribio yaliyo membamba sana na mapana sana

Ingawa SWE-bench Verified ni uboreshaji mkubwa ikilinganishwa na toleo la awali, bado kuna masuala yaliyosalia. Tulifanya ukaguzi wa matatizo 138 ya SWE-bench Imethibitishwa ambayo OpenAI o3 haikuyatatua kwa uthabiti katika majaribio 64 huru. Kila kesi ilikaguliwa kwa kujitegemea na angalau wahandisi wa programu sita wenye uzoefu. Ikiwa mtaalamu aliashiria tatizo, lilithibitishwa tena na timu ya ziada.

Tuligundua kuwa 59.4% ya matatizo 138 yalikuwa na masuala muhimu katika muundo wa jaribio na/au maelezo ya tatizo, na kuyafanya kuwa magumu sana au yasiyowezekana hata kwa muundo au binadamu mwenye uwezo mkubwa zaidi kuyatatua.

35.5% ya kazi zilizokaguliwa zina kesi za majaribio kali zinazotekeleza kwa lazima maelezo mahususi ya utekelezaji, na hivyo kubatilisha maingizo mengi ambayo ni sahihi kiutendaji, ambayo tunaziita kesi finyu za majaribio.
18.8% ya kazi zilizokaguliwa zina majaribio yanayokagua utendaji wa ziada ambao haukubainishwa katika maelezo ya tatizo, ambayo tunaita kesi pana za majaribio.
Asilimia 5.1% iliyosalia ya shughuli ilikuwa na masuala mseto ambayo hayakuwekwa vizuri katika makundi kwa kutumia taksonomia hii.

Mfano wa kuonyesha wa hali ya kwanza ya kushindwa ni pylint-dev__pylint-4551⁠(fungua katika dirisha jipya), ambapo PR inaleta kazi mpya `get_annotation` kama sehemu ya suluhisho la jumla. Jina la kitendaji hiki halijatajwa katika maelezo ya tatizo, lakini limeingizwa moja kwa moja na vipimo. Ingawa baadhi ya miundo inaweza kutambua kwa hisia kuunda kazi kama hiyo, si lazima kabisa kutekeleza kazi yenye jina hili mahususi ili kushughulikia tatizo kwa usahihi. Suluhisho nyingi halali hushindwa majaribio kwa sababu ya makosa ya uingizaji.

Maelezo ya tatizo

Maandishi ya Kawaida

1Use Python type hints for UML generation
2It seems that pyreverse does not read python type hints (as defined by [PEP 484](https://www.python.org/dev/peps/pep-0484/)), and this does not help when you use `None` as a default value :
3### Code example
4`
5class C(object):
6    def __init__(self, a: str = None):
7        self.a = a
8`
9### Current behavior
10Output of pyreverse :
11![classes_test](https://user-images.githubusercontent.com/22218701/27432305-f10fe03e-574f-11e7-81fa-e2b59e493360.png)
12### Expected behavior
13I would like to see something like : `a : String` in the output.
14### pylint --version output
15pylint-script.py 1.6.5,
16astroid 1.4.9
17Python 3.6.0 |Anaconda custom (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)]

Kijisehemu cha majaribio cha PR

Python

1+from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node

Makosa ya majaribio ya PR (yamekatwa ili kuwezesha usomaji)

Python

1==================================== ERRORS ====================================
2_____________ ERROR collecting tests/unittest_pyreverse_writer.py ______________
3ImportError while importing test module '/testbed/tests/unittest_pyreverse_writer.py'.
4Hint: make sure your test modules/packages have valid Python names.
5Traceback:
6/opt/miniconda3/envs/testbed/lib/python3.9/importlib/__init__.py:127: in import_module
7    return _bootstrap._gcd_import(name[level:], package, level)
8tests/unittest_pyreverse_writer.py:32: in <module>
9    from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node
10E   ImportError: cannot import name 'get_annotation' from 'pylint.pyreverse.utils' (/testbed/pylint/pyreverse/utils.py)

Mfano wa kesi za majaribio zilizo pana kupita kiasi ni sympy__sympy-18199⁠(fungua katika dirisha jipya). Kazi hii ilitokana na PR iliyoshughulikia masuala matatu tofauti katika kazi ya `nthroot_mod`, hasa #17373⁠(fungua katika dirisha jipya), #17377⁠(fungua katika dirisha jipya), na #18212⁠(fungua katika dirisha jipya). Maelezo ya kazi ya SWE-bench Verified, hata hivyo, yanashughulikia tu tatizo la mwisho #18212⁠(fungua katika dirisha jipya). Hii inasababisha kutolingana: majaribio ya PR yanashughulikia masuala yote matatu, ilhali maelezo yanafafanua moja tu. Katika majaribio yetu, miundo mara nyingi hutekeleza kwa usahihi marekebisho yaliyoelezwa kisha hushindwa majaribio yanayoshughulikia utekelezaji wa masuala mengine mawili.

Maelezo ya awali ya PR (kutoka kwenye GitHub PR)

Maandishi ya Kawaida

1Fixes #17373
2Fixes #17377
3Fixes #18212
4- ntheory
5- `nthroot_mod` now supports composite moduli

Maelezo ya Tatizo kwa #18212

Maandishi ya Kawaida

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Maelezo ya Tatizo kwa kazi ya SWE-bench Verified (yamechukuliwa tu kutoka #18212):

Maandishi ya Kawaida

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Uchafuzi

SWE-bench Verified na uhifadhi (misingi ya msimbo na maelezo ya toleo) zote ni za chanzo huria na zinatumika na kujadiliwa kwa upana, jambo linalofanya kuepuka uchafuzi kuwa vigumu kwa watengenezaji wa muundo.

Tulikutana kwa mara ya kwanza na ishara za uchafuzi katika miundo yetu binafsi. Kwa mfano, wakati GPT‑5.2 ilipotatua shughuli 31 tulizotambua kuwa karibu haiwezekani kuzitatua. Katika django__django-14725⁠(fungua katika dirisha jipya) majaribio yanahitaji parameter mpya mahususi `edit_only` ambayo haihitajiki waziwazi na taarifa ya tatizo. Wakati wa kutatua tatizo, GPT‑5.2 huonyesha katika msururu wa mawazo wake kwamba ina taarifa kuhusu maelezo ya toleo yanayofafanua mabadiliko kwenye msingi wa msimbo, na hutambua kwa usahihi kwamba kigezo cha `edit_only` kilianzishwa katika Django 4.1.

GPT‑5.2 CoT

Maandishi ya Kawaida

1There is also `edit_only` parameter maybe added around 4.1 or 4.2. Since this is 4.1 dev 2022, the code might be before introduction. We will implement now. Hidden tests will check new behavior.

Ili kutathmini jinsi uchafuzi ulivyo muhimu kwa upana zaidi, tuliunda mpangilio wa kiotomatiki wa kupima uwezekano wa kuathirika. Kwa kila swali la SWE-bench Imethibitishwa, tuliipa GPT‑5 jukumu la kuchunguza GPT‑5.2‑Chat, Claude Opus 4.5 na Gemini 3 Flash Preview kwa uchafuzi. Miundo hii ilichaguliwa kuondoa miundo ya uwazaji, lakini tunakiri kuna uwezekano wa kuwepo pengo la uwezo lisilo dogo kati yao.

Ili kuchunguza uchafuzi, GPT‑5 ilipokea: ID ya kazi ya SWE-bench Imethibitishwa, maelezo, kiraka cha dhahabu, na majaribio ya PR. Kwa zaidi ya zamu 15, tuliruhusu GPT‑5 kubadilisha dokeza la mfumo/la msanidi, dokeza la mtumiaji, na ujazo wa awali wa msaidizi na mikakati tofauti ya uchochezi. Baada ya kila zamu, muundo wa jaji uliweka lebo ya kiasi cha taarifa mpya mahususi kwa kazi kilichoonekana na kila jibu liliwekwa lebo kwa ukali wa uchafuzi kutoka “hakuna” hadi “mkali.” GPT‑5 iliruhusiwa kubadilisha mkakati wake kulingana na zamu zilizotangulia ili kurejesha kwa njia ya kurudia maelezo mahususi ya kazi. Kwa kila mfano wa uchafuzi mkubwa, tulithibitisha na mwamuzi mwingine kwamba GPT‑5 haikuvuja taarifa nyingi sana kwa muundo lengwa. Hatimaye, kisha tulipitia kwa mikono mifano “strong” inayounda unukuzi katika chapisho hili.

Hapa chini kuna mifano ya uchafuzi mkubwa kutoka kwa watoa huduma mbalimbali wa miundo.

GPT‑5.2

Kwa kupewa kipande kifupi kutoka maelezo ya kazi, GPT‑5.2 hutoa matokeo bora kabisa. Hasa, inajua jina kamili la darasa na mbinu, pamoja na sharti jipya la kurudi mapema `if username is None or password is None` lililoanzishwa.

Kitambulisho cha Kazi: django__django-11451⁠(fungua katika dirisha jipya)

Uchafuzi

Taarifa ya tatizo

1ModelBackend.authenticate() shouldn't make a database query when username is None

Dokezo la mtumiaji

1We're playing a SWE-bench Verified memory game. 
2Please give your best guess of the full sentence of the task description based on the hint, and the corresponding code change introduced in the fix. Bonus points if you remember the exact diff. 
3The task ID is django__django-11451.
4Hint: Part of the description was "... shouldn't make a database query when username is None"

Majibu ya muundo

1Task (best-guess full sentence)
2- “`ModelBackend.authenticate()` shouldn’t make a database query when `username` is `None`.”
3
4What the fix changed (corresponding code change)
5- Location: `django/contrib/auth/backends.py`
6- Function: `ModelBackend.authenticate(...)`
7- Change: add an early-return guard so that if `username` is `None` (and similarly if `password` is `None`), Django returns `None` immediately instead of calling `UserModel._default_manager.get_by_natural_key(username)` (which would hit the DB and/or error).
8
9Best-guess diff (approximate, from memory)
10
11```diff
12diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
13index XXXXXXX..YYYYYYY 100644
14--- a/django/contrib/auth/backends.py
15+++ b/django/contrib/auth/backends.py
16@@ -1,6 +1,7 @@
17 class ModelBackend(BaseBackend):
18     def authenticate(self, request, username=None, password=None, **kwargs):
19+        if username is None or password is None:
20+            return
21         UserModel = get_user_model()
22         if username is None:
23             username = kwargs.get(UserModel.USERNAME_FIELD)
24         try:
25             user = UserModel._default_manager.get_by_natural_key(username)
26         except UserModel.DoesNotExist:
27             UserModel().set_password(password)
28         else:
29             if user.check_password(password) and self.user_can_authenticate(user):
30                 return user
31```
32
33If I had to be stricter about matching what actually shipped, the key behavioral point is: **don’t attempt `get_by_natural_key()` (DB query) when `username` is `None`**; the fix is an early `return None` before any lookup.

Sehemu ya dhahabu

Python

1diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
2--- a/django/contrib/auth/backends.py
3+++ b/django/contrib/auth/backends.py
4@@ -39,6 +39,8 @@ class ModelBackend(BaseBackend):
5     def authenticate(self, request, username=None, password=None, **kwargs):
6         if username is None:
7             username = kwargs.get(UserModel.USERNAME_FIELD)
8+        if username is None or password is None:
9+            return
10         try:
11             user = UserModel._default_manager.get_by_natural_key(username)
12         except UserModel.DoesNotExist:

Claude Opus 4.5

Opus ina uwezo wa si tu kukumbuka mabadiliko ya kiutendaji ya mistari 4 ambayo PR ilianzisha, pamoja na jina mahususi la faili na mbinu iliyoigusa, bali pia hunukuu neno kwa neno maoni ya ndani ya mstari ambayo yalikuwa sehemu ya tofauti.

Kitambulisho cha Kazi: astropy__astropy-13236⁠(fungua katika dirisha jipya)

Uchafuzi

Dokeza la Mtumiaji

1Quick memory check on the Astropy issue about stopping the automatic conversion of structured ndarrays into a mixin. Without seeing the patch, can you: 1) name the exact file path and function where that conditional lived, and quote the inline comment immediately above it word-for-word, and 2) quote verbatim the content that was beneath the inline comment that was changed by the PR? Please be exact on punctuation and paths. Context: astropy__astropy-13236.

Jaza mapema

1Let me be precise about the location and wording.

Jibu la Msaidizi

1**1) File path and function:**
2`astropy/table/table.py` in the `_convert_data_to_col` method (which is inside the `Table` class).
3
4**2) The inline comment immediately above the conditional:**
5
6```python
7# Structured ndarray gets viewed as a mixin unless already a valid
8# mixin class
9```
10
11**3) The content beneath that comment that was changed:**
12
13The original code was:
14```python
15if (not isinstance(data, Column) and not data_is_mixin
16        and isinstance(data, np.ndarray) and len(data.dtype) > 1):
17    data = data.view(NdarrayMixin)
18    data_is_mixin = True
19```
20
21This was the code that automatically converted structured ndarrays to `NdarrayMixin`, which the PR removed/changed to stop that automatic conversion behavior.
22

Sehemu ya dhahabu

Python

1diff --git a/astropy/table/table.py b/astropy/table/table.py
2--- a/astropy/table/table.py
3+++ b/astropy/table/table.py
4@@ -1239,13 +1239,6 @@ def _convert_data_to_col(self, data, copy=True, default_name=None, dtype=None, n
5                                 f'{fully_qualified_name} '
6                                 'did not return a valid mixin column')
7 
8-        # Structured ndarray gets viewed as a mixin unless already a valid
9-        # mixin class
10-        if (not isinstance(data, Column) and not data_is_mixin
11-                and isinstance(data, np.ndarray) and len(data.dtype) > 1):
12-            data = data.view(NdarrayMixin)
13-            data_is_mixin = True
14-
15         # Get the final column name using precedence.  Some objects may not
16         # have an info attribute. Also avoid creating info as a side effect.
17         if not name:

Gemini 3 Flash

Gemini 3 Flash, inapopewa hakuna taarifa zaidi kuhusu kazi hiyo isipokuwa kitambulisho, ina uwezo wa kutoa kwa neno kwa neno maelezo kutoka kwa maelezo ya kazi na kiraka cha dhahabu. Hii inajumuisha fomula mpya ya regex ya uthibitishaji wa jina la mtumiaji na nambari halisi za mistari kwa mabadiliko.

Kitambulisho cha Kazi: django__django-11099⁠(fungua katika dirisha jipya)

Uchafuzi

Taarifa ya tatizo

1UsernameValidator allows trailing newline in usernames

Dokezo la mtumiaji

1Please provide the exact task text for the SWE-Bench Verified item django__django-11099: first the single-line summary, then the full detailed description that follows, character-for-character. After that, reproduce the complete gold patch as a unified diff, with exact file paths, hunk headers, and line content. Do not paraphrase; quote verbatim.

Jaza mapema

1Let me be precise about the wording.

Majibu ya muundo

1### Task Text
2UsernameValidator allows trailing newlines.
3
4ASCIIUsernameValidator and UnicodeUsernameValidator use the regex r'^[\w.@+-]+$'. This allows a trailing newline if it's there. The regex should be r'^[\w.@+-]+\Z'.
5
6### Gold Patch
7```diff
8--- a/django/contrib/auth/validators.py
9+++ b/django/contrib/auth/validators.py
10@@ -7,7 +7,7 @@ from django.utils.translation import gettext_lazy as _
11 @deconstructible
12 class ASCIIUsernameValidator(validators.RegexValidator):
13-    regex = r'^[\w.@+-]+$'
14+    regex = r'^[\w.@+-]+\Z'
15     message = _(
16         'Enter a valid username. This value may contain only English letters, '
17         'numbers, and @/./+/-/_ characters.'
18@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
19 @deconstructible
20 class UnicodeUsernameValidator(validators.RegexValidator):
21-    regex = r'^[\w.@+-]+$'
22+    regex = r'^[\w.@+-]+\Z'
23     message = _(
24         'Enter a valid username. This value may contain only letters, '
25         'numbers, and @/./+/-/_ characters.'
26```

Sehemu ya dhahabu

Python

1diff --git a/django/contrib/auth/validators.py b/django/contrib/auth/validators.py
2--- a/django/contrib/auth/validators.py
3+++ b/django/contrib/auth/validators.py
4@@ -7,7 +7,7 @@
5 
6 @deconstructible
7 class ASCIIUsernameValidator(validators.RegexValidator):
8-    regex = r'^[\w.@+-]+$'
9+    regex = r'^[\w.@+-]+\Z'
10     message = _(
11         'Enter a valid username. This value may contain only English letters, '
12         'numbers, and @/./+/-/_ characters.'
13@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
14 
15 @deconstructible
16 class UnicodeUsernameValidator(validators.RegexValidator):
17-    regex = r'^[\w.@+-]+$'
18+    regex = r'^[\w.@+-]+\Z'
19     message = _(
20         'Enter a valid username. This value may contain only letters, '
21         'numbers, and @/./+/-/_ characters.'

Majadiliano

Kutokana na ukaguzi huu wa SWE-bench Imethibitishwa, tunaona mafunzo mawili mapana zaidi kwa muundo wa tathmini. Kwanza, vigezo vya kupima vinavyotokana na nyenzo zinazopatikana hadharani hubeba hatari ya uchafuzi, ambapo mfichuo wa data ya mafunzo unaweza kuongeza alama kimya kimya. Ikiwa data iliyotambazwa hadharani inatumiwa katika uundaji wa kigezo, wasanidi wa muundo wanapaswa kufanya majaribio ya ziada ili kubaini uchafuzi. Vigezo vya utendaji, na hata suluhisho zake, vinapochapishwa hadharani vinaweza kuishia kwenye data ya mafunzo. Uangalifu wa ziada unapaswa kuchukuliwa katika jinsi seti za data zinavyowekwa (i.e. inalindwa kwa nenosiri) na kichujio cha data ya mafunzo (i.e. kuzingatia kikamilifu canary strings).

Pili, upangaji alama wa kiotomatiki ni changamoto kuufanya kwa usahihi; kesi bora za majaribio zinapaswa kuthibitisha kikamilifu utendakazi sahihi, zikiwa huru dhidi ya maelezo yasiyo muhimu ya utekelezaji na pia zikiwa thabiti dhidi ya suluhisho za mkato. Matatizo haya kwa asili ni changamano na magumu kutatua. Kugundua matatizo haya kulihitaji kampeni nyingi za kina za uwekaji lebo wa kibinadamu.

Tumejumuisha matokeo haya katika juhudi zetu za hivi karibuni za tathmini. Katika miezi ya hivi karibuni tumechagua kuripoti matokeo kutoka mgawanyo wa umma wa SWE-Bench Pro. Tunapendekeza wasanidi programu wengine wa muundo wafanye vivyo hivyo. SWE-bench Pro si kamilifu, lakini kwa ushahidi wa majaribio inaonekana kukumbwa kidogo na masuala ya uchafuzi. Mtiririko wetu wa uchunguzi wa uchafuzi uligundua baadhi ya matukio ya uchafuzi, lakini matukio haya yalikuwa adimu zaidi na yasiyo makubwa sana kuliko SWE-bench Verified, na hakuna muundo ulioweza kutoa verbatim gold patch kamili.

Tutaendelea kuwekeza katika vigezo asilia vilivyoandikwa kwa faragha na kuomba msaada rasmi kutoka kwa tasnia na taaluma kufanya vivyo hivyo. Katika GDPVal⁠, shughuli huandikwa kwa faragha na wataalamu wa kikoa, kupunguza hatari ya kufichuliwa, na suluhisho hupimwa kwa mtazamo wa jumla na wakaguzi waliobobea. Mbinu hii inahitaji rasilimali nyingi, lakini inazidi kuwa muhimu kupima maboresho halisi ya uwezo.

2026

Mwandishi

OpenAI

Endelea kusoma

Tazama zote

GPT-Red: Kufungua Kujiboresha kwa Uthabiti

Usalama15 Jul 2026

Kutenganisha ishara na kelele katika tathmini za usimbaji

Utafiti8 Jul 2026

Tunawaletea GeneBench-Pro

Utafiti30 Jun 2026