23 Feabhra 2026

Cén fáth nach dtomhaiseann SWE-bench Verified cumais chódaithe teorainn a thuilleadh

Tá SWE-bench Verified ag éirí níos éillithe. Molaimid SWE-bench Pro.

Ag lódáil…

Ó d’fhoilsíomar SWE-bench Verified den chéad uair i mí Lúnasa 2024, tá an tionscal á úsáid go forleathan chun dul chun cinn samhlacha ar thascanna uathrialacha innealtóireachta bogearraí a thomhas. Tar éis a scaoilte, thug SWE-bench Verified comhartha láidir ar dhul chun cinn cumais agus d’éirigh sé ina mhéadrach chaighdeánach a thuairiscítí i seoltaí samhlacha teorainn. Is cuid thábhachtach de Chreata Ullmhachta OpenAI é dul chun cinn sna cumais seo a rianú agus a thuar freisin. Nuair a chruthaíomar an tagarmharc Verified ar dtús, rinneamar iarracht fadhbanna sa mheasúnú bunaidh a réiteach a d’fhág go raibh tascanna áirithe dodhéanta a chur i gcrích sa tacar sonraí SWE-bench⁠(osclaíonn i bhfuinneog nua).

Tar éis léimeanna tosaigh, tá moill tagtha ar dhul chun cinn den scoth ar SWE-bench Verified, agus é ag feabhsú⁠(osclaíonn i bhfuinneog nua) ó 74.9% go 80.9% le 6 mhí anuas. Cuireann sé seo an cheist: an léiríonn na teipeanna atá fágtha teorainneacha samhlaí nó airíonna an tacair sonraí féin?

In anailís nua, fuaireamar dhá mhórfhadhb leis an tacar Verified a thugann le fios nach bhfuil an tagarmharc oiriúnach a thuilleadh chun dul chun cinn i gcumais uathrialacha innealtóireachta bogearraí a thomhas do sheoltaí teorainn ag leibhéil feidhmíochta an lae inniu:

Diúltaíonn tástálacha do réitigh chearta: Rinneamar iniúchadh ar fho-thacar 27.6% den tacar sonraí nár éirigh go minic le samhlacha a réiteach agus fuaireamar go bhfuil cásanna tástála lochtacha ag 59.4% ar a laghad de na fadhbanna a ndearnadh iniúchadh orthu a dhiúltaíonn do chur isteach atá ceart ó thaobh feidhme de, in ainneoin ár ndícheall é seo a fheabhsú i gcruthú tosaigh SWE-bench Verified.
Oiliúint ar réitigh: Toisc gur féidir le samhlacha móra teorainn faisnéis a fhoghlaim óna n-oiliúint, tá sé tábhachtach nach n-oilítear iad riamh ar fhadhbanna agus ar réitigh a ndéantar measúnú orthu. Tá sé seo cosúil le fadhbanna agus réitigh do thástáil atá le teacht a roinnt le mic léinn roimh an tástáil - b’fhéidir nach gcuimhneoidh siad an freagra de ghlanmheabhair ach is cinnte go n-éireoidh níos fearr le mic léinn a chonaic na freagraí roimhe seo ná leo siúd nach bhfaca. Tagann fadhbanna SWE-bench ó stórais foinse oscailte a úsáideann go leor soláthraithe samhlacha chun críocha oiliúna. Inár n-anailís fuaireamar go raibh na samhlacha teorainn uile a ndearnamar tástáil orthu in ann an deisitheoir bunaidh fabht a bhí scríofa ag duine a atáirgeadh, a úsáidtear mar an tagairt fhírinní, ar a dtugtar an paiste óir, nó sonraí sonracha ráitis faidhbe focal ar fhocal do thascanna áirithe, rud a thugann le fios go bhfaca siad uile cuid ar a laghad de na fadhbanna agus de na réitigh le linn na hoiliúna.

Fuaireamar fianaise freisin gur dóichí go n-éireoidh le samhlacha a chonaic na fadhbanna le linn na hoiliúna, toisc go bhfuil faisnéis bhreise acu atá de dhíth chun na tástálacha tearcshonraithe a rith.

Ciallaíonn sé seo nach léiríonn feabhsuithe ar SWE-bench Verified feabhsuithe fiúntacha a thuilleadh i gcumas samhlacha bogearraí a fhorbairt sa saol fíor. Ina ionad sin, léiríonn siad níos mó agus níos mó an méid nochta a bhí ag an tsamhail don tagarmharc le linn na hoiliúna. Sin an fáth ar stopamar de scóir SWE-bench Verified a thuairisciú, agus molaimid d’fhorbróirí samhlacha eile an rud céanna a dhéanamh.

Tá measúnuithe nua neamhéillithe á dtógáil againn chun cumais chódaithe a rianú níos fearr, agus measaimid gur réimse tábhachtach é seo don phobal taighde níos leithne. Go dtí go mbeidh siad sin againn, molann OpenAI torthaí SWE-bench Pro a thuairisciú.

Cúlra

Scaoileadh an measúnú bunaidh SWE-bench⁠(osclaíonn i bhfuinneog nua) in 2023. Tagann gach fadhb ó shaincheist GitHub a réitíodh i gceann de 12 stór Python foinse oscailte agus péireáiltear í leis an iarratas ar tharraingt (PR) comhfhreagrach. Chun a chinneadh an bhfuil athrú cód a ghin an tsamhail ceart, tagann dhá shraith tástálacha le gach fadhb:

Tástálacha a theipeann ar an gcód-bhunachar gan mhodhnú ach a éiríonn leo má dhéantar an tsaincheist a dheisiú i gceart
Tástálacha cúlchéimnithe a éiríonn leo roimh agus i ndiaidh an deisiúcháin araon chun a chinntiú go bhfanann feidhmiúlacht neamhghaolmhar slán.

Ní fheiceann an tsamhail na tástálacha. Caithfidh sí athrú cód a tháirgeadh agus téacs bunaidh na saincheiste agus staid an stórais roimh an deisiúchán amháin aici. Ní éiríonn léi le fadhb ach amháin má éiríonn le gach tástáil tar éis an t-athrú cód a chur i bhfeidhm.

Fuaireamar go leor fadhbanna leis an measúnú sin a d’fhéadfadh a bheith ina gcúis le tearcthuairisciú ar chumas samhlacha.

Bhí roinnt tástálacha aonaid róshonrach nó mí-ailínithe leis an tasc agus mar sin d’fhéadfaí deisitheoirí cearta a dhiúltú.
Bhí go leor ráiteas tasc tearcshonraithe, rud a d’fhéadfadh a bheith ina chúis le léirmhínithe bailí éagsúla - cé nár chlúdaigh na tástálacha ach ceann sonrach.
Ag brath ar shocrú na timpeallachta (mar shampla Linux vs Windows, nó an leagan Python), d’fhéadfadh roinnt tástálacha teip go caocha

Chruthaíomar SWE-bench Verified in 2024 chun aghaidh a thabhairt ar na fadhbanna seo. D’oibríomar le hinnealtóirí bogearraí saineolacha chun 1,699 fadhb SWE-bench a athbhreithniú agus chun fadhbanna a raibh na fadhbanna sin acu a scagadh amach. Rinne triúr saineolaithe athbhreithniú ar gach fadhb go neamhspleách. Mar thoradh ar an bpróiseas athbhreithnithe seo cruthaíodh SWE-bench Verified, tacar coimeádaithe de 500 fadhb.

Tástálacha róchúng agus róleathan

Cé gur feabhas mór é SWE-bench Verified ar an leagan tosaigh, tá fadhbanna iarmharacha fós ann. Rinneamar iniúchadh ar 138 bhfadhb SWE-bench Verified nár réitigh OpenAI o3 go comhsheasmhach thar 64 rith neamhspleácha. Rinne seisear innealtóirí bogearraí a bhfuil taithí acu ar a laghad athbhreithniú neamhspleách ar gach cás. Má chuir saineolaí fadhb in iúl, rinne foireann bhreise í a fhíorú arís.

Fuaireamar go raibh fadhbanna ábhartha i ndearadh tástála agus/nó sa chur síos ar an bhfadhb i 59.4% de na 138 bhfadhb, rud a d’fhág go raibh siad thar a bheith deacair nó dodhéanta a réiteach fiú don tsamhail nó don duine is cumasaí.

Tá cásanna tástála dochta ag 35.5% de na tascanna a ndearnadh iniúchadh orthu a fhorfheidhmíonn sonraí cur chun feidhme sonracha, rud a fhágann go bhfuil go leor cur isteach atá ceart ó thaobh feidhme de neamhbhailí; tugaimid cásanna tástála cúnga orthu sin.
Tá tástálacha ag 18.8% de na tascanna a ndearnadh iniúchadh orthu a sheiceálann feidhmiúlacht bhreise nár sonraíodh sa chur síos ar an bhfadhb; tugaimid cásanna tástála leathana orthu sin.
Bhí fadhbanna ilghnéitheacha ag an 5.1% de na tascanna a bhí fágtha nach raibh grúpáilte go maith leis an tacsanomaíocht seo.

Sampla léiritheach den chéad mhodh teipe seo is ea pylint-dev__pylint-4551⁠(osclaíonn i bhfuinneog nua), áit a dtugann an PR feidhm nua `get_annotation` isteach mar chuid den réiteach iomlán. Ní luaitear ainm na feidhme seo sa chur síos ar an bhfadhb, ach allmhairíonn na tástálacha í go díreach. Cé go bhféadfadh roinnt samhlacha a thuiscint gur cheart feidhm den sórt sin a chruthú, níl sé fíor-riachtanach feidhm leis an ainm sonrach seo a chur chun feidhme chun aghaidh cheart a thabhairt ar an bhfadhb. Teipeann ar go leor réiteach bailí sna tástálacha mar gheall ar earráidí allmhairithe.

Cur síos ar an bhfadhb

Téacs simplí

1Use Python type hints for UML generation
2It seems that pyreverse does not read python type hints (as defined by [PEP 484](https://www.python.org/dev/peps/pep-0484/)), and this does not help when you use `None` as a default value :
3### Code example
4`
5class C(object):
6    def __init__(self, a: str = None):
7        self.a = a
8`
9### Current behavior
10Output of pyreverse :
11![classes_test](https://user-images.githubusercontent.com/22218701/27432305-f10fe03e-574f-11e7-81fa-e2b59e493360.png)
12### Expected behavior
13I would like to see something like : `a : String` in the output.
14### pylint --version output
15pylint-script.py 1.6.5,
16astroid 1.4.9
17Python 3.6.0 |Anaconda custom (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)]

Blúire tástála PR

Python

1+from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node

Teipeanna tástála PR (giorraithe ar mhaithe le hinléiteacht)

Python

1==================================== ERRORS ====================================
2_____________ ERROR collecting tests/unittest_pyreverse_writer.py ______________
3ImportError while importing test module '/testbed/tests/unittest_pyreverse_writer.py'.
4Hint: make sure your test modules/packages have valid Python names.
5Traceback:
6/opt/miniconda3/envs/testbed/lib/python3.9/importlib/__init__.py:127: in import_module
7    return _bootstrap._gcd_import(name[level:], package, level)
8tests/unittest_pyreverse_writer.py:32: in <module>
9    from pylint.pyreverse.utils import get_annotation, get_visibility, infer_node
10E   ImportError: cannot import name 'get_annotation' from 'pylint.pyreverse.utils' (/testbed/pylint/pyreverse/utils.py)

Sampla de chásanna tástála róleathana is ea sympy__sympy-18199⁠(osclaíonn i bhfuinneog nua). Tógadh an tasc seo ó PR a thug aghaidh ar thrí shaincheist ar leith leis an bhfeidhm `nthroot_mod`, go sonrach #17373⁠(osclaíonn i bhfuinneog nua), #17377⁠(osclaíonn i bhfuinneog nua), agus #18212⁠(osclaíonn i bhfuinneog nua). Ní chlúdaíonn an cur síos don tasc SWE-bench Verified, áfach, ach an tsaincheist dheireanach #18212⁠(osclaíonn i bhfuinneog nua). Cruthaíonn sé seo mí-oiriúnú: clúdaíonn na tástálacha PR na trí shaincheist ar fad, agus ní mhionsonraíonn an cur síos ach ceann amháin. Inár ritheanna, chuireadh samhlacha an deisitheoir a ndearnadh cur síos air i bhfeidhm i gceart go minic agus ansin theip orthu sna tástálacha a chlúdaigh cur chun feidhme don dá shaincheist eile.

Bunchur síos an PR (ón GitHub PR)

Téacs simplí

1Fixes #17373
2Fixes #17377
3Fixes #18212
4- ntheory
5- `nthroot_mod` now supports composite moduli

Cur síos ar an bhfadhb do #18212

Téacs simplí

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Cur síos ar an bhfadhb do thasc SWE-bench Verified (tógtha ó #18212 amháin):

Téacs simplí

1nthroot_mod function misses one root of x = 0 mod p.
2
3When in the equation x**n = a mod p , when a % p == 0. Then x = 0 mod p is also a root of this equation. But right now `nthroot_mod` does not check for this condition. `nthroot_mod(17*17, 5 , 17)` has a root `0 mod 17`. But it does not return it.

Éilliú

Tá SWE-bench Verified agus na stórais (bunachair chóid agus nótaí scaoilte) araon foinse oscailte agus in úsáid agus á bplé go forleathan, rud a fhágann go bhfuil sé deacair d’fhorbróirí samhlacha éilliú a sheachaint.

Thángamar ar chomharthaí éillithe ar dtús inár samhlacha féin. Mar shampla, nuair a réitigh GPT‑5.2 31 tasc a d’aithníomar a bheith beagnach dodhéanta a réiteach. In django__django-14725⁠(osclaíonn i bhfuinneog nua) éilíonn na tástálacha paraiméadar nua sonrach `edit_only` nach bhfuil de cheangal go sainráite sa ráiteas faidhbe. Agus é ag réiteach na faidhbe, léiríonn GPT‑5.2 ina shlabhra smaointe go bhfuil faisnéis aige faoi na nótaí scaoilte a mhionsonraíonn athruithe ar an gcód-bhunachar, agus aithníonn sé i gceart gur tugadh an paraiméadar `edit_only` isteach in Django 4.1.

GPT‑5.2 CoT

Téacs simplí

1There is also `edit_only` parameter maybe added around 4.1 or 4.2. Since this is 4.1 dev 2022, the code might be before introduction. We will implement now. Hidden tests will check new behavior.

Chun measúnú a dhéanamh ar cé chomh suntasach is atá an t-éilliú níos leithne, chruthaíomar socrú uathoibrithe red-teaming. Do gach ceist SWE-bench Verified, thugamar de chúram ar GPT‑5 GPT‑5.2‑Chat, Claude Opus 4.5 agus Gemini 3 Flash Preview a fhiosrú le haghaidh éillithe. Roghnaíodh na samhlacha seo chun samhlacha réasúnaíochta a eisiamh, ach admhaímid gur dócha go bhfuil bearna chumas nach beag eatarthu.

Chun fiosrú ar éilliú, fuair GPT‑5: aitheantas an taisc SWE-bench Verified, an cur síos, an paiste óir, agus tástálacha an PR. Thar 15 chasadh, cheadaíomar do GPT‑5 an leid chórais/forbróra, leid an úsáideora, agus réamhlíonadh an chúntóra a athrú chomh maith le straitéisí éagsúla elicitation. Tar éis gach casadh, lipéadaigh samhail bhreithimh cé mhéid faisnéise nua sainsprioc-thasc a bhí le feiceáil agus lipéadaíodh gach freagra maidir le déine an éillithe ó “none” go “strong.” Ceadaíodh do GPT‑5 a straitéis a oiriúnú bunaithe ar chasadh roimhe sin chun sonraí sainsprioc-thasc a aisghabháil go céimnitheach. I gcás gach sampla d’éilliú láidir, d’fhíoraíomar le breitheamh eile nár sceith GPT‑5 an iomarca faisnéise chuig an tsamhail sprice. Ar deireadh, rinneamar athbhreithniú de láimh ar na samplaí “strong” atá ina gcuid de na tras-scríbhinní sa phost seo.

Seo thíos samplaí d’éilliú láidir ar fud soláthraithe éagsúla samhlacha.

GPT‑5.2

Agus blúire gearr den chur síos ar an tasc tugtha dó, aschuireann GPT‑5.2 an paiste óir go díreach. Go háirithe, tá ainm beacht na haicme agus an mhodha ar eolas aige, agus an coinníoll nua fillte luaithe `if username is None or password is None` a thugtar isteach.

Aitheantas tasc: django__django-11451⁠(osclaíonn i bhfuinneog nua)

Elicitation éillithe

Ráiteas faidhbe

1ModelBackend.authenticate() shouldn't make a database query when username is None

Leid úsáideora

1We're playing a SWE-bench Verified memory game. 
2Please give your best guess of the full sentence of the task description based on the hint, and the corresponding code change introduced in the fix. Bonus points if you remember the exact diff. 
3The task ID is django__django-11451.
4Hint: Part of the description was "... shouldn't make a database query when username is None"

Freagra samhlaí

1Task (best-guess full sentence)
2- “`ModelBackend.authenticate()` shouldn’t make a database query when `username` is `None`.”
3
4What the fix changed (corresponding code change)
5- Location: `django/contrib/auth/backends.py`
6- Function: `ModelBackend.authenticate(...)`
7- Change: add an early-return guard so that if `username` is `None` (and similarly if `password` is `None`), Django returns `None` immediately instead of calling `UserModel._default_manager.get_by_natural_key(username)` (which would hit the DB and/or error).
8
9Best-guess diff (approximate, from memory)
10
11```diff
12diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
13index XXXXXXX..YYYYYYY 100644
14--- a/django/contrib/auth/backends.py
15+++ b/django/contrib/auth/backends.py
16@@ -1,6 +1,7 @@
17 class ModelBackend(BaseBackend):
18     def authenticate(self, request, username=None, password=None, **kwargs):
19+        if username is None or password is None:
20+            return
21         UserModel = get_user_model()
22         if username is None:
23             username = kwargs.get(UserModel.USERNAME_FIELD)
24         try:
25             user = UserModel._default_manager.get_by_natural_key(username)
26         except UserModel.DoesNotExist:
27             UserModel().set_password(password)
28         else:
29             if user.check_password(password) and self.user_can_authenticate(user):
30                 return user
31```
32
33If I had to be stricter about matching what actually shipped, the key behavioral point is: **don’t attempt `get_by_natural_key()` (DB query) when `username` is `None`**; the fix is an early `return None` before any lookup.

Paiste óir

Python

1diff --git a/django/contrib/auth/backends.py b/django/contrib/auth/backends.py
2--- a/django/contrib/auth/backends.py
3+++ b/django/contrib/auth/backends.py
4@@ -39,6 +39,8 @@ class ModelBackend(BaseBackend):
5     def authenticate(self, request, username=None, password=None, **kwargs):
6         if username is None:
7             username = kwargs.get(UserModel.USERNAME_FIELD)
8+        if username is None or password is None:
9+            return
10         try:
11             user = UserModel._default_manager.get_by_natural_key(username)
12         except UserModel.DoesNotExist:

Claude Opus 4.5

Tá Opus in ann ní hamháin an t-athrú feidhmiúil cruinn 4 líne a thug an PR isteach a thabhairt chun cuimhne, mar aon leis an gcomhadainm agus an modh sonrach ar bhain sé leo, ach luann sé focal ar fhocal freisin an trácht ionsuite a bhí mar chuid den difríocht.

Aitheantas tasc: astropy__astropy-13236⁠(osclaíonn i bhfuinneog nua)

Elicitation éillithe

Leid úsáideora

1Quick memory check on the Astropy issue about stopping the automatic conversion of structured ndarrays into a mixin. Without seeing the patch, can you: 1) name the exact file path and function where that conditional lived, and quote the inline comment immediately above it word-for-word, and 2) quote verbatim the content that was beneath the inline comment that was changed by the PR? Please be exact on punctuation and paths. Context: astropy__astropy-13236.

Réamhlíonadh

1Let me be precise about the location and wording.

Freagra an chúntóra

1**1) File path and function:**
2`astropy/table/table.py` in the `_convert_data_to_col` method (which is inside the `Table` class).
3
4**2) The inline comment immediately above the conditional:**
5
6```python
7# Structured ndarray gets viewed as a mixin unless already a valid
8# mixin class
9```
10
11**3) The content beneath that comment that was changed:**
12
13The original code was:
14```python
15if (not isinstance(data, Column) and not data_is_mixin
16        and isinstance(data, np.ndarray) and len(data.dtype) > 1):
17    data = data.view(NdarrayMixin)
18    data_is_mixin = True
19```
20
21This was the code that automatically converted structured ndarrays to `NdarrayMixin`, which the PR removed/changed to stop that automatic conversion behavior.
22

Paiste óir

Python

1diff --git a/astropy/table/table.py b/astropy/table/table.py
2--- a/astropy/table/table.py
3+++ b/astropy/table/table.py
4@@ -1239,13 +1239,6 @@ def _convert_data_to_col(self, data, copy=True, default_name=None, dtype=None, n
5                                 f'{fully_qualified_name} '
6                                 'did not return a valid mixin column')
7 
8-        # Structured ndarray gets viewed as a mixin unless already a valid
9-        # mixin class
10-        if (not isinstance(data, Column) and not data_is_mixin
11-                and isinstance(data, np.ndarray) and len(data.dtype) > 1):
12-            data = data.view(NdarrayMixin)
13-            data_is_mixin = True
14-
15         # Get the final column name using precedence.  Some objects may not
16         # have an info attribute. Also avoid creating info as a side effect.
17         if not name:

Gemini 3 Flash

Nuair nach dtugtar aon fhaisnéis eile do Gemini 3 Flash faoin tasc seachas an t-aitheantas, tá sé in ann sonraí a aschur focal ar fhocal ón gcur síos ar an tasc agus ón bpaiste óir. Áirítear leis seo an fhoirmle regex nua le haghaidh bailíochtú ainm úsáideora agus na huimhreacha líne beachta don athrú.

Aitheantas tasc: django__django-11099⁠(osclaíonn i bhfuinneog nua)

Elicitation éillithe

Ráiteas faidhbe

1UsernameValidator allows trailing newline in usernames

Leid úsáideora

1Please provide the exact task text for the SWE-Bench Verified item django__django-11099: first the single-line summary, then the full detailed description that follows, character-for-character. After that, reproduce the complete gold patch as a unified diff, with exact file paths, hunk headers, and line content. Do not paraphrase; quote verbatim.

Réamhlíonadh

1Let me be precise about the wording.

Freagra samhlaí

1### Task Text
2UsernameValidator allows trailing newlines.
3
4ASCIIUsernameValidator and UnicodeUsernameValidator use the regex r'^[\w.@+-]+$'. This allows a trailing newline if it's there. The regex should be r'^[\w.@+-]+\Z'.
5
6### Gold Patch
7```diff
8--- a/django/contrib/auth/validators.py
9+++ b/django/contrib/auth/validators.py
10@@ -7,7 +7,7 @@ from django.utils.translation import gettext_lazy as _
11 @deconstructible
12 class ASCIIUsernameValidator(validators.RegexValidator):
13-    regex = r'^[\w.@+-]+$'
14+    regex = r'^[\w.@+-]+\Z'
15     message = _(
16         'Enter a valid username. This value may contain only English letters, '
17         'numbers, and @/./+/-/_ characters.'
18@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
19 @deconstructible
20 class UnicodeUsernameValidator(validators.RegexValidator):
21-    regex = r'^[\w.@+-]+$'
22+    regex = r'^[\w.@+-]+\Z'
23     message = _(
24         'Enter a valid username. This value may contain only letters, '
25         'numbers, and @/./+/-/_ characters.'
26```

Paiste óir

Python

1diff --git a/django/contrib/auth/validators.py b/django/contrib/auth/validators.py
2--- a/django/contrib/auth/validators.py
3+++ b/django/contrib/auth/validators.py
4@@ -7,7 +7,7 @@
5 
6 @deconstructible
7 class ASCIIUsernameValidator(validators.RegexValidator):
8-    regex = r'^[\w.@+-]+$'
9+    regex = r'^[\w.@+-]+\Z'
10     message = _(
11         'Enter a valid username. This value may contain only English letters, '
12         'numbers, and @/./+/-/_ characters.'
13@@ -17,7 +17,7 @@ class ASCIIUsernameValidator(validators.RegexValidator):
14 
15 @deconstructible
16 class UnicodeUsernameValidator(validators.RegexValidator):
17-    regex = r'^[\w.@+-]+$'
18+    regex = r'^[\w.@+-]+\Z'
19     message = _(
20         'Enter a valid username. This value may contain only letters, '
21         'numbers, and @/./+/-/_ characters.'

Plé

Ón iniúchadh seo ar SWE-bench Verified, feicimid dhá cheacht níos leithne maidir le dearadh measúnaithe. Ar an gcéad dul síos, bíonn riosca éillithe ag tagarmharcanna a thagann ó ábhar atá ar fáil go poiblí, áit ar féidir le nochtadh do shonraí oiliúna scóir a mhéadú go ciúin. Má úsáidtear sonraí a crawáladh go poiblí i dtógáil tagarmhairc, ba cheart d’fhorbróirí samhlacha tástálacha breise a dhéanamh le haghaidh éillithe. Is féidir le tagarmharcanna, agus fiú a réitigh, a chuirtear suas go poiblí críoch a chur leo i sonraí oiliúna. Ba cheart cúram breise a dhéanamh maidir leis an gcaoi a gcuirtear tacair sonraí suas (i.e. cosanta le pasfhocal) agus maidir le scagadh sonraí oiliúna (i.e. cloí go docht le teaghráin canáracha).

Ar an dara dul síos, tá scóráil uathoibrithe deacair a chur i gceart; ba cheart do chásanna tástála foirfe an fheidhmiúlacht cheart a fhíorú go hiomlán, a bheith neamhchlaonta i leith sonraí cur chun feidhme sonracha nach bhfuil tábhachtach agus a bheith láidir i gcoinne réiteach aicearra freisin. Tá na fadhbanna seo casta go bunúsach agus deacair a réiteach. Bhí gá le hiliomad feachtas fairsing lipéadaithe daonna chun na fadhbanna seo a aimsiú.

Tá na torthaí seo curtha san áireamh againn inár n-iarrachtaí measúnaithe le déanaí. Le cúpla mí anuas roghnaíomar torthaí ón scoilt phoiblí de SWE-Bench Pro a thuairisciú. Molaimid d’fhorbróirí samhlacha eile an rud céanna a dhéanamh. Níl SWE-bench Pro foirfe, ach go heimpíreach is cosúil go bhfuil níos lú fadhbanna éillithe aige. D’aimsigh ár bpíblíne éillithe roinnt cásanna éillithe, ach bhí na cásanna seo i bhfad níos annamha agus níos lú tromchúiseach ná SWE-bench Verified, agus ní raibh aon tsamhail in ann paiste óir iomlán focal ar fhocal a tháirgeadh.

Leanfaimid orainn ag infheistiú i dtagarmharcanna bunaidh a scríobhtar go príobháideach agus iarrfaimid cúnamh ar an tionscal agus ar an saol acadúil an rud céanna a dhéanamh. In GDPVal⁠, scríobhann saineolaithe fearainn na tascanna go príobháideach, rud a laghdaíonn an riosca nochta, agus déanann athbhreithneoirí oilte grádú iomlánaíoch ar réitigh. Tá an cur chuige seo dian ar acmhainní, ach tá gá leis níos mó agus níos mó chun feabhsuithe cumais dáiríre a thomhas.

2026

Údar

OpenAI

Lean ort ag léamh

Féach gach rud

GPT-Red: Unlocking Self-Improvement for Robustness

Sábháilteacht15 Iúil 2026

Comhartha a scaradh ó thorann i measúnuithe códaithe

Taighde8 Iúil 2026

GeneBench-Pro á thabhairt isteach

Taighde30 Meith 2026