Agosto 13, 2024

Soo bandhigista SWE-bench Verified

Waxaan soo saaraynaa qayb SWE-bench ah oo dadku ansixiyeen taas oo si ka kalsooni badan u qiimaysa awoodda noocyada AI ee xallinta dhibaatooyinka software-ka ee dunida dhabta ah.

Soo deji SWE-bench Verified

Soo kacaya…

La cusbooneysiiyey Febraayo 24, 2025

Iyada oo qayb ka ah Qaab-dhismeedka Diyaar-garowga⁠, OpenAI waxay horumarisaa cabbirro kala duwan si loo daba socdo, loo qiimeeyo, loona saadaaliyo awoodda noocyadu u leeyihiin inay si madaxbannaan u fuliyaan hawlo. Awoodda si madaxbannaan loogu dhammeeyo hawlaha injineernimada software-ku waa qayb muhiim ah oo ka mid ah heerka khatarta Dhexdhexaadka ah ee qaybta khatarta Madaxbannaanida Nooca. Qiimeynta awoodahan way adag tahay sababo la xiriira kakanaanta hawlaha injineernimada software-ka, dhibaatada saxda ah ee lagu qiimeeyo koodhka la soo saaray, iyo caqabadda ku jirta ku dayashada duruufaha horumarinta ee dunida dhabta ah. Sidaa darteed, habkayaga Diyaar-garowgu waa inuu sidoo kale ku lug yeeshaa baaritaan taxaddar leh oo lagu sameeyo qiimaynnada laftooda, si loo yareeyo suurtagalnimada in waxqabadka si hoose ama si sare loogu qiyaaso qaybaha khatarta ee muhiimka ah.

Mid ka mid ah xirmooyinka qiimaynta ee ugu caansan injineernimada software-ka waa SWE-bench⁠(ku furmaa daaqad cusub)¹—benchmark loogu talagalay qiimeynta awoodda noocyada luuqadeed ee waaweyn (LLMs) ay u leeyihiin inay xalliyaan arrimo software oo dunida dhabta ah oo laga soo qaatay GitHub. Benchmark-ku wuxuu ku lug leeyahay in wakiillada la siiyo keydka koodhka iyo sharaxaadda arrinta, laguna loollansho inay soo saaraan patch xalliya dhibaatada lagu sharaxay arrinta. Wakiillada koodh-qoristu waxay sameeyeen horumar la yaab leh SWE-bench, iyadoo wakiillada ugu dhibcaha sarreeya ay heleen 20% SWE-bench iyo 43% SWE-bench Lite sida ku xusan leaderboard-ka SWE-bench⁠(ku furmaa daaqad cusub) ilaa Agoosto 5, 2024.

Tijaabooyinkayagu waxay aqoonsadeen qaar ka mid ah hawlaha SWE-bench oo laga yaabo inay adkaadaan ama aan macquul ahayn in la xalliyo, taas oo keenta in SWE-bench si nidaamsan hoos ugu qiyaasto awoodaha madaxbannaan ee noocyada ee injineernimada software-ka. Waxaan la kaashannay qorayaasha SWE-bench si wax looga qabto arrimahaas iyadoo la sii daayey nooc cusub oo benchmark-ka ah oo ay tahay inuu bixiyo qiimaynno ka sax ah.

Asalka SWE-bench

Muunad kasta oo ku jirta qaybta tijaabada SWE-bench waxaa laga sameeyaa arrin GitHub ah oo la xalliyey oo ku jirta mid ka mid ah 12 keydka koodhka Python ee il-furan ee GitHub. Muunad kastaa waxay leedahay codis beddelka koodhka (PR) la xiriira, kaas oo ay ku jiraan labadaba koodhka xalka iyo tijaabooyinka unugga ee lagu xaqiijiyo saxnaanta koodhka. Tijaabooyinkan unugga ahi way dhacaan ka hor inta aan koodhka xalka ee PR-ga lagu darin, balse way gudbaan kadib, sidaas darteedna waxaa loo yaqaan tijaabooyinka FAIL_TO_PASS. Muunad kastaa sidoo kale waxay leedahay tijaabooyin PASS_TO_PASS la xiriira, kuwaas oo gudba ka hor iyo kadib marka PR-ga la mideeyo, waxaana loo adeegsadaa in lagu hubiyo in shaqayn hore oo aan la xiriirin oo ku jirta keydka koodhka aan PR-gu jebin.

Muunad kasta oo SWE-bench ku jirta, wakiillada waxaa la siiyaa qoraalkii asalka ahaa ee arrinta GitHub, oo loo yaqaan bayaanka dhibaatada, waxaana la siiyaa helitaanka keydka koodhka. Iyagoo haysta kuwaas, wakiilladu waa inay wax ka beddelaan faylasha ku jira keydka koodhka si ay u xalliyaan arrinta. Tijaabooyinka lama tuso wakiilka.

Wax ka beddel la soo jeediyey waxaa lagu qiimeeyaa iyadoo la socodsiinayo labadaba tijaabooyinka FAIL_TO_PASS iyo PASS_TO_PASS. Haddii tijaabooyinka FAIL_TO_PASS gudbaan, tani waxay ka dhigan tahay in wax ka beddelku xalliyo arrinta. Haddii tijaabooyinka PASS_TO_PASS gudbaan, markaa wax ka beddelku si kama’ ah uma jebin qaybaha aan la xiriirin ee keydka koodhka. Labada qaybood ee tijaabooyinkuba waa inay gudbaan si wax ka beddelku si buuxda u xalliyo arrintii asalka ahayd ee GitHub.

La qabsiga SWE-bench sidii Qiimayn Diyaar-garow

Iyadoo la tixgelinayo muhiimadda suurto-galka ah ee SWE-bench u leedahay Qaab-dhismeedka Diyaar-garowga, waxaan doonaynay inaan helno siyaabo aan ku wanaajin karno adkaysiga iyo kalsoonida benchmark-kan. Waxaan aqoonsannay saddex meelood oo waaweyn oo u baahan hagaajin²:

Tijaabooyinka unugga ee loo adeegsado qiimeynta saxnaanta xalka badanaa aad bay u gaar yihiin, mararka qaarkoodna xitaa wax xiriir ah lama laha arrinta. Tani waxay keeni kartaa in xalal sax ah la diido.
Muunado badan waxay leeyihiin sharaxaad arrin oo aan si buuxda loo qeexin, taas oo keenta mugdi ku saabsan waxa dhibaatadu tahay iyo sida loo xallinayo.
Mararka qaarkood way adag tahay in si lagu kalsoonaan karo loo dejiyo deegaanada horumarinta SWE-bench ee wakiillada, taas oo si kama’ ah u keenta in tijaabooyinka unuggu dhacaan iyadoon loo eegin xalka. Xaaladahaas, xalal si buuxda sax u ah ayaa laga yaabaa in lagu qiimeeyo kuwo khaldan.

Halkan waxaa ku yaal tusaale muujinaya midka koowaad ee arrimahan.

Muunadda SWE-bench ee scikit-learn__scikit-learn-14520 waxay wakiilka u xilsaartaa inuu xalliyo arrin ku jirta keydka koodhka scikit-learn⁠(ku furmaa daaqad cusub). Bayaankan dhibaatadu wuxuu sheegayaa in doodda copy ee function uu isticmaale qeexi karo, balse maktabaddu iska indhatirayso (hab-dhaqanka waxaa taa beddelkeeda si adag loogu qeexay gudaha function-ka):

Qoraal caadi ah

1Copy param ignored in TfidfVectorizer
2I was playing with vectorizers and I found this:
3
4https://github.com/scikit-learn/scikit-learn/blob/ae16319626e2ca6ca0e54d4a5b83f73f817232aa/sklearn/feature_extraction/text.py#L1669
5
6However that parameter is not used later in the method.
7
8Here `copy=False` is used:
9
10https://github.com/scikit-learn/scikit-learn/blob/ae16319626e2ca6ca0e54d4a5b83f73f817232aa/sklearn/feature_extraction/text.py#L1692
11
12Is there anything I am missing?
13

Wakiil la tacaalaya arrinta kor ku xusan wuxuu marka hore la tacaali lahaa mugdiga ku jira in hab-dhaqanka function-ku yahay mid la doonayey mise cilad, dabadeedna wuxuu wax ka beddeli lahaa keydka koodhka si loo xalliyo arrinta. Sida uu dhigayo habaynta SWE-bench, xal kasta oo uu wakiilku soo jeediyo kadib waa inuu gudbaa tijaabada soo socota, oo laga soo saaray PR-gii markii hore xalliyey arrinta⁠(ku furmaa daaqad cusub):

Python

1def test_tfidf_vectorizer_deprecationwarning():
2    msg = ("'copy' param is unused and has been deprecated since "
3           "version 0.22. Backward compatibility for 'copy' will "
4           "be removed in 0.24.")
5    with pytest.warns(DeprecationWarning, match=msg):
6        tv = TfidfVectorizer()
7        train_data = JUNK_FOOD_DOCS
8        tv.fit(train_data)
9        tv.transform(train_data, copy=True)

Tijaabadani si cad ayay u hubisaa in xalku waajib ku yahay inuu kiciyo DeprecationWarning mar kasta oo la isticmaalo halbeegga copy, inkastoo bayaanka dhibaatada ee ku jira qoraalka arrinta ee kor ku xusan aanu gudbinayn shuruuddan. Intaa waxaa dheer, xitaa haddii wakiilku garto in DeprecationWarning la kiciyo, tijaabadu waxay sidoo kale ka rabtaa wakiilka inuu si sax ah ula ekaado farriinta deprecation-ka, taas oo la gaaray oo keliya kadib dood ka dhacday PR-ka oo uusan wakiilku heli karin.

Ogow in wakiilka la siiyo oo keliya sharaxaadda dhibaatada ee qoraalka ugu weyn ee arrinta, isla markaana aanu aragti u lahayn tijaabooyinka ay tahay inuu gudbo. Marka la eego habayntan, waxay ku dhowaad aan macquul ahayn in wakiil uu xalliyo muunaddan SWE-bench.

SWE-bench Verified

Si wax looga qabto arrimahan, waxaan bilownay olole calaamadayneed bini’aadan ah oo lala yeeshay horumariyeyaal software oo xirfadlayaal ah si muunad kasta oo ka mid ah qaybta tijaabada SWE-bench loogu baaro tijaabooyin unug oo leh xad ku habboon iyo sharaxaado arrin oo si wanaagsan loo qeexay.

Anagoo la kaashanayna qorayaasha SWE-bench, waxaan sii deynaynaa SWE-bench Verified: qayb ka mid ah qaybta tijaabada asalka ah ee SWE-bench, oo ka kooban 500 muunadood oo calaamadeeyayaasheena bini’aadamka ahi xaqiijiyeen inaanay dhibaato lahayn. Noocani wuxuu beddelayaa qaybihii tijaabada asalka ahaa ee SWE-bench iyo SWE-bench Lite. Intaa waxaa dheer, waxaan sii deynaynaa calaamadayntayada bini’aadamka ee dhammaan muunadaha tijaabada SWE-bench. Calaamadayntani waxay suurto-gelinaysaa in xog-ururinta loo kala gooyo adkaan. Qaybta 'easy' waxay ka kooban tahay 196 hawlood oo hagaajintoodu qaadato wax ka yar 15 daqiiqo, halka qaybta 'hard' ay ka kooban tahay 45 hawlood oo qaata wax ka badan 1 saac.

Waxaan sidoo kale la shaqaynay qorayaasha SWE-bench si aan u horumarinno evaluation harness cusub oo SWE-bench ah⁠(ku furmaa daaqad cusub) kaas oo adeegsada deegaan Docker oo la weel-gareeyey si qiimeynta SWE-bench looga dhigo mid sahlan oo lagu kalsoonaan karo.

SWE-bench Verified, GPT‑4o wuxuu xalliyaa 33.2% muunadaha³, iyadoo scaffold-ka il-furan ee ugu waxqabadka fiican, Agentless, uu laba jibbaarayo dhibcihii hore ee 16% ee SWE-bench.

Habkayaga

Waxaan la shaqaynay 93 horumariye software ah oo khibrad u leh Python si gacanta loogu baaro muunadaha SWE-bench tayadooda. Waxaan calaamadaynnay 1,699 muunado aan kala sooc lahayn oo laga soo qaatay qaybta tijaabada SWE-bench si loo soo saaro SWE-bench Verified. Falanqaynta soo socota waxay ku salaysan tahay 1,699-kaas muunadood.

Waxaan muunadaha u calaamadaynaa si aan u qabanno:

Inaan u aragno sharaxaadda arrintu inay tahay mid aan si buuxda loo qeexin sidaas darteedna aan caddaalad ahayn in lagu tijaabiyo.
In tijaabooyinka unugga ee FAIL_TO_PASS ay sifeynayaan xalal sax ah.

Shuruud kasta oo calaamadayneed waxay leedahay summad u dhexeysa [0, 1, 2, 3] oo sii kordhaysa xagga darnaanta. Summadaha 0 iyo 1 waa yar yihiin; summadaha 2 iyo 3 waa daran yihiin waxayna muujinayaan in muunaddu si uun u liidato oo ay tahay in la tuuro. Waxaan doorannay inaan ku calaamadeyno afar qaybood oo kala sarreeya halkii aan ka isticmaali lahayn hal summad laba-geesood ah oo daran/aan daran ah si aan u qabanno faahfaahin ka sii granule badan.

Intaa waxaa dheer, waxaan qiimeynaa adkaanta muunad kasta annagoo ka codsanayna calaamadeeyayaasha inay qiyaasaan muddada ay ku qaadan lahayd horumariye inuu go'aansado xalka oo uu hirgeliyo, iyadoo loo malaynayo in muunaddu aanay dhibaato lahayn. Ugu dambayn, waxaan bixinnaa ikhtiyaar gelin xor ah oo lagu tilmaamo arrimo kale oo waaweyn oo muunadda ku jira (tusaale ahaan, haddii tijaabooyinka unugga ee FAIL_TO_PASS si fudud loo khiyaami karo, tani waxay keeni kartaa in xal aan sax ahayn loo calaamadeeyo mid sax ah).

Kooxdayada injineerradu waxay marka hore gacanta ku calaamadeeyeen 50 muunadood si kalsooni sare leh loogu isticmaalo imtixaannada gelinta ee calaamadeeyayaasha. Si ay uga qayb qaataan ololaha calaamadaynta, calaamadeeye kasta oo mustaqbal ah wuxuu ahaa inuu gudbo imtixaannadayada gelinta. Waxaan siinay jawaab-celin faahfaahsan calaamadeeye kasta intii lagu jiray gelinta si aan si fiican ugu tababarno hawsha. Calaamadeeyayaashu khasab ma ahayn inay hore khubaro uga ahaadaan keydka koodhka ee la xiriira SWE-bench, balse waxaa la siiyey waqti ay isku baran karaan keyd kasta oo ay la shaqeeyaan.

Si loo hubiyo xog-ururin tayo sare leh, muunad kasta 3 jeer ayaa lagu calaamadeeyaa iyadoo ay sameeyaan calaamadeeyayaal kala duwan. Way fududahay in si kama’ ah loo seego dhibaatooyin suurtagal ah, dhibaatooyinkuna iyaguna way mugdi geli karaan, sidaas darteed waxaan si taxaddar leh isugu geynaa calaamadaynnada annagoo qaadanayna summadda ugu daran ee ka dhex jirta 3-da calaamadeeye.

Qoraalka buuxa ee xeer-raaceena calaamadaynta waxaa laga heli karaa halkan⁠(ku furmaa daaqad cusub).

Shuruudaha Calaamadaynta

Noocyada la qiimeeyo waxaa laga filayaa inay soo saaraan patch iyagoo helaya bayaanka dhibaatada iyo keydka koodhka. Haddii bayaanka dhibaatada si liidata loo qeexay, waxay noqon kartaa mid aad uga adag, ama mararka qaarkood aan macquul ahayn, in la soo saaro patch xalliya dhibaatada.

Waxaan bayaanka dhibaatada ku calaamadeynaa 4-taan summadood ee suurtagalka ah:

0: Arrintu si fiican ayaa loo qeexay waana cadahay waxa looga baahan yahay xal guuleysta.
1: Waxaa jira meelo bannaan oo laga buuxinayo arrinta ku saabsan, balse waxaa jira fasiraad macquul ah oo ah waxa looga baahan yahay xal guuleysta.
2: Arrintu waa madmadow waxayna leedahay meel mugdi ku jirto. Ma cadda sida xal guuleysta u ekaan doono.
3: Waxay ku dhowdahay wax aan macquul ahayn in la fahmo waxa lagaa codsanayo inaad qabato adigoon helin xog dheeraad ah.

Si loo qiimeeyo xalka uu nooc soo jeediyo, patch-ka uu noocku soo saaro ayaa lagu dabaqaa keydka koodhka, kadibna waxaa la socodsiyaa tijaabooyinka unugga ee FAIL_TO_PASS iyo PASS_TO_PASS. Haddii patch-ka si guul leh loo dabaqi karo oo dhammaan tijaabooyinku gudbaan, markaas xalka la soo jeediyey waxaa loo tixgeliyaa inuu si guul leh u xalliyey arrinta.

Waxaan hubinnaa in tijaabooyinka FAIL_TO_PASS ay dhici karaan xitaa marka xal sax ah la bixiyo, taas oo keenta negative been ah.

Waxaan tijaabooyinka ku calaamadeynaa 4-taan summadood ee suurtagalka ah:

0: Tijaabooyinku si buuxda ayay u daboolaan dhammaan xalalka suurtagalka ah.
1: Tijaabooyinku waxay daboolaan inta badan xalalka saxda ah, hase yeeshee xalal aan caadi ahayn qaarkood waa laga yaabaa inay seegmaan.
2: Tijaabooyinku way shaqeeyaan laakiin qaar ka mid ah xalal si buuxda macquul u ah ayaa laga yaabaa inay tijaabooyinku seegaan.
3: Tijaabooyinku aad bay u cidhiidhi/ballan yihiin ama waxay raadinayaan wax ka duwan waxa arrintu ku saabsan tahay.

Sida macluumaad dheeri ah (aan loo isticmaalin sifeynta xog-ururinta), waxaan sidoo kale ka codsannaa calaamadeeyayaasha inay qiyaasaan inta waqti ee ay ku qaadan lahayd injineer software oo khibrad leh, kaas oo dhowr saacadood ku qaatay barashada keydka koodhka, inuu qoro patch xalliya arrinta. Tani waxay noo oggolaanaysaa inaan fahamno qaybinta adkaanta hawlaha SWE-bench. Ogow in tani laga yaabo inay ka badbadiso adkaanta LLM, oo laga yaabo inuu xafiday qaybo ka mid ah keydka koodhka iyo PR-yada. Waxaan isu geynaa calaamadaynta adkaanta annagoo qaadanayna doorashada aqlabiyadda ee muunad kasta, ama dhexdhexaadka haddii aanay aqlabiyad jirin.

Waxaa jira 4 summadood oo suurtagal ah oo adkaan ah:

hagaajin <15 daqiiqo ah (tusaale, isbeddel sahlan oo lagu darayo assertions qaar function)
15 daqiiqo–1 saac (tusaale, isbeddel yar oo u baahan fikir yar)
1–4 saacadood (tusaale, si weyn dib loogu qoro function ama faylal badan wax looga beddelo)
>4 saacadood (tusaale, arrin aad u qarsoodi badan oo si cad u baahan cilmi-baaris badan si loo hagaajiyo, beddelidda >100 sadar oo koodh ah)

Dhisidda xog-ururinta

Si loo dhiso SWE-bench Verified, waxaan sifeynaa muunad kasta oo ka mid ah qaybta tijaabada asalka ah halkaas oo midkood bayaanka dhibaatada ama tijaabooyinka unugga ee FAIL_TO_PASS ay leeyihiin summad isu-geyn ah oo darnaanteedu tahay 2 ama ka badan. Waxaan sidoo kale sifeynaa dhammaan muunadaha leh arrimo kale oo waaweyn oo la tilmaamay. Marka la eego habka isu-geyntayada, tani waxay u dhigantaa sifeynta muunadaha halkaas oo hal calaamadeeye oo keliya oo ka mid ah saddexda uu arrin ku tilmaamay muunadda. Habkani wuxuu keenaa heer been-abuur togan oo ka sarreeya marka muunado la saarayo, balse wuxuu naga caawiyaa kordhinta kalsoonida aan ku qabno tayada muunadaha ee xog-ururinta kama dambaysta ah.

Waxaan ku darnaa inta ugu badan ee suurtagal ah muunado leh adkaan 1-4 saacadood iyo >4 saacadood, ka dibna inta hartay ayaan si aan kala sooc lahayn uga soo xulannaa si aan u gaarno 500-ka muunadood ee ka kooban SWE-bench Verified.

Natiijooyinka Calaamadaynta

Natiijooyinka calaamadayntayadu waa kuwan hoose:

Is the problem statement underspecified?

Waxaan aragnaa in 38.3% muunadaha loo calaamadeeyey bayaanno dhibaato oo aan si buuxda loo qeexin, halka 61.1% loo calaamadeeyey tijaabooyin unug ah oo laga yaabo inay si aan caddaalad ahayn xalal sax ah ugu calaamadeeyaan kuwo khaldan. Guud ahaan, habraaceenna calaamadayntu wuxuu sababay in 68.3% muunadaha SWE-bench la sifeynayo sababo la xiriira aan-si-buuxda-loo-qeexin, tijaabooyin unug oo aan caddaalad ahayn, ama arrimo kale. Sida hore loo sheegay, habkan sifeyntu wuxuu u badan yahay inuu xad-dhaaf yahay, balse wuxuu noo oggolaanayaa inaan kalsooni sare ka qabno suurto-galnimada muunadaha aan la sifeyn.

Hoos waxaan ku soo bandhigaynaa tusaalooyin kooban oo muunado ah iyo calaamadayntooda, kuwaas oo si gaar ah loo doortay si loo muujiyo kala duwanaanta tayada muunadaha:

Dooro muunad:

Commentary

This is an example of a good sample which has been verified by annotators for the SWE-bench Verified dataset. The problem statement gives a short but clear demonstration of a bug, and the FAIL_TO_PASStests directly assert that the example given in the problem statement has been resolved.

Problem statement

UnsetkernS: 'kern' referenced before assignment 
from sympy.core.sympify import kernS 

text = "(2*x)/(x-1)"
expr = kernS(text)
// hit = kern in s
// UnboundLocalError: local variable 'kern' referenced beforeassignment

Are the tasks well-specified? (Raw annotation)

Severity: 0 - The issue is well-specified and it is clear what is required for a successful solution.

It is clear that kernS is throwing exception for (2*x)/(x-1)
It provides example input for which the error is occurring which can make it easy to reproduce the issue.

FAIL_TO_PASS test (Only showing lines added during the original PR for brevity)

Python
def test_kernS():
    ...
    assert kernS("(2*x)/(x-1)") == 2*x/(x-1)

How valid are the evaluation criteria? (Raw annotation)

Severity: 0 - The tests perfectly cover all possible solutions.

The test case is exactly for kernS("(2*x)/(x-1)") for which the issue was occurring in issue description.
It will cover all possible solutions.

Jaantuska hoose wuxuu isbarbar dhigaa qaybinta adkaanta ee xog-ururintii asalka ahayd ee SWE-bench iyo xog-ururintayada cusub ee SWE-bench Verified. Waxaan qiyaasnay qaybinta adkaanta SWE-bench annagoo ku salaynayna qayb-hoosaadkeenna aan kala sooca lahayn ee ka kooban 1699 muunadood. Ogow in inkastoo natiijooyinkani ay bixiyaan qiyaaso dadaalka loo baahan yahay si xal loo hirgeliyo (eeg tilmaamahayaga calaamadaynta eraybixinta saxda ah), haddana waxay u qaadanayaan injineer software oo awood u leh inuu garto xalka. Ficil ahaan, waxaan filaynaa in heerka xallinta aasaasiga ah ee injineer software oo bini’aadam caadi ah uu ka hooseeyo 100%.

Waxaan aragnaa in inta badan (77.8%) muunadaha ku jiray xog-ururintii asalka ahayd ee SWE-bench lagu qiyaasay inay qaadanayaan wax ka yar hal saac in injineer software oo khibrad leh uu dhammaystiro. Labadaba SWE-bench Lite iyo xog-ururintayada cusub ee SWE-bench Verified waxay arrintan uga sii leexiyaan dhankaas, iyagoo ka tagaya wax ka yar 10% arrimaha lagu qiyaasay inay qaadanayaan wax ka badan hal saac. Si kastaba ha ahaatee, habka asaasiga ah ee ka dambeeya leexashadan si muhiim ah ayuu u duwan yahay: SWE-bench Lite waxay qayb ka soo xulatay xog-ururintii asalka ahayd si benchmark-ka looga dhigo mid sahlan, halka SWE-bench Verified ay isku dayayso inay ka saarto muunado aan la fulin karin xog-ururinta. Waxaan saameyntan si dheeraad ah ugu sahaminaynaa qaybta xigta.

Distribution of Difficulty Labels

Waxqabadka SWE-bench Verified

Iyadoo la adeegsanayo xog-ururintayada cusub ee SWE-bench Verified, waxaan tijaabinay waxqabadka GPT‑4o annagoo adeegsanayna dhowr scaffold oo il-furan oo si fiican uga soo muuqday leaderboard-yadii asalka ahaa ee SWE-bench⁴.

Waxaan ogaanay in waxqabadka GPT‑4o ee scaffold-ka ugu waxqabadka fiican uu gaarayo 33.2% SWE-bench Verified, taas oo ka badan laba jibbaar dhibcihii 16% ee uu ku lahaa SWE-bench-kii asalka ahaa. Guud ahaan, tani waxay xaqiijinaysaa shakigeennii hore ee ahaa in xog-ururinta asalka ah ee SWE-bench ay hoos u qiyaasto awoodaha wakiillada. Ogow in boodista ka timaadda SWE-bench Lite una gudubta SWE-bench Verified aanay sidaas u weynayn, sababtoo ah SWE-bench Lite hore ayaa loogu sifeeyey qaab ka dhigaya mid sahlan⁠(ku furmaa daaqad cusub) marka loo eego xog-ururinta buuxda, inkastoo habkaas aanu si buuxda u qabanayn isla arrimaha la midka ah habraaceenna sifeynta.

Performance of open-source scaffolds on SWE-bench subsets

Waxqabad loo kala saaray adkaan

Kordhinta waxqabadka marka lagu qiimeeyo SWE-bench Verified waxaa qayb ahaan lagu sharxi karaa iyadoo qaybinta loo leexiyey dhanka muunado sahlan (sida lagu muujiyey falanqaynadii hore). Si kastaba ha ahaatee, yoolkeennu ma aha inaan buunbuuninno dhibcaha benchmark-ka, balse waa inaan hubinno in benchmark-ku si daacad ah u metelo awoodda nooca heer kasta oo adag.

Waxaan tan baadhaynaa annagoo sawirayna waxqabad si loo kala saaray adkaanta. Haddii xog-ururintayada cusubi ay si keliya qaybinta adkaanta ugu leexin lahayd inay ka koobnaato muunado sahlan oo badan, waxqabadka kala soocan ee qayb kasta gudihiisa isma beddeli lahayn, sida muuqata ay tahay marka laga gudbayo SWE-bench-kii asalka ahaa loona gudbayo SWE-bench Lite. Halkii, waxaan arkaynaa in waxqabadku kordho gudaha qaybaha adkaanta shaqsiyeed marka loo wareegayo SWE-bench Verified, taas oo la jaanqaadaysa saameynta la rabay ee ah in laga saaro muunado aan macquul ahayn dhammaan qaybaha halkii laga saari lahaa muunado adag. Saameyntu waxay ugu caddahay labada baaldi ee ugu sahlan adkaanta, halkaas oo aan ku leenahay muunadaha ugu badan.

Averaged performance of all scaffolds stratified by difficulty

Dood & Xaddidaado

Waxaan SWE-bench u isticmaalnaa mid ka mid ah dhowr qiimayn oo daba socda heerka khatarta Dhexdhexaadka ah ee qaybta khatarta Madaxbannaanida Nooca ee ku jirta Qaab-dhismeedka Diyaar-garowga. Raadraaca heerarka khatarta masiibada ah iyada oo loo marayo qiimayno waxay ku xiran tahay hubinta inaan ku kalsoonaan karno natiijooyinka qiimaynta oo aan si sax ah u fahansannahay waxa dhibcuhu ka dhigan yihiin.

Khibradahayagu waxay soo jeedinayaan in aan:

Maalgashanno faham qoto dheer oo ku saabsan benchmark-yadeenna. Inkastoo SWE-bench si taxaddar leh loo naqshadeeyey, haddana waxay hoos u qiyaastaa awoodaha noocyada sababo la xiriira arrimaha lagu xusay qoraalkan blog-ga. Maaddaama nidaamyadeennu ay sii dhowaanayaan AGI, waxaan u baahanahay inaan ku qiimeyno hawlo sii adkaanaya. Tani waxay sidoo kale kor u qaadaysaa heerka khibradda iyo taxaddarka loo baahan yahay si loo habeeyo loona xaqiijiyo benchmark-yada si loo hubiyo inay si ku filan u adag yihiin oo adkaysi u leeyihiin (xaalad ay shaqo sida CriticGPT⁠, oo sahaminaysa siyaabaha AI uga caawin karto habraacyada calaamadaynta, waxtar u yeelan karto).

Xisaabta ku darno horumarka ka socda deegaanka. Horumarka ay bulshadu hoggaaminayso ee dhismaha wakiilladu wuxuu muujinayaa baahida loo qabo in la tixgeliyo xoojinno dibadeed oo suurtagal ah oo lagu sameeyo nooc marka khatarta la qiimeynayo. Markaan eegno farqiga u dhexeeya scaffold-yada ugu liita uguna waxqabadka fiican ee nooc la siiyey ee ku jira leaderboard-yada SWE-bench⁠(ku furmaa daaqad cusub), waxaan arki karnaa in, tusaale ahaan, waxqabadka GPT‑4 ee SWE-bench Lite uu u dhexeeyo 2.7% iyadoo la adeegsanayo scaffold hore oo ku salaysan RAG iyo 28.3% iyadoo la adeegsanayo CodeR. Sidaa darteed Qaab-dhismeedka Diyaar-garowga wuxuu dalbanayaa in qiimaynnada si joogto ah loo wado oo loo sameeyo inta jeer ee loo baahan yahay si loo ogaado isbeddel kasta oo awood ah oo aan sahlanayn; taas oo ay ku jirto ka hor, inta lagu jiro, iyo xitaa kadib tababarka, halkaas oo noocyada lagu xoojin karo isdhexgal la leh nidaamyo dibadeed. Intaa waxaa dheer, habaynta qiimaynnadu waa dadaal deegaan-ballaaran ah, waxaanan rajaynaynaa inaan sii wadno iskaashiga cilmi-baarayaasha si loo dhiso qiimaynno la isku hallayn karo oo tayo sare leh.

Ka warqabno xaddidaadaha. Qiimaynnada ku salaysan xog-ururinno taagan si dabiici ah ayay u xaddidan yihiin, SWE-bench-na kama reebna. Maaddaama benchmark-ku ka kooban yahay xog laga xoqay keydka koodhka dadweynaha ee GitHub, noocyada aasaaska waaweyn ee hore loogu tababaray qoraalka internetka waxay u badan tahay inay ku wasakhoobeen hawlahan. Intaa waxaa dheer, SWE-bench waxay daboolaysaa oo keliya qayb cidhiidhi ah oo ka tirsan heerka khatarta Dhexdhexaadka ah ee madaxbannaanida nooca, sidaas darteed waa in lagu kabaa qiimaynno kale.

Waxaan aaminsanahay hab tijaabo iyo cilmiyeed ku dhisan oo lagu daba socdo laguna iska ilaaliyo khatarta masiibada ah. Dhisidda iyo si joogto ah u hagaajinta qiimaynnadu waa qayb muhiim ah oo ka mid ah shaqadan. Weli wax badan ayaa harsan in la qabto, waxaana ku faraxsanahay inaan aragno shaqo dheeraad ah oo bulshada ka timaadda oo ku biirinaysa benchmark-yo qiimo leh sida SWE-bench.

Soo dejinta xogta

SWE-bench Verified waxaa lagala soo degi karaa halkan⁠(ku furmaa daaqad cusub); dhammaan calaamadayntayadana waxay ku jiraan halkan⁠(ku furmaa daaqad cusub), xeer-raaceenna calaamadayntuna wuxuu yaal halkan⁠(ku furmaa daaqad cusub).

Qorayaal

Neil Chowdhury, James Aung, Chan Jun Shern, Oliver Jaffe, Dane Sherburn, Giulio Starace, Evan Mays, Rachel Dias, Marwan Aljubeh, Mia Glaese, Carlos E. Jimenez, John Yang, Leyton Ho, Tejal Patwardhan, Kevin Liu, Aleksander Madry

NC, JA, CJS, OJ, DS, GS si siman bay uga qayb qaateen.

Mahadnaq

Waxaan uga mahadcelineynaa Carlos Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, iyo Karthik Narasimhan horumarinta benchmark-gii asalka ahaa ee SWE-bench; kooxda Preparedness taageeridda shaqadan; Tao Lin, oo markii hore tilmaamay qaar badan oo ka mid ah arrimahan; Ian Kivlichan iyo Sarah Schwettmann jawaab-celinta ku saabsan nooc hore oo qoraalkan ah; iyo calaamadeeyayaashii badnaa ee bini’aadamka ahaa ee gacan ka geystay abuurista SWE-bench Verified.

1
Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., & Narasimhan, K. (2024). SWE-bench: Can Language Models Resolve Real-World GitHub Issues? arXiv preprint arXiv:2310.06770.
2
Shaqo barbar socota oo lala yeeshay Xia, C. S., Deng, Y., Dunn, S., & Zhang, L. (2024). Agentless: Demystifying LLM-based Software Engineering Agents. arXiv preprint arXiv:2407.01489
3
gpt-4o-2024-05-13
4
Waxaan socodsiinnay hal seed annagoo adeegsanayna hyperparameter-rada ugu dhow ee la diiwaangeliyey ama kuwa caadiga ah ee scaffold kasta, sidaas darteed natiijooyinku way ka duwanaan karaan waxa lagu soo sheegay leaderboard-yada rasmiga ah.

Soo bandhigista SWE-bench Verified

Asalka SWE-bench

La qabsiga SWE-bench sidii Qiimayn Diyaar-garow

Qoraal caadi ah

Python

SWE-bench Verified

Habkayaga

Shuruudaha Calaamadaynta

Hawluhu ma si fiican baa loo qeexay?

Sidee bay u saxan yihiin shuruudaha qiimayntu?

Intee ayay hawluhu u adag yihiin?

Dhisidda xog-ururinta

Natiijooyinka Calaamadaynta

Is the problem statement underspecified?

Distribution of Difficulty Labels

Waxqabadka SWE-bench Verified

Performance of open-source scaffolds on SWE-bench subsets

Waxqabad loo kala saaray adkaan

Averaged performance of all scaffolds stratified by difficulty

Dood & Xaddidaado

Soo dejinta xogta

Qorayaal

Mahadnaq

Hawluhu ma si fiican baa loo qeexay?

Sidee bay u saxan yihiin shuruudaha qiimayntu?

Intee ayay hawluhu u adag yihiin?

Soo bandhigista SWE-bench Verified

Asalka SWE-bench

La qabsiga SWE-bench sidii Qiimayn Diyaar-garow

Qoraal caadi ah

Python

SWE-bench Verified

Habkayaga

Shuruudaha Calaamadaynta

Hawluhu ma si fiican baa loo qeexay?

Sidee bay u saxan yihiin shuruudaha qiimayntu?

Intee ayay hawluhu u adag yihiin?

Dhisidda xog-ururinta

Natiijooyinka Calaamadaynta

Is the problem statement underspecified?

Distribution of Difficulty Labels

Waxqabadka SWE-bench Verified

Performance of open-source scaffolds on SWE-bench subsets

Waxqabad loo kala saaray adkaan

Averaged performance of all scaffolds stratified by difficulty

Dood &amp; Xaddidaado

Soo dejinta xogta

Qorayaal

Mahadnaq

Hawluhu ma si fiican baa loo qeexay?

Sidee bay u saxan yihiin shuruudaha qiimayntu?

Intee ayay hawluhu u adag yihiin?

Dood & Xaddidaado