Sababta SWE-bench Verified aanu mar dambe u cabbirin awoodaha koodhaynta ee ugu casrisan
SWE-bench Verified si isa soo taraysa ayuu u wasakhoobay. Waxaan ku talinaynaa SWE-bench Pro.
Tan iyo markii aannu markii ugu horreysay daabacnay SWE-bench Verified bishii Agoosto 2024, warshaddu si ballaaran ayay ugu adeegsatay cabbiridda horumarka noocyada ee hawlaha injineernimada softiweerka ee iskood u shaqeeya. Kadib markii la sii daayay, SWE-bench Verified wuxuu bixiyay calaamad xooggan oo muujinaysa horumarka awoodda wuxuuna noqday halbeeg caadi ah oo lagu soo sheego sii-daynta noocyada ugu casriyeysan. La socodka iyo saadaalinta horumarka awoodahan sidoo kale waa qayb muhiim ah oo ka mid ah Qaab-dhismeedka Diyaar-garowga ee OpenAI. Markii aannu markii hore abuurnay halbeegga Verified, waxaan isku daynay in aannu xallinno dhibaatooyinkii qiimayntii asalka ahayd ee ka dhigayay hawlo gaar ah kuwo aan suurtagal ku ahayn in lagu fuliyo xog-ururinta SWE-bench(ku furmaa daaqad cusub).
Ka dib booddooyinkii hore, horumarka heerka ugu sarreeya ee SWE-bench Verified wuu gaabis noqday, isagoo kor uga kacay(ku furmaa daaqad cusub) 74.9% ilaa 80.9% 6-dii bilood ee u dambaysay. Tani waxay dhalinaysaa su’aasha ah: guuldarrooyinka haray ma ka tarjumayaan xaddidaadaha nooca mise sifooyinka xog-ururinta lafteeda?
Falanqayn cusub, waxaan ku helnay laba dhibaato oo waaweyn oo ku jira set-ka Verified kuwaas oo muujinaya in halbeeggu aanu mar dambe ku habboonayn cabbiridda horumarka awoodaha injineernimada softiweerka ee iskood u shaqeeya ee sii-daynta ugu casriyeysan ee heerarka waxqabadka maanta:
- Tijaabooyinku waxay diidaan xalal sax ah: Waxaan dib u eegis ku samaynay 27.6% ka mid ah xog-ururinta oo ay noocyadu inta badan ku guuldarraystaan inay xalliyaan, waxaana ogaanay in ugu yaraan 59.4% dhibaatooyinka la hubiyay ay leeyihiin kiisaska tijaabada oo cilladaysan kuwaas oo diida gudbinno si shaqayn ahaan sax ah, inkastoo dadaalkayagii ugu wanaagsanaa ee aan arrintan ku hagaajinaynay markii hore la samaynayay SWE-bench Verified.
- Tababar ku saabsan xalalka: Maadaama noocyada waaweyn ee ugu casriyeysan ay wax ka baran karaan xogtooda tababarka, waa muhiim inaan waligood lagu tababarin dhibaatooyinka iyo xalalka lagu qiimaynayo. Tani waxay la mid tahay in ardayda lala wadaago su’aalaha iyo jawaabaha imtixaan soo socda ka hor imtixaanka - laga yaabee inaysan si toos ah u xafidin jawaabta, laakiin ardayda hore u arkay jawaabaha hubaal way ka fiicnaan doonaan kuwa aan arkin. Dhibaatooyinka SWE-bench waxa laga soo qaaday keydka koodhka ee il-furan oo bixiyeyaal badan oo noocyo ah u adeegsadaan ujeeddooyin tababar. Falanqayntayada waxaan ku helnay in dhammaan noocyada ugu casriyeysan ee aan tijaabinay ay awoodeen inay soo saaraan bug-fix-kii asalka ahaa ee uu qofku qoray ee loo adeegsaday tixraaca xaqiiqada dhabta ah, loona yaqaan gold patch, ama faahfaahinta bayaanka dhibaatada eray-eray ah ee hawlo gaar ah, taasoo muujinaysa in dhammaantood ay arkeen ugu yaraan qaar ka mid ah dhibaatooyinka iyo xalalka intii lagu jiray tababarka.
Waxaan sidoo kale helnay caddayn muujinaysa in noocyada arkay dhibaatooyinka intii lagu jiray tababarka ay u badan tahay inay guulaystaan, sababtoo ah waxay hayaan xog dheeraad ah oo loo baahan yahay si looga gudbo tijaabooyinka aan si buuxda loo qeexin.
Tani waxay ka dhigan tahay in horumarka SWE-bench Verified aanu mar dambe ka tarjumayn horumar macno leh oo ku yimid awoodaha dhabta ah ee horumarinta softiweerka ee noocyada. Halkii, si isa soo taraysa wuxuu uga tarjumayaa inta uu noocu ula kulmay halbeegga intii lagu jiray tababarka. Tani waa sababta aannu u joojinay sheegista dhibcaha SWE-bench Verified, waxaana ku talinaynaa in horumariyeyaasha kale ee noocyaduna sidaas oo kale sameeyaan.
Waxaan dhisaynnaa qiimayno cusub oo aan wasakhow lahayn si si fiican loola socdo awoodaha koodhaynta, waxaanan u aragnaa tani inay tahay meel muhiim ah oo ay tahay in bulshadabarista ballaaran diiradda saarto. Ilaa aan ka helayno kuwaas, OpenAI waxay ku talinaysaa in la soo sheego natiijooyinka SWE-bench Pro.
Qiimayntii asalka ahayd ee SWE-bench(ku furmaa daaqad cusub) waxaa la sii daayay 2023. Dhibaato kasta waxa laga soo qaaday issue la xalliyay oo GitHub ah oo ku jira mid ka mid ah 12 keydka koodhka Python ee il-furan waxaana lala lammaaniyay codisga beddelka koodhka (PR) ee u dhigma. Si loo go’aamiyo in beddelka koodhka ee nooc-sameeyay uu sax yahay, dhibaato kastaa waxay la timaadaa laba qaybood oo tijaabooyin ah:
- Tijaabooyin ku fashilma codebase-ka aan wax laga beddelin balse gudba haddii issue-ga si sax ah loo hagaajiyo
- Tijaabooyinka regression-ka oo gudba ka hor iyo ka dib hagaajinta si loo hubiyo in shaqooyin aan la xiriirin ay sidoodii ahaanayaan.
Noocu ma arko tijaabooyinka. Waa inuu soo saaraa beddelka koodhka iyadoo la siinayo oo keliya qoraalka issue-ga asalka ah iyo xaaladda keydka koodhka ka hor hagaajinta. Wuxuu ku gudbaa dhibaato keliya haddii dhammaan tijaabooyinku gudbaan ka dib marka beddelka koodhka la dabaqo.
Waxaan helnay dhibaatooyin badan oo ku jiray qiimayntaas kuwaas oo keeni kara in awoodda noocyada si hoose loo soo sheego.
- Qaar ka mid ah unit tests-ku aad bay u gaar ahaayeen ama hawsha lama jaanqaadi jirin sidaas darteed hagaajinno sax ah waa la diidi karay.
- Bayaanno badan oo hawleed si buuxda looma qeexin, taas oo keeni karta fasiraado badan oo sax ah - halka tijaabooyinku ay daboolayeen mid gaar ah oo keliya.
- Iyada oo ku xidhan habaynta deegaanka (tusaale ahaan Linux vs Windows, ama nooca python), qaar ka mid ah tijaabooyinka si been ah ayey u fashilmi kareen
Waxaan abuurnay SWE-bench Verified 2024 si aan wax uga qabanno dhibaatooyinkan. Waxaan la shaqaynay injineerro softiweer oo khibrad leh si ay dib ugu eegaan 1,699 dhibaato SWE-bench ah oo ay uga sifeeyaan dhibaatooyinka lahaa arrimahan. Dhibaato kasta waxa si madax-bannaan u eegay saddex khabiir. Habkan dib-u-eegista ahi wuxuu dhalay SWE-bench Verified, oo ah set si taxaddar leh loo habeeyay oo ka kooban 500 dhibaato.
Inkasta oo SWE-bench Verified uu yahay horumar weyn marka loo eego noocii hore, haddana dhibaatooyin hadhay way jiraan. Waxaan samaynay hubin ku saabsan 138 dhibaato SWE-bench Verified ah oo OpenAI o3 aanu si joogto ah u xallin 64 jeer oo madax-bannaan. Kiis kasta waxa si madax-bannaan u eegay ugu yaraan lix injineer softiweer oo khibrad leh. Haddii khabiir uu calaamadeeyo dhibaato, waxa mar kale xaqiijiyay koox dheeraad ah.
Waxaan ogaanay in 59.4% ka mid ah 138-ka dhibaato ay ku jireen dhibaatooyin muhiim ah oo la xiriira naqshadaynta tijaabada iyo/ama sharaxaadda dhibaatada, taas oo ka dhigaysa kuwo aad u adag ama aan suurtagal ahayn xitaa nooca ama qofka ugu awoodda badan inuu xalliyo.
- 35.5% hawlaha la hubiyay waxay leeyihiin kiisaska tijaabada adag ee ku khasbaya faahfaahin gaar ah oo fulineed, taas oo aan ansax ka dhigin gudbinno badan oo si shaqayn ahaan sax ah, kuwaas oo aan ugu yeerno kiisaska tijaabada cidhiidhiga ah.
- 18.8% hawlaha la hubiyay waxay leeyihiin tijaabooyin hubiya shaqooyin dheeraad ah oo aan lagu qeexin sharaxaadda dhibaatada, kuwaas oo aan ugu yeerno kiisaska tijaabada ballaadhan.
- 5.1% ee hadhay ee hawlaha waxay lahaayeen dhibaatooyin kala duwan oo aan si fiican loogu kooxayn taksinoomiyaddan.
Tusaale sharxaya qaabka fashilka koowaad waa pylint-dev__pylint-4551(ku furmaa daaqad cusub), halkaas oo PR-ku ku soo kordhiyo hawl cusub oo la yidhaahdo `get_annotation` taas oo qayb ka ah xalka guud. Magaca hawshan laguma xusin sharaxaadda dhibaatada, balse tijaabooyinku si toos ah ayay u import-gareeyaan. Inkasta oo qaar ka mid ah noocyadu ka garan karaan inay abuuraan hawl noocaas ah, haddana si adag loogama maarmaan ma aha in la hirgeliyo hawl leh magacan gaarka ah si dhibaatada si sax ah wax looga qabto. Xalal badan oo sax ah ayaa ku fashilma tijaabooyinka sababo la xiriira khaladaadka import-ga.
Sharaxaadda dhibaatada
Qayb tijaabada PR ah
Guuldarrooyinka tijaabada PR (loo gaabiyey akhris-fudayd)
Tusaale ka mid ah kiisaska tijaabada aadka u ballaadhan waa sympy__sympy-18199(ku furmaa daaqad cusub). Hawshan waxa laga soo qaatay PR wax ka qabtay saddex dhibaato oo kala duwan oo ku saabsan hawsha `nthroot_mod`, gaar ahaan #17373(ku furmaa daaqad cusub), #17377(ku furmaa daaqad cusub), iyo #18212(ku furmaa daaqad cusub). Sharaxaadda hawsha SWE-bench Verified, si kastaba ha ahaatee, waxay daboolaysaa oo keliya issue-ga ugu dambeeya #18212(ku furmaa daaqad cusub). Tani waxay abuureysaa iswaafaq-la’aan: tijaabooyinka PR-ku waxay daboolayaan dhammaan saddexda issue, halka sharaxaadduna faahfaahinayso mid keliya. Orodkayaga, noocyadu badanaa si sax ah ayay u hirgeliyaan hagaajinta la sharaxay dabadeedna way ku fashilmaan tijaabooyinka daboolaya hirgelinta labada issue ee kale.
Sharaxaadda PR-ta asalka ah (laga soo qaatay GitHub PR)
Sharaxaadda dhibaatada ee #18212
Sharaxaadda dhibaatada ee hawsha SWE-bench Verified (kaliya laga soo qaatay #18212):
SWE-bench Verified iyo keydka koodhka (saldhigyada koodhka iyo qoraallada sii-daynta) labaduba waa il-furan oo si ballaaran loo isticmaalo loona falanqeeyo, taas oo ka dhigaysa ka fogaanshaha wasakhowga mid ku adag horumariyeyaasha noocyada.
Waxaan markii ugu horreysay ku aragnay calaamadaha wasakhowga noocyadeenna gaarka ah. Tusaale ahaan, markii GPT‑5.2 ay xallisay 31 hawlood oo aan aqoonsannay inay ku dhowaad aan suurtagal ahayn in la xalliyo. Gudaha django__django-14725(ku furmaa daaqad cusub) tijaabooyinku waxay u baahan yihiin halbeeg cusub oo gaar ah `edit_only` oo aan si cad looga rabin bayaanka dhibaatada. Inta ay dhibaatada xallinayso, GPT‑5.2 waxay ku muujisaa silsiladdeeda fikirka inay hayso xog ku saabsan qoraallada sii-daynta ee faahfaahinaya isbeddellada lagu sameeyay codebase-ka, waxayna si sax ah u aqoonsataa in halbeegga `edit_only` lagu soo kordhiyay Django 4.1.
GPT‑5.2 CoT
Si loo qiimeeyo sida uu wasakhowgu uga weyn yahay si guud, waxaan abuurnay dejin red-teaming otomaatig ah. Su’aal kasta oo SWE-bench Verified ah, waxaan GPT‑5 u xilsaarnay inuu ka baaro GPT‑5.2‑Chat, Claude Opus 4.5 iyo Gemini 3 Flash Preview wasakhow. Noocyadan waxa loo doortay in laga reebo nooca caqliyeynta, balse waxaan qiraynaa inay u badan tahay inuu jiro farqi awood oo aan yarayn oo u dhexeeya.
Si loo baaro wasakhowga, GPT‑5 waxa la siiyay: aqoonsiga hawsha SWE-bench Verified, sharaxaaddeeda, gold patch, iyo tijaabooyinka PR. Muddo 15 wareeg ah, waxaan GPT‑5 u oggolaanay inuu beddelo weydiinta system/developer, weydiinta isticmaalaha, iyo assistant prefill iyo xeelado kala duwan oo soo saarid ah. Wareeg kasta ka dib, nooc garsoore ah ayaa calaamadeeyay inta xog cusub oo gaar u ah hawsha ay soo baxday, waxaana jawaab kasta loo calaamadeeyay heerka wasakhowga laga bilaabo “midna” ilaa “xooggan.” GPT‑5 waxa loo oggolaaday inuu xeeladdiisa ku waafajiyo wareegyadii hore si uu si tartiib-tartiib ah ugu soo ceshado faahfaahinta gaarka u ah hawsha. Tusaale kasta oo wasakhow xooggan leh, waxaan garsoore kale ku xaqiijinay in GPT‑5 aanu xog aad u badan u daadin nooca bartilmaameedka ah. Ugu dambayn, waxaan gacanta dib ugu eegnay tusaalooyinka “xooggan” ee ka kooban qoraallada ku jira boostigan.
Hoos waxaa ku yaal tusaalooyin wasakhow xooggan ah oo ka kala yimid bixiyeyaal noocyo kala duwan ah.
Marka la siiyo qayb gaaban oo ka mid ah sharaxaadda hawsha, GPT‑5.2 waxay soo saartaa gold patch-ka saxda ah. Gaar ahaan, waxay taqaannaa class-ka iyo method-ka saxda ah, iyo xaaladda cusub ee early return `if username is None or password is None` ee la soo kordhiyay.
Aqoonsiga hawsha: django__django-11451(ku furmaa daaqad cusub)
Soo saarista wasakhowga
Gold patch
Opus wuxuu awoodaa inuusan oo keliya soo xasuusto isbeddelkii shaqayn ee saxda ahaa ee 4 sadar ahaa ee PR-ku keenay, oo ay la socdaan filename-ka iyo method-ka gaarka ah ee uu taabtay, balse sidoo kale wuxuu eray-eray u soo xiganayaa faallada inline-ka ah ee qayb ka ahayd diff-ka.
Aqoonsiga hawsha: astropy__astropy-13236(ku furmaa daaqad cusub)
Soo saarista wasakhowga
Gold patch
Gemini 3 Flash, marka aan la siin wax xog dheeraad ah oo ku saabsan hawsha marka laga reebo aqoonsiga, wuxuu awoodaa inuu eray-eray u soo saaro faahfaahinta sharaxaadda hawsha iyo gold patch-ka. Tani waxay ka mid tahay formula-ga regex-ka cusub ee ansixinta username-ka iyo lambarada sadar ee saxda ah ee isbeddelka.
Aqoonsiga hawsha: django__django-11099(ku furmaa daaqad cusub)
Soo saarista wasakhowga
Gold patch
Dib-u-eegistan SWE-bench Verified, waxaan ka aragnaa laba cashar oo ballaadhan oo ku saabsan naqshadaynta qiimaynta. Marka koowaad, halbeegyada laga soo qaatay agab si fagaare ah loo heli karo waxay wataan khatar wasakhow, halkaas oo la kulanka xogta tababarku si aamusan u buunbuunin karo dhibcaha. Haddii xog si fagaare ah loo gurguurto loo adeegsado dhismaha halbeegga, horumariyeyaasha noocyadu waa inay sameeyaan tijaabooyin dheeraad ah oo wasakhowga lagu baarayo. Halbeegyada, iyo xitaa xalalkooda, haddii si fagaare ah loo daabaco waxay ku dambayn karaan xogta tababarka. Feejignaan dheeraad ah waa in laga muujiyaa labadaba sida xog-ururinta loo daabaco (tusaale, password protected) iyo sifaynta xogta tababarka (tusaale, si adag ugu hoggaansanaanta canary strings).
Marka labaad, dhibco-siinta otomaatigga ahi way adag tahay in si sax ah loo helo; kiisaska tijaabada qumman waa inay si buuxda u xaqiijiyaan shaqada saxda ah, iyagoo aan ku xirnayn faahfaahin fulineed oo gaar ah oo aan muhiim ahayn isla markaana u adkaysanaya xalal jid-gaaban ah. Dhibaatooyinkani asal ahaan waa kuwo adag oo ay ku dhib badan tahay in la xalliyo. Qabashada dhibaatooyinkan waxay qaadatay ololeyaal badan oo summadayn aadanaha oo ballaadhan.
Waxaan natiijooyinkan ku darnay dadaalladayadii qiimayneed ee dhawaanahan. Bilihii u dambeeyay waxaan doorannay inaan soo sheegno natiijooyinka public split-ka SWE-Bench Pro. Waxaan ku talinaynaa in horumariyeyaasha kale ee noocyaduna sidaas oo kale sameeyaan. SWE-bench Pro ma aha mid qumman, balse si waayo-aragnimo ku dhisan waxay u muuqataa inuu si yar uga dhib yar yahay arrimaha wasakhowga. Tuubadayada wasakhowga waxay heshay qaar ka mid ah kiisaska wasakhowga, balse kiisaskani aad bay uga naadir badnaayeen ugana xumaan yaraayeen SWE-bench Verified, mana jirin nooc awood u yeeshay inuu soo saaro gold patch dhamaystiran oo eray-eray ah.
Waxaan sii wadi doonnaa maalgelinta halbeegyada asalka ah ee si gaar ah loo qoray waxaanan warshadaha iyo jaamacadaha ka codsanaynaa inay sidaas oo kale sameeyaan. Gudaha GDPVal, hawlaha waxa si gaar ah u qora khubaro maaddadeed, taas oo yaraynaysa khatarta la kulanka, xalalkana si guud ayay u qiimeeyaan dib-u-eegayaal tababaran. Habkani waa mid khayraad-badan, balse si isa soo taraysa ayuu lagama maarmaan ugu yahay cabbiridda horumarrada awoodda ee dhabta ah.


