ઑગસ્ટ 2024માં અમે પ્રથમ વખત SWE-bench Verified પ્રકાશિત કર્યા પછીથી, ઉદ્યોગે સ્વાયત્ત સોફ્ટવેર એન્જિનિયરિંગ કાર્યો પર મોડલની પ્રગતિ માપવા માટે તેનો વ્યાપક ઉપયોગ કર્યો છે. તેના પ્રકાશન પછી, SWE-bench Verifiedએ ક્ષમતા પ્રગતિનો મજબૂત સંકેત આપ્યો અને અત્યાધુનિક મોડલ રિલીઝમાં અહેવાલિત થતો પ્રમાણભૂત માપદંડ બન્યો. આ ક્ષમતાઓની પ્રગતિને ટ્રૅક કરવી અને તેનું પૂર્વાનુમાન કરવું OpenAIના પ્રિપેરડનેસ ફ્રેમવર્કનો પણ મહત્વપૂર્ણ ભાગ છે. જ્યારે અમે શરૂઆતમાં Verified બેન્ચમાર્ક બનાવ્યો, ત્યારે અમે મૂળ મૂલ્યાંકનમાં રહેલી એવી સમસ્યાઓ ઉકેલવાનો પ્રયાસ કર્યો જે SWE-bench dataset(નવી વિન્ડોમાં ખૂલે છે)માં કેટલાક કાર્યોને પૂર્ણ કરવાનું અશક્ય બનાવતી હતી.
શરૂઆતના ઉછાળા પછી, SWE-bench Verified પર અત્યાધુનિક પ્રગતિ ધીમી પડી છે, અને છેલ્લા 6 મહિનામાં 74.9% થી 80.9% સુધી સુધારો(નવી વિન્ડોમાં ખૂલે છે) થયો છે. આ પ્રશ્ન ઉભો થાય છે: શું બાકી રહેલી નિષ્ફળતાઓ મોડલની મર્યાદાઓ દર્શાવે છે કે ડેટાસેટની પોતાની વિશેષતાઓને?
એક નવા વિશ્લેષણમાં, અમને Verified સેટમાં બે મોટી સમસ્યાઓ મળી, જે દર્શાવે છે કે આજના પ્રદર્શન સ્તરે અત્યાધુનિક લોન્ચ માટે સ્વાયત્ત સોફ્ટવેર એન્જિનિયરિંગ ક્ષમતાઓની પ્રગતિ માપવા માટે આ બેન્ચમાર્ક હવે યોગ્ય નથી:
- ટેસ્ટો સાચા ઉકેલો નકારી કાઢે છે: અમે ડેટાસેટના 27.6% ઉપસેટનું ઓડિટ કર્યું, જેમાં એવા પ્રશ્નો હતા જે મોડલો ઘણીવાર ઉકેલી શકતા નહોતા, અને જાણવા મળ્યું કે ઓડિટ કરાયેલા પ્રશ્નોમાંથી ઓછામાં ઓછા 59.4%માં ખામિયુક્ત ટેસ્ટ કેસ છે, જે કાર્યાત્મક રીતે સાચી સબમિશનને નકારી કાઢે છે, જ્યારે SWE-bench Verifiedની શરૂઆતની રચનામાં અમે આ સુધારવા માટે શ્રેષ્ઠ પ્રયાસ કર્યો હતો.
- ઉકેલો પર તાલીમ: મોટા અત્યાધુનિક મોડલો તેમની તાલીમમાંથી માહિતી શીખી શકે છે, તેથી મહત્વનું છે કે જે પ્રશ્નો અને ઉકેલો પર તેમનું મૂલ્યાંકન થાય છે, તેના પર તેમને ક્યારેય તાલીમ આપવામાં ન આવે. આ એવું જ છે જેમ કે પરીક્ષા પહેલાં વિદ્યાર્થીઓ સાથે આવનારી કસોટીના પ્રશ્નો અને ઉકેલો વહેંચવામાં આવે. તેઓ કદાચ જવાબ કંટસ્થ ન કરે, પણ જેઓએ જવાબો પહેલાં જોયા હોય તેઓ ચોક્કસપણે તેઓ કરતાં સારું કરશે જેઓએ જોયા નથી. SWE-bench પ્રશ્નો ખુલ્લા સ્રોતની રિપોઝિટરીઓમાંથી લેવામાં આવે છે, જેનો ઘણા મોડલ પ્રદાતાઓ તાલીમ હેતુઓ માટે ઉપયોગ કરે છે. અમારા વિશ્લેષણમાં અમે જોયું કે અમે પરીક્ષણ કરેલા બધા અત્યાધુનિક મોડલો મૂળ માનવ-લિખિત બગ ફિક્સ, જે ગ્રાઉન્ડ-ટ્રુથ સંદર્ભ તરીકે વપરાય છે અને ગોલ્ડ પેચ તરીકે ઓળખાય છે, અથવા કેટલીક કાર્યો માટે શબ્દશઃ સમસ્યાના નિવેદનની વિગતો ફરી ઉત્પન્ન કરી શક્યા, જે દર્શાવે છે કે તાલીમ દરમિયાન તેમણે ઓછામાં ઓછા કેટલાક પ્રશ્નો અને ઉકેલો જોયા છે.
અમને આનો પુરાવો પણ મળ્યો કે તાલીમ દરમિયાન પ્રશ્નો જોઈ ચૂકેલા મોડલો સફળ થવાની વધુ શક્યતા ધરાવે છે, કારણ કે તેમની પાસે અધૂરી રીતે નિર્ધારિત ટેસ્ટ પાસ કરવા માટે જરૂરી વધારાની માહિતી હોય છે.
તેનો અર્થ એ છે કે SWE-bench Verified પરના સુધારા હવે વાસ્તવિક દુનિયાની સોફ્ટવેર વિકાસ ક્ષમતાઓમાં મોડલોના અર્થપૂર્ણ સુધારાને દર્શાવતા નથી. તેના બદલે, તે વધતી જતી રીતે દર્શાવે છે કે તાલીમ સમયે મોડલને આ બેન્ચમાર્કનો કેટલો પરિચય મળ્યો હતો. આ કારણે અમે SWE-bench Verified સ્કોરનો અહેવાલ આપવો બંધ કર્યો છે, અને અમે અન્ય મોડલ વિકાસકર્તાઓને પણ એવું કરવા ભલામણ કરીએ છીએ.
અમે કોડિંગ ક્ષમતાઓને વધુ સારી રીતે ટ્રૅક કરવા માટે નવા, અપ્રદૂષિત મૂલ્યાંકન બનાવી રહ્યા છીએ, અને અમને લાગે છે કે વ્યાપક સંશોધન સમુદાય માટે આ એક મહત્વપૂર્ણ ક્ષેત્ર છે. ત્યાં સુધી, OpenAI SWE-bench Pro માટેના પરિણામો અહેવાલિત કરવાની ભલામણ કરે છે.
મૂળ SWE-bench(નવી વિન્ડોમાં ખૂલે છે) મૂલ્યાંકન 2023માં જાહેર થયું હતું. દરેક પ્રશ્ન 12 ખુલ્લા સ્રોતવાળી Python રિપોઝિટરીમાંથી કોઈ એકના સમાધાન પામેલા GitHub issueમાંથી લેવાયેલો હોય છે અને તેની સાથે સંબંધિત pull request (PR) જોડાયેલ હોય છે. મોડલ દ્વારા બનાવવામાં આવેલ કોડ ફેરફાર સાચો છે કે નહીં તે નક્કી કરવા માટે, દરેક પ્રશ્ન સાથે બે પ્રકારની ટેસ્ટો આવે છે:
- એવી ટેસ્ટો જે બિનફેરફાર કરેલી કોડબેઝ પર નિષ્ફળ જાય, પણ issue યોગ્ય રીતે ઠીક કરવામાં આવે તો પાસ થાય.
- રિગ્રેશન ટેસ્ટો જે ફિક્સ પહેલાં અને પછી બંને વખતે પાસ થાય, જેથી અસંબંધિત કાર્યક્ષમતા અક્ષુન્ન રહે તે સુનિશ્ચિત થાય.
મોડલને ટેસ્ટો દેખાતી નથી. તેને માત્ર મૂળ issue લખાણ અને ફિક્સ પહેલાંની રિપોઝિટરીની સ્થિતિના આધારે કોડ ફેરફાર બનાવવો પડે છે. કોડ ફેરફાર લાગુ કર્યા પછી બધી ટેસ્ટો પાસ થાય ત્યારે જ તે પ્રશ્ન પાસ કરે છે.
અમને તે મૂલ્યાંકનમાં ઘણી એવી સમસ્યાઓ મળી જે મોડલની ક્ષમતાને ઓછી દર્શાવી શકે.
- કેટલાક unit tests બહુ ચોક્કસ હતા અથવા કાર્ય સાથે ગેરસુસંગત હતા, તેથી સાચા ફિક્સ નકારી શકાય.
- ઘણા કાર્ય નિવેદનો અધૂરા રીતે નિર્ધારિત હતા, જેના કારણે અનેક માન્ય અર્થઘટનો શક્ય બનતા, જ્યારે ટેસ્ટો માત્ર એક ચોક્કસ અર્થઘટન આવરી લેતી હતી.
- પર્યાવરણની ગોઠવણી પર આધાર રાખીને, જેમ કે Linux સામે Windows અથવા Python સંસ્કરણ, કેટલીક ટેસ્ટો ખોટી રીતે નિષ્ફળ જઈ શકે.
આ સમસ્યાઓ ઉકેલવા માટે અમે 2024માં SWE-bench Verified બનાવ્યું. અમે નિષ્ણાત સોફ્ટવેર એન્જિનિયરો સાથે મળીને 1,699 SWE-bench પ્રશ્નોની સમીક્ષા કરી અને આ સમસ્યાઓ ધરાવતા પ્રશ્નોને દૂર કર્યા. દરેક પ્રશ્નની સમીક્ષા ત્રણ નિષ્ણાતોએ સ્વતંત્ર રીતે કરી. આ પ્રક્રિયાના પરિણામે SWE-bench Verified તરીકે 500 પ્રશ્નોનો ક્યુરેટ કરેલો સેટ બન્યો.
જ્યાં SWE-bench Verified શરૂઆતના સંસ્કરણ કરતાં ઘણો સુધારો છે, ત્યાં પણ બાકી સમસ્યાઓ યથાવત છે. અમે 138 SWE-bench Verified પ્રશ્નોનું ઓડિટ કર્યું, જે OpenAI o3 64 સ્વતંત્ર રનોમાં સતત ઉકેલી શક્યું નહોતું. દરેક કેસની સમીક્ષા ઓછામાં ઓછા છ અનુભવી સોફ્ટવેર એન્જિનિયરો દ્વારા સ્વતંત્ર રીતે કરવામાં આવી. જો કોઈ નિષ્ણાતે સમસ્યા દર્શાવી, તો વધારાની ટીમ દ્વારા તેની ફરી પુષ્ટિ કરવામાં આવી.
અમને જાણવા મળ્યું કે 138માંથી 59.4% પ્રશ્નોમાં ટેસ્ટ ડિઝાઇન અને/અથવા પ્રશ્ન વર્ણનમાં ગંભીર સમસ્યાઓ હતી, જેને કારણે તેઓ અત્યંત મુશ્કેલ અથવા સૌથી ક્ષમતા ધરાવતા મોડલ કે માનવ માટે પણ ઉકેલવા અશક્ય બની જતા હતા.
- ઓડિટ કરાયેલા 35.5% કાર્યોમાં કડક ટેસ્ટ કેસો છે, જે ચોક્કસ અમલીકરણ વિગતો જ બલવત કરે છે અને ઘણી કાર્યાત્મક રીતે સાચી સબમિશનને અમાન્ય બનાવી દે છે. અમે તેને સંકુચિત ટેસ્ટ કેસો કહીએ છીએ.
- ઓડિટ કરાયેલા 18.8% કાર્યોમાં એવી ટેસ્ટો છે, જે પ્રશ્ન વર્ણનમાં નિર્ધારિત ન કરાયેલ વધારાની કાર્યક્ષમતા તપાસે છે. અમે તેને વ્યાપક ટેસ્ટ કેસો કહીએ છીએ.
- બાકીના 5.1% કાર્યોમાં વિવિધ પ્રકારની સમસ્યાઓ હતી, જેને આ વર્ગીકરણ સાથે સારી રીતે જૂથબદ્ધ કરી શકાય નહોતાં.
પ્રથમ નિષ્ફળતા પ્રકારનું દૃષ્ટાંતરૂપ ઉદાહરણ pylint-dev__pylint-4551(નવી વિન્ડોમાં ખૂલે છે) છે, જ્યાં PR સમગ્ર ઉકેલના ભાગરૂપે નવી function `get_annotation` રજૂ કરે છે. આ functionનું નામ પ્રશ્ન વર્ણનમાં ઉલ્લેખિત નથી, પણ ટેસ્ટો તેને સીધું import કરે છે. કેટલાક મોડલો એવો function બનાવવાનો અંદાજ લગાવી શકે, છતાં સમસ્યાનું યોગ્ય નિવારણ કરવા માટે આ ચોક્કસ નામવાળી function અમલમાં મૂકવી કડક રીતે જરૂરી નથી. ઘણા માન્ય ઉકેલો import errorને કારણે ટેસ્ટોમાં નિષ્ફળ જાય છે.
સમસ્યાનું વર્ણન
PR ટેસ્ટ અંશ
PR ટેસ્ટ નિષ્ફળતા (વાંચવામાં સરળતા માટે ટૂંકાવેલ)
અતિ વ્યાપક ટેસ્ટ કેસોનું ઉદાહરણ sympy__sympy-18199(નવી વિન્ડોમાં ખૂલે છે) છે. આ કાર્ય એવા PRમાંથી લેવામાં આવ્યું હતું જેણે `nthroot_mod` function સાથે જોડાયેલી ત્રણ અલગ સમસ્યાઓ ઉકેલી હતી, ખાસ કરીને #17373(નવી વિન્ડોમાં ખૂલે છે), #17377(નવી વિન્ડોમાં ખૂલે છે), અને #18212(નવી વિન્ડોમાં ખૂલે છે). પરંતુ SWE-bench Verified કાર્યનું વર્ણન ફક્ત અંતિમ issue #18212(નવી વિન્ડોમાં ખૂલે છે)ને આવરી લે છે. આ અસંગતિ ઊભી કરે છે: PR ટેસ્ટો ત્રણેય issuesને આવરી લે છે, જ્યારે વર્ણન માત્ર એકનું વિગત આપે છે. અમારી રનોમાં, મોડલો ઘણીવાર વર્ણવાયેલ ફિક્સ યોગ્ય રીતે અમલમાં મૂકે છે અને પછી બાકીના બે issues માટેના અમલીકરણ આવરી લેતી ટેસ્ટોમાં નિષ્ફળ જાય છે.
મૂળ PR વર્ણન (GitHub PR માંથી)
#18212 માટે સમસ્યાનું વર્ણન
SWE-bench Verified કાર્ય માટે સમસ્યાનું વર્ણન (ફક્ત #18212 માંથી લેવામાં આવેલ):
SWE-bench Verified અને રિપોઝિટરીઓ (કોડબેઝ અને રિલીઝ નોંધો) બંને ખુલ્લા સ્રોતવાળા છે અને વ્યાપક રીતે ઉપયોગમાં લેવાય છે તથા ચર્ચાય છે, જેના કારણે મોડલ વિકાસકર્તાઓ માટે પ્રદૂષણ ટાળવું મુશ્કેલ બને છે.
અમને પ્રથમ પ્રદૂષણના સંકેતો અમારા પોતાના મોડલોમાં મળ્યા. ઉદાહરણ તરીકે, જ્યારે GPT‑5.2એ 31 એવા કાર્યો ઉકેલી દીધા જેને અમે લગભગ અશક્ય ગણાવતા હતા. django__django-14725(નવી વિન્ડોમાં ખૂલે છે)માં ટેસ્ટો ચોક્કસ નવા parameter `edit_only`ની માંગ કરે છે, જે પ્રશ્ન નિવેદનમાં સ્પષ્ટ રીતે આવશ્યક તરીકે આપવામાં આવેલ નથી. સમસ્યા ઉકેલતી વખતે GPT‑5.2 તેની chain of thoughtમાં બતાવે છે કે તેને રિલીઝ નોંધોની એવી માહિતી છે જે કોડબેઝમાં થયેલા ફેરફારોનું વર્ણન કરે છે, અને તે યોગ્ય રીતે ઓળખે છે કે `edit_only` parameter Django 4.1માં રજૂ થયો હતો.
GPT‑5.2 CoT
વધુ વ્યાપક સ્તરે પ્રદૂષણ કેટલું મહત્વપૂર્ણ છે તે આંકવા માટે, અમે સ્વચાલિત red-teaming ગોઠવણી બનાવી. દરેક SWE-bench Verified પ્રશ્ન માટે, અમે GPT‑5ને GPT‑5.2‑Chat, Claude Opus 4.5 અને Gemini 3 Flash Previewમાં પ્રદૂષણ શોધવાની જવાબદારી સોંપી. આ મોડલો એવા માટે પસંદ કરવામાં આવ્યા કે reasoning મોડલોને બહાર રાખી શકાય, જોકે અમે સ્વીકારીએ છીએ કે તેમની વચ્ચે ક્ષમતાનો તફાવત નોંધપાત્ર હોવાની શક્યતા છે.
પ્રદૂષણ તપાસવા માટે GPT‑5ને મળ્યું: SWE-bench Verified કાર્યનું ID, વર્ણન, ગોલ્ડ પેચ અને PR ટેસ્ટો. 15 turns દરમ્યાન, અમે GPT‑5ને system/developer prompt, user prompt, assistant prefill અને જુદી જુદી elicitation વ્યૂહરચનાઓ બદલી શકાય તેવી છૂટ આપી. દરેક turn પછી, એક judge મોડલે કેટલું નવું કાર્ય-વિશિષ્ટ માહિતી દેખાઈ તે લેબલ કર્યું અને દરેક પ્રતિભાવને “none” થી “strong” સુધીની પ્રદૂષણ ગંભીરતા માટે લેબલ કરવામાં આવ્યો. અગાઉના turnsના આધારે GPT‑5ને તેની વ્યૂહરચના ઢાળવાની અને ધીમે ધીમે કાર્ય-વિશિષ્ટ વિગતો મેળવવાની મંજૂરી હતી. મજબૂત પ્રદૂષણના દરેક ઉદાહરણ માટે, અમે બીજા judge દ્વારા પુષ્ટિ કરી કે GPT‑5એ target મોડલને અતિશય માહિતી લીક કરી નહોતી. અંતે, અમે આ પોસ્ટમાંના transcripts બને તેવા “strong” ઉદાહરણોની હાથથી સમીક્ષા કરી.
નીચે વિવિધ મોડલ પ્રદાતાઓમાં મજબૂત પ્રદૂષણના ઉદાહરણો છે.
કાર્ય વર્ણનમાંથી નાનો અંશ આપતાં, GPT‑5.2 ચોક્કસ ગોલ્ડ પેચ આપે છે. ખાસ કરીને, તેને ચોક્કસ class અને method નામ, તેમજ નવી early return condition `if username is None or password is None` વિશે જાણ છે, જે ઉમેરવામાં આવી છે.
પ્રદૂષણ બહાર લાવવું
ગોલ્ડ પેચ
Opus PR દ્વારા રજૂ કરાયેલ ચોક્કસ 4-લાઇન કાર્યાત્મક ફેરફાર, તેમજ તે જે ચોક્કસ filename અને methodને સ્પર્શે છે, તે માત્ર યાદ જ નથી રાખતું, પણ diffનો ભાગ રહેલી inline comment પણ શબ્દશઃ ઉદ્ધરિત કરે છે.
પ્રદૂષણ બહાર લાવવું
ગોલ્ડ પેચ
Gemini 3 Flashને કાર્ય વિશે ID સિવાય વધુ કોઈ માહિતી ન આપતાં પણ, તે કાર્ય વર્ણન અને ગોલ્ડ પેચમાંથી શબ્દશઃ વિગતો આપી શકે છે. તેમાં username validation માટેનું નવું regex સૂત્ર અને ફેરફાર માટેની ચોક્કસ line numbersનો સમાવેશ થાય છે.
પ્રદૂષણ બહાર લાવવું
ગોલ્ડ પેચ
SWE-bench Verifiedના આ ઓડિટમાંથી, અમે મૂલ્યાંકન ડિઝાઇન માટે બે વ્યાપક પાઠ જોીએ છીએ. પ્રથમ, જાહેરમાં ઉપલબ્ધ સામગ્રીમાંથી લેવામાં આવેલા બેન્ચમાર્કમાં પ્રદૂષણનો જોખમ હોય છે, જ્યાં તાલીમ ડેટા એક્સ્પોઝર શાંતિથી સ્કોરને ફૂલાવી શકે છે. જો જાહેર રીતે ક્રૉલ કરાયેલ ડેટાનો ઉપયોગ બેન્ચમાર્ક બનાવવા માટે થાય, તો મોડલ વિકાસકર્તાઓએ પ્રદૂષણ માટે વધારાની ટેસ્ટો કરવી જોઈએ. જાહેરમાં પોસ્ટ કરાયેલા બેન્ચમાર્કો અને તેમનાં ઉકેલો પણ તાલીમ ડેટામાં પહોંચી શકે છે. ડેટાસેટ કેવી રીતે પોસ્ટ થાય છે (જેમ કે password protected) અને તાલીમ ડેટા ફિલ્ટરિંગ (જેમ કે canary stringsનું કડક પાલન) બંનેમાં વધારાની કાળજી લેવાય તે જોઈએ.
બીજું, સ્વચાલિત સ્કોરિંગને યોગ્ય રીતે કરવું મુશ્કેલ છે. ઉત્તમ ટેસ્ટ કેસો સાચી કાર્યક્ષમતાને સંપૂર્ણ રીતે ચકાસે, જેમાં અગત્યના ન હોય એવા ચોક્કસ અમલીકરણ વિગતો પ્રત્યે નિષ્પક્ષ હોવું પણ જોઈએ અને shortcut ઉકેલો સામે મજબૂત પણ હોવું જોઈએ. આ સમસ્યાઓ સ્વભાવથી જ જટિલ છે અને ઉકેલવી મુશ્કેલ છે. આવી સમસ્યાઓ પકડવા માટે વિશાળ માનવીય લેબલિંગ અભિયાનો કરવાની જરૂર પડી હતી.
અમે આ નિષ્કર્ષોને અમારા તાજેતરના મૂલ્યાંકન પ્રયત્નોમાં સામેલ કર્યા છે. છેલ્લા કેટલાક મહિનાઓમાં અમે SWE-Bench Proના public splitમાંથી પરિણામો અહેવાલિત કરવાનું પસંદ કર્યું છે. અમે અન્ય મોડલ વિકાસકર્તાઓને પણ એવું જ કરવાની ભલામણ કરીએ છીએ. SWE-bench Pro સંપૂર્ણ નથી, પરંતુ અનુભવ મુજબ તેમાં પ્રદૂષણની સમસ્યાઓ ઓછી દેખાય છે. અમારી પ્રદૂષણ પાઇપલાઇનને કેટલાક પ્રદૂષણના કેસ મળ્યા, પરંતુ આ કેસો SWE-bench Verified કરતાં નોંધપાત્ર રીતે દુર્લભ અને ઓછા ગંભીર હતા, અને કોઈ મોડલ સંપૂર્ણ શબ્દશઃ ગોલ્ડ પેચ આપી શક્યું નહોતું.
અમે મૂળ, ખાનગી રીતે રચાયેલા બેન્ચમાર્કમાં રોકાણ ચાલુ રાખીશું અને ઉદ્યોગ તથા શૈક્ષણિક જગતને પણ એવું જ કરવા મદદ માગીશું. GDPValમાં કાર્યો ડોમેન નિષ્ણાતો દ્વારા ખાનગી રીતે રચાય છે, જે એક્સ્પોઝરનો જોખમ ઘટાડે છે, અને ઉકેલોનું સમગ્રીલક્ષી મૂલ્યાંકન પ્રશિક્ષિત સમીક્ષકો દ્વારા કરવામાં આવે છે. આ અભિગમ સંસાધન-ગાહક છે, પરંતુ ખરા ક્ષમતા સુધારાને માપવા માટે વધતી જતી રીતે આવશ્યક બની રહ્યો છે.


