SWE-bench Verified ကို 2024 ခုနှစ် ဩဂုတ်လတွင် ကျွန်ုပ်တို့ ပထမဆုံး ထုတ်ဝေခဲ့ပြီးနောက်ပိုင်း၊ လုပ်ငန်းနယ်ပယ်တစ်ဝန်းတွင် ၎င်းကို ကိုယ်တိုင်လုပ်ဆောင်နိုင်သော software engineering လုပ်ငန်းတာဝန်များအပေါ် မော်ဒယ်များ၏ တိုးတက်မှုကို တိုင်းတာရန် ကျယ်ကျယ်ပြန့်ပြန့် အသုံးပြုခဲ့ကြသည်။ ထုတ်ပြန်ပြီးနောက် SWE-bench Verified သည် စွမ်းရည်တိုးတက်မှုအတွက် အားကောင်းသော အချက်ပြမှုတစ်ခုကို ပေးခဲ့ပြီး စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ် ထုတ်ပြန်မှုများတွင် အစီရင်ခံသည့် စံမီထရစ်တစ်ခု ဖြစ်လာခဲ့သည်။ ဤစွမ်းရည်များ၏ တိုးတက်မှုကို ခြေရာခံခြင်းနှင့် ခန့်မှန်းခြင်းသည် OpenAI ၏ ကြိုတင်ပြင်ဆင်ထားခြင်းဆိုင်ရာ ဖွဲ့စည်းမှု ၏ အရေးကြီးသော အစိတ်အပိုင်းတစ်ခုလည်း ဖြစ်သည်။ Verified benchmark ကို မူလဖန်တီးစဉ်က SWE-bench dataset(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် အချို့သော လုပ်ငန်းတာဝန်များကို ပြီးမြောက်အောင် ဆောင်ရွက်ရန် မဖြစ်နိုင်စေခဲ့သော မူရင်းအကဲဖြတ်စနစ်၏ ပြဿနာများကို ဖြေရှင်းရန် ကျွန်ုပ်တို့ ကြိုးပမ်းခဲ့သည်။
ကနဦး ခုန်တက်တိုးတက်မှုများအပြီး SWE-bench Verified ပေါ်ရှိ အကောင်းဆုံးစွမ်းဆောင်ရည် တိုးတက်မှုသည် နှေးကွေးလာခဲ့ပြီး၊ လွန်ခဲ့သော 6 လအတွင်း 74.9% မှ 80.9% သို့ တိုးတက်(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) လာခဲ့သည်။ ၎င်းက မေးခွန်းတစ်ခုကို ပေါ်ထွက်စေသည်။ ကျန်ရှိနေသော မအောင်မြင်မှုများသည် မော်ဒယ်ကန့်သတ်ချက်များကို ထင်ဟပ်နေသလား၊ သို့မဟုတ် dataset ကိုယ်တိုင်၏ ဂုဏ်သတ္တိများကိုလား?
အသစ်ပြုလုပ်ထားသော ခွဲခြမ်းစိတ်ဖြာမှုတစ်ခုတွင် ယနေ့၏ စွမ်းဆောင်ရည်အဆင့်များ၌ စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ် ထုတ်ပြန်မှုများအတွက် ကိုယ်တိုင်လုပ်ဆောင်နိုင်သော software engineering စွမ်းရည်များ၏ တိုးတက်မှုကို တိုင်းတာရာတွင် Verified set သည် မသင့်လျော်တော့ကြောင်း ပြသသော အဓိကပြဿနာ နှစ်ခုကို ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်-
- Tests များက မှန်ကန်သော ဖြေရှင်းချက်များကို ပယ်ချသည်- မော်ဒယ်များ မကြာခဏ မဖြေရှင်းနိုင်ခဲ့သော dataset ၏ 27.6% အပိုင်းကို ကျွန်ုပ်တို့ စစ်ဆေးခဲ့ရာ စစ်ဆေးထားသော ပြဿနာများအနက် အနည်းဆုံး 59.4% တွင် လုပ်ဆောင်ချက်ပိုင်းအရ မှန်ကန်သော တင်သွင်းချက်များကို ပယ်ချသော ချို့ယွင်းသည့် test cases များ ရှိနေကြောင်း တွေ့ရှိခဲ့သည်။ SWE-bench Verified ကို ကနဦးဖန်တီးစဉ်တွင် ဤအရာကို တိုးတက်ကောင်းမွန်အောင် အကောင်းဆုံး ကြိုးပမ်းခဲ့သော်လည်း အဆိုပါပြဿနာများ ဆက်လက်ရှိနေသေးသည်။
- ဖြေရှင်းချက်များအပေါ် လေ့ကျင့်ခြင်း: ကြီးမားသော စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်များသည် ၎င်းတို့၏ training မှ အချက်အလက်များကို သင်ယူနိုင်သောကြောင့် အကဲဖြတ်မည့် ပြဿနာများနှင့် ဖြေရှင်းချက်များပေါ်တွင် ၎င်းတို့ကို ဘယ်တော့မှ မလေ့ကျင့်စေရန် အရေးကြီးသည်။ ဤသည်မှာ စာမေးပွဲမတိုင်မီ လာမည့် စာမေးပွဲ၏ မေးခွန်းများနှင့် အဖြေများကို ကျောင်းသားများအား မျှဝေပေးခြင်းနှင့် ဆင်တူသည်—၎င်းတို့က အဖြေကို မကျက်မှတ်ထားနိုင်သော်လည်း ယခင်က အဖြေများကို မြင်ဖူးသူများသည် မမြင်ဖူးသူများထက် သေချာပေါက် ပိုမိုကောင်းမွန်စွာ လုပ်ဆောင်နိုင်မည်ဖြစ်သည်။ SWE-bench ပြဿနာများကို မော်ဒယ်ပံ့ပိုးသူ အများအပြားက training အတွက် အသုံးပြုသော open-source repositories များမှ ရယူထားသည်။ ကျွန်ုပ်တို့၏ ခွဲခြမ်းစိတ်ဖြာမှုတွင် စမ်းသပ်ခဲ့သော စွမ်းဆောင်ရည်အမြင့်ဆုံး မော်ဒယ်အားလုံးသည် gold patch ဟု သိကြသော ground-truth reference အဖြစ် အသုံးပြုသော လူသားရေးသားထားသည့် မူရင်း bug fix ကို ပြန်လည်ထုတ်လုပ်နိုင်ကြောင်း၊ သို့မဟုတ် အချို့လုပ်ငန်းတာဝန်များအတွက် ပြဿနာဖော်ပြချက်၏ စကားလုံးတိတိကျကျ အသေးစိတ်များကို ထုတ်နိုင်ကြောင်း တွေ့ရှိခဲ့သည်။ ၎င်းက ၎င်းတို့အားလုံးသည် training ကာလအတွင်း ပြဿနာများနှင့် ဖြေရှင်းချက်အချို့ကို အနည်းဆုံး မြင်ဖူးကြောင်း ပြသနေသည်။
Training အတွင်း ပြဿနာများကို မြင်ဖူးသော မော်ဒယ်များသည် မသတ်မှတ်ပြည့်စုံသော tests များကို ကျော်နိုင်ရန် လိုအပ်သော ထပ်ဆောင်းအချက်အလက်များ ရှိနေသောကြောင့် အောင်မြင်နိုင်ခြေ ပိုများကြောင်း သက်သေအထောက်အထားကိုလည်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။
၎င်းက SWE-bench Verified ပေါ်ရှိ တိုးတက်မှုများသည် မော်ဒယ်များ၏ လက်တွေ့ကမ္ဘာ software development စွမ်းရည်များတွင် အဓိပ္ပာယ်ရှိသော တိုးတက်မှုကို မထင်ဟပ်တော့ကြောင်း ဆိုလိုသည်။ ထိုအစား ၎င်းတို့သည် training အချိန်တွင် benchmark ကို မော်ဒယ်က မည်မျှ ထိတွေ့ခဲ့ရသည်ကို ပိုမိုထင်ဟပ်လာသည်။ ထို့ကြောင့် ကျွန်ုပ်တို့သည် SWE-bench Verified ရမှတ်များကို မအစီရင်ခံတော့ဘဲ အခြား မော်ဒယ်ဖန်တီးသူများလည်း ထိုသို့ လုပ်ဆောင်ရန် အကြံပြုပါသည်။
Coding စွမ်းရည်များကို ပိုမိုကောင်းမွန်စွာ ခြေရာခံနိုင်ရန် မညစ်ညမ်းသေးသော အကဲဖြတ်စနစ်အသစ်များကို ကျွန်ုပ်တို့ တည်ဆောက်လျက်ရှိပြီး၊ ဤသည်မှာ ပိုမိုကျယ်ပြန့်သော သုတေသနအသိုင်းအဝိုင်းအတွက် အရေးကြီးစွာ အာရုံစိုက်သင့်သည့် နယ်ပယ်တစ်ခုဟု ကျွန်ုပ်တို့ ယူဆပါသည်။ ထိုအကဲဖြတ်စနစ်များ မရသေးမီအထိ OpenAI က SWE-bench Pro အတွက် ရလဒ်များကို အစီရင်ခံရန် အကြံပြုပါသည်။
မူရင်း SWE-bench(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) အကဲဖြတ်စနစ်ကို 2023 ခုနှစ်တွင် ထုတ်ပြန်ခဲ့သည်။ ပြဿနာတစ်ခုစီကို open-source Python repositories 12 ခုအနက် တစ်ခုမှ ဖြေရှင်းပြီးသား GitHub issue တစ်ခုမှ ရယူထားပြီး ၎င်းနှင့် သက်ဆိုင်သော pull request (PR) နှင့် တွဲထားသည်။ မော်ဒယ်ဖန်တီးထားသော code change တစ်ခု မှန်ကန်မှုရှိမရှိ ဆုံးဖြတ်ရန် ပြဿနာတစ်ခုစီတွင် tests နှစ်စု ပါဝင်သည်-
- မပြင်ဆင်ရသေးသော codebase တွင် မအောင်မြင်သော်လည်း issue ကို မှန်ကန်စွာ ပြင်ဆင်လိုက်ပါက အောင်မြင်သော tests များ
- သက်ဆိုင်ခြင်းမရှိသော လုပ်ဆောင်ချက်များ မပျက်စီးစေရန် fix မတိုင်မီနှင့် fix ပြီးနောက် နှစ်ခုစလုံးတွင် အောင်မြင်သော regression tests များ
မော်ဒယ်သည် tests များကို မမြင်ရပါ။ ၎င်းသည် မူရင်း issue စာသားနှင့် fix မတိုင်မီ repository ၏ အခြေအနေကိုသာ ပေးထားသည့်အပေါ်မူတည်၍ code change တစ်ခုကို ထုတ်ပေးရသည်။ Code change ကို အသုံးချပြီးနောက် tests အားလုံး အောင်မြင်မှသာ ၎င်းသည် ပြဿနာကို အောင်မြင်သည်ဟု သတ်မှတ်သည်။
ထိုအကဲဖြတ်စနစ်တွင် မော်ဒယ်များ၏ စွမ်းရည်ကို လျော့နည်းဖော်ပြစေနိုင်သော ပြဿနာများစွာ ရှိကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။
- အချို့ unit tests များသည် အလွန်တိကျလွန်းခြင်း သို့မဟုတ် လုပ်ငန်းတာဝန်နှင့် မကိုက်ညီခြင်းကြောင့် မှန်ကန်သော fixes များကို ပယ်ချနိုင်သည်။
- လုပ်ငန်းတာဝန် ဖော်ပြချက်များစွာမှာ မသတ်မှတ်ပြည့်စုံသဖြင့် မှန်ကန်နိုင်သော အဓိပ္ပာယ်ဖွင့်ဆိုချက် အများအပြား ရှိနိုင်ပြီး tests များကတော့ တစ်မျိုးတည်းကိုသာ ဖုံးလွှမ်းထားသည်။
- ပတ်ဝန်းကျင်တပ်ဆင်ပုံ (ဥပမာ Linux နှင့် Windows ကွာခြားမှု၊ သို့မဟုတ် python version) အပေါ် မူတည်၍ အချို့ tests များသည် အကြောင်းမရှိဘဲ မအောင်မြင်နိုင်သည်။
ဤပြဿနာများကို ဖြေရှင်းရန် 2024 ခုနှစ်တွင် SWE-bench Verified ကို ကျွန်ုပ်တို့ ဖန်တီးခဲ့သည်။ ဤပြဿနာများရှိသော SWE-bench ပြဿနာများကို သုံးသပ်၍ ဖယ်ရှားရန် ကျွမ်းကျင် software engineers များနှင့် ပူးပေါင်းခဲ့သည်။ ပြဿနာတစ်ခုစီကို ကျွမ်းကျင်သူ သုံးဦးက သီးခြားစီ သုံးသပ်ခဲ့သည်။ ဤသုံးသပ်မှုလုပ်ငန်းစဉ်မှ ရွေးချယ်တည်းဖြတ်ထားသော ပြဿနာ 500 ပါဝင်သည့် SWE-bench Verified ကို ရရှိလာခဲ့သည်။
SWE-bench Verified သည် မူလဗားရှင်းထက် များစွာ တိုးတက်ကောင်းမွန်သော်လည်း ကျန်ရှိနေသေးသော ပြဿနာများလည်း ရှိနေသည်။ OpenAI o3 က သီးခြား run 64 ကြိမ်အတွင်း တသမတ်တည်း မဖြေရှင်းနိုင်ခဲ့သော SWE-bench Verified ပြဿနာ 138 ခုကို ကျွန်ုပ်တို့ စစ်ဆေးခဲ့သည်။ အမှုတစ်ခုစီကို အတွေ့အကြုံရှိ software engineers အနည်းဆုံး ခြောက်ဦးက သီးခြားစီ သုံးသပ်ခဲ့သည်။ ကျွမ်းကျင်သူတစ်ဦးက ပြဿနာတစ်ခုကို အလံပြပါက ၎င်းကို နောက်ထပ်အဖွဲ့တစ်ဖွဲ့က ထပ်မံ အတည်ပြုစစ်ဆေးခဲ့သည်။
ပြဿနာ 138 ခုအနက် 59.4% တွင် test design နှင့်/သို့မဟုတ် problem description ၌ အရေးပါသော ပြဿနာများ ပါဝင်နေပြီး၊ ထိုကြောင့် အစွမ်းအထက်ဆုံး မော်ဒယ် သို့မဟုတ် လူသားအတွက်တောင် အလွန်ခက်ခဲသည့် သို့မဟုတ် မဖြေရှင်းနိုင်သည့် အခြေအနေ ဖြစ်စေကြောင်း ကျွန်ုပ်တို့ တွေ့ရှိခဲ့သည်။
- စစ်ဆေးထားသော လုပ်ငန်းတာဝန်များ၏ 35.5% တွင် တိကျသော implementation အသေးစိတ်များကို အတင်းအကျပ် လိုက်နာစေသော တင်းကျပ်သည့် test cases များ ရှိပြီး၊ လုပ်ဆောင်ချက်ပိုင်းအရ မှန်ကန်သော submissions အများအပြားကို ပယ်ဖျက်စေသည်။ ၎င်းတို့ကို ကျဉ်းသော test cases ဟု ကျွန်ုပ်တို့ ခေါ်သည်။
- စစ်ဆေးထားသော လုပ်ငန်းတာဝန်များ၏ 18.8% တွင် problem description ထဲတွင် မဖော်ပြထားသည့် ထပ်ဆောင်း လုပ်ဆောင်ချက်များကို စစ်ဆေးသော tests များ ရှိပြီး၊ ၎င်းတို့ကို ကျယ်သော test cases ဟု ကျွန်ုပ်တို့ ခေါ်သည်။
- ကျန် 5.1% ၏ လုပ်ငန်းတာဝန်များတွင် ဤအမျိုးအစားခွဲခြားမှုနှင့် ကောင်းစွာ မအုပ်စုဖွဲ့နိုင်သည့် အခြားပြဿနာများ ပါဝင်ခဲ့သည်။
ပထမ failure mode ၏ ဥပမာတစ်ခုမှာ pylint-dev__pylint-4551(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ဖြစ်ပြီး၊ ထို PR သည် အလုံးစုံဖြေရှင်းချက်၏ တစ်စိတ်တစ်ပိုင်းအဖြစ် `get_annotation` ဟူသော function အသစ်တစ်ခုကို ထည့်သွင်းထားသည်။ ဤ function အမည်ကို problem description ထဲတွင် မဖော်ပြထားသော်လည်း tests များက တိုက်ရိုက် import လုပ်ထားသည်။ အချို့မော်ဒယ်များက ထိုကဲ့သို့ function တစ်ခု ဖန်တီးသင့်ကြောင်း ခန့်မှန်းနိုင်သော်လည်း ပြဿနာကို မှန်ကန်စွာ ဖြေရှင်းရန် ဤအမည်တိတိကျကျရှိသော function တစ်ခုကို မဖြစ်မနေ အကောင်အထည်ဖော်ရန် မလိုအပ်ပါ။ မှန်ကန်သော ဖြေရှင်းချက်များစွာသည် import errors ကြောင့် tests များတွင် မအောင်မြင်ကြသည်။
ပြဿနာ ဖော်ပြချက်
PR test အတိုချုံး
PR စမ်းသပ်မှု မအောင်မြင်ချက်များ (ဖတ်ရလွယ်အောင် အတိုချုံးထားသည်)
ကျယ်လွန်းသော test cases ၏ ဥပမာတစ်ခုမှာ sympy__sympy-18199(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ဖြစ်သည်။ ဤလုပ်ငန်းတာဝန်ကို `nthroot_mod` function နှင့် ဆိုင်သည့် ကွဲပြားသော ပြဿနာ သုံးခုဖြစ်သည့် #17373(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်)၊ #17377(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) နှင့် #18212(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကို ဖြေရှင်းထားသော PR တစ်ခုမှ ရယူထားသည်။ သို့သော် SWE-bench Verified လုပ်ငန်းတာဝန်၏ ဖော်ပြချက်မှာ နောက်ဆုံးပြဿနာ #18212(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) ကိုသာ ဖုံးလွှမ်းထားသည်။ ၎င်းက မကိုက်ညီမှုတစ်ခုကို ဖြစ်စေသည်- PR tests များက ပြဿနာ သုံးခုလုံးကို ဖုံးလွှမ်းနေသော်လည်း ဖော်ပြချက်မှာ တစ်ခုပဲ အသေးစိတ် ရှင်းပြထားသည်။ ကျွန်ုပ်တို့၏ run များတွင် မော်ဒယ်များသည် ဖော်ပြထားသော fix ကို မကြာခဏ မှန်ကန်စွာ အကောင်အထည်ဖော်ကြပြီးနောက် ကျန်ပြဿနာ နှစ်ခုအတွက် implementation ကို ဖုံးလွှမ်းထားသော tests များတွင် မအောင်မြင်ကြသည်။
မူရင်း PR ဖော်ပြချက် (GitHub PR မှ)
#18212 အတွက် ပြဿနာ ဖော်ပြချက်
SWE-bench Verified လုပ်ငန်းတာဝန်အတွက် ပြဿနာဖော်ပြချက် (#18212 မှသာ ယူထားသည်):
SWE-bench Verified နှင့် repositories များ (code bases နှင့် release notes) သည် open-source ဖြစ်ပြီး ကျယ်ကျယ်ပြန့်ပြန့် အသုံးပြု၊ ဆွေးနွေးကြသဖြင့် မော်ဒယ်ဖန်တီးသူများအတွက် contamination ကို ရှောင်ရှားရန် ခက်ခဲစေသည်။
ကျွန်ုပ်တို့၏ ကိုယ်ပိုင် မော်ဒယ်များတွင် contamination ၏ လက္ခဏာများကို ပထမဆုံး ကြုံတွေ့ခဲ့သည်။ ဥပမာအားဖြင့် GPT‑5.2 သည် ဖြေရှင်းရန် မဖြစ်နိုင်လောက်သည့် လုပ်ငန်းတာဝန် 31 ခုကို ဖြေရှင်းခဲ့စဉ် ဖြစ်သည်။ django__django-14725(ဝင်းဒိုးအသစ်တွင် ဖွင့်မည်) တွင် tests များက problem statement တွင် တိတိကျကျ မတောင်းဆိုထားသော `edit_only` parameter အသစ်တစ်ခုကို လိုအပ်စေသည်။ GPT‑5.2 သည် ပြဿနာကို ဖြေရှင်းစဉ် ၎င်း၏ chain of thought တွင် codebase ၏ အပြောင်းအလဲများကို အသေးစိတ် ဖော်ပြထားသော release notes အကြောင်း အချက်အလက်ရှိကြောင်း ပြသပြီး `edit_only` parameter ကို Django 4.1 တွင် စတင်ထည့်သွင်းခဲ့ကြောင်း မှန်ကန်စွာ သတ်မှတ်နိုင်သည်။
GPT‑5.2 CoT
ပိုမိုကျယ်ပြန့်စွာ contamination ၏ အရေးပါမှုကို အကဲဖြတ်ရန် automated red-teaming setup တစ်ခုကို ကျွန်ုပ်တို့ ဖန်တီးခဲ့သည်။ SWE-bench Verified မေးခွန်းတစ်ခုစီအတွက် GPT‑5 ကို GPT‑5.2‑Chat၊ Claude Opus 4.5 နှင့် Gemini 3 Flash Preview များတွင် contamination ရှိမရှိ စုံစမ်းစေခဲ့သည်။ ဤမော်ဒယ်များကို reasoning model များကို မပါဝင်စေရန် ရွေးချယ်ခဲ့သော်လည်း ၎င်းတို့အကြား အရေးမနည်းသော စွမ်းရည်ကွာဟမှု ရှိနိုင်ကြောင်း ကျွန်ုပ်တို့ အသိအမှတ်ပြုသည်။
Contamination ကို စုံစမ်းရန် GPT‑5 သည် SWE-bench Verified လုပ်ငန်းတာဝန်၏ ID၊ description၊ gold patch နှင့် PR tests များကို လက်ခံရရှိခဲ့သည်။ Turn 15 ကြိမ်အတွင်း GPT‑5 ကို system/developer prompt၊ user prompt၊ assistant prefill နှင့် မတူညီသော elicitation strategies များကို ပြောင်းလဲခွင့်ပြုခဲ့သည်။ Turn တစ်ကြိမ်စီအပြီးတွင် novel task-specific information မည်မျှ ပေါ်လာကြောင်း judge model တစ်ခုက အမှတ်တပ်ခဲ့ပြီး တုံ့ပြန်မှုတစ်ခုစီကို contamination severity အနေဖြင့် “none” မှ “strong” အထိ အဆင့်သတ်မှတ်ခဲ့သည်။ GPT‑5 ကို ယခင် turns များအပေါ် အခြေခံ၍ ၎င်း၏ strategy ကို လိုက်လျောညီထွေ ပြောင်းလဲခွင့်ပေးခဲ့ပြီး task-specific details များကို အဆင့်ဆင့် ပြန်လည်ရယူစေခဲ့သည်။ Strong contamination ဥပမာတစ်ခုစီအတွက် GPT‑5 သည် target model သို့ အချက်အလက် အလွန်အကျွံ မပေါက်ကြားခဲ့ကြောင်း အခြား judge တစ်ဦးနှင့် အတည်ပြုခဲ့သည်။ နောက်ဆုံးတွင် ဤပို့စ်ရှိ transcripts များကို ဖွဲ့စည်းထားသော “strong” ဥပမာများကို ကျွန်ုပ်တို့ လက်ဖြင့် ပြန်လည်သုံးသပ်ခဲ့သည်။
အောက်တွင် မော်ဒယ်ပံ့ပိုးသူ အမျိုးမျိုးတစ်လျှောက် strong contamination ၏ ဥပမာများကို ဖော်ပြထားသည်။
လုပ်ငန်းတာဝန် ဖော်ပြချက်မှ အတိုချုံးအပိုင်းတစ်ခုကို ပေးလိုက်သောအခါ GPT‑5.2 သည် gold patch အတိအကျကို ထုတ်ပေးသည်။ အထူးသဖြင့် ၎င်းသည် class နှင့် method name အတိအကျကို သိပြီး ထည့်သွင်းထားသော early return condition အသစ်ဖြစ်သည့် if username is None or password is None ကိုလည်း သိသည်။
ညစ်ညမ်းမှု ထုတ်ဖော်ခြင်း
မူရင်း patch
Opus သည် PR က ထည့်သွင်းခဲ့သော line 4 ကြောင်းပါ လုပ်ဆောင်ချက်ပြောင်းလဲမှု အတိအကျကိုသာမက၊ ထိတွေ့ခဲ့သော သီးခြား filename နှင့် method ကိုလည်း ပြန်မှတ်မိနိုင်ပြီး diff ၏ တစ်စိတ်တစ်ပိုင်းဖြစ်သော inline comment ကိုပါ စကားလုံးတိတိကျကျ ကိုးကားနိုင်သည်။
ညစ်ညမ်းမှု ထုတ်ဖော်ခြင်း
မူရင်း patch
Gemini 3 Flash သည် ID အပြင် လုပ်ငန်းတာဝန်နှင့် ပတ်သက်သော နောက်ထပ်အချက်အလက် မပေးထားသော်လည်း task description နှင့် gold patch ထဲမှ အသေးစိတ်များကို စကားလုံးတိတိကျကျ ထုတ်ပေးနိုင်သည်။ ၎င်းတွင် username validation အတွက် regex formula အသစ်နှင့် အပြောင်းအလဲပြုလုပ်ထားသော line numbers အတိအကျတို့ ပါဝင်သည်။
ညစ်ညမ်းမှု ထုတ်ဖော်ခြင်း
မူရင်း patch
SWE-bench Verified ၏ ဤစစ်ဆေးမှုမှ အကဲဖြတ်ဒီဇိုင်းအတွက် ပိုမိုကျယ်ပြန့်သော သင်ခန်းစာ နှစ်ခုကို ကျွန်ုပ်တို့ မြင်တွေ့ရသည်။ ပထမအချက်မှာ လူသိရှင်ကြား ရရှိနိုင်သော အကြောင်းအရာများမှ ရယူထားသော benchmarks များသည် contamination အန္တရာယ်ကို သယ်ဆောင်လာသည်။ ထိုအခြေအနေတွင် training data ထိတွေ့မှုသည် ရမှတ်များကို တိတ်တဆိတ် မြှင့်တင်နိုင်သည်။ Benchmark တည်ဆောက်ရာတွင် လူသိရှင်ကြား crawl လုပ်ထားသော data ကို အသုံးပြုပါက မော်ဒယ်ဖန်တီးသူများသည် contamination အတွက် ထပ်ဆောင်းစမ်းသပ်မှုများ ပြုလုပ်သင့်သည်။ Benchmarks များနှင့် ၎င်းတို့၏ ဖြေရှင်းချက်များပင် လူသိရှင်ကြား တင်ထားလျှင် training data ထဲသို့ ဝင်ရောက်သွားနိုင်သည်။ Dataset များကို တင်ပုံတင်နည်း (ဥပမာ password ဖြင့် ကာကွယ်ခြင်း) နှင့် training data filtering (ဥပမာ canary strings များကို တင်းကျပ်စွာ လိုက်နာခြင်း) နှစ်မျိုးစလုံးတွင် အထူးသတိထားသင့်သည်။
ဒုတိယအချက်မှာ အလိုအလျောက် အမှတ်ပေးစနစ်ကို မှန်ကန်စွာ ပြုလုပ်ရန် ခက်ခဲသည်။ အပြည့်အဝ ကောင်းမွန်သော test cases များသည် မှန်ကန်သော လုပ်ဆောင်နိုင်မှုကို လုံးဝ အတည်ပြုနိုင်ရမည်ဖြစ်ပြီး၊ အရေးမကြီးသော implementation အသေးစိတ်တိတိများကို မမူတည်သင့်သကဲ့သို့ shortcut solutions များကိုလည်း ခိုင်မာစွာ တားဆီးနိုင်ရမည်ဖြစ်သည်။ ဤပြဿနာများသည် သဘာဝအားဖြင့် ရှုပ်ထွေးပြီး ဖြေရှင်းရခက်ခဲသည်။ ထိုပြဿနာများကို ဖမ်းမိရန် ကျယ်ပြန့်သော လူသား label တပ်ခြင်း လှုပ်ရှားမှုများစွာ လိုအပ်ခဲ့သည်။
ဤတွေ့ရှိချက်များကို ကျွန်ုပ်တို့၏ မကြာသေးမီ အကဲဖြတ်ကြိုးပမ်းမှုများတွင် ထည့်သွင်းအသုံးပြုခဲ့သည်။ လွန်ခဲ့သော လများအတွင်း လူသိရှင်ကြား public split ၏ SWE-Bench Pro ရလဒ်များကို ကျွန်ုပ်တို့ ရွေးချယ်၍ အစီရင်ခံခဲ့သည်။ အခြား မော်ဒယ်ဖန်တီးသူများလည်း အလားတူ လုပ်ဆောင်ရန် အကြံပြုပါသည်။ SWE-bench Pro သည် ပြီးပြည့်စုံခြင်း မရှိသော်လည်း အတွေ့အကြုံအရ contamination ပြဿနာများ နည်းပါးပုံရသည်။ ကျွန်ုပ်တို့၏ contamination pipeline သည် contamination ဖြစ်ရပ် အချို့ကို တွေ့ရှိခဲ့သော်လည်း ထိုဖြစ်ရပ်များသည် SWE-bench Verified နှင့် နှိုင်းယှဉ်လျှင် သိသိသာသာ ရှားပါးပြီး ပြင်းထန်မှု နည်းခဲ့ကာ မည်သည့် မော်ဒယ်မျှ gold patch အပြည့်အစုံကို စကားလုံးတိတိကျကျ မထုတ်နိုင်ခဲ့ပါ။
မူရင်းရေးသားပြီး သီးသန့်ထားသော benchmarks များတွင် ဆက်လက် ရင်းနှီးမြှုပ်နှံသွားမည်ဖြစ်ပြီး လုပ်ငန်းနယ်ပယ်နှင့် ပညာရပ်လောကတို့ကိုလည်း ထိုသို့ လုပ်ဆောင်ရန် အကူအညီတောင်းဆိုပါမည်။ GDPVal တွင် လုပ်ငန်းတာဝန်များကို နယ်ပယ်ကျွမ်းကျင်သူများက သီးသန့်ရေးသားထားသဖြင့် ထိတွေ့မှုအန္တရာယ် လျော့နည်းစေပြီး ဖြေရှင်းချက်များကို လေ့ကျင့်ထားသော reviewers များက အလုံးစုံ သုံးသပ်အမှတ်ပေးကြသည်။ ဤနည်းလမ်းသည် အရင်းအမြစ်များစွာ လိုအပ်သော်လည်း အမှန်တကယ် စွမ်းရည်တိုးတက်မှုများကို တိုင်းတာရန် ပိုမိုလိုအပ်လာနေသည်။


