2024 ఆగస్టులో మేం మొదట SWE-bench Verified ను ప్రచురించినప్పటి నుండి, పరిశ్రమ ఆటోమేటిక్ సాఫ్ట్వేర్ ఇంజనీరింగ్ పనులపై మోడల్స్ పురోగతి కొలవడానికి దీనిని విస్తృతంగా ఉపయోగిస్తోంది. దాని విడుదల తర్వాత, SWE-bench Verified సామర్థ్య పురోగతికి బలమైన సంకేతాన్ని అందించింది మరియు అత్యాధునిక మోడల్ విడుదలల్లో నివేదించబడే ప్రామాణిక ప్రమాణంగా మారింది. ఈ సామర్థ్యాల పురోగతిని ట్రాక్ చేయడం మరియు అంచనా వేయడం కూడా OpenAI సంసిద్ధతా ఫ్రేమ్వర్క్లో ఒక ముఖ్యమైన భాగం. మేం మొదటగా వెరిఫైడ్ బెంచ్మార్క్ను సృష్టించినప్పుడు, SWE-బెంచ్ డేటాసెట్(కొత్త విండోలో తెరుచుకుంటుంది)లో కొన్ని పనులను అసాధ్యంగా చేసిన అసలు మూల్యాంకనంలోని సమస్యలను పరిష్కరించడానికి ప్రయత్నించాం.
ప్రారంభ దూకుడైన పురోగతుల తర్వాత, SWE-బెంచ్ వెరిఫైడ్పై అత్యాధునిక పురోగతి మందగించింది, గత 6 నెలల్లో 74.9% నుండి 80.9%కి మెరుగుపడింది(కొత్త విండోలో తెరుచుకుంటుంది). ఇది ఈ ప్రశ్నను లేవనెత్తుతుంది: మిగిలిన వైఫల్యాలు మోడల్ పరిమితులను ప్రతిబింబిస్తున్నాయా లేదా డేటాసెట్ స్వభావాన్నే ప్రతిబింబిస్తున్నాయా?
కొత్త విశ్లేషణలో, వెరిఫైడ్ సెట్లో రెండు ప్రధాన సమస్యలను మేం గుర్తించాం; ఇవి నేటి పనితీరు స్థాయిల వద్ద అత్యాధునిక లాంచ్ల కోసం ఆటోమేటిక్ సాఫ్ట్వేర్ ఇంజినీరింగ్ సామర్థ్యాల్లో పురోగతిని కొలవడానికి ఈ బెంచ్మార్క్ ఇకపై అనుకూలంగా లేదని సూచిస్తున్నాయి:
- టెస్టులు సరైన పరిష్కారాలను తిరస్కరిస్తాయి: మోడల్స్ తరచుగా పరిష్కరించడంలో విఫలమైన డేటాసెట్లోని 27.6% ఉపసమితిని మేం ఆడిట్ చేసి, SWE-బెంచ్ వెరిఫైడ్ ప్రారంభంగా రూపొందించినప్పుడు దీనిని మెరుగుపరచడానికి మా వంతు ప్రయత్నం చేసినప్పటికీ, ఆడిట్ చేసిన సమస్యల్లో కనీసం 59.4% లో ఫంక్షనల్గా సరైన సబ్మిషన్లను తిరస్కరించే లోపభూయిష్ట టెస్ట్ కేసులు ఉన్నాయని గుర్తించాం.
- పరిష్కారాలపై శిక్షణ: పెద్ద అత్యాధునిక మోడల్స్ తమ శిక్షణ నుండి సమాచారాన్ని నేర్చుకోగలవు కాబట్టి, అవి మూల్యాంకనం చేసే సమస్యలు మరియు పరిష్కారాలపై శిక్షణ పొందరాదు. ఇది పరీక్షకు ముందు విద్యార్థులతో రాబోయే పరీక్ష కోసం ప్రశ్నలు మరియు పరిష్కారాలను పంచుకోవడం లాంటిది - వారు సమాధానాన్ని కంఠస్థం చేయకపోవచ్చు కానీ ముందే సమాధానాలు చూసిన విద్యార్థులు, చూడని వారితో పోలిస్తే మెరుగ్గా చేస్తారు. SWE-bench సమస్యలు అనేక మోడల్ ప్రొవైడర్లు శిక్షణ ప్రయోజనాల కోసం ఉపయోగించే ఓపెన్-సోర్స్ రిపోజిటరీల నుండి సేకరించబడతాయి. మా విశ్లేషణలో, మేం పరీక్షించిన అన్ని అత్యాధునిక మోడల్లు గ్రౌండ్-ట్రూత్ రిఫరెన్స్గా ఉపయోగించిన అసలు, మానవులు రాసిన బగ్ ఫిక్స్ను—గోల్డ్ ప్యాచ్గా పిలవబడేదాన్ని—లేదా కొన్ని పనుల కోసం వెర్బాటిమ్ ప్రాబ్లమ్ స్టేట్మెంట్ స్పెసిఫిక్స్ అని పిలుస్తారు, వారందరూ శిక్షణ సమయంలో కనీసం కొన్ని సమస్యలు మరియు పరిష్కారాలను చూశారని సూచిస్తుంది.
ట్రైనింగ్ సమయంలో సమస్యలు ఎదుర్కొన్న మోడల్స్, సక్సెస్ అయ్యే అవకాశం ఎక్కువగా ఉంటుందని మేం ఆధారాలు కూడా కనుగొన్నాం, ఎందుకంటే సరిగ్గా నిర్దేశించని టెస్టులను పాస్ చేయడానికి అవసరమైన అదనపు సమాచారం వాటికి ఉంటుంది.
దీని అర్థం SWE-బెంచ్ వెరిఫైడ్పై మెరుగుదలలు ఇకపై మోడల్స్ వాస్తవ ప్రపంచ సాఫ్ట్వేర్ అభివృద్ధి సామర్థ్యాల్లో అర్థవంతమైన మెరుగుదలను ప్రతిబింబించవు. బదులుగా, శిక్షణ సమయంలో బెంచ్మార్క్కు మోడల్ ఎంత మేరకు ఎక్స్పోజ్ అయిందో అవి మరింతగా ప్రతిబింబిస్తాయి. ఇదే కారణంగా మేం SWE-బెంచ్ వెరిఫైడ్ స్కోర్లను నివేదించడం ఆపేశాం, ఇతర మోడల్ డెవలపర్లు కూడా అలాగే చేయాలని మేం సిఫార్సు చేస్తున్నాం.
కోడింగ్ సామర్థ్యాలను మెరుగ్గా ట్రాక్ చేయడానికి మేం కొత్త, కలుషితం కాని మూల్యాంకనాలను నిర్మిస్తున్నాం, మరియు విస్తృత పరిశోధనా కమ్యూనిటీ కోసం దృష్టి సారించాల్సిన ముఖ్యమైన ప్రాంతమని మేం భావిస్తున్నాం. అవి మనకు అందేవరకు, SWE-బెంచ్ ప్రో కోసం ఫలితాలను రిపోర్ట్ చేయాలని OpenAI సిఫార్సు చేస్తోంది.
అసలు SWE-bench(కొత్త విండోలో తెరుచుకుంటుంది) మూల్యాంకనం 2023లో విడుదలైంది. ప్రతి సమస్య 12 ఓపెన్-సోర్స్ Python రిపోజిటరీల్లో ఒకదానిలో పరిష్కరించిన GitHub సమస్య నుండి తీసుకోబడింది మరియు సంబంధిత pull request (PR)తో జత చేయబడింది. మోడల్ రూపొందించిన కోడ్ మార్పు సరైనదా, లేదా అని నిర్ణయించడానికి, ప్రతి సమస్యకు రెండు సెట్ల పరీక్షలు ఉంటాయి:
- మార్పులు చేయని కోడ్బేస్లో విఫలమయ్యే, అయితే సమస్యను సరిగా పరిష్కరిస్తే పాస్ అయ్యే పరీక్షలు
- సంబంధం లేని కార్యాచరణ చెక్కుచెదరకుండా ఉండేలా చూసుకోవడానికి పరిష్కారానికి ముందు మరియు తరువాత రెండింటిలోనూ ఉత్తీర్ణత సాధించే రిగ్రెషన్ టెస్ట్లు.
టెస్ట్లను మోడల్ చూడదు. అసలు ఇష్యూ టెక్ట్స్ మరియు ఫిక్స్కు ముందు రిపోజిటరీ స్థితి మాత్రమే ఇచ్చినప్పుడు, ఇది ఒక కోడ్ మార్పును ఉత్పత్తి చేయాలి. కోడ్ మార్పు వర్తింపజేసిన తర్వాత అన్ని టెస్టులు పాస్ అయితేనే ఇది ఒక సమస్యను పాస్ చేస్తుంది.
ఆ మూల్యాంకనంలో మేము అనేక సమస్యలను కనుగొన్నాం, అవి మోడల్స్ సామర్థ్యాన్ని తక్కువగా నివేదించే పరిస్థితికి దారితీయవచ్చు.
- కొన్ని యూనిట్ పరీక్షలు అతిగా నిర్దిష్టంగా లేదా పనితో అసమతుల్యంగా ఉండటం వల్ల సరైన పరిష్కారాలను తిరస్కరించవచ్చు.
- అనేక పని ప్రకటనలు తగినంతగా నిర్దిష్టంగా ఇవ్వలేదు, దీని వల్ల అనేక చెల్లుబాటు అయ్యే వివరణలు ఏర్పడే అవకాశం ఉంది - అయితే పరీక్షలు మాత్రం ఒక నిర్దిష్టమైన దానినే కవర్ చేశాయి.
- పరిసరాల సెటప్పై ఆధారపడి (ఉదాహరణకు Linux vs Windows, లేదా python వెర్షన్), కొన్ని పరీక్షలు అనవసరంగా విఫలమవుతాయి
ఈ సమస్యలను పరిష్కరించడానికి మేం 2024లో SWE-బెంచ్ వెరిఫైడ్ను సృష్టించాం. మేము నిపుణ సాఫ్ట్వేర్ ఇంజనీర్లతో కలిసి 1,699 SWE-bench సమస్యలను సమీక్షించి, ఈ సమస్యలు ఉన్న సమస్యలను వడపోసి తొలగించాము. ప్రతి సమస్యను ముగ్గురు నిపుణులు స్వతంత్రంగా సమీక్షించారు. ఈ సమీక్ష ప్రక్రియ ఫలితంగా SWE-బెంచ్ వెరిఫైడ్, 500 సమస్యలతో కూడిన ఎంపిక చేసిన సమాహారంగా రూపొందింది.
SWE-బెంచ్ వెరిఫైడ్ ప్రారంభ వెర్షన్తో పోలిస్తే పెద్ద మెరుగుదల అయినా, మిగిలిన సమస్యలు ఇంకా ఉన్నాయి. OpenAI o3 64 స్వతంత్ర రన్లలో స్థిరంగా పరిష్కరించలేకపోయిన 138 SWE-బెంచ్ వెరిఫైడ్ సమస్యలపై మేం ఒక ఆడిట్ నిర్వహించాం. ప్రతి కేసును కనీసం ఆరుగురు అనుభవజ్ఞులైన సాఫ్ట్వేర్ ఇంజినీర్లు స్వతంత్రంగా సమీక్షించారు. ఒక నిపుణుడు ఏదైనా సమస్యను ఫ్లాగ్ చేసినట్లయితే, అది అదనపు టీమ్ ద్వారా మళ్లీ ధృవీకరించబడింది.
138 సమస్యల్లో 59.4% లో పరీక్ష రూపకల్పన మరియు/లేదా సమస్య వివరణలో గణనీయమైన లోపాలు ఉన్నాయని మేం గుర్తించాం, దాంతో అవి అత్యంత సామర్థ్యవంతమైన మోడల్ లేదా మనిషికైనా పరిష్కరించడం అత్యంత కష్టంగా లేదా అసాధ్యంగా మారాయి.
- ఆడిట్ చేసిన టాస్క్లలో 35.5%కి నిర్దిష్ట అమలు వివరాలను బలవంతంగా అమలు చేసే కఠినమైన టెస్ట్ కేసులు ఉన్నాయి, దీని వల్ల ఫంక్షనల్గా సరైన అనేక సబ్మిషన్లు చెల్లని వాటిగా మారుతాయి, వీటిని మేం న్యారో టెస్ట్ కేసులు.అని పిలుస్తాము.
- 18.8% ఆడిట్ చేసిన పనుల్లో, సమస్య వివరణలో పేర్కొనని అదనపు ఫంక్షనాలిటీని తనిఖీ చేసే టెస్టులు ఉన్నాయి. వీటిని మేం విస్తృత పరీక్ష కేసులుఅని పిలుస్తాం.
- మిగిలిన 5.1% పనులకు ఈ వర్గీకరణతో బాగా సమూహీకరించలేని వివిధ సమస్యలు ఉన్నాయి.
మొదటి ఫెయిల్యూర్ మోడ్కు ఒక వివరణాత్మక ఉదాహరణ pylint-dev__pylint-4551(కొత్త విండోలో తెరుచుకుంటుంది), ఇందులో మొత్తం పరిష్కారంలో భాగంగా PR కొత్త ఫంక్షన్ `get_annotation`ను పరిచయం చేస్తుంది. ఈ ఫంక్షన్ పేరు సమస్య వివరణలో ప్రస్తావించబడలేదు, కానీ టెస్టులు దీన్ని నేరుగా ఇంపోర్ట్ చేస్తాయి. కొన్ని మోడల్లు అలాంటి ఫంక్షన్ను సృష్టించడానికి సహజంగా ఊహించవచ్చుగానీ, సమస్యను సరిగ్గా పరిష్కరించడానికి ఈ నిర్దిష్ట పేరుతో ఫంక్షన్ను అమలు చేయడం కఠినంగా అవసరం కాదు. చాలా చెల్లుబాటు అయ్యే పరిష్కారాలు ఇంపోర్ట్ ఎర్రర్ల కారణంగా టెస్టుల్లో విఫలమవుతాయి.
సమస్య వివరణ
పుల్లరిపోర్ట్ (PR) టెస్ట్ స్నిపెట్
PR టెస్ట్ వైఫల్యాలు (చదవడానికి సులభంగా ఉండేందుకు కుదించబడింది)
అతి విస్తృతమైన టెస్ట్ కేసులకు ఒక ఉదాహరణ sympy__sympy-18199(కొత్త విండోలో తెరుచుకుంటుంది). ఈ టాస్క్ `nthroot_mod` ఫంక్షన్తో సంబంధించి మూడు వేర్వేరు సమస్యలను పరిష్కరించిన ఒక PR నుండి తీసుకోబడింది, ప్రత్యేకంగా #17373(కొత్త విండోలో తెరుచుకుంటుంది), #17377(కొత్త విండోలో తెరుచుకుంటుంది), మరియు #18212(కొత్త విండోలో తెరుచుకుంటుంది). అయితే, SWE-bench Verified టాస్క్కు సంబంధించిన వివరణ చివరి ఇష్యూ #18212(కొత్త విండోలో తెరుచుకుంటుంది)ను మాత్రమే కవర్ చేస్తుంది. ఇది ఒక మిస్మ్యాచ్ను సృష్టిస్తుంది: PR టెస్టులు మూడు సమస్యలన్నింటినీ కవర్ చేస్తాయి, కానీ వివరణలో ఒక్కదానినే వివరంగా పేర్కొంటుంది. మా రన్స్లో, మోడల్స్ తరచుగా వివరించిన ఫిక్స్ను సరిగ్గా ఇంప్లిమెంట్ చేసి, తర్వాత మిగతా రెండు సమస్యల కోసం ఇంప్లిమెంటేషన్ను కవర్ చేసే టెస్ట్స్లో ఫెయిల్ అవుతాయి.
అసలు PR వివరణ (GitHub PR నుండి)
#18212 కోసం సమస్య వివరణ
SWE-బెంచ్ ధృవీకరించిన పని కోసం సమస్య వివరణ (# 18212 నుండి మాత్రమే తీసుకోబడింది):
SWE-బెంచ్ వెరిఫైడ్ మరియు రిపోజిటరీలు (కోడ్ బేస్లు మరియు రిలీజ్ నోట్లు) రెండూ ఓపెన్-సోర్స్గా ఉండి విస్తృతంగా ఉపయోగించబడుతూ చర్చించబడుతున్నాయి, అందువల్ల మోడల్ డెవలపర్లకు కలుషితాన్ని నివారించడం కష్టంగా మారుతుంది.
మా స్వంత మోడల్స్లో మేం మొదట కాలుష్య సంకేతాలను ఎదుర్కొన్నాం. ఉదాహరణకు, GPT‑5.2 మేం పరిష్కరించడం దాదాపు అసాధ్యమని గుర్తించిన 31 పనులను పరిష్కరించినప్పుడు. django__django-14725(కొత్త విండోలో తెరుచుకుంటుంది) లో పరీక్షలకు సమస్య ప్రకటనలో స్పష్టంగా అవసరమని పేర్కొనని ఒక నిర్దిష్ట కొత్త పరామీటర్ `edit_only` అవసరం. సమస్యను పరిష్కరిస్తున్నప్పుడు, GPT‑5.2 తన చెయిన్-ఆఫ్-థాట్లో కోడ్బేస్లో మార్పులను వివరించే విడుదల గమనికల గురించి తనకు సమాచారం ఉందని చూపిస్తుంది, మరియు `edit_only` పరామీటర్ Django 4.1లో ప్రవేశపెట్టబడిందని సరిగ్గా గుర్తిస్తుంది.
GPT‑5.2 CoT
కలుషితత ఎంత విస్తృతంగా ఉందో అంచనా వేయడానికి, మేము ఆటోమేటెడ్ రెడ్ టీమింగ్ సెటప్ను రూపొందించాము. ప్రతి SWE-బెంచ్ ధృవీకరించిన ప్రశ్న కోసం, మేము GPT‑5.2‑Chatను పరిశీలించేందుకు GPT‑5కు బాధ్యత అప్పగించాము. కలుషితం కొరకు Claude Opus 4.5 మరియు Gemini 3 Flash ప్రివ్యూ రిజనింగ్ మోడల్స్ను మినహాయించడానికి ఈ మోడల్స్ను ఎంచుకున్నారు, కానీ వాటి మధ్య గణనీయమైన సామర్థ్య గ్యాప్ ఉందని మేము అంగీకరిస్తున్నాము.
కంటామినేషన్ను పరిశీలించడానికి, GPT‑5కు ఇవి అందాయి: SWE-bench Verified టాస్క్ ID, వివరణ, గోల్డ్ ప్యాచ్, మరియు PR టెస్టులు. 15 టర్న్లకు పైగా, మేం GPT‑5కు సిస్టమ్/డెవలపర్ ప్రాంప్ట్, యూజర్ ప్రాంప్ట్, మరియు అసిస్టెంట్ ప్రీఫిల్తో పాటు వివిధ ఎలిసిటేషన్ వ్యూహాలను మారుస్తూ అనుమతించాం. ప్రతి టర్న్ తర్వాత, ఒక న్యాయమూర్తి మోడల్ ఎంత నవల పని-నిర్దిష్ట సమాచారం కనిపించిందో లేబుల్ చేసింది మరియు ప్రతి ప్రతిస్పందన కాలుష్య తీవ్రత కోసం "ఏదీ లేదు" నుండి "బలమైనది" వరకు లేబుల్ చేయబడింది. GPT‑5 గత టర్న్ల ఆధారంగా తన వ్యూహాన్ని సర్దుబాటు చేసుకోవడానికి, టాస్క్-స్పెసిఫిక్ వివరాలను ఇటరేటివ్గా తిరిగి పొందడానికి అనుమతించబడింది. బలమైన కంటామినేషన్కు సంబంధించిన ప్రతి ఉదాహరణ కోసం, GPT‑5 టార్గెట్ మోడల్కు చాలా ఎక్కువ సమాచారం లీక్ చేయలేదని మరో జడ్జ్తో కలిసి మేము ధృవీకరించాము. చివరగా, ఈ పోస్ట్లోని ట్రాన్స్క్రిప్ట్లను రూపొందించే “strong” ఉదాహరణలను మేము తర్వాత మాన్యువల్గా రివ్యూ చేశాము.
విభిన్న మోడల్ ప్రొవైడర్లలో బలమైన కాలుష్యానికి ఉదాహరణలు క్రింద ఇవ్వబడ్డాయి.
టాస్క్ వివరణలోని ఒక చిన్న భాగాన్ని ఇచ్చినప్పుడు, GPT‑5.2 ఖచ్చితమైన గోల్డ్ ప్యాచ్ను ఉత్పత్తి చేస్తుంది. ముఖ్యంగా, దీనికి ఖచ్చితమైన తరగతి మరియు పద్ధతి పేరు తెలుసు, మరియు కొత్త ప్రారంభ రిటర్న్ షరతు 'ఒకవేళ యూజర్ నేమ్ లేదా పాస్వర్డ్ ఏదీ కాదు' ప్రవేశపెట్టబడింది.
కాలుష్యాన్ని వెలికితీయడం
మంచి ప్యాచ్
Opus PR ప్రవేశపెట్టిన ఖచ్చితమైన నాలుగు-లైన్ ఫంక్షనల్ మార్పును గుర్తు తెచ్చుకోగలదు, అది టచ్ చేసిన నిర్దిష్ట ఫైల్నేమ్ మరియు పద్ధతితో పాటు, డిఫ్లో భాగమైన ఇన్లైన్ కామెంట్ను కూడా యధాతథంగా కోట్ చేస్తుంది.
కాలుష్యాన్ని వెలికితీయడం
మంచి ప్యాచ్
Gemini 3 ఫ్లాష్, ఐడితో పాటు టాస్క్కు సంబంధించి తదుపరి సమాచారం ఇవ్వనప్పుడు, టాస్క్ వివరణ మరియు గోల్డ్ ప్యాచ్ నుంచి వెర్బాటమ్ వివరాలను అవుట్పుట్ చేయగలదు. ఇందులో యూజర్నేమ్ ధృవీకరణ కోసం కొత్త రీజెక్స్ ఫార్ములా మరియు మార్పు కోసం ఖచ్చితమైన లైన్ నెంబర్లు ఉన్నాయి.
కాలుష్యాన్ని వెలికితీయడం
మంచి ప్యాచ్
SWE-బెంచ్ వెరిఫైడ్ ఈ ఆడిట్ నుండి, మూల్యాంకన రూపకల్పన కోసం మేం రెండు విస్తృత పాఠాలను చూస్తాం. మొదట, ప్రజలకు అందుబాటులో ఉన్న పదార్థం నుండి సేకరించిన బెంచ్మార్క్లు కలుషితం అయ్యే ప్రమాదం ఉంటుంది, ఎందుకంటే శిక్షణ-డేటా ఎక్స్పోజర్ నిశ్శబ్దంగా స్కోర్లను పెంచగలదు. బహిరంగంగా క్రాల్ చేసిన డేటాను బెంచ్మార్క్ నిర్మాణంలో ఉపయోగిస్తే, మోడల్ డెవలపర్లు కలుషితం కోసం అదనపు పరీక్షలు నిర్వహించాలి. బెంచ్మార్క్లు, అలాగే వాటి పరిష్కారాలు కూడా, పబ్లిక్గా పోస్ట్ చేస్తే ట్రైనింగ్ డేటాలోకి వెళ్లే అవకాశం ఉంది. డేటాసెట్లు ఎలా పోస్ట్ చేయబడుతున్నాయో (అంటే పాస్వర్డ్తో రక్షించిన) మరియు శిక్షణ డేటా ఫిల్టరింగ్ (అంటే. కానరీ స్ట్రింగ్స్కు స్ట్రిక్ట్ అనుగుణంగా వ్యవహరించడం).
రెండవది, ఆటోమేటెడ్ స్కోరింగ్ను సరిగ్గా చేయడం కష్టం; పర్ఫెక్ట్ టెస్ట్ కేసులు సరైన ఫంక్షనాలిటీని పూర్తిగా ధృవీకరించాలి, ముఖ్యంకాని ఇంప్లిమెంటేషన్ వివరాలకు అతీతంగా ఉండాలి మరియు షార్ట్కట్ పరిష్కారాలకు రాబస్ట్గా ఉండాలి. ఈ సమస్యలు సహజంగానే సంక్లిష్టమైనవి మరియు పరిష్కరించడానికి కష్టమైనవి. ఈ సమస్యలను గుర్తించడానికి అనేక విస్తృతమైన మానవ లేబెలింగ్ క్యాంపెయిన్లు అవసరమయ్యాయి.
మేం ఈ కనుగొనుళ్లను మా ఇటీవల మూల్యాంకన ప్రయత్నాల్లో చేర్చాం. గత నెలల్లో మేం SWE-బెంచ్ ప్రో బహిరంగ విభజన నుండి ఫలితాలను నివేదించడానికి ఎంచుకున్నాం. ఇతర మోడల్ డెవలపర్లు కూడా ఇదే చేయాలని మేం సిఫార్సు చేస్తున్నాం. SWE-బెంచ్ ప్రో పరిపూర్ణమైనది కాదు, అయితే అనుభవపూర్వకంగా కాలుష్య సమస్యలతో తక్కువ బాధపడుతున్నట్లుగా అనిపిస్తుంది. మా కాలుష్య పైప్లైన్ కొన్ని కాలుష్య కేసులను కనుగొంది, అయితే ఈ కేసులు SWE-బెంచ్ వెరిఫైడ్ కంటే చాలా అరుదుగా మరియు తక్కువ అసాధారణంగా ఉన్నాయి, ఏ మోడల్ కూడా పూర్తి పదజాలంతో బంగారు ప్యాచ్ను ఉత్పత్తి చేయలేకపోయింది.
మేం అసలైన, ప్రైవేట్గా రచించిన బెంచ్మార్క్లలో పెట్టుబడి పెట్టడం కొనసాగిస్తాం, ఇదే చేయడానికి పరిశ్రమ మరియు విద్యాసంస్థల నుండి సహాయం కోరుతాం. GDPValలో, డొమైన్ నిపుణులు పనులను ప్రైవేట్గా రచిస్తారు, దీని వల్ల ఎక్స్పోజర్ రిస్క్ తగ్గుతుంది, పరిష్కారాలను శిక్షణ పొందిన రివ్యూవర్లు సమగ్రంగా గ్రేడ్ చేస్తారు. ఈ విధానం వనరులను ఎక్కువగా వినియోగిస్తుంది, అయితే నిజమైన సామర్థ్యాల మెరుగుదలలు కొలవడానికి ఇది క్రమంగా మరింత అవసరం అవుతోంది.


