29 મે, 2026

વિશ્વસનીય તૃતીય-પક્ષ મૂલ્યાંકનો માટે શેર કરેલી પ્લેબુક

અત્યાધુનિક મોડલ્સ માટે સેફગાર્ડ્સ અને ક્ષમતાઓના અસરકારક સ્વતંત્ર મૂલ્યાંકનોમાં શું મહત્વનું છે.

લોડિંગ…

સ્વતંત્ર, વિશ્વસનીય તૃતીય પક્ષ મૂલ્યાંકનો સલામતી ઇકોસિસ્ટમને મજબૂત બનાવવામાં મહત્વપૂર્ણ ભૂમિકા⁠ ભજવે છે. આ મૂલ્યાંકનો અત્યાધુનિક મોડલ્સ પર કરવામાં આવે છે, જેથી મહત્વપૂર્ણ ક્ષમતાઓ અને સલામતી ઘટાડાઓ અંગેના દાવાઓ માટે વધારાના પુરાવા મળી શકે. આ પોસ્ટમાં, અમે અત્યાર સુધી શીખેલા પાઠ શેર કરીએ છીએ, અને અત્યાધુનિક મોડલ્સનું માન્ય રીતે આકલન કરી શકે તેવા મૂલ્યાંકનો રચવા માટેના અભિગમોની ભલામણ કરીએ છીએ, જે અમને આશા છે કે આ ક્ષેત્રના ઉભરતા ધોરણોને આકાર આપવાામાં મદદ કરશે.

પહેલાં, ઘણા મૂલ્યાંકનો મોડલ્સને ચેટબોટ્સ જેવા માનતા હતા: મૂલ્યાંકન મોડલને એવો પ્રોમ્પ્ટ આપતું જાણે વપરાશકર્તા પ્રશ્ન પૂછતા હોય, જેનો મોડલ જવાબ આપતું, અને મૂલ્યાંકનકર્તા આઉટપુટ વિશે પોતાનું મંતવ્ય આપતા હોય. આજના અત્યાધુનિક મોડલ્સ ઘણું વધુ કરી શકે છે: તેઓ ટૂલ્સ વાપરી શકે છે, ઘણા પગલાંમાં માહિતી પર દેખરેખ રાખી શકે છે, અને મોટા વર્કફ્લોમાં કાર્ય કરી શકે છે. આનો અર્થ એ છે કે કામગીરી માત્ર મોડલ પર નહીં, પરંતુ જે પર્યાવરણમાં કાર્ય થાય છે અને તેની ક્રિયાઓને સરળ બનાવતા સેટઅપ પર પણ આધાર રાખે છે. આ આસપાસના સેટઅપને અમે “હાર્નેસ” કહીએ છીએ, અને તે સિસ્ટમની કામગીરીના મુખ્ય પાસાઓ જેમ કે ટૂલ્સ વાપરવાની રીત, માહિતી જાળવવાની રીત અથવા ભૂલોમાંથી ફરી પુનઃપ્રાપ્તિની રીતમાં પરિવર્તન લાવી શકે છે.

એજન્ટિક કાર્ય વર્કફ્લો સાથે પ્રોમ્પ્ટ-પ્રતિસાદ વર્કફ્લોની સરખામણી કરતી આકૃતિ, જેમાં કંટ્રોલ લૂપ્સ, ટૂલ્સ, સંદર્ભ, બજેટ અને સેફગાર્ડ્સ સ્વાયત્ત કાર્ય અમલીકરણને કેવી રીતે સક્ષમ કરે છે તે બતાવ્યું છે.

આથી મૂલ્યાંકનો કેવી રીતે કરવા જોઈએ અને વાચકોએ મૂલ્યાંકન રિપોર્ટમાં શું જોવું જોઈએ તે બદલાય છે. અમારા મતે, સૌથી ઉપયોગી રિપોર્ટ્સ પરિણામ સિવાય બે બાબતો સ્પષ્ટ રીતે વર્ણવે છે: પ્રથમ, તેઓ કહે છે કે મૂલ્યાંકન સેટઅપ કયા દાવાને ચકાસવા માટે રચાયેલ હતું, અને બીજું, તેઓ મૂલ્યાંકનનું પરિણામ માન્ય છે તે દર્શાવતા ઉપલબ્ધ પુરાવા શેર કરે છે.

મૂલ્યાંકનોમાં ચકાસવામાં આવતા દાવાઓ સામાન્ય રીતે ત્રણ પૈકીની એક શ્રેણીમાં આવે છે¹:

ક્ષમતા એલિસિટેશન: શું મોડલ મૂલ્યાંકિત કરવામાં આવી રહેલી ક્ષમતાને વિશ્વસનીય રીતે ઉત્પન્ન કરી શકે છે?
સેફગાર્ડ કામગીરી: પરીક્ષણ કરાયેલા સેફગાર્ડ્સ મૂલ્યાંકન કરવામાં આવી રહેલા વર્તન અથવા હુમલા સામે કેટલા મજબૂત છે?
સરખામણી: સમકક્ષ પરિસ્થિતિઓ હેઠળ જુદા મોડલ્સ કેવી કામગીરી કરે છે?

મૂલ્યાંકન રિપોર્ટ્સે એ પણ સમજાવવું જોઈએ કે મૂલ્યાંકનકર્તાઓએ પરિણામની માન્યતાને અસર કરી શકે તેવી અસરો માટે કેવી રીતે તપાસ કરી. આમાં સામેલ છે:

રીવોર્ડ હેકિંગ: કાર્ય અથવા સ્કોરરના શોર્ટકટનો લાભ લેવો, જેથી મૂલ્યાંકન જે વર્તન માપવા માટે છે તે બતાવ્યા વગર સિસ્ટમને ક્રેડિટ મળે.
નકારો: પરીક્ષણ થતું વર્તન અસ્પષ્ટ બને તેવી રીતે નકારવું.
કન્ટામિનેશન: મૂલ્યાંકન કાર્યો, જવાબો અથવા નજીકના પ્રકારો તાલીમ ડેટામાં દેખાયા હતા અથવા મૂલ્યાંકન દરમિયાન, જેમ કે બ્રાઉઝિંગ દ્વારા, શોધી શકાતા હતા, તેથી વધુ સારી કામગીરી કરવી.
બ્રોકન પ્રોબ્લેમ્સ: કાર્યો અમાન્ય હોવાથી નબળી કામગીરી કરવી. કારણોમાં અયોગ્ય સ્કોરિંગ (દા.ત., સાચા જવાબ માટે ન જણાવેલી અમલીકરણ વિગતો જરૂરી હોવી) અને ઉકેલી ન શકાય તેવા પર્યાવરણો (દા.ત., મહત્વપૂર્ણ ફાઇલો ખૂટતી હોવી અથવા અવિશ્વસનીય ટૂલ્સ) સામેલ હોઈ શકે છે.
સેન્ડબેગિંગ: પોતાનું મૂલ્યાંકન થઈ રહ્યું છે તેની જાગૃતિ દેખાય ત્યારે ઇરાદાપૂર્વક નબળી કામગીરી કરવી.

શ્રેષ્ઠ પરિણામો મેળવવા માટે યોગ્ય હાર્નેસ પસંદ કરીને મૂલ્યાંકન કરવું અતિ મહત્વપૂર્ણ છે

અમે જોયું છે કે લાંબી ટ્રેજેક્ટરીઝ પર કાર્ય કરતી સિસ્ટમ્સ માટે હાર્નેસની ભૂમિકા ખાસ મહત્વની છે. જ્યારે મોડલ્સ ટૂલ્સ વાપરી શકે, સ્થિતિ જાળવી શકે અને અનેક પગલાંમાં ભૂલોમાંથી પુનઃપ્રાપ્ત થઈ શકે, ત્યારે હાર્નેસ દેખાતી કામગીરીનું સ્તર બદલી શકે છે, અને આંકવામાં આવતી ક્ષમતા મૂલ્યાંકનમાં દેખાય કે નહીં તે પણ નક્કી કરી શકે છે. ઉદાહરણ તરીકે, સ્થિતિ જાળવતું અને નિષ્ફળ ક્રિયાઓ ફરી અજમાવતું હાર્નેસ એ જ મોડલને બહુ-પગલાંનું કાર્ય પૂરું કરવા દઈ શકે છે, જે સરળ હાર્નેસમાં ક્યારેય પૂરું ન થાય.

નીચેના કોષ્ટકમાં, અમે મૂલ્યાંકનકર્તાઓ કરવા માંગતા હોઈ શકે એવા ત્રણ પ્રકારના દાવાઓ અને દરેક પ્રકારના દાવા માટે જરૂરી માનવામાં આવતા હાર્નેસને અલગ પાડ્યા છીએ.

એવો દાવો જેને મૂલ્યાંકન સમર્થન આપવાનો પ્રયાસ કરે છે	યોગ્ય હાર્નેસ પસંદગી	રિપોર્ટ કરવાના પુરાવા
મજબૂત એલિસિટેશન હેઠળ ક્ષમતા: જ્યારે સેટઅપ તેની સૌથી મજબૂત વિશ્વસનીય કામગીરી બહાર લાવવા માટે રચાયેલ હોય ત્યારે સિસ્ટમ A પ્રકાર Xના કાર્યો પૂર્ણ કરી શકે છે.	સિસ્ટમ માટે સૌથી મજબૂત વિશ્વસનીય એલિસિટેશન સેટઅપ વાપરો, જેમાં સક્ષમ વપરાશકર્તા વાજબી રીતે વાપરે તે હાર્નેસ, ટૂલ્સ, સ્કેફોલ્ડિંગ અને બજેટ સામેલ હોય.	હાર્નેસ અને ટૂલ સેટઅપ, એલિસિટેશન માર્ગદર્શન, મંજૂર બજેટ/પ્રયાસ, ટોકન્સ/ખર્ચ/સમય, અને સેટઅપ દાવો કરેલી ક્ષમતા માટે વિશ્વસનીય પ્રોક્સી કેમ છે. જો અલગ ઑપ્ટિમાઇઝ્ડ સેટઅપ હેઠળ સિસ્ટમ્સની સરખામણી કરતા હો, તો તેને સિસ્ટમ-થી-સિસ્ટમ અથવા મજબૂત-એલિસિટેશન સરખામણી તરીકે લેબલ કરો.
નિયંત્રિત સરખામણી: સિસ્ટમ A શેર કરેલા મૂલ્યાંકન સેટઅપ હેઠળ સિસ્ટમ B કરતાં સારી કામગીરી કરે છે.	કાર્યો, સ્કોરિંગ અને બજેટ સ્થિર રાખો. તુલના કરવામાં આવી રહેલી સિસ્ટમ્સ માટે વાજબી મહત્તમ એલિસિટેશન આપવા માટે શેર કરેલું હાર્નેસ/ટૂલ સેટઅપ અથવા પહેલેથી પસંદ કરેલા સ્ટાન્ડર્ડાઇઝ્ડ હાર્નેસનો સ્થિર સમૂહ વાપરો.	શેર કરેલ કાર્ય સમૂહ, ટૂલ્સ, સ્કોરિંગ પદ્ધતિ, હાર્નેસ, બજેટ, ટોકન કાર્યક્ષમતા/ખર્ચ અને જાણીતી મર્યાદાઓ. કોડિંગ-એજન્ટ મૂલ્યાંકનો માટે, Codex CLI જેવો ઓપન-સોર્સ હાર્નેસ સિસ્ટમ્સમાં સ્થિર એજન્ટ લૂપ અને ટૂલ ઇન્ટરફેસ આપી શકે છે. મહત્તમ એલિસિટેશન માટે આદર્શ અભિગમ દરેક કાર્ય અને સિસ્ટમ માટે અલગથી ખાસ હાર્નેસ ઑપ્ટિમાઇઝ કરવાનો હોય, પરંતુ હાલમાં વ્યવહારમાં આવું કરવું અશક્ય સમાન છે.
એલિસિટેડ હુમલા હેઠળ સેફગાર્ડ મજબૂતી: સિસ્ટમ Aના સેફગાર્ડ્સ સંબંધિત મોડલ વર્તન અથવા એલિસિટેડ હુમલા માટે પૂરતા છે.	સંબંધિત વિરોધી મોડલ હેઠળ સૌથી મજબૂત વિશ્વસનીય હુમલો બહાર લાવવા માટે રચાયેલ સેફગાર્ડ-ટેસ્ટિંગ સેટઅપ વાપરો.	મૂલ્યાંકનકર્તાઓએ સંબંધિત મોડલ વર્તનને કેવી રીતે વર્ણવ્યું, પરીક્ષણ કરાયેલી સેફગાર્ડ કન્ફિગરેશન, એલિસિટેશન વ્યૂહરચના, તેને અમલમાં મૂકવા માટે વપરાયેલ હાર્નેસ અને મંજૂર બજેટ અથવા પ્રયાસ.

ક્ષમતા દાવાઓ તેમના પાછળના એલિસિટેશન જેટલા જ મજબૂત હોય છે: મૂલ્યાંકનકર્તાઓએ કાર્ય અને મૂલ્યાંકન માપવા માગતી ક્ષમતા માટે શ્રેષ્ઠ રીતે ફિટ થતું હાર્નેસ પસંદ કરવું જોઈએ. સમાન સ્થિતિ હેઠળ સિસ્ટમ્સની સરખામણી માટે સ્ટાન્ડર્ડાઇઝ્ડ હાર્નેસ યોગ્ય હોઈ શકે છે, પરંતુ તે મોડલને કાર્ય કરવામાં મદદ કરતી ચોક્કસ હાર્નેસ સુવિધાઓ છોડે ત્યારે ક્ષમતાને ઓછી બતાવી શકે છે. ઉદાહરણ તરીકે, OpenAIની સાઇબર રેન્જ પર GPT‑5.5ની કામગીરી બતાવે છે કે લાંબા, બહુ-પગલાંના ટૂલ ઉપયોગની જરૂર હોય તેવા કાર્યો પર હાર્નેસની પસંદગી માપેલી ક્ષમતાને નોંધપાત્ર રીતે બદલી શકે છે: ક્રિયા લાંબી થતી જાય ત્યારે કાર્ય-સંબંધિત સંદર્ભ જાળવવા હાર્નેસ કમ્પેક્શન⁠ વાપરે ત્યારે મોડલ વધુ સારી કામગીરી કરે છે. આ દર્શાવે છે કે ચોક્કસ મોડલ્સ માટે, કમ્પેક્શન છોડતો હાર્નેસ કામગીરીને ઓછું એલિસિટ કરશે.

વધુ ઊંચા સફળતા દરો વધુ સારા છે

અન્ય પ્રકાશિત મૂલ્યાંકનો² પણ બતાવે છે કે હાર્નેસ અને બજેટ પસંદગીઓ મૂલ્યાંકન પરિણામો બદલે છે. પરીક્ષણ-સમય ગણતરી વધારવાથી મૂલ્યાંકન જે ક્ષમતા બહાર લાવે છે તેમાં નોંધપાત્ર ફેરફાર થઈ શકે છે, ખાસ કરીને એવા ક્ષેત્રોમાં જ્યાં સફળતા ચકાસવી સરળ છે, જેમ કે ઘણા સાઇબર કાર્યો. UK AISIના સાઇબર રેન્જ મૂલ્યાંકનમાં⁠(નવી વિન્ડોમાં ખૂલે છે), બજેટ 10Mથી 100M ટોકન્સ સુધી વધારવાથી કામગીરીમાં 59% સુધી સુધારો થયો, અને પરીક્ષણ કરેલા સૌથી ઊંચા બજેટ પર પણ કામગીરી વધતી જ હતી. આ વિગત આપવાથી મૂલ્યાંકન વધુ સમજાય તેવું બને છે: તે વાચકોને બતાવે છે કે પરિણામ પરીક્ષણ કરેલા એલિસિટેશન સેટઅપ પર કેવી રીતે આધાર રાખે છે. જ્યારે વધારાના બજેટ સાથે કામગીરી હજી સુધરી રહી હોય, ત્યારે સ્કોરને માપેલી ક્ષમતાની મર્યાદા તરીકે નહીં પરંતુ તે હાર્નેસ અને બજેટ હેઠળની કામગીરી તરીકે વર્ણવવો જોઈએ. ક્ષમતા ઘણી વાર એકવખત માટે સ્વચ્છ રીતે માપી શકાય એવી સ્થિર રકમ નહીં, પરંતુ સંસાધન પર નિર્ભર હોય છે. જ્યાં સફળતા પુનરાવર્તિત પ્રયત્નોમાં માપી શકાય, ત્યાં રિપોર્ટ્સે માત્ર સ્થિર ટોકન બજેટ પર સફળતા દર નહીં, પણ સફળ ઉકેલ દીઠ અપેક્ષિત ખર્ચ પણ ધ્યાનમાં લેવો જોઈએ. આનાથી ગંભીરતા સમજવાનું સરળ થઈ શકે છે: જો પુનરાવર્તિત પ્રયત્નોનો ખર્ચ સંબંધિત જોખમ મોડલની અંદર હોય તો ઓછો સફળતા દર પણ વ્યવહારમાં અર્થપૂર્ણ હોઈ શકે છે. ક્ષમતા દાવાઓ માટે, ટાળી શકાય તેવું ઓછું એલિસિટેશન માપનની નિષ્ફળતા છે: જો હાર્નેસ અથવા બજેટ સિસ્ટમને તે અન્યથા ઉત્પન્ન કરી શકે તે વર્તન બતાવવાથી અટકાવે, તો સ્કોર દાવો કરવામાં આવતી ક્ષમતાને માપતું નથી. જ્યાં મૂલ્યાંકનકર્તાઓએ એલિસિટેશન શક્ય તેટલું આગળ ધપાવ્યું હોય અને કામગીરી હજી સુધરી રહી હોય, ત્યાં રિપોર્ટ્સે તે સ્પષ્ટ કહેવું જોઈએ અને પરિણામ માત્ર નીચલી-મર્યાદાનો અંદાજ છે તે સ્પષ્ટ કરવું જોઈએ.

કસ્ટમ હાર્નેસ સહિત હુમલાખોરો માટે ઉપલબ્ધ સંસાધનોને ધ્યાનમાં ન લેવાય ત્યારે સેફગાર્ડ પરીક્ષણ હુમલો સફળ થઈ શકે છે કે નહીં અને તે કેટલો ગંભીર હોઈ શકે છે તે ઓછી રીતે દર્શાવી શકે છે. UK AISIના GPT‑5.5 સાઇબર મૂલ્યાંકનમાં⁠(નવી વિન્ડોમાં ખૂલે છે), તેમની નિષ્ણાત રેડ ટીમિંગે એક યુનિવર્સલ જેલબ્રેક શોધ્યો, જેણે OpenAI દ્વારા આપવામાં આવેલી દુર્ભાવનાપૂર્ણ ક્વેરીઝમાં, બહુ-ટર્ન એજન્ટિક સેટિંગ્સ સહિત, નિયમભંગ કરતી સાઇબર સામગ્રી બહાર લાવી. તેમણે મોડલની હુમલા કામગીરી મજબૂત કરવા Codexનો ઉપયોગ કરીને કસ્ટમ હાર્નેસ બનાવ્યું: તેણે ફરી વાપરી શકાય તેવી સેફગાર્ડ-બાયપાસ પેટર્ન ક્રિયામાં એમ્બેડ કરી, તે પેટર્નને ટર્ન્સ અને બ્લોક્સમાં જાળવી રાખી, અને OpenAIએ આપેલી દુર્ભાવનાપૂર્ણ સાઇબર ક્વેરીઝમાં લાગુ કરી. સેફગાર્ડ પરીક્ષણ વિરોધી સાથે મેળ ખાતું હોવું જોઈએ. જો દાવો નિષ્ણાત દુરુપયોગ સામેની મજબૂતી વિશે હોય, તો પરીક્ષણે નિર્ધારિત બજેટ હેઠળ સૌથી મજબૂત વિશ્વસનીય આરંભ-થી-અંત હુમલા વ્યૂહરચનાનું મૂલ્યાંકન કરવું જોઈએ, જેમાં તે વ્યૂહરચનાને જાળવવા અને ફરી વાપરવા માટે જરૂરી કોઈપણ હાર્નેસ સામેલ હોય. નહીંતર, પરિણામોમાં ખોટા કેલિબ્રેશનનું જોખમ રહે છે: તે માત્ર સરળ પ્રોમ્પ્ટિંગ સામે પ્રતિકાર વિશે વધુ સંકુચિત દાવાને સમર્થન આપી શકે, એલિસિટેશન પદ્ધતિ કાર્યરત થાય પછી હુમલો કેટલો ગંભીર બને છે અને તેની સફળતાની સંભાવના બંને ચૂકી શકે, અને વધુ પડતું બજેટ અપાય તો સમસ્યા કેટલી સંભવિત અથવા ગંભીર છે તે પણ વધારી બતાવી શકે.

સ્ટાન્ડર્ડાઇઝ્ડ હાર્નેસ સરખામણીઓ માટે સમય અને સ્થાન છે, પરંતુ મૂલ્યાંકનકર્તાઓએ સતત હાર્નેસ સમૂહનો ઉપયોગ શા માટે યોગ્ય છે અને તે કયા દાવાને સમર્થન આપી શકે છે તે સ્પષ્ટ કરવું જોઈએ. METRનું સમય-ક્ષિતિજ મૂલ્યાંકન⁠(નવી વિન્ડોમાં ખૂલે છે) વ્યાપક, યોગ્ય રીતે સ્થિર મૂલ્યાંકન સેટઅપનું ઉદાહરણ છે: તે મૂલ્યાંકન કરવામાં આવેલી સિસ્ટમ્સમાં તુલનાત્મક પરિણામો આપવા માટે રચાયેલ છે. METR એક સામાન્ય પરિણામ વ્યાખ્યાયિત કરે છે, એટલે માનવ કાર્યની સામાન્ય અવધિ જેમાં AI એજન્ટ નિર્ધારિત વિશ્વસનીયતા સ્તરે સફળ થવાનું અનુમાન છે. તે સાથે રિપોર્ટ કરાયેલા અંદાજોની દરેક બેચમાં શેર કરેલી કાર્ય શ્રેણી, સ્કોરિંગ પદ્ધતિ, ફિટિંગ પદ્ધતિ, અને Triframe અને ReAct⁠(નવી વિન્ડોમાં ખૂલે છે) જેવા થોડા ફરી વાપરી શકાય તેવા સ્કેફોલ્ડ્સ લાગુ કરે છે. જ્યારે METRએ કાર્ય શ્રેણી વિસ્તારી અને મૂલ્યાંકન ઇન્ફ્રાસ્ટ્રક્ચરને Vivaria નામના ફ્રેમવર્કમાંથી Inspect નામના ફ્રેમવર્કમાં ખસેડ્યું, ત્યારે તેણે ફેરફારની જાણ કરી (Time Horizon 1.1 અપડેટ⁠(નવી વિન્ડોમાં ખૂલે છે)) અને નવા મૂલ્યાંકન સેટઅપ હેઠળ મોડલ્સનું પુનઃમૂલ્યાંકન કર્યું. સતત હાર્નેસ સમૂહ સહિત સ્ટાન્ડર્ડાઇઝ્ડ મૂલ્યાંકન સેટઅપનું આ જ મૂલ્ય છે: તે વાચકોને વિશ્વાસ અપાવે છે કે સ્કોરમાંનો ફરક, માપન સેટઅપમાં થતો ફેરફાર નહીં પરંતુ ખરેખર સરખાવવામાં આવતી સિસ્ટમ્સ વચ્ચેનો ફરક દર્શાવે છે.

અમે ભલામણ કરીએ છીએ કે તૃતીય પક્ષ મૂલ્યાંકન રિપોર્ટ્સ જણાવે કે તેમનું મૂલ્યાંકન સેટઅપ કયા પ્રકારના દાવાને સમર્થન આપવા માટે છે; પરીક્ષણ કરેલું તે વ્યાપક દાવાને કેટલું નજીકથી પ્રતિબિંબિત કરે છે તેનું વર્ણન કરે; પરિણામને આકાર આપનાર હાર્નેસ પસંદગીઓ વર્ણવે; મૂલ્યાંકનો વચ્ચે તે પસંદગીઓ ક્યારે બદલાય તેની વિગતો આપે; અને પરિણામ કેવી રીતે ઉત્પન્ન થયું અને તે દાવા સુધી કેટલી સારી રીતે સામાન્ય બને છે તે બતાવવા સહાયક પુરાવા સામેલ કરે.

પરિણામોને વિકૃત કરી શકે એવા જાણીતા જોખમો તપાસીને માન્યતાનું આકલન કરો

મોડલ્સ વધુ સક્ષમ બનતાં જાય તેમ મૂલ્યાંકન સ્કોર્સનું ખોટું અર્થઘટન કરવું વધુ સરળ બને છે. વાસ્તવિક ક્ષમતાઓની તુલનામાં, જો મોડલ ઓળખે કે તેનું મૂલ્યાંકન થઈ રહ્યું છે અને વ્યૂહાત્મક રીતે નબળી કામગીરી કરે, તો મૂલ્યાંકન સ્કોર્સ કૃત્રિમ રીતે ઘટી શકે છે. જો મોડલ કાર્ય, પ્રોમ્પ્ટ, સ્કોરર અથવા હાર્નેસમાં શોર્ટકટનો લાભ લે, તો તે વધી શકે છે. તે કન્ટામિનેશનથી (જ્યાં મોડલ કાર્ય ઉકેલ્યા વગર જવાબ પહેલેથી જાણે છે અથવા શોધી શકે છે) અથવા એવી “બ્રોકન” સમસ્યાઓથી, જે અસ્પષ્ટ, ખોટી રીતે સ્કોર કરેલી, ઉકેલી ન શકાય તેવી, અથવા અનિચ્છિત શોર્ટકટ માટે સંવેદનશીલ હોય તેનાથી પણ વિકૃત થઈ શકે છે. તેથી મૂલ્યાંકન રિપોર્ટ્સે મુખ્ય સ્કોર્સ સાથે આ જોખમોની ચર્ચા જોડવી જોઈએ, જેથી વાચકો આંકી શકે કે સ્કોર્સ ઇચ્છિત વર્તન દર્શાવે છે કે નહીં.

હાર્નેસ, બજેટ, ટૂલ્સ, સ્કોરિંગ નિયમો, મોનિટર્સ અને સમીક્ષા પ્રક્રિયાઓ બધું અસર કરે છે કે એજન્ટ ઇચ્છિત કાર્ય ઉકેલી રહ્યો છે, તેને ટાળી રહ્યો છે, તેને યાદ કરી રહ્યો છે, અથવા તેની આસપાસનો માર્ગ શોધી રહ્યો છે. વિશ્વસનીય રિપોર્ટ આ તપાસોને દેખાડે છે: મૂલ્યાંકનકર્તાઓએ દરેક વખત આકલન ચલાવવામાં આવે ત્યારે આ વર્તનો માટે નમૂનાઓની સમીક્ષા કરવી જોઈએ.

રીવોર્ડ હેકિંગ

રીવોર્ડ હેકિંગ એટલે, એવી રીતે ઊંચા મૂલ્યાંકન સ્કોર્સ મેળવવા જે ઇચ્છિત ક્ષમતાને પ્રતિબિંબિત કરતા નથી. અહીં ચિંતા એ છે કે સિસ્ટમ મૂલ્યાંકન જે કામ માપવા માટે હતું તે કરવાના બદલે કાર્ય, સ્કોરર, પ્રોમ્પ્ટ અથવા હાર્નેસનો લાભ લઈને ક્રેડિટ મેળવે છે. GPT 5.4નું METR મૂલ્યાંકન⁠(નવી વિન્ડોમાં ખૂલે છે) બતાવે છે કે આ કેમ મહત્વનું છે: મોડલ કાર્યોમાં એવા દરે સફળ થયું કે પ્રથમ પાસમાં આશરે 13-કલાક સમય સીમા તરીકે નોંધાયું હોત, છતાં માનવીય સમીક્ષાએ બતાવ્યું કે આમાંથી કેટલીક સફળતાઓ રીવોર્ડ હેકિંગથી આવી હતી, અને ફક્ત રીવોર્ડ હેકિંગ વગરના કિસ્સાઓને ગણતરીમાં લેવા પરિણામો સુધારતા અંદાજ ઘટીને આશરે 6 કલાક થયો. મૂલ્યાંકનકર્તાઓએ આવા સુધારાની જરૂરિયાતનું આકલન કરવું જોઈએ અને જ્યારે તે જરૂરી હોય ત્યારે તેને સ્પષ્ટ રીતે રિપોર્ટ કરવી જોઈએ: જ્યારે વાચકો જોઈ શકે કે કઈ દેખાતી સફળતાઓ અયોગ્ય ઠેરવાઈ, શા માટે ઠેરવાઈ અને એ નિર્ણય પર પરિણામ કેટલું આધાર રાખે છે, ત્યારે ક્ષમતા અંદાજ ઘણો વધુ ઉપયોગી બને છે.

સમય સાથે AI મોડલ કામગીરી દર્શાવતો ચાર્ટ, જેમાં ટ્રેન્ડ લાઇન અને વિશ્વાસ અંતરાલો છે.

ઇનકારો

મોડલ્સ સેફગાર્ડ્સને કારણે ક્ષમતા મૂલ્યાંકનોમાં નબળી કામગીરી પણ કરી શકે છે. મોડલ મૂલ્યાંકન કાર્યો પૂર્ણ કરવાને બદલે નકારવાથી, પોતાની ક્ષમતાથી ઓછી મૂલ્યાંકન કામગીરી બતાવી શકે છે. તેથી રિપોર્ટ્સે સમજાવવું જોઈએ કે ઇનકારો મૂલ્યાંકન પરિણામોનો ભાગ હતા કે નહીં, અને જો હતા તો તેમના કારણે કેટલા નમૂનાઓ બગડ્યા.

કન્ટામિનેશન

કન્ટામિનેશન જાહેર અથવા ફરી વપરાતા બેન્ચમાર્ક્સ⁠ માટે સૌથી વધુ મહત્વનું છે. જો કાર્યો, જવાબો અથવા નજીકના પ્રકારો તાલીમ ડેટામાં દેખાય અથવા બ્રાઉઝિંગ ધરાવતા એજન્ટ દ્વારા મળી શકે, તો કામગીરી મોડલ કામગીરીને બદલે યાદ રાખવાનું અથવા પુનઃપ્રાપ્ત કરવાનું દર્શાવી શકે છે. મૂલ્યાંકનકર્તાઓએ શક્ય હોય ત્યાં ખાનગી અથવા નવા બનાવેલા કાર્યોને પ્રાધાન્ય આપવું જોઈએ અને તપાસવું જોઈએ કે મોડલ્સ ઉકેલતા પહેલાં કાર્ય-વિશિષ્ટ વિગતો પુનરુત્પાદિત કરે છે કે નહીં.

બ્રોકન પ્રોબ્લેમ્સ

બ્રોકન પ્રોબ્લેમ્સમાં એવી પરિસ્થિતિઓનો સમાવેશ થાય છે જેમ કે સમસ્યા ભૂલથી ઉકેલી ન શકાય તેવી હોય. બ્રોકન પ્રોબ્લેમ્સ એટલા સામાન્ય⁠(નવી વિન્ડોમાં ખૂલે છે) છે કે તેને પ્રમાણભૂત માન્યતા જોખમ તરીકે ગણવા જોઈએ. તેમાં ખોટો ગ્રાઉન્ડ ટ્રુથ, અસ્પષ્ટ પ્રોમ્પ્ટ્સ, ખૂટતી ફાઇલો, અસ્થિર સેવાઓ, અયોગ્ય સ્કોરિંગ માપદંડો, અને છુપાયેલી જવાબ ફાઇલો અથવા ગ્રાઉન્ડ-ટ્રુથ પેચ ધરાવતો રિપોઝિટરી ઇતિહાસ જેવા શોર્ટકટ ખુલ્લા પાડતા પર્યાવરણો સામેલ છે.

સેન્ડબેગિંગ

મોડલ અથવા સિસ્ટમ દ્વારા સેન્ડબેગિંગનો અર્થ છે કે જ્યારે મજબૂત કામગીરી કોઈ હેતુથી વિરુદ્ધ જાય ત્યારે વ્યૂહાત્મક રીતે નબળી કામગીરી કરવી. Apolloના GPT‑5.5 મૂલ્યાંકને⁠(નવી વિન્ડોમાં ખૂલે છે) એવો સંદર્ભ બનાવીને આનું પરીક્ષણ કર્યું જેમાં મોડલ સમજી ગયું કે ઊંચા મૂલ્યાંકન સ્કોર્સ અનલર્નિંગ શરૂ કરી શકે અથવા ડિપ્લોયમેન્ટ અટકાવી શકે. GPT‑5.5 છતાં પણ સાચા જવાબ આપતું રહ્યું, જે વ્યૂહાત્મક નબળી કામગીરીના ઓછા વર્તનાત્મક પુરાવા સૂચવે છે³. પરંતુ રિઝનિંગ ટ્રેસિસની તેમની સમીક્ષાએ મહત્વપૂર્ણ સંદર્ભ ઉમેર્યો: Apolloએ સેન્ડબેગિંગ-શરતના નમૂનાઓમાં 52%માં અલાઇનમેન્ટ-મૂલ્યાંકન જાગૃતિના મધ્યમ અથવા વધુ સંકેતો મળ્યા, જ્યારે કાઉન્ટરફેક્ટ્યુઅલ્સમાં 0% હતા. તે પુરાવા પરિણામના અર્થઘટનને જટિલ બનાવે છે, પરંતુ અંતે વાચકોને વધુ સંકેત આપે છે: વાચકો આશ્વાસક વર્તનાત્મક પરિણામ અને તેનું અતિઅર્થઘટન કરવા અંગે સાવચેત રહેવાનું કારણ બંને જોઈ શકે છે.

અમે વધુ મજબૂત મૂલ્યાંકનોને કેવી રીતે સપોર્ટ કરી રહ્યા છીએ

મજબૂત દાવાઓ માટે વર્તન બહાર લાવવા યોગ્ય હાર્નેસ અને પરિણામ મજબૂત છે તે બતાવવા માન્યતા તપાસો બંને જરૂરી છે. હાર્નેસ અને માન્યતા તપાસો મૂલ્યાંકન પરિણામનો ભાગ છે એવી અમારી દૃષ્ટિ વ્યવહારમાં તૃતીય પક્ષ મૂલ્યાંકનોને અમે કેવી રીતે સપોર્ટ કરીએ છીએ તેને આકાર આપે છે:

અમે મૂલ્યાંકનકર્તાઓ સાથે ચોક્કસ મહત્તમ-એલિસિટેશન માર્ગદર્શન શેર કરી રહ્યા છીએ.
અમે ક્ષમતા મૂલ્યાંકનકર્તાઓને OpenAI મોડલ્સ માટે સામાન્ય નીચલા ધોરણ તરીકે Codex વાપરવા કહી રહ્યા છીએ: પરીક્ષણોએ ઓછામાં ઓછું, ફક્ત કાપછાંટ કરેલા મોડલ ઇન્ટરફેસથી નહીં, પરંતુ વપરાશકર્તાઓ જે એજન્ટિક ઇન્ટરફેસ પર નિર્ભર રહેવાની શક્યતા છે તેમાં જ એક બેઝલાઇન ચલાવવી જોઈએ.
અમે જ્યાં કપટ, સેન્ડબેગિંગ અથવા મૂલ્યાંકન જાગૃતિ આંકવા જરૂરી હોય ત્યાં રિઝનિંગ ટ્રેસિસ અને અન્ય મધ્યવર્તી આર્ટિફેક્ટ્સ પણ ઉપલબ્ધ કરાવી રહ્યા છીએ. METR અને Apolloએ GPT‑5થી OpenAI મૂલ્યાંકનોમાં આ ઍક્સેસનો ઉપયોગ કર્યો છે.
છેલ્લે, અમે સંશોધનને પ્રાધાન્ય આપી રહ્યા છીએ જેથી વધુ ઊંડાણથી સમજાય કે સંદર્ભ વ્યવસ્થાપન અને ટૂલ ઍક્સેસથી લઈને પુનઃપ્રયત્ન વર્તન, સ્કોરિંગ અને સંસાધન બજેટ સુધી, હાર્નેસ પસંદગીઓ ક્યારે અને કેવી રીતે પરિણામોમાં મહત્વનો ફેરફાર કરે છે.

મૂલ્યાંકન ધોરણો અને ભાવિ સંશોધન દિશાઓ માટે આનો અર્થ શું છે

આ ભલામણો માત્ર વ્યક્તિગત મૂલ્યાંકન રિપોર્ટ્સ સુધારવા માટે જ નહીં, પરંતુ અત્યાધુનિક AI મૂલ્યાંકન અને રિપોર્ટિંગ માટે ઊભરતા રાષ્ટ્રીય ⁠(નવી વિન્ડોમાં ખૂલે છે)અને આંતરરાષ્ટ્રીય ⁠(નવી વિન્ડોમાં ખૂલે છે)ધોરણોને માહિતી આપવા માટે પણ છે. આગળ જતાં, તૃતીય પક્ષ મૂલ્યાંકન ધોરણોએ નિર્ણયકર્તાઓને સમજવા પૂરતી વિગત માંગવી જોઈએ કે ચોક્કસ મૂલ્યાંકનો કયા દાવાઓને સમર્થન આપે છે, કઈ સિસ્ટમનું પરીક્ષણ થયું, પરિણામ કેવી રીતે એલિસિટ થયું અને મૂલ્યાંકનકર્તાઓએ તેની માન્યતા કેવી રીતે તપાસી. જ્યાં એજન્ટિક ક્ષમતાઓ મહત્વની હોય તેવા કાર્યો પર પરીક્ષણ કરવામાં આવતી અત્યાધુનિક સિસ્ટમ્સ માટે, વિગતોમાં આ સામેલ હોવું જોઈએ (સુરક્ષા અથવા ગોપનીયતા સંબંધિત ચિંતાઓને આધીન):

દાવો: મૂલ્યાંકન સિસ્ટમ્સની સરખામણી કરે છે કે નહીં, ક્ષમતાની મર્યાદાનો અંદાજ આપે છે કે નહીં, અથવા સેફગાર્ડ્સનું પરીક્ષણ કરે છે કે નહીં.
મૂલ્યાંકન સામગ્રી: વાચકો સમજી શકે એટલી કાર્યો અથવા કાર્ય વિતરણ અંગેની વિગત કે મૂલ્યાંકન ખરેખર કયા કૌશલ્યો, વર્તનો અથવા નિષ્ફળતા મોડ્સનું પરીક્ષણ કરે છે.
પરીક્ષણ કરેલી સિસ્ટમ: મોડલ, રિઝનિંગ સેટિંગ, ટૂલ ઍક્સેસ, હાર્નેસ અને સેફગાર્ડ્સ.
બજેટ: ટર્ન્સ, ટોકન્સ, પ્રયત્નો/પુનઃપ્રયત્નો, વૉલ-ક્લોક સમય, અનુમાન ખર્ચ, અને જ્યાં લાગુ પડે ત્યાં સફળ ઉકેલ દીઠ અપેક્ષિત ખર્ચ.
એલિસિટેશન પદ્ધતિઓ: પરિણામ બહાર લાવવા માટે ઉપયોગમાં લેવાયેલી હાર્નેસ પસંદગીઓ, અને જેનું પરીક્ષણ કરવામાં આવ્યું હતું તે વ્યાપક દાવાને કેટલું નજીકથી દર્શાવે કરે છે.
માન્યતા તપાસ: મૂલ્યાંકનકારોએ રીવોર્ડ હેકિંગ, મૂલ્યાંકન જાગૃતિ, કન્ટામિનેશન, ઇનકારો, સેન્ડબેગિંગ અને પરિણામને નબળું પાડી શકે એવા અન્ય વર્તનો કેવી રીતે શોધ્યા, જેમાં ખાતરી થયેલા કેસોએ સ્કોરિંગ અથવા અર્થઘટનને કેવી રીતે અસર કરી તે સામેલ છે.

હાર્નેસ પસંદગીઓ અથવા માન્યતા તપાસ છોડતા ધોરણો સિસ્ટમ શું કરી શકે છે તે ઓછી રીતે દર્શાવી શકે અથવા સલામતી દાવામાં વિશ્વાસ વધારી બતાવી શકે. મજબૂત હાર્નેસ અને એલિસિટેશન પદ્ધતિઓ બનાવવી હજી ખુલ્લું સંશોધન ક્ષેત્ર છે અને વધુ તપાસ તથા રોકાણનું કેન્દ્ર હોવું જોઈએ.

2026

લેખક

OpenAI

શબ્દાવલી

અમે આ પોસ્ટમાં અનેક વિશેષ પરિભાષિક શબ્દો વાપરીએ છીએ, તેથી અમે નીચે એક શબ્દાવલી સામેલ કરી છે, જે અમે શેનો ઉલ્લેખ કરી રહ્યા છીએ તેની સરળ ભાષામાં સમજ આપે છે:

એજન્ટિક સિસ્ટમ: એવી સિસ્ટમ જે પ્રોમ્પ્ટને માત્ર એક જવાબ આપવાને બદલે, ટૂલ્સનો ઉપયોગ કરીને, કાર્યની સ્થિતિ જાળવીને અને પર્યાવરણમાં કાર્ય કરીને અનેક પગલાંમાં કાર્ય પાર પાડી શકે.
આકલન: કોઈ દાવો, જોખમનો નિષ્કર્ષ અથવા ખાતરીની સ્થિતિ પુરાવાથી સમર્થિત છે કે નહીં તે અંગેનો વ્યાપક નિર્ણય, જે મૂલ્યાંકન ડેટા, દસ્તાવેજ સમીક્ષા, ઇન્ટરવ્યુ, પ્રક્રિયા સમીક્ષા અને અન્ય સંબંધિત પુરાવા પર આધારિત હોઈ શકે છે.
કમ્પેક્શન: લાંબા રન દરમિયાન કાર્ય-સંબંધિત સંદર્ભ જાળવવાની પદ્ધતિ.
કન્ફિગરેશન: મોડલના નામથી આગળ, ચોક્કસપણે ચકાસાયેલ સિસ્ટમ અને મૂલ્યાંકન શરતો.
કન્ટામિનેશન: જ્યારે મૂલ્યાંકન કાર્યો, જવાબો અથવા નજીકના પ્રકારો મોડલના તાલીમ ડેટામાં દેખાય અથવા મૂલ્યાંકન દરમિયાન શોધી શકાય (દા.ત., બ્રાઉઝિંગ જેવા ટૂલ્સ દ્વારા), જેથી કામગીરી મોડલના સાચા જનરલાઇઝેશનને વધારીને બતાવે.
એલિસિટેશન: આકલન દરમિયાન સિસ્ટમમાંથી કોઈ ક્ષમતા અથવા વર્તન બહાર લાવવાનો પ્રયાસ કરવાની પ્રક્રિયા.
પર્યાવરણ: કાર્યની એવી સ્થિતિ જેમાં સિસ્ટમનું પરીક્ષણ થાય છે. આમાં એવી બાબતોનો સમાવેશ થાય છે જેમ કે બાહ્ય સ્થિતિ જેના સાથે એજન્ટ મૂલ્યાંકન દરમિયાન ક્રિયા કરે છે અને તેને બદલે છે, જેમ કે ટર્મિનલ પર્યાવરણ અથવા વિડિયો ગેમ.
મૂલ્યાંકન: આકલનની અંદરનું ચોક્કસ પરીક્ષણ અથવા માપન.
મૂલ્યાંકન જાગૃતિ: મૂલ્યાંકન જાગૃતિનો અર્થ છે કે મોડલ પોતાનું મૂલ્યાંકન થઈ રહ્યું છે તે ઓળખે છે અથવા ઓળખતું દેખાય છે, અને શક્ય છે કે તે સંદર્ભમાં પોતાનું વર્તન બદલે. આમાં મોડલ પોતાની તપાસ થઈ રહી છે તે અંગે સ્પષ્ટપણે રિઝનિંગ કરતું હોય, મૂલ્યાંકનનો હેતુ અનુમાનતું હોય, અથવા પરિણામથી પોતાનો ન્યાય કે ડિપ્લોયમેન્ટ અસર પામશે તેવી અપેક્ષાથી વર્તન બદલતું હોય તેવું લાગી શકે છે.
હાર્નેસ: મોડલ-તરફી માળખું જે મોડલને કાર્ય કરવા દે છે: પ્રોમ્પ્ટ્સ, ટૂલ્સ, ઇન્ટરફેસ, કંટ્રોલ લોજિક, મેમરી, પુનઃપ્રયત્નો, વેલિડેટર્સ અને મોડલની આસપાસની અન્ય સહાયક રચનાઓ.
મહત્તમ એલિસિટેશન: માત્ર સિસ્ટમને એકવાર સ્ટાન્ડર્ડાઇઝ્ડ હાર્નેસમાંથી ચલાવવાના બદલે, નિર્ધારિત બજેટ હેઠળ સિસ્ટમ જે સૌથી મજબૂત વિશ્વસનીય કામગીરી અથવા નિષ્ફળતા મોડ આપી શકે તેને શોધવાના હેતુથી કરવામાં આવતું પરીક્ષણ.
રિઝનિંગ ટ્રેસિસ: પરીક્ષણ દરમિયાન મોડલના મધ્યવર્તી રિઝનિંગના રેકોર્ડ.
રીવોર્ડ હેકિંગ: મૂલ્યાંકનકર્તાના આશયની બહારના શોર્ટકટ અથવા વર્તન દ્વારા ઊંચો સ્કોર મેળવવો.
સેફગાર્ડ્સ: મોડલ અથવા ઉત્પાદનની આસપાસ લાગુ કરાયેલા ફિલ્ટર્સ, મોનિટર્સ, બ્લોકિંગ સિસ્ટમ્સ અને અન્ય સુરક્ષાઓ.
સેન્ડબેગિંગ: પરિણામને નબળું પાડે તે રીતે મૂલ્યાંકનમાં વ્યૂહાત્મક રીતે નબળી કામગીરી કરવી.
સ્કોરિંગ: કામગીરી કેવી રીતે માપવી અથવા કાર્ય સફળ થયું કે નહીં તે નક્કી કરવા માટે વપરાતી પદ્ધતિ.
સ્ટાન્ડર્ડાઇઝ્ડ હાર્નેસ: ખાસ મોડલ અથવા કાર્ય માટે કસ્ટમાઇઝ કરવાને બદલે સિસ્ટમ્સમાં સમાન રાખવામાં આવેલ હાર્નેસ, જેથી પરિણામોના ફરકને પરીક્ષણ કરેલા મોડલ સાથે જોડવું સરળ બને.
સમય ક્ષિતિજ: નિર્ધારિત વિશ્વસનીયતા સાથે સિસ્ટમ પૂર્ણ કરી શકે તે કાર્યની લંબાઈ, ઘણીવાર એ જ કાર્ય માનવને કેટલો સમય લે તે રૂપે વ્યક્ત થાય છે.
ટૂલ ઍક્સેસ: આકલન દરમિયાન મોડલ માટે ઉપલબ્ધ બાહ્ય ટૂલ્સ.
ટ્રેજેક્ટરીઝ: કાર્ય પાર પાડતી વખતે સિસ્ટમ અનુસરતી હોય તેવી પગલાં-દર-પગલાં માર્ગરેખાઓ.
યુનિવર્સલ જેલબ્રેક: એકલ હુમલા પેટર્ન જે અનેક પ્રોમ્પ્ટ્સ અથવા કાર્યોમાં સિસ્ટમને સેફગાર્ડ્સ બાયપાસ કરાવે છે.

ફૂટનોટ્સ

1
આ પોસ્ટ તૃતીય પક્ષોએ મિસઅલાઇનમેન્ટ અથવા પ્રવૃત્તિ-સંબંધિત દાવાઓનું મૂલ્યાંકન કેવી રીતે કરવું તે નક્કી કરવાનો પ્રયાસ કરતી નથી. હાર્નેસની પસંદગીઓ આવા મૂલ્યાંકનોને કેવી રીતે અસર કરે છે તે સમજવા વધુ કામ જરૂરી છે, ખાસ કરીને એટલા માટે કે લાંબી-ક્ષિતિજ વર્તનને સપોર્ટ કરનારા હાર્નેસ મૂલ્યાંકનકર્તાઓએ દેખરેખ રાખવાની હોય તેવા અનિચ્છિત વર્તનનાં પ્રકારો પણ બદલી શકે છે.
2
HAL⁠(નવી વિન્ડોમાં ખૂલે છે) એજન્ટ મૂલ્યાંકનોમાંથી વધુ એક ઉદાહરણ આપે છે: CORE-Bench⁠(નવી વિન્ડોમાં ખૂલે છે) પર, હાર્નેસને Claude Codeમાં બદલવાથી એ જ બેન્ચમાર્ક પર માપેલી કામગીરી અને ખર્ચ પ્રોફાઇલ બંને બદલાઈ ગયા. અન્ય જાહેર ઉદાહરણોમાં SWE-agent⁠(નવી વિન્ડોમાં ખૂલે છે), SeeAct⁠(નવી વિન્ડોમાં ખૂલે છે), ScienceAgentBench⁠(નવી વિન્ડોમાં ખૂલે છે), CORE-Bench⁠(નવી વિન્ડોમાં ખૂલે છે), અને Inspect Cyber⁠(નવી વિન્ડોમાં ખૂલે છે) સામેલ છે; દરેક વાચકોને જણાવે છે કે કયા ઇન્ટરફેસ અથવા હાર્નેસે સ્કોર ઉત્પન્ન કર્યો.
3
સેન્ડબેગિંગ QAના બંને પ્રકારોમાં 100% અને વ્યૂહાત્મક-કપટ સેન્ડબેગિંગ કાર્યમાં 99.6% સ્કોર કરવો.

વાંચતા રહો

બધું જુઓ

Safety and alignment in an era of long-horizon models

સુરક્ષા20 જુલાઈ, 2026

Why teens deserve access to safe AI — card image

કિશોરોને સુરક્ષિત AIની ઍક્સેસ કેમ મળવી જોઈએ

સુરક્ષા16 જુલાઈ, 2026

GPT-Red: દૃઢતા માટે સ્વ-સુધારણા અનલૉક કરવી

સુરક્ષા15 જુલાઈ, 2026