બાહ્ય પરીક્ષણ દ્વારા અમારી સુરક્ષા ઇકોસિસ્ટમને મજબૂત બનાવવું
અદ્યાધુનિક AI માટે તૃતીય-પક્ષ મૂલ્યાંકનો અંગેનો અમારો અભિગમ.
OpenAIમાં, અમારો વિશ્વાસ છે કે સ્વતંત્ર અને વિશ્વસનીય તૃતીય-પક્ષ મૂલ્યાંકનો અદ્યાધુનિક AIની સુરક્ષા ઇકોસિસ્ટમને મજબૂત બનાવવા માટે અત્યંત મહત્વપૂર્ણ ભૂમિકા ભજવે છે. તૃતીય-પક્ષ મૂલ્યાંકન એવા મૂલ્યાંકનો છે જે અદ્યાધુનિક મોડલ્સ પર કરવામાં આવે છે જેથી મહત્વપૂર્ણ સુરક્ષા ક્ષમતાઓ અને ઉપાયો વિશેના દાવાઓની પુષ્ટિ કરી શકાય અથવા તેના માટે વધારાના પુરાવા મળી શકે. આવા મૂલ્યાંકનો સુરક્ષા સંબંધિત દાવાઓને માન્ય કરે છે, નજરચૂક સામે રક્ષણ આપે છે અને ક્ષમતાઓ તથા જોખમો અંગે વધુ પારદર્શિતા લાવે છે. બાહ્ય નિષ્ણાતોને અમારા અદ્યાધુનિક મોડલ્સનું પરીક્ષણ કરવા આમંત્રિત કરીને, અમારો હેતુ અમારી ક્ષમતા મૂલ્યાંકનો અને સુરક્ષા ઉપાયોની ઊંડાણમાં વિશ્વાસ વધારવાનો છે અને વ્યાપક સુરક્ષા ઇકોસિસ્ટમને પણ મજબૂત બનાવવાનો છે.
GPT‑4ના લોન્ચ પછીથી, OpenAIએ અમારા મોડલ્સનું પરીક્ષણ અને મૂલ્યાંકન કરવા માટે અનેક બાહ્ય ભાગીદારો સાથે સહકાર કર્યો છે. વ્યાપક રીતે જોવામાં આવે તો, અમારા તૃતીય-પક્ષ સહયોગના ત્રણ સ્વરૂપ છે:
- બાયোসિક્યુરિટી, સાયબરસિક્યુરિટી, AI સ્વ-સુધારણા અને કૌશલ્યપૂર્ણ ભ્રમ જેવા મુખ્ય અદ્યાધુનિક ક્ષમતા અને જોખમ ક્ષેત્રો માટેના સ્વતંત્ર મૂલ્યાંકન
- અમે જોખમનું મૂલ્યાંકન અને અર્થઘટન કેવી રીતે કરીએ છીએ તેનું મૂલ્યાંકન કરતી પદ્ધતિશાસ્ત્રીય સમીક્ષાઓ
- વિષય નિષ્ણાતો (SME) દ્વારા તપાસ, જેમાં નિષ્ણાતો વાસ્તવિક દુનિયાના SME કાર્યો પર સીધું મોડલનું મૂલ્યાંકન કરે છે અને તેની ક્ષમતાઓ તથા સંબંધિત સુરક્ષા ઉપાયો અંગેના અમારા મૂલ્યાંકનમાં રચિત ઇનપુટ આપે છે1
આ બ્લોગમાં અમે સમજાવીએ છીએ કે બાહ્ય મૂલ્યાંકનના આ દરેક સ્વરૂપનો અમે કેવી રીતે ઉપયોગ કરીએ છીએ, તે શા માટે મહત્વપૂર્ણ છે, તેમણે ડિપ્લોયમેન્ટ સંબંધિત નિર્ણયોને કેવી રીતે પ્રભાવિત કર્યા છે, અને આ સહયોગોને ગોઠવવા માટે અમે કયા સિદ્ધાંતોનો ઉપયોગ કરીએ છીએ. પારદર્શિતાના ભાવથી, અમે તૃતીય-પક્ષ પરીક્ષકો સાથેના અમારા સહયોગોને શાસિત કરતી ગોપનીયતા અને પ્રકાશન શરતો વિશે પણ વધુ શેર કરી રહ્યા છીએ.
તૃતીય-પક્ષ મૂલ્યાંકનકારો અમારી આંતરિક કામગીરીની સાથે એક સ્વતંત્ર મૂલ્યાંકન સ્તર ઉમેરે છે, જે કડકતા વધારે છે અને સ્વ-પુષ્ટિ સામે વધારાનું રક્ષણ આપે છે. તેમનો ઇનપુટ અમારા પોતાના મૂલ્યાંકનોની સાથે વધારાના પુરાવા આપે છે, જે શક્તિશાળી સિસ્ટમ્સ માટે જવાબદાર ડિપ્લોયમેન્ટ નિર્ણયોને માહિતગાર કરવામાં મદદ કરે છે.
અમે તૃતીય-પક્ષ મૂલ્યાંકનોને મજબૂત સુરક્ષા ઇકોસિસ્ટમનું નિર્માણ કરવાનો એક ભાગ પણ માનીએ છીએ. અમારી ટીમો ક્ષમતા અને જોખમ ક્ષેત્રોમાં વ્યાપક આંતરિક પરીક્ષણ કરે છે, પરંતુ સ્વતંત્ર સંસ્થાઓ વધારાના દૃષ્ટિકોણ અને પદ્ધતિશાસ્ત્રીય અભિગમો લાવે છે. અમે એવા વિવિધ લાયક મૂલ્યાંકનકારી સંગઠનોને ટેકો આપવા માટે કાર્ય કરીએ છીએ જે અમારી સાથે નિયમિત રીતે અદ્યાધુનિક મોડલ્સનું મૂલ્યાંકન કરી શકે.
અંતમાં, આ ઇનપુટ અમારી સુરક્ષા પ્રક્રિયાને કેવી રીતે આકાર આપે છે તે અંગે પારદર્શક રહેવાનો અમારો હેતુ છે. અમે નિયમિત રીતે તૃતીય-પક્ષ મૂલ્યાંકનોને જાહેર કરીએ છીએ—ઉદાહરણ તરીકે, સિસ્ટમ કાર્ડમાં પ્રી-ડિપ્લોયમેન્ટ મૂલ્યાંકનોના સારાંશો સમાવેશ કરીને અને ગોપનીયતા તથા ચોકસાઈની સમીક્ષા પછી મૂલ્યાંકનકારી સંગઠનોને વધુ વિગતવાર કાર્ય પ્રકાશિત કરવામાં સહાય કરીને. આ પારદર્શિતા બતાવે છે કે બાહ્ય ઇનપુટ અમારી ક્ષમતા મૂલ્યાંકનો અને સુરક્ષા ઉપાયો પર કેવી અસર કરે છે, અને તેથી વિશ્વાસ મજબૂત થાય છે.
વિશ્વસનીય ઍક્સેસ, પારદર્શિતા અને જ્ઞાન-વહેંચણી પર આધારિત સતત સંબંધો સમગ્ર ઇકોસિસ્ટમને ઊભરતા જોખમોથી આગળ રહેવામાં મદદ કરે છે અને અદ્યાધુનિક AI સિસ્ટમ્સ માટે વધુ મજબૂત ધોરણો અને વધુ માહિતગાર શાસન માટે જરૂરી અનુકૂળ અને અમલમાં મૂકી શકાય એવા મૂલ્યાંકનોને પ્રોત્સાહન આપે છે.
GPT‑4(નવી વિન્ડોમાં ખૂલે છે)ના લોન્ચથી શરૂ કરીને, અમે ડિપ્લોયમેન્ટ પહેલાંના પ્રારંભિક મોડલ ચેકપોઇન્ટ્સ પર સ્વતંત્ર મૂલ્યાંકનોને ટેકો આપ્યો છે. ત્યારથી, અમે મુખ્ય અદ્યાધુનિક ક્ષમતા અને જોખમ ક્ષેત્રો માટેના મૂલ્યાંકનમાં ઊંડી નિષ્ણાતી ધરાવતી અનેક તૃતીય-પક્ષ સંસ્થાઓ સાથેનું કામ વિસ્તર્યું છે. અમે સ્વતંત્ર લેબ કાર્યને ખુલ્લા સ્વરૂપના પરીક્ષણ તરીકે ગોઠવીએ છીએ, જ્યાં બાહ્ય ટીમો કોઈ ચોક્કસ અદ્યાધુનિક ક્ષમતા સંબંધિત દાવો અથવા મૂલ્યાંકન સુધી પહોંચવા માટે પોતાની પદ્ધતિઓનો ઉપયોગ કરે છે.
ઉદાહરણ તરીકે, GPT‑5 માટે OpenAIએ લાંબા ગાળાની સ્વાયત્તતા, કૌશલ્યપૂર્ણ ભ્રમ, છેતરપિંડી અને દેખરેખને બગાડવાના પ્રયાસો, વેટ લેબ આયોજનની શક્યતા અને હુમલાત્મક સાયબરસિક્યુરિટી મૂલ્યાંકન જેવા મુખ્ય જોખમ ક્ષેત્રોમાં બાહ્ય ક્ષમતા મૂલ્યાંકનોનો વ્યાપક સમૂહ સંકલિત કર્યો હતો.
આ સ્વતંત્ર મૂલ્યાંકનો OpenAIના પ્રિપેરડનેસ ફ્રેમવર્ક અનુસાર કરવામાં આવેલા મૂલ્યાંકનોને પૂરક બને છે, અને તેમાં METRનું ટાઇમ હોરાઇઝન મૂલ્યાંકન(નવી વિન્ડોમાં ખૂલે છે) અથવા SecureBioનું વાયરોલોજી કેપેબિલિટીઝ ટેસ્ટ (VCT)(નવી વિન્ડોમાં ખૂલે છે) મૂલ્યાંકન જેવા બેન્ચમાર્ક્સનો સમાવેશ થાય છે.
આ મૂલ્યાંકનોને ટેકો આપવા માટે, અમે પ્રારંભિક મોડલ ચેકપોઇન્ટ્સ માટે સુરક્ષિત ઍક્સેસ, અમે જોઈ રહ્યા છીએ તે ક્ષમતા સુધારાઓને સ્પષ્ટ કરવા માટે પસંદગીના મૂલ્યાંકન પરિણામો, જ્યાં જરૂરી હોય ત્યાં zero-data retention, અને ઓછા ઉપાય ધરાવતા મોડલ્સ પૂરાં પાડ્યાં. ઉદાહરણ તરીકે, સાયબરસિક્યુરિટી અને બાયોસેફ્ટી ક્ષેત્રોમાં પરીક્ષણ કરતી સંસ્થાઓએ સુરક્ષા ઉપાયો સાથે અને વગર બંને રીતે મોડલ્સનું પરીક્ષણ કર્યું જેથી મૂળભૂત ક્ષમતાઓની તપાસ કરી શકાય. કેટલીક અન્ય સંસ્થાઓને સીધી ચેન-ઓફ-થોટ ઍક્સેસ આપવામાં આવી જેથી તેઓ મોડલની રિઝનિંગ ટ્રેસીસનું નિરીક્ષણ કરી શકે. આ વધારેલી પારદર્શિતાએ મૂલ્યાંકનકારોને sandbagging2 અથવા કૌશલ્યપૂર્ણ ભ્રમ જેવા વર્તનની એવી ઘટનાઓ ઓળખવામાં સક્ષમ બનાવ્યા કે જે કદાચ માત્ર ચેન-ઓફ-થોટ વાંચવાથી જ દેખાય. સુરક્ષા નિયંત્રણો સાથે ઍક્સેસ આપવામાં આવી હતી, અને મોડલની ક્ષમતાઓ તથા પરીક્ષણની જરૂરિયાતો બદલાતી રહેતાં અમે તે નિયંત્રણોને અપડેટ કરતા રહીએ છીએ.
કેટલાક સંદર્ભોમાં, બાહ્ય મૂલ્યાંકનકારો પદ્ધતિશાસ્ત્રીય સમીક્ષા આપવા માટે યોગ્ય સ્થિતીમાં હોય છે, જેથી અદ્યાધુનિક લેબ્સ જોખમનું મૂલ્યાંકન કરવા માટે જે ફ્રેમવર્ક્સ અને પુરાવા પર આધાર રાખે છે તેમાં વધારાના દૃષ્ટિકોણ મળી રહે. ઉદાહરણ તરીકે, gpt-ossના લોન્ચ દરમિયાન, અમે ઓપન વેઇટ મોડલ્સ માટે સૌથી ખરાબ સ્થિતિની ક્ષમતાઓનો અંદાજ લગાવવા adversarial fine-tuning નો ઉપયોગ કર્યો હતો, જેનું વર્ણન ઓપન વેઇટ LLMsના સૌથી ખરાબ અદ્યાધુનિક જોખમોનો અંદાજમાં છે. મુખ્ય સુરક્ષા પ્રશ્ન એવો હતો કે શું કોઈ દુભાવનાપૂર્ણ વ્યક્તિ અમારા પ્રિપેરડનેસ ફ્રેમવર્ક હેઠળ બાયો અથવા સાયબર જેવા ક્ષેત્રોમાં મોડલને High ક્ષમતા સુધી પહોંચાડવા માટે તેનું fine-tune કરી શકે. કારણ કે આ માટે સંસાધન-ઘન adversarial fine-tuning જરૂરી હતું, અમે તૃતીય-પક્ષ મૂલ્યાંકનકારોને સમાન કાર્ય ફરી કરવાની જગ્યાએ અમારી આંતરિક પદ્ધતિઓ અને પરિણામોની સમીક્ષા કરવા અને ભલામણો આપવા આમંત્રિત કર્યા.
આ માટે મૂલ્યાંકન રોલઆઉટ્સ શેર કરવાની, adversarial fine tuning માટેના અભિગમની વિગતો આપવાની અને સૌથી ખરાબ અદ્યાધુનિક જોખમો માટે પદ્ધતિ અને મૂલ્યાંકનો કેવી રીતે સુધારવા તેની રચિત ભલામણો એકત્ર કરવાની બહુ-અઠવાડિયાની પ્રક્રિયા કરવામાં આવી. મૂલ્યાંકનકારોના પ્રતિસાદને કારણે અંતિમ adversarial fine-tuning પ્રક્રિયામાં ફેરફારો કરાયા અને પદ્ધતિશાસ્ત્રીય પુષ્ટિના મૂલ્યનું પ્રદર્શન થયું. અમે કયા મુદ્દા અપનાવ્યા તેની નોંધ પેપર અને gpt-oss માટેના સિસ્ટમ કાર્ડમાં કરી, અને જે અપનાવ્યા નથી તેના માટે કારણો પણ આપ્યા.
અહીં, સ્વતંત્ર મૂલ્યાંકનો કરતાં પદ્ધતિશાસ્ત્રીય સમીક્ષા વધુ યોગ્ય હતી. આ મૂલ્યાંકનોમાં વિશાળ પાયે, સૌથી ખરાબ સ્થિતિના પ્રયોગો ચલાવવાના હતા, જેના માટે એવી ઇન્ફ્રાસ્ટ્રક્ચર અને તકનીકી નિષ્ણાતી જરૂરી છે જે મોટા AI લેબ્સની બહાર સામાન્ય રીતે ઉપલબ્ધ નથી. એટલે સ્વતંત્ર મૂલ્યાંકનોમાંથી સીધા સૌથી ખરાબ સ્થિતિઓ વિશેની સમજણ મળવાની શક્યતા ઓછી હતી, અને બાહ્ય મૂલ્યાંકનકારોને દાવાઓની પુષ્ટિ પર કેન્દ્રિત કરવું વધુ ઉપયોગી હતું. બાહ્ય મૂલ્યાંકનકારોએ પદ્ધતિઓ અને પુરાવાની સમીક્ષા કરી(નવી વિન્ડોમાં ખૂલે છે), નિર્ણય માટે સંબંધિત ખામીઓ દર્શાવી, જેને ભલામણ પ્રતિસાદ ચક્રના ભાગરૂપે ઉકેલવામાં આવી. આ એવો અભિગમ છે જેને અમે અન્ય માર્ગોમાં પણ વિસ્તૃત કરવા ઇચ્છીએ છીએ જ્યાં ઍક્સેસ અથવા ઇન્ફ્રાસ્ટ્રક્ચરની જરૂરિયાતો તૃતીય-પક્ષ માટે પોતે સીધા મૂલ્યાંકન ચલાવવાનું અવ્યવહારુ બનાવે, અથવા જ્યાં બાહ્ય મૂલ્યાંકનો હજી ઉપલબ્ધ ન હોય.
બાહ્ય નિષ્ણાતો સાથે જોડાવાનો અમારો બીજો માર્ગ વિષય નિષ્ણાતો (SME) દ્વારા તપાસ છે, જેમાં નિષ્ણાતો સીધું મોડલનું મૂલ્યાંકન કરે છે અને સર્વે મારફતે રચિત ઇનપુટ આપી તેની ક્ષમતાઓ અંગેના અમારા મૂલ્યાંકનમાં યોગદાન આપે છે. આ રેડ ટીમિંગથી જુદું છે, જેનો હેતુ ખાસ સુરક્ષા ઉપાયોની કડક ચકાસણી કરવાનો છે. આથી અમને પ્રિપેરડનેસ ફ્રેમવર્ક મૂલ્યાંકનોને એવા ક્ષેત્ર-વિશિષ્ટ અવલોકનો સાથે પૂરક બનાવવાની તક મળે છે જે નિષ્ણાતોના નિર્ણય અને વાસ્તવિક પરિસ્થિતિ દર્શાવે છે, અને જે માત્ર સ્થિર મૂલ્યાંકનોથી પકડાતા ન હોઈ શકે. ઉદાહરણ તરીકે, અમે વિષય નિષ્ણાતોના પેનલને ChatGPT Agent અને GPT‑5 માટે helpful-only model3 નો ઉપયોગ કરીને પોતાના end-to-end બાયો પરિસ્થિતિઓ અજમાવવા આમંત્રિત કર્યા. તેઓએ મૂલ્યાંકન કર્યું કે તેમના પરિસ્થિતિઓમાં મોડલે આપેલી માર્ગદર્શિકા કેટલી ઉપયોગી હતી તેના આધારે, તેમની જેમના નિષ્ણાતની તુલનામાં ઓછી અનુભવી નવશીખિયાને મોડલ કેટલું આગળ ધપાવી શકે. હેતુ એ અંગે વધારાનો ઇનપુટ મેળવવાનો હતો કે સિસ્ટમ પ્રેરિત નવશીખિયાને કુશળ અમલીકરણની દિશામાં વાસ્તવમાં કેટલું આગળ ધપાવી શકે: SMEsએ અમારી “novice uplift” દાવાઓને પોતાની રચેલી વાસ્તવિક વર્કફ્લોઝ હેઠળ ચકાસ્યા અને ક્યાં મોડલે વાસ્તવિક, પગલું-દર-પગલું મદદ પૂરી પાડી અને ક્યાં ઓછી ઉપયોગી સારાંશો આપ્યા તેના પર વિગતવાર પ્રતિસાદ આપ્યો. આ નિષ્ણાત તપાસનો સમાવેશ આ મોડલ્સના ડિપ્લોયમેન્ટ માટેના સમૂહ મૂલ્યાંકનના ભાગરૂપે કરવામાં આવ્યો હતો અને બંને લોન્ચના સિસ્ટમ કાર્ડ્સમાં શેર કરવામાં આવ્યો હતો.
પારદર્શિતાના ભાવથી, અમે વધુ માહિતી શેર કરી રહ્યા છીએ કે તૃતીય-પક્ષ મૂલ્યાંકનકારો અમારી સાથે કામ કરતી વખતે શું સ્વીકારે છે, અને કયા સિદ્ધાંતો અમારા સહયોગોને માર્ગદર્શન આપે છે:
- જોગવાઈપૂર્વકની ગોપનીયતા મર્યાદાઓ સાથે પારદર્શિતા: તૃતીય-પક્ષ મૂલ્યાંકનકારો ગોપનીય, જાહેર ન થયેલી માહિતી તેમના મૂલ્યાંકનને ટેકો આપવા માટે શેર કરી શકાય તે માટે non-disclosure agreements પર હસ્તાક્ષર કરે છે. આ પોસ્ટના પરિશિષ્ટમાં, અમે તૃતીય-પક્ષ મૂલ્યાંકનકારો સાથેના કરારોમાંથી સંબંધિત અંશો સામેલ કરીએ છીએ, જે પ્રકાશન સંબંધિત અધિકારો અને સમીક્ષા અંગેની અપેક્ષાઓ દર્શાવે છે. અમે પારદર્શિતાના સિદ્ધાંત સાથે કાર્ય કરીએ છીએ અને ગોપનીય માહિતી અથવા બૌદ્ધિક સંપત્તિને નુકસાન પહોંચાડ્યા વિના સુરક્ષા અને સંબંધિત મૂલ્યાંકનોની સમજણ આગળ ધપાવે એવા પ્રકાશનને સક્ષમ બનાવવાનો પ્રયત્ન કરીએ છીએ. તેના ભાગરૂપે, ગોપનીયતા અને તથ્યાત્મક ચોકસાઈ બંને સુનિશ્ચિત કરવા માટે અમે તૃતીય-પક્ષ મૂલ્યાંકનોમાંથી આવતાં પ્રકાશનોની સમીક્ષા અને મંજૂરી આપીએ છીએ. છેલ્લા થોડાં વર્ષોમાં, અનેક તૃતીય-પક્ષ મૂલ્યાંકનકારોએ સિસ્ટમ કાર્ડ્સમાં મૂલ્યાંકન સારાંશોના અમારા પોતાના પ્રકાશન સાથે તેમની કામગીરી પણ પ્રકાશિત કરી છે. ગોપનીયતા અને ચોકસાઈ માટે અમારી સમીક્ષા પછી પ્રકાશિત થયેલાં કેટલાક ઉદાહરણો આ છે: [METR GPT‑5 report (નવી વિન્ડોમાં ખૂલે છે), OpenAI o1 પર Apollo Research report(નવી વિન્ડોમાં ખૂલે છે), Irregular GPT‑5 Assessment(નવી વિન્ડોમાં ખૂલે છે)]
- વિચારપૂર્વકની માહિતી જાહેરખબર અને સુરક્ષિત, સંવેદનશીલ ઍક્સેસ: ડિફૉલ્ટરૂપે, અમે એવી માહિતી અને મોડલ ઍક્સેસ આપીએ છીએ જે જાહેર અથવા પ્રોડક્શન માટે તૈયાર હોવાનો હેતુ ધરાવે છે. જ્યાં મૂલ્યાંકન માટે જરૂરી હોય, ત્યાં અમે વધુ ઊંડી ઍક્સેસ આપીએ છીએ, જેમ કે helpful-only models અથવા ગેરજાહેર માહિતી. મહત્વપૂર્ણ સુરક્ષા પ્રશ્નો માટે OpenAIએ જરૂરી હોય ત્યારે તૃતીય-પક્ષ મૂલ્યાંકનકારોને આ પ્રકારની ઍક્સેસ આપી છે. મહત્વનું એ છે કે આવી સંવેદનશીલ ઍક્સેસ માટે કડક સુરક્ષા પગલાં જરૂરી છે, અને મોડલ ક્ષમતાઓ તથા પરીક્ષણની જરૂરિયાતો બદલાતી રહેતાં અમે તે નિયંત્રણોને અપડેટ કરતા રહીએ છીએ.
- સંતુલિત આર્થિક પ્રોત્સાહનો: અમારો વિશ્વાસ છે કે તૃતીય-પક્ષ મૂલ્યાંકન ઇકોસિસ્ટમ સારી રીતે નાણાંપોષિત અને ટકાઉ હોવી જરૂરી છે. તેથી, અમે અમારા તમામ તૃતીય-પક્ષ મૂલ્યાંકનકારોને વળતર આપીએ છીએ, જોકે કેટલીક સંસ્થાઓ આ મુદ્દે પોતાની સંસ્થાકીય દૃષ્ટિ અનુસાર તેને નકારવાનું પસંદ કરે છે. વળતરનાં સ્વરૂપોમાં સીધો કામનો ભુગતાન અને/અથવા API credits દ્વારા અથવા અન્ય રીતે મોડલ ઉપયોગ ખર્ચને સહાય આપવી સામેલ છે. કોઈ તૃતીય-પક્ષ મૂલ્યાંકનનું પરિણામ ક્યારેય ભુગતાન પર આધારિત નથી.
એકત્રિત રીતે, આ પરિબળો તૃતીય-પક્ષ મૂલ્યાંકનોને સંવેદનશીલ માહિતીનું રક્ષણ કરવા સાથે AI સુરક્ષામાં પારદર્શિતા પ્રોત્સાહિત કરવામાં મદદ કરે છે અને તૃતીય-પક્ષ મૂલ્યાંકનકારોને તેમના સમય માટે વળતર મળી શકે તેવા માર્ગો બનાવે છે.
આગળ જોતા, અમને એવી સંસ્થાઓની ઇકોસિસ્ટમને વધુ મજબૂત બનાવવાની જરૂર દેખાય છે, જે અદ્યાધુનિક AI સિસ્ટમ્સ માટે વિશ્વસનીય અને નિર્ણય-સંબંધિત મૂલ્યાંકન કરી શકે. અસરકારક તૃતીય-પક્ષ મૂલ્યાંકન માટે વિશિષ્ટ નિષ્ણાતી, સ્થિર નાણાંકીય આધાર અને પદ્ધતિશાસ્ત્રીય કડકતા જરૂરી છે. લાયક મૂલ્યાંકનકારી સંસ્થાઓમાં સતત રોકાણ, માપન વિજ્ઞાનની પ્રગતિ અને સંવેદનશીલ ઍક્સેસ માટેની સુરક્ષા—આ બધું મૂલ્યાંકનો મોડલ ક્ષમતાઓની પ્રગતિ સાથે તાલ મિલાવી શકે તે સુનિશ્ચિત કરવા માટે આવશ્યક રહેશે.
તૃતીય-પક્ષ મૂલ્યાંકન એ અમારી સુરક્ષા કામગીરીમાં બાહ્ય દૃષ્ટિકોણ લાવવાનો એક માર્ગ છે, અને તે અન્ય યાંત્રિકતાઓની સાથે કાર્ય કરે છે. અમે બાહ્ય નિષ્ણાતો સાથે રચિત રેડ ટીમિંગ પ્રયત્નો, collective alignment projects, U.S. CAISI અને UK AISI સાથેનું કામ, અને અમારા Global Physician Network તથા અમારા Well-Being and AI અંગેની Expert Council જેવા સલાહકાર સમૂહો મારફતે પણ સહકાર કરીએ છીએ, જેથી માનસિક આરોગ્ય અને વપરાશકર્તા સુખાકારી પરના અમારા કાર્યને માર્ગદર્શન મળી શકે. આ પ્રયત્નો વિવિધ પ્રકારની નિષ્ણાતી ઉમેરે છે અને અદ્યતન AI સિસ્ટમ્સના મૂલ્યાંકન અને શાસન માટે વધુ વ્યાપક અને વધુ વિશ્વસનીય આધાર પૂરો પાડે છે.
નીચે આપેલાં અંશો પ્રી-ડિપ્લોયમેન્ટ મૂલ્યાંકનોમાં અમારા સાથે સહકાર કરનાર તૃતીય-પક્ષો સાથેના અમારા કરારોમાંથી દૃષ્ટાંતરૂપ ઉદ્ધરણો છે.
લેખક
ફૂટનોટ્સ
- 1
આ રેડ ટીમિંગથી જુદું છે, જેના હેતુ સુરક્ષા ઉપાયોની સૂક્ષ્મ સ્તરે કડક ચકાસણી કરવાનો અને મૂલ્યાંકન વિકાસ માટે ડેટા પૂરો પાડવાનો છે.
- 2
જ્યારે કોઈ મોડલ જાણપૂર્વક ઓછું પ્રદર્શન કરે અથવા તેને મૂલ્યાંકિત કે પરીક્ષણ કરવામાં આવી રહ્યું છે તે ઓળખે ત્યારે પોતાની સાચી ક્ષમતાઓ છુપાવે.
- 3
Helpful-only models કોઈપણ વિનંતીનો જવાબ આપે છે, ભલે વિનંતી હાનિકારક હોય. આ વર્તન હાંસલ કરતી post-training પદ્ધતિઓ દ્વારા તેઓ બનાવવામાં આવે છે.


