ChatGPT Atlas ને પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ સામે સતત વધુ મજબૂત બનાવવું
રીઇન્ફોર્સમેન્ટ લર્નિંગથી સંચાલિત ઓટોમેટેડ રેડ ટીમિંગ અમને વાસ્તવિક દુનિયાના એજન્ટ એક્સ્પ્લોઇટ્સને ખુલ્લેઆમ હથિયાર બનાવવામાં આવે તે પહેલાં સક્રિય રીતે શોધવા અને પેચ કરવામાં મદદ કરે છે.
ChatGPT Atlas માં એજન્ટ મોડ એ આજદિન સુધી અમે રિલીઝ કરેલી સૌથી સામાન્ય-ઉદ્દેશ્યવાળી એજન્ટિક સુવિધાઓમાંની એક છે. આ મોડમાં, બ્રાઉઝર એજન્ટ વેબપેજોને જુએ છે અને તમારા બ્રાઉઝરની અંદર તમે જેમ કરો તેમ ક્રિયાઓ, ક્લિક્સ અને કીસ્ટ્રોક્સ કરે છે. આ ChatGPT ને એ જ જગ્યા, સંદર્ભ અને ડેટાનો ઉપયોગ કરીને તમારી ઘણી દૈનિક વર્કફ્લોઝ પર સીધું કામ કરવાની મંજૂરી આપે છે.
જેમ જેમ બ્રાઉઝર એજન્ટ તમને વધુ કામ પૂરું કરવામાં મદદ કરે છે, તેમ તે વિરોધી હુમલાઓ માટે વધુ મૂલ્યવાન નિશાન પણ બને છે. તેથી AI સુરક્ષા ખાસ કરીને મહત્વપૂર્ણ બને છે. ChatGPT Atlas લોન્ચ કરીએ તે પહેલાંથી જ, અમે ખાસ કરીને આ નવા “બ્રાઉઝરમાં એજન્ટ” પરિપ્રેક્ષ્યને નિશાન બનાવતા ઊભરતા જોખમો સામે સતત સુરક્ષા ગોઠવી અને મજબૂત બનાવી રહ્યા છીએ. પ્રોમ્પ્ટ ઇન્જેક્શન એ સૌથી મહત્વપૂર્ણ જોખમોમાંનું એક છે, જેના સામે અમે સક્રિય રીતે સુરક્ષા કરીએ છીએ, જેથી ChatGPT Atlas તમારી તરફથી સુરક્ષિત રીતે કાર્ય કરી શકે.
આ પ્રયાસના ભાગરૂપે, અમે તાજેતરમાં Atlas ના બ્રાઉઝર એજન્ટ માટે સુરક્ષા અપડેટ બહાર પાડ્યું, જેમાં નવું વિરોધી રીતે તાલીમિત મોડલ અને વધુ મજબૂત આસપાસની સુરક્ષા વ્યવસ્થાઓ સામેલ છે. આ અપડેટને અમારી આંતરિક ઓટોમેટેડ રેડ ટીમિંગ દ્વારા શોધાયેલા પ્રોમ્પ્ટ-ઇન્જેક્શન હુમલાઓના નવા વર્ગે પ્રેરિત કર્યું હતું.
આ પોસ્ટમાં, અમે સમજાવીએ છીએ કે વેબ-આધારિત એજન્ટ્સ માટે પ્રોમ્પ્ટ-ઇન્જેક્શન જોખમ કેવી રીતે ઊભું થઈ શકે છે, અને અમે એક ઝડપી પ્રતિસાદ ચક્ર શેર કરીએ છીએ, જે અમે સતત નવા હુમલાઓ શોધવા અને ઝડપથી ઉપાયો મોકલવા માટે બનાવી રહ્યા છીએ—આ તાજેતરના સુરક્ષા અપડેટથી દર્શાવ્યા મુજબ.
અમે પ્રોમ્પ્ટ ઇન્જેક્શનને લાંબા ગાળાનું AI સુરક્ષા પડકાર માનીએ છીએ, અને તેની સામે અમારી સુરક્ષાઓ સતત મજબૂત કરવાની જરૂર પડશે (ખૂબ બદલાતી ઑનલાઇન છેતરપિંડી જેમ માનવોને નિશાન બનાવે છે તેમ). અમારો તાજેતરનો ઝડપી પ્રતિસાદ ચક્ર આ સફરમાં એક અગત્યના સાધન તરીકે પ્રારંભિક આશાસ્પદ પરિણામો દર્શાવી રહ્યો છે: જંગલમાં દેખાય તે પહેલાં અમે આંતરિક રીતે નવી હુમલા રણનીતિઓ શોધી રહ્યા છીએ. અમારી લાંબા ગાળાની દ્રષ્ટિ એ છે કે (1) અમારા મોડલ્સ પરનો અમારો white-box ઍક્સેસ, (2) અમારી સુરક્ષાઓની ઊંડી સમજ, અને (3) કમ્પ્યુટ સ્કેલનો સંપૂર્ણ લાભ લઈ બાહ્ય હુમલાખોરોથી આગળ રહી શકાય—એક્સ્પ્લોઇટ્સ વહેલાં શોધી, ઉપાયો ઝડપથી મોકલી, અને સતત ચક્રને વધુ કડક બનાવી. પ્રોમ્પ્ટ ઇન્જેક્શનનો સામનો કરવા નવી તકનીકો પરના અત્યાધુનિક સંશોધન અને અન્ય સુરક્ષા નિયંત્રણોમાં વધતા રોકાણ સાથે મળીને, આ ચક્રના સંયુક્ત પ્રભાવથી હુમલાઓ વધુ મુશ્કેલ અને ખર્ચાળ બની શકે છે, જે વાસ્તવિક દુનિયામાં પ્રોમ્પ્ટ-ઇન્જેક્શન જોખમને નોંધપાત્ર રીતે ઘટાડે છે. અંતે, અમારું લક્ષ્ય એ છે કે તમે ChatGPT એજન્ટ પર એટલો જ વિશ્વાસ કરી શકો જેટલો તમે અત્યંત કુશળ અને સુરક્ષા-સજાગ સહકર્મી અથવા મિત્ર પર કરો.
પ્રોમ્પ્ટ ઇન્જેક્શન હુમલો AI એજન્ટ્સને નિશાન બનાવે છે, કારણ કે એજન્ટ જે સામગ્રી પ્રોસેસ કરે છે તેમાં દૂષિત સૂચનાઓ સમાવી દેવામાં આવે છે. એ સૂચનાઓ એજન્ટના વર્તનને ઓવરરાઇડ અથવા ભટકાવવા માટે બનાવવામાં આવે છે—તેને વપરાશકર્તાના ઇરાદા બદલે હુમલાખોરના ઇરાદાને અનુસરવા માટે હાઇજેક કરે છે.
ChatGPT Atlasની અંદરના બ્રાઉઝર એજન્ટ માટે, પ્રોમ્પ્ટ ઇન્જેક્શન પરંપરાગત વેબ સુરક્ષા જોખમો (જેમ કે વપરાશકર્તાની ભૂલ અથવા સોફ્ટવેર નબળાઈઓ)થી આગળ એક નવો જોખમ માર્ગ ઉમેરે છે. માનવોને ફિશિંગથી ફસાવવાના અથવા બ્રાઉઝરની સિસ્ટમ નબળાઈઓનો લાભ લેવાના બદલે, હુમલાખોર તેની અંદર કાર્યરત એજન્ટને નિશાન બનાવે છે.
એક કલ્પિત ઉદાહરણ તરીકે, હુમલાખોર દૂષિત ઇમેઇલ મોકલી એજન્ટને વપરાશકર્તાની વિનંતી અવગણવા અને બદલે સંવેદનશીલ કર દસ્તાવેજો હુમલાખોરના નિયંત્રણવાળા ઇમેઇલ સરનામે મોકલવા માટે છેતરવાનો પ્રયાસ કરી શકે. જો વપરાશકર્તા એજન્ટને ન વાંચેલા ઇમેઇલ્સની સમીક્ષા કરવા અને મુખ્ય મુદ્દાઓનો સારાંશ આપવા કહે, તો વર્કફ્લો દરમિયાન એજન્ટ એ દૂષિત ઇમેઇલ વાંચી શકે છે. જો તે ઇન્જેક્ટ કરેલી સૂચનાઓ અનુસરે, તો તે કામમાંથી ભટકી શકે—અને ખોટી રીતે સંવેદનશીલ માહિતી શેર કરી શકે.
આ માત્ર એક ચોક્કસ પરિસ્થિતિ છે. બ્રાઉઝર એજન્ટોને ઉપયોગી બનાવતી એ જ સામાન્યતા જોખમોને પણ વધુ વ્યાપક બનાવે છે: એજન્ટ અસરકારક રીતે સીમારહિત સપાટી વિસ્તારમાં અવિશ્વસનીય સૂચનાઓનો સામનો કરી શકે છે—ઇમેઇલ્સ અને એટેચમેન્ટ્સ, કેલેન્ડર આમંત્રણો, શેર કરેલા દસ્તાવેજો, ફોરમ્સ, સોશિયલ મીડિયા પોસ્ટ્સ અને મનસ્વી વેબપેજો. કારણ કે એજન્ટ બ્રાઉઝરમાં વપરાશકર્તા કરી શકે તેવી ઘણી જ ક્રિયાઓ કરી શકે છે, સફળ હુમલાનો અસરક્ષેત્ર પણ કલ્પિત રીતે એટલો જ વ્યાપક હોઈ શકે: સંવેદનશીલ ઇમેઇલ ફોરવર્ડ કરવો, પૈસા મોકલવા, ક્લાઉડમાં ફાઇલો સંપાદિત અથવા કાઢી નાખવી, અને વધુ.
અમે બહુસ્તરીય સુરક્ષા વ્યવસ્થાઓ દ્વારા પ્રોમ્પ્ટ ઇન્જેક્શન સામે રક્ષણમાં પ્રગતિ કરી છે, જેમ કે અમે અગાઉની પોસ્ટમાં શેર કર્યું હતું. તેમ છતાં, પ્રોમ્પ્ટ ઇન્જેક્શન એજન્ટ સુરક્ષા માટે હજુ પણ ખુલ્લો પડકાર છે, અને અમે આવનારા વર્ષોમાં તેના પર કામ કરવાનું ચાલુ રાખીશું તેવી અપેક્ષા રાખીએ છીએ.
અમારી સુરક્ષાઓ મજબૂત કરવા માટે, અમે પ્રોડક્શનમાં રહેલી એજન્ટ સિસ્ટમો સામે નવીન પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ સતત શોધી રહ્યા છીએ. આવા હુમલાઓ શોધવું મજબૂત ઉપાયો બનાવવા માટે આવશ્યક પૂર્વશરત છે: તે અમને વાસ્તવિક દુનિયાના જોખમને સમજવામાં, અમારી સુરક્ષાઓમાં રહેલા ગેપ્સ બહાર લાવવામાં અને ઠોસ પેચીસ આગળ ધપાવવામાં મદદ કરે છે.
આને મોટા પાયે કરવા માટે, અમે LLM-આધારિત ઓટોમેટેડ હુમલાખોર બનાવ્યો અને તેને બ્રાઉઝર એજન્ટ પર સફળતાપૂર્વક હુમલો કરી શકે એવા પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ શોધવા માટે તાલીમ આપી. અમે આ હુમલાખોરને રીઇન્ફોર્સમેન્ટ લર્નિંગથી એન્ડ-ટુ-એન્ડ તાલીમ આપી, જેથી તે પોતાની સફળતાઓ અને નિષ્ફળતાઓમાંથી શીખીને તેની રેડ ટીમિંગ કુશળતા સુધારે. અમે તેને “મોકલતાં પહેલાં અજમાવવા” પણ દીધું, એટલે કે: તેની chain of thought reasoning દરમિયાન હુમલાખોર ઉમેદવાર ઇન્જેક્શન પ્રસ્તાવિત કરી શકે છે અને તેને બાહ્ય સિમ્યુલેટરને મોકલી શકે છે. સિમ્યુલેટર નિર્ધારિત પીડિત એજન્ટ (રક્ષક) ઇન્જેક્શનનો સામનો કરે તો તે કેવી રીતે વર્તે તેનું counterfactual rollout ચલાવે છે અને પીડિત એજન્ટનું સંપૂર્ણ reasoning અને action trace પાછું આપે છે. હુમલાખોર આ ટ્રેસને પ્રતિસાદ તરીકે વાપરે છે, હુમલા પર પુનરાવર્તન કરે છે અને સિમ્યુલેશન ફરી ચલાવે છે—અંતિમ હુમલો નક્કી કરતાં પહેલાં આ ચક્ર ઘણીવાર દોહરાવે છે. આ હુમલાખોરને એકમાત્ર pass/fail સિગ્નલ કરતાં વધુ સમૃદ્ધ in-context પ્રતિસાદ આપે છે. તે હુમલાખોરના test-time compute ને પણ સ્કેલ કરે છે. વધુમાં, રક્ષકના reasoning traces પરનો વિશેષાધિકૃત ઍક્સેસ (જે અમે બાહ્ય વપરાશકર્તાઓને જાહેર કરતા નથી) અમારા આંતરિક હુમલાખોરને અસમતુલ્ય લાભ આપે છે—જે તેના બાહ્ય વિરોધીઓથી આગળ નીકળી જવાની શક્યતા વધારેછે.
રીઇન્ફોર્સમેન્ટ લર્નિંગ (RL) શા માટે? ઓટોમેટેડ હુમલાખોરને તાલીમ આપવા માટે અમે અનેક કારણોસર રીઇન્ફોર્સમેન્ટ લર્નિંગ પસંદ કર્યું:
- લાંબા-અવધિના અને અસતત હુમલાખોર ઉદ્દેશ્યોનું ઑપ્ટિમાઇઝેશન. અમારું લક્ષ્ય એવા પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ શોધવાનું છે, જે એજન્ટને વાસ્તવિક દુનિયામાં બની શકે એવા જટિલ વિરોધી કાર્યો (જેમ કે ઇમેઇલ મોકલવા, બેંક ટ્રાન્ઝેક્શન) કરવા છેતી શકે. આવા વિરોધી કાર્યો સ્વભાવથી જ લાંબા-અવધિના હોય છે, જેમાં વિચાર અને પર્યાવરણ સાથેની ક્રિયાના ઘણા પગલાં જરૂરી હોય છે, જ્યારે સફળતાના સંકેતો ઓછા અને મોડા મળે છે. રીઇન્ફોર્સમેન્ટ લર્નિંગ આ ઓછી અને મોડેથી મળતી reward રચનાને ખૂબ યોગ્ય છે.
- અત્યાધુનિક LLM ક્ષમતાઓનો લાભ લેવો. અમે અત્યાધુનિક LLMs ને સીધા auto-red-teamers તરીકે તાલીમ આપ્યા, તેથી હુમલાખોરને અત્યાધુનિક મોડલ્સમાં reasoning અને planning સુધારાઓનો સીધો લાભ મળે છે. જેમ જેમ બેઝ મોડલ્સ વધુ મજબૂત બને છે, તેમ હુમલાખોર પણ સ્વાભાવિક રીતે વધુ સક્ષમ બને છે—જે અમારા મોડલ્સ વિકસતાં રહે તેમ અમારી સુરક્ષાઓ પર દબાણ જાળવી રાખવાનો સ્કેલેબલ માર્ગ બનાવે છે.
- કમ્પ્યુટનું સ્કેલિંગ અને અનુકૂળનશીલ હુમલાખોરોની નકલ. રીઇન્ફોર્સમેન્ટ લર્નિંગ મોટા પ્રમાણની સેમ્પલિંગ અને શીખવાના પગલાંઓ પર હુમલાઓ શોધવા માટે ખર્ચાતી ગણતરી શક્તિને સ્કેલ કરવા માટે ખૂબ યોગ્ય છે, અને તે અનુકૂળનશીલ માનવીય હુમલાખોરો કેવી રીતે વર્તે છે તે પણ નજીકથી દર્શાવે છે: વારંવાર રણનીતિ અજમાવવી, પરિણામોમાંથી શીખવું અને સફળ વર્તનોને મજબૂત કરવું.
અમારો ઓટોમેટેડ હુમલાખોર નવીન, વાસ્તવિક પ્રોમ્પ્ટ-ઇન્જેક્શન હુમલાઓને એન્ડ-ટુ-એન્ડ શોધી શકે છે. અગાઉના મોટાભાગના ઓટોમેટેડ રેડ ટીમિંગ કાર્યથી વિપરીત, જેમાં એજન્ટ પાસેથી ચોક્કસ આઉટપુટ સ્ટ્રિંગ્સ મેળવવી અથવા અનિચ્છિત એક-પગલાની ટૂલ કૉલ શરૂ કરાવવી જેવી સરળ નિષ્ફળતાઓ સામે આવી હતી, અમારી RL-તાલીમિત હુમલાખોર એજન્ટને દાયકાઓ (અથવા સૈંકડો) પગલાંઓમાં ખુલતા જટિલ, લાંબા-અવધિના હાનિકારક વર્કફ્લોઝ અમલમાં મૂકવા દોરી શકે છે. અમે એવી નવી હુમલા રણનીતિઓ પણ જોયી, જે અમારા માનવીય રેડ ટીમિંગ અભિયાન અથવા બાહ્ય અહેવાલોમાં જોવા મળી નહોતી.
નીચેનું ડેમો અમારા ઓટોમેટેડ હુમલાખોરે શોધેલો એક ચોક્કસ પ્રોમ્પ્ટ ઇન્જેક્શન એક્સ્પ્લોઇટ રજૂ કરે છે, જેને અમે પછી ChatGPT Atlas ની સુરક્ષાઓ વધુ મજબૂત કરવા ઉપયોગ કર્યો. હુમલાખોર વપરાશકર્તાના inbox માં દૂષિત ઇમેઇલ મૂકે છે, જેમાં એવો પ્રોમ્પ્ટ ઇન્જેક્શન હોય છે જે એજન્ટને વપરાશકર્તાના CEO ને રાજીનામાનું પત્ર મોકલવા દિશા આપે છે. પછી, જ્યારે વપરાશકર્તા એજન્ટને out-of-office જવાબનો ડ્રાફ્ટ બનાવવાનું કહે છે, ત્યારે સામાન્ય કાર્ય અમલીકરણ દરમિયાન એજન્ટ એ ઇમેઇલનો સામનો કરે છે, ઇન્જેક્ટ કરેલા પ્રોમ્પ્ટને અધિકૃત માને છે અને તેને અનુસરે છે. out-of-office ક્યારેય લખાતું નથી અને એજન્ટ તેના બદલે વપરાશકર્તાની તરફથી રાજીનામું આપી દે છે.

1. ઇમેઇલ સંચાલનમાં મદદ માટે એજન્ટને પૂછવું

2. એજન્ટ તાજેતરનો ન વાંચેલો ઇમેઇલ ખોલે છે

3. ઇમેઇલમાં દૂષિત સૂચનાઓ છે

4. એજન્ટ અનિચ્છિત રાજીનામાનો ઇમેઇલ મોકલે છે

5. અમારા સુરક્ષા અપડેટ પછી, એજન્ટ મોડ પ્રોમ્પ્ટ ઇન્જેક્શનનો પ્રયાસ સફળતાપૂર્વક શોધી કાઢે છે
પ્રોમ્પ્ટ ઇન્જેક્શનનું સ્વરૂપ નિશ્ચિત સુરક્ષા ખાતરીઓને પડકારજનક બનાવે છે, પરંતુ અમારી ઓટોમેટેડ સુરક્ષા સંશોધન, વિરોધી પરીક્ષણને સ્કેલ કરીને અને અમારા ઝડપી પ્રતિસાદ ચક્રને વધુ કડક બનાવીને, અમે હુમલો વાસ્તવિક દુનિયામાં થાય તેની રાહ જોતા પહેલાં જ મોડલની મજબૂતી અને સુરક્ષાઓ સુધારી શકીએ છીએ.
અમે આ ડેમો શેર કરી રહ્યા છીએ જેથી વપરાશકર્તાઓ અને સંશોધકોને આવા હુમલાઓનું સ્વરૂપ—અને અમે તેમની સામે કેવી રીતે સક્રિય રીતે સુરક્ષા કરી રહ્યા છીએ—તે વધુ સારી રીતે સમજાય. અમને લાગે છે કે આ ઓટોમેટેડ રેડ ટીમિંગ શું હાંસલ કરી શકે તેની અત્યાધુનિક સરહદ દર્શાવે છે, અને અમારા સંશોધનને આગળ વધારવા માટે અમે અત્યંત ઉત્સાહિત છીએ.
અમારી ઓટોમેટેડ રેડ ટીમિંગ સક્રિય ઝડપી પ્રતિસાદ ચક્રને આગળ ધપાવે છે: જ્યારે ઓટોમેટેડ હુમલાખોર સફળ પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓનો નવો વર્ગ શોધે છે, ત્યારે તે તરત જ અમારી સુરક્ષાઓ સુધારવા માટે સ્પષ્ટ લક્ષ્ય ઊભું કરે છે.
નવી મળેલી હુમલાઓ સામે વિરોધી રીતે તાલીમ આપવી. અમે સતત અપડેટેડ એજન્ટ મોડલ્સને અમારા શ્રેષ્ઠ ઓટોમેટેડ હુમલાખોર સામે તાલીમ આપીએ છીએ—ખાસ કરીને ત્યાં ધ્યાન આપીને જ્યાં લક્ષ્ય એજન્ટ્સ હાલમાં નિષ્ફળ જાય છે. હેતુ એ છે કે એજન્ટ્સને વિરોધી સૂચનાઓ અવગણતા શીખવવું અને વપરાશકર્તાના ઇરાદા સાથે સુસંગત રાખવું, જેથી નવી મળેલી પ્રોમ્પ્ટ-ઇન્જેક્શન રણનીતિઓ સામે પ્રતિરોધ સુધરે. આથી નવીન, ઉચ્ચ-શક્તિવાળા હુમલાઓ સામેની મજબૂતી સીધી મોડલ checkpoint માં “burn in” થાય છે. ઉદાહરણ તરીકે, તાજેતરની ઓટોમેટેડ રેડ ટીમિંગે સીધું નવું adversarially trained browser-agent checkpoint તૈયાર કર્યું, જે પહેલેથી જ બધા ChatGPT Atlas વપરાશકર્તાઓ માટે રોલઆઉટ થઈ ગયું છે. અંતે, આ અમારા વપરાશકર્તાઓને નવા પ્રકારના હુમલાઓ સામે વધુ સારું રક્ષણ આપવામાં મદદ કરે છે.
વિસ્તૃત રક્ષણ સ્તરને સુધારવા માટે હુમલાના ટ્રેસનો ઉપયોગ. અમારી ઓટોમેટેડ રેડ ટીમર દ્વારા શોધાયેલા ઘણા હુમલા માર્ગો મોડલની બહાર પણ સુધારાની તકો દર્શાવે છે—જેમ કે મોનીટરીંગ, અમે મોડલના સંદર્ભમાં મૂકેલી સુરક્ષા સૂચનાઓ, અથવા સિસ્ટમ-સ્તરની સુરક્ષા વ્યવસ્થાઓ. આવી શોધો અમને ફક્ત એજન્ટ checkpoint નહીં, પરંતુ સંપૂર્ણ રક્ષણ સ્તર પર પુનરાવર્તન કરવા મદદ કરે છે.
સક્રિય હુમલાઓનો પ્રતિસાદ. આ ચક્ર વાસ્તવિક દુનિયામાં ચાલી રહેલા હુમલાઓનો વધુ સારો પ્રતિસાદ આપવામાં પણ મદદ કરી શકે છે. સંભવિત હુમલાઓ માટે અમારી વૈશ્વિક હાજરીમાં નજર કરતાં, અમે બાહ્ય વિરોધીઓ જે ટેકનિક્સ અને યુક્તિઓ વાપરતા જોયા છે તે આ ચક્રમાં આપી શકીએ છીએ, તેમની પ્રવૃત્તિનું અનુકરણ કરી શકીએ છીએ, અને અમારા પ્લેટફોર્મમાં રક્ષણાત્મક ફેરફાર આગળ ધપાવી શકીએ છીએ.
એજન્ટ્સનું રેડ ટીમિંગ કરવાની અમારી ક્ષમતા મજબૂત બનાવવી અને તે કામના કેટલાક ભાગોને ઓટોમેટ કરવા માટે અમારા સૌથી સક્ષમ મોડલ્સનો ઉપયોગ કરવો—શોધથી સુધારણા સુધીના ચક્રને સ્કેલ કરીને Atlas બ્રાઉઝર એજન્ટને વધુ મજબૂત બનાવે છે. આ મજબૂતીકરણનો પ્રયાસ સુરક્ષામાંથી મળતા એક પરિચિત પાઠને પુનઃસ્થાપિત કરે છે: વધુ મજબૂત સુરક્ષાનો અજમાયેલ માર્ગ એ છે કે વાસ્તવિક સિસ્ટમોને સતત દબાણ હેઠળ પરીક્ષણ કરવું, નિષ્ફળતાઓ પર પ્રતિસાદ આપવો અને સ્પષ્ટ સુધારાઓ મોકલવા.
અમે અપેક્ષા રાખીએ છીએ કે વિરોધીઓ સતત અનુકૂલન કરશે. પ્રોમ્પ્ટ ઇન્જેક્શન, વેબ પરની છેતરપિંડી અને સામાજિક એન્જિનિયરિંગની જેમ, સંપૂર્ણપણે ક્યારેય “ઉકેલાઈ” જાય તેવી શક્યતા ઓછી છે. પરંતુ અમને આશા છે કે સક્રિય, અત્યંત પ્રતિસાદક્ષમ ઝડપી પ્રતિસાદ ચક્ર સમય સાથે વાસ્તવિક દુનિયાના જોખમને નોંધપાત્ર રીતે ઘટાડતું રહેશે. ઓટોમેટેડ હુમલા શોધને વિરોધી તાલીમ અને સિસ્ટમ-સ્તરની સુરક્ષા વ્યવસ્થાઓ સાથે જોડીને, અમે નવા હુમલા પેટર્ન વહેલાં ઓળખી શકીએ છીએ, ગેપ્સ ઝડપથી બંધ કરી શકીએ છીએ અને એક્સ્પ્લોઇટેશનનો ખર્ચ સતત વધારી શકીએ છીએ.
ChatGPT Atlas માં એજન્ટ મોડ શક્તિશાળી છે—અને તે સુરક્ષા જોખમ સપાટીને પણ વિસ્તારે છે. આ સમજૂતીને સ્પષ્ટ રીતે સ્વીકારવું જવાબદારીપૂર્વક નિર્માણ કરવાનો એક ભાગ છે. અમારું લક્ષ્ય Atlas ને દરેક પુનરાવર્તન સાથે અર્થપૂર્ણ રીતે વધુ સુરક્ષિત બનાવવાનું છે: મોડલની મજબૂતી સુધારવી, આસપાસના રક્ષણ સ્તરને મજબૂત બનાવવું, અને વાસ્તવિક દુનિયામાં ઊભા થતા દુરૂપયોગના પેટર્ન માટે મોનીટરીંગ કરવું.
અમે સંશોધન અને ડિપ્લોયમેન્ટ બંનેમાં રોકાણ ચાલુ રાખીશું, વધુ સારી ઓટોમેટેડ રેડ ટીમિંગ પદ્ધતિઓ વિકસાવીશું, સ્તરિત ઉપાયો રોલઆઉટ કરીશું, અને શીખતા જઈએ તેમ ઝડપથી પુનરાવર્તન કરીશું. અમે વ્યાપક સમુદાય સાથે શક્ય હોય તે પણ શેર કરીશું.
જ્યાં સુધી અમે સિસ્ટમ સ્તરે Atlas ને વધુ મજબૂત બનાવવાનું ચાલુ રાખીએ છીએ, ત્યાં સુધી એજન્ટ્સ વાપરતી વખતે જોખમ ઘટાડવા માટે વપરાશકર્તાઓ કેટલાક પગલાં લઈ શકે છે.
જ્યાં શક્ય હોય ત્યાં લૉગ-ઇન ઍક્સેસ મર્યાદિત કરો. અમે હજુ પણ વપરાશકર્તાઓને ભલામણ કરીએ છીએ કે Atlas માં Agent વાપરતી વખતે, જ્યારે તમે લૉગ-ઇન કરેલા વેબસાઇટ્સની ઍક્સેસ હાથમાંના કાર્ય માટે જરૂરી ન હોય, અથવા કાર્ય દરમિયાન તમે સાઇન-ઇન કરો તેવી ચોક્કસ સાઇટ્સ સુધી ઍક્સેસ મર્યાદિત રાખવી હોય, ત્યારે logged-out mode(નવી વિન્ડોમાં ખૂલે છે) નો લાભ લો.
પુષ્ટિ વિનંતીઓ ધ્યાનપૂર્વક સમીક્ષો. ખરીદી પૂર્ણ કરવી અથવા ઇમેઇલ મોકલવું જેવી કેટલીક અસરકારક ક્રિયાઓ માટે, એજન્ટ્સ આગળ વધતા પહેલાં તમારી પુષ્ટિ માંગે તે રીતે ડિઝાઇન કરવામાં આવ્યા છે. જ્યારે કોઈ એજન્ટ તમને કોઈ ક્રિયાની પુષ્ટિ કરવા કહે, ત્યારે થોડો સમય કાઢીને તપાસો કે ક્રિયા યોગ્ય છે અને શેર થતી કોઈપણ માહિતી તે સંદર્ભ માટે યોગ્ય છે.
જ્યાં શક્ય હોય ત્યાં એજન્ટ્સને સ્પષ્ટ સૂચનાઓ આપો. “મારા ઇમેઇલ્સની સમીક્ષા કરો અને જે જરૂરી હોય તે કરો” જેવા અતિ વ્યાપક પ્રોમ્પ્ટ્સથી બચો. વિશાળ છૂટછાટ છૂપી અથવા દૂષિત સામગ્રી માટે સુરક્ષા વ્યવસ્થાઓ હોવા છતાં એજન્ટને પ્રભાવિત કરવું સરળ બનાવે છે. એજન્ટને ચોક્કસ, સારી રીતે સીમિત કાર્યો કરવા કહેવું વધુ સુરક્ષિત છે. ભલે આ જોખમ સંપૂર્ણ દૂર ન કરે, તે હુમલાઓ અમલમાં મૂકવા વધુ મુશ્કેલ બનાવે છે.
જો એજન્ટ્સ રોજિંદા કાર્યો માટે વિશ્વસનીય ભાગીદાર બનવાના હોય, તો ખુલ્લા વેબથી સક્ષમ થતી હેરફેરના પ્રકારો સામે તેઓ મજબૂત હોવા જ જોઈએ. પ્રોમ્પ્ટ ઇન્જેક્શન સામે મજબૂતી લાવવી એ લાંબા ગાળાની પ્રતિબદ્ધતા છે અને અમારી સર્વોચ્ચ પ્રાથમિકતાઓમાંની એક છે. અમે જલ્દી જ આ કાર્ય વિશે વધુ શેર કરીશું.


