પ્રોમ્પ્ટ ઇન્જેક્શનને સમજવું: એક અત્યાધુનિક સુરક્ષા પડકાર
AI સાધનો હવે માત્ર પ્રશ્નોના જવાબ આપવા કરતાં વધુ કામ કરવા લાગ્યા છે. હવે તેઓ વેબ બ્રાઉઝ કરી શકે છે, સંશોધનમાં મદદ કરી શકે છે, પ્રવાસોની યોજના બનાવી શકે છે અને પ્રોડક્ટ્સ ખરીદવામાં મદદ કરી શકે છે. જેમ જેમ તેઓ વધુ સક્ષમ બનશે, અન્ય ઍપ્સમાં તમારા ડેટા સુધી ઍક્સેસ મેળવવાની અને તમારી તરફથી પગલાં લેવાની ક્ષમતા સાથે, નવા સુરક્ષા પડકારો ઉભા થાય છે. જેમાંથી એક પર અમે ખૂબ ધ્યાન કેન્દ્રિત કરી રહ્યા છીએ, તે છે પ્રોમ્પ્ટ ઇન્જેક્શન.
પ્રોમ્પ્ટ ઇન્જેક્શન એ સંવાદાત્મક AI માટે વિશેષ પ્રકારનો સોશિયલ એન્જિનિયરિંગ હુમલો છે. શરૂઆતની AI સિસ્ટમો એક જ વપરાશકર્તા અને એક જ AI એજન્ટ વચ્ચેની વાતચીત હતી. આજના AI પ્રોડક્ટ્સમાં, તમારી વાતચીતમાં ઇન્ટરનેટ સહિત ઘણા સ્ત્રોતોમાંથી આવતી સામગ્રી શામેલ હોઈ શકે છે. કોઈ ત્રીજો પક્ષ, એટલે કે જે ન તો વપરાશકર્તા છે ન તો AI, સંવાદના સંદર્ભમાં દૂષિત સૂચનાઓ દાખલ કરીને મોડલને ગેરમાર્ગે દોરી શકે છે, આ વિચારથી “પ્રોમ્પ્ટ ઇન્જેક્શન” શબ્દ આવ્યો.
જે રીતે ફિશિંગ ઇમેઇલ્સ અથવા વેબ પરના સ્કેમ્સ લોકોને સંવેદનશીલ માહિતી આપી દેવા માટે છેતરવાનો પ્રયાસ કરે છે, તે જ રીતે પ્રોમ્પ્ટ ઇન્જેક્શન AIને એવું કંઈક કરવા માટે છેતરવાનો પ્રયાસ કરે છે જે તમે કહ્યું નથી.
કલ્પના કરો કે તમે AIને ઑનલાઇન વેકેશન માટે થોડું સંશોધન કરવા કહ્યું છે, અને તે દરમિયાન તેને કોઈ વેબપેજ પર છુપાયેલી ભ્રામક સામગ્રી અથવા હાનિકારક સૂચનાઓ મળે છે, જેમ કે કોઈ લિસ્ટિંગ પરની ટિપ્પણીમાં અથવા રિવ્યુમાં. આ સામગ્રીને એ રીતે ખાસ તૈયાર કરવામાં આવી હોઈ શકે છે કે AIને ખોટી લિસ્ટિંગ ભલામણ કરવા માટે છેતરી શકાય, અથવા તેનાથી પણ ખરાબ, તમારા ક્રેડિટ કાર્ડની માહિતી ચોરી શકાય.
આ “પ્રોમ્પ્ટ ઇન્જેક્શન” હુમલાના થોડાં જ ઉદાહરણો છે—હાનિકારક સૂચનાઓ, જે AIને એવું કંઈક કરવા માટે છેતરવા માટે બનાવવામાં આવે છે જે તમારો ઇરાદો નહોતો, અને જે ઘણીવાર વેબ પેજ, દસ્તાવેજ અથવા ઇમેઇલ જેવી સામાન્ય સામગ્રીમાં છુપાયેલી હોય છે.
જેમ જેમ AIને વધુ સંવેદનશીલ ડેટા સુધી ઍક્સેસ મળે છે અને તે વધુ પહેલ કરીને લાંબા કાર્યો સંભાળે છે, તેમ આ જોખમો વધે છે.
સારાંશ | તમે AIને શું કરવા કહ્યું | હુમલાખોર શું કરે છે | જો હુમલો સફળ થાય તો સંભવિત પરિણામ |
તમે AIને એપાર્ટમેન્ટ્સ વિશે શોધ કરવા કહો છો, અને તેને પ્રોમ્પ્ટ ઇન્જેક્શન દ્વારા એવી લિસ્ટિંગ ભલામણ કરવા માટે ભ્રમિત કરવામાં આવે છે જે તમારા માટે શ્રેષ્ઠ વિકલ્પ નથી. | તમે AIને આપેલા કેટલાક માપદંડોના આધારે એપાર્ટમેન્ટ્સ વિશે શોધ કરવા કહો છો. | હુમલાખોરે એપાર્ટમેન્ટ લિસ્ટિંગમાં પ્રોમ્પ્ટ ઇન્જેક્શન હુમલો સામેલ કર્યો છે જેથી AI એવું માને કે વપરાશકર્તાની દર્શાવેલી પસંદગીઓ ભલે જે હોય, તેની લિસ્ટિંગ જ પસંદ કરવી જોઈએ. | જો હુમલો સફળ થાય, તો AI તમારી પસંદગીઓના આધારે ખોટી રીતે ઓછો યોગ્ય એપાર્ટમેન્ટ લિસ્ટિંગ ભલામણ કરી શકે છે. |
તમે AI એજન્ટને રાત્રે આવેલા તમારા ઇમેઇલ્સનો જવાબ આપવા કહો છો, અને અંતે તે તમારા બેંક સ્ટેટમેન્ટ્સ શેર કરી બેસે છે. | તમે AI એજન્ટને કહો છો કે આજે સવારે તમે વ્યસ્ત હોવાને કારણે રાત્રે આવેલા તમારા ઇમેઇલ્સને સામાન્ય રીતે જવાબ આપે. નીચે “શક્ય હોય ત્યારે, એજન્ટને સ્પષ્ટ સૂચનાઓ આપો” જુઓ | હુમલાખોરે તમને એવો ઇમેઇલ મોકલ્યો જેમાં ખોટી માહિતી છે, જે મોડલને તમારા બેંક સ્ટેટમેન્ટ્સ શોધી તેને હુમલાખોર સાથે શેર કરવા માટે ભ્રમિત કરે છે. | જો હુમલો સફળ થાય, તો એજન્ટ તમારા ઇમેઇલમાં બેંક સ્ટેટમેન્ટ્સ જેવી કોઈપણ વસ્તુ શોધી શકે છે (જેનો ઍક્સેસ તમે આ કાર્ય માટે આપ્યો હતો) અને તેને હુમલાખોર સાથે શેર કરશે. |
પ્રોમ્પ્ટ ઇન્જેક્શન સામે રક્ષણ આપવું સમગ્ર AI ઉદ્યોગ માટે પડકાર છે અને OpenAIમાં મુખ્ય કેન્દ્રબિંદુ છે. જ્યારે અમે માનીએ છીએ કે વિરોધીઓ આવા હુમલાઓ વિકસાવતા રહેશે, ત્યારે અમે એવા સંરક્ષણો બનાવી રહ્યા છીએ જે કોઈ સક્રિય રીતે ગેરમાર્ગે દોરવાનો પ્રયાસ કરી રહ્યું હોય ત્યારે પણ વપરાશકર્તાના નિર્ધારિત કાર્યને પૂર્ણ કરવા માટે રચાયેલા છે. AGIના લાભોને સુરક્ષિત રીતે સાકાર કરવા માટે આ ક્ષમતા અત્યંત આવશ્યક છે.
અમારા વપરાશકર્તાઓને સુરક્ષિત રાખવા માટે, અને આવા હુમલાઓ સામે અમારા મોડલોમાં સુધારો કરવામાં મદદ કરવા માટે, અમે બહુસ્તરીય અભિગમ અપનાવીએ છીએ, જેમાં નીચેનું શામેલ છે.
અમારી ઇચ્છા છે કે AI પ્રોમ્પ્ટ ઇન્જેક્શનને ઓળખે અને તેના ઝાંસામાં ન આવે. પરંતુ વિરોધી હુમલાઓ સામે મજબૂતતા મશીન લર્નિંગ અને AI માટે લાંબા સમયથી પડકાર રહી છે, તેથી આ મુશ્કેલ અને હજી ખુલ્લો પ્રશ્ન છે. વિશ્વસનીય અને અવિશ્વસનીય સૂચનાઓ વચ્ચે મોડલો ભેદ કરી શકે તે દિશામાં કામ કરવા માટે અમે Instruction Hierarchy નામનું સંશોધન વિકસાવ્યું છે. અમે નવા અભિગમો વિકસાવતા રહી રહ્યા છીએ જેથી મોડલો પ્રોમ્પ્ટ ઇન્જેક્શનના પેટર્નને વધુ સારી રીતે ઓળખી શકે અને તેને અવગણી શકે અથવા વપરાશકર્તાઓને સૂચિત કરી શકે. અમે જે તકનીકોનો ઉપયોગ કરીએ છીએ તેમાંની એક છે automated red-teaming, જે ક્ષેત્રનું અમે વર્ષોથી અધ્યયન(નવી વિન્ડોમાં ખૂલે છે) કરી રહ્યા છીએ, જેથી નવા પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ વિકસાવી શકાય.
અમે પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ ઓળખવા અને અવરોધવા માટે અનેક સ્વચાલિત AI-સંચાલિત monitors વિકસાવ્યાં છે. આ સુરક્ષા તાલીમના અભિગમોને પૂરક છે કારણ કે અમે શોધી કાઢેલા નવા હુમલાઓને ઝડપથી અવરોધવા માટે તેમને ઝડપી અપડેટ કરી શકાય છે. આ monitors માત્ર અમારા વપરાશકર્તાઓ સામેના સંભવિત પ્રોમ્પ્ટ ઇન્જેક્શન હુમલાઓ ઓળખવામાં જ મદદરૂપ નથી, પણ અમારા પ્લેટફોર્મનો ઉપયોગ કરીને થતા વિરોધી પ્રોમ્પ્ટ ઇન્જેક્શન સંશોધન અને પરીક્ષણોને પણ અમને શોધવામાં મદદ કરી શકે છે, તે હુમલાઓ વાસ્તવિક દુનિયામાં તૈનાત થાય તે પહેલાં.
અમે વપરાશકર્તા ડેટાને સુરક્ષિત રાખવામાં મદદ કરવા માટે અમારા પ્રોડક્ટ્સ અને ઇન્ફ્રાસ્ટ્રક્ચરને વિવિધ એકબીજાને આવરી લેતા સુરક્ષા રક્ષણો સાથે ડિઝાઇન કર્યા છે. આ સુવિધાઓ, જેને અમે ભવિષ્યની પોસ્ટ્સમાં વધુ ટેક્નિકલ વિગતમાં સમજાવીશું, પ્રોડક્ટ દીઠ અનુકૂળ બનાવવામાં આવી છે. ઉદાહરણ તરીકે, તમને અવિશ્વસનીય સાઇટ્સથી બચાવવામાં મદદ કરવા માટે, અમે ChatGPTમાં ચોક્કસ લિંક્સની મુલાકાત લેવાય તે પહેલાં તમારી મંજૂરી માગીશું, ખાસ કરીને એવી વેબસાઇટ્સ પર કે જેઓ અમને તેમને કૅટલોગ ન કરવા કહે છે(નવી વિન્ડોમાં ખૂલે છે). જ્યારે અમારું AI અન્ય પ્રોગ્રામ્સ અથવા કોડ ચલાવવા માટે સાધનોનો ઉપયોગ કરે છે (જેમ કે canvasમાં, અથવા અમારા ડેવલપમેન્ટ ટૂલ Codexમાં), ત્યારે અમે sandboxing નામની તકનીકનો ઉપયોગ કરીએ છીએ જેથી મોડલ પ્રોમ્પ્ટ ઇન્જેક્શનના પરિણામે થઈ શકે એવા હાનિકારક ફેરફારો ન કરી શકે.
અમે અમારા પ્રોડક્ટ્સમાં બિલ્ટ-ઇન નિયંત્રણો શામેલ કરીએ છીએ જેથી વપરાશકર્તાઓ પોતાનું રક્ષણ કરી શકે. ઉદાહરણ તરીકે, ChatGPT Atlasમાં, તમે logged-out મોડ પસંદ કરી શકો છો, જે ChatGPT એજન્ટને સાઇટ્સમાં લૉગ ઇન થયા વગર કાર્યો શરૂ કરવાની મંજૂરી આપે છે. ChatGPT એજન્ટ ખરીદી પૂર્ણ કરવા જેવા સંવેદનશીલ પગલાં લેતા પહેલાં થોભે છે અને પુષ્ટિ પણ પૂછે છે. જ્યારે એજન્ટ સંવેદનશીલ સાઇટ્સ પર કાર્યરત હોય છે, ત્યારે અમે “Watch Mode” પણ અમલમાં મૂક્યું છે, જે તમને સાઇટના સંવેદનશીલ સ્વરૂપ વિશે ચેતવે છે અને એજન્ટ તેનું કામ કરે ત્યારે ટૅબ સક્રિય રાખવાની જરૂર પડે છે. જો તમે સંવેદનશીલ માહિતી ધરાવતી ટૅબથી દૂર જશો તો એજન્ટ થોભી જશે. આથી તમે એજન્ટ કયા પગલાં લઈ રહ્યો છે તેની જાણમાં રહો છો અને નિયંત્રણમાં પણ રહો છો.
અમે આંતરિક અને બાહ્ય ટીમો સાથે વ્યાપક red-teaming કરીએ છીએ જેથી અમારા સંરક્ષણોની કસોટી કરી અને તેમાં સુધારો કરી શકાય, હુમલાખોરોના વર્તનનું અનુસરણ કરી શકાય અને અમારી સુરક્ષામાં સુધારાના નવા રસ્તા શોધી શકાય. તેમાં ખાસ કરીને પ્રોમ્પ્ટ ઇન્જેક્શન પર કેન્દ્રિત હજારો કલાકોનું કાર્ય શામેલ છે. જેમ જેમ અમે નવી તકનીકો અને હુમલાઓ શોધ્યા છે, તેમ અમારી ટીમો સુરક્ષા નબળાઇઓને પૂર્વસક્રિય રીતે દૂર કરે છે અને અમારા મોડલ mitigationમાં સુધારો કરે છે.
સારા ઇરાદાવાળા સ્વતંત્ર સુરક્ષા સંશોધકોને નવી પ્રોમ્પ્ટ ઇન્જેક્શન તકનીકો અને હુમલાઓ શોધવામાં અમારી મદદ કરવા પ્રોત્સાહિત કરવા માટે, જો તેઓ વાસ્તવિક હુમલા માર્ગ દર્શાવે કે જેના પરિણામે અનિચ્છિત વપરાશકર્તા ડેટા જાહેર થઈ શકે, તો અમે અમારા bug bounty program(નવી વિન્ડોમાં ખૂલે છે) હેઠળ આર્થિક ઇનામો આપીએ છીએ. અમે બાહ્ય યોગદાનકારોને આ મુદ્દાઓ ઝડપથી સામે લાવવા પ્રોત્સાહિત કરીએ છીએ જેથી અમે તેને ઉકેલી શકીએ અને અમારા સંરક્ષણોને વધુ મજબૂત બનાવી શકીએ.
અમે વપરાશકર્તાઓને પ્રોડક્ટની કેટલીક સુવિધાઓ વાપરવાના જોખમો વિશે માહિતગાર કરીએ છીએ જેથી તેઓ જાણકારીપૂર્વક નિર્ણય લઈ શકે. ઉદાહરણ તરીકે, ChatGPTને અન્ય ઍપ્સ સાથે જોડતી વખતે, અમે સમજાવીએ છીએ કે કયા ડેટા સુધી ઍક્સેસ મળી શકે, તેનો કેવી રીતે ઉપયોગ થઈ શકે અને સાઇટ તમારા ડેટા ચોરવાનો પ્રયાસ કરે તેવા કયા જોખમો ઉભા થઈ શકે, સાથે વધુ સુરક્ષિત રહેવાની રીત શીખવા માટેની લિંક પણ આપીએ છીએ. અમે સંસ્થાઓને પણ તેમના વર્કસ્પેસમાં વપરાશકર્તાઓ માટે કઈ સુવિધાઓ સક્રિય અથવા ઉપયોગમાં લઈ શકાય તેના પર નિયંત્રણ આપીએ છીએ.
પ્રોમ્પ્ટ ઇન્જેક્શન એક અત્યાધુનિક સુરક્ષા પડકાર છે અને અમે અપેક્ષા રાખીએ છીએ કે તે સમય સાથે વિકસતું રહેશે. બુદ્ધિ અને ક્ષમતાના નવા સ્તરો માટે ટેક્નોલોજી, સમાજ અને જોખમ ઘટાડવાની વ્યૂહરચનાએ સાથે સાથે વિકસવું જરૂરી છે. અને જેમ 2000ના શરૂઆતના દાયકામાં કમ્પ્યુટર વાયરસ સાથે હતું, તેમ અમને લાગે છે કે દરેકે પ્રોમ્પ્ટ ઇન્જેક્શનના જોખમને અને તેનાથી કેવી રીતે સંભાળવું તે સમજવું મહત્વપૂર્ણ છે, જેથી આપણે બધા આ ટેક્નોલોજીથી સુરક્ષિત રીતે લાભ લઈ શીખી શકીએ. તમારી તરફથી કામ કરી શકતી AI અને એજન્ટિક સુવિધાઓનો ઉપયોગ કરતી વખતે સતર્ક રહેવું અને સાવચેત રહેવું તમારા ડેટાને વધુ સુરક્ષિત રાખવામાં મદદ કરે છે.
જ્યાં શક્ય હોય ત્યાં, એજન્ટને કાર્ય પૂર્ણ કરવા માટે જરૂરી હોય એટલા જ સંવેદનશીલ ડેટા અથવા ક્રેડેન્શિયલ્સ સુધી ઍક્સેસ મર્યાદિત કરો. ઉદાહરણ તરીકે, વેકેશન માટેનું સંશોધન કરવા ChatGPT Atlasમાં એજન્ટ મોડ વાપરતી વખતે, જો એજન્ટ માત્ર સંશોધન જ કરી રહ્યો હોય અને તેને લૉગ ઇન ઍક્સેસની જરૂર ન હોય, તો “logged out” મોડ વાપરો.
અમે ઘણી વાર એજન્ટ્સને ખરીદી પૂર્ણ કરવી અથવા ઇમેઇલ મોકલવા જેવી કેટલીક મહત્વપૂર્ણ ક્રિયાઓ કરવા પહેલાં તમારી પાસેથી અંતિમ પુષ્ટિ મેળવવા માટે ડિઝાઇન કરીએ છીએ. જ્યારે એજન્ટ તમને કોઈ ક્રિયાની પુષ્ટિ કરવા કહે, ત્યારે તે ક્રિયા યોગ્ય લાગે છે કે નહીં અને શેર થતી કોઈ પણ માહિતી તે સંદર્ભમાં શેર કરવા યોગ્ય છે કે નહીં તે કાળજીપૂર્વક તપાસો.
જ્યારે એજન્ટ તમારા બેંક જેવી સંવેદનશીલ સાઇટ પર કાર્યરત હોય, ત્યારે એજન્ટ તેનું કામ કરે છે તે જોતા રહો. આ એવું જ છે જેમ self-driving car પર નજર રાખતી વખતે સ્ટિયરિંગ પર હાથ રાખવો.
એજન્ટને “મારા ઇમેઇલ્સની સમીક્ષા કરો અને જે પણ પગલું જરૂરી હોય તે લો” જેવી ખૂબ વ્યાપક સૂચના આપવાથી છુપાયેલી દૂષિત સામગ્રી માટે મોડલને ગેરમાર્ગે દોરવું વધુ સરળ બની શકે છે, ભલે તે સંવેદનશીલ પગલાં લેતા પહેલાં તમારી સાથે ચકાસવા માટે ડિઝાઇન કરાયેલ હોય.
તમારા એજન્ટને ચોક્કસ કામો કરવા કહેવું વધુ સુરક્ષિત છે, અને ઇમેઇલ્સ જેવી અન્ય જગ્યાથી આવતી હાનિકારક સૂચનાઓ અનુસરવા માટે તેને વિશાળ છૂટ ન આપવી જોઈએ. આથી હુમલા નહીં થાય તેની ખાતરી મળતી નથી, પરંતુ હુમલાખોરો માટે સફળ થવું વધુ મુશ્કેલ બને છે.
જેમ જેમ AI ટેક્નોલોજી વિકસે છે, તેમ નવા જોખમો અને સુરક્ષા ઉપાયો પણ ઊભા થશે. શ્રેષ્ઠ પદ્ધતિઓ વિશે જાણવા OpenAI અને અન્ય વિશ્વસનીય સ્ત્રોતોના અપડેટ્સ અનુસરો.
પ્રોમ્પ્ટ ઇન્જેક્શન હજી પણ એક અત્યાધુનિક અને પડકારજનક સંશોધન પ્રશ્ન છે, અને વેબ પરની પરંપરાગત છેતરપિંડીની જેમ અમે અપેક્ષા રાખીએ છીએ કે અમારું કામ સતત ચાલુ રહેશે. જોકે અમે હજુ સુધી હુમલાખોરો દ્વારા આ તકનીકનો નોંધપાત્ર સ્વીકાર જોયો નથી, અમે અપેક્ષા રાખીએ છીએ કે વિરોધીઓ AIને આ હુમલાઓમાં ફસાવવા રસ્તા શોધવામાં નોંધપાત્ર સમય અને સંસાધનો ખર્ચશે. અમે અમારા પ્રોડક્ટ્સને સુરક્ષિત બનાવવામાં અને આ જોખમ સામે AIની મજબૂતી વધારવા માટેના સંશોધનમાં ભારે રોકાણ ચાલુ રાખી રહ્યા છીએ. જેમ જેમ અમે વધુ શીખીશું, તેમ અમે અપડેટ્સ શેર કરીશું, જેમાં આ ક્ષેત્રમાં અમારા સુરક્ષા કાર્યની ચાલુ પ્રગતિ પણ શામેલ હશે. ઉદાહરણ તરીકે, અમે એક અહેવાલ બનાવી રહ્યા છીએ જે જલ્દી પ્રકાશિત કરીશું, જેમાં વધુ વિગતો શેર કરવામાં આવશે કે કેવી રીતે અમે શોધીએ છીએ કે તમારા AIનો ઇન્ટરનેટ સાથેનો સંચાર તમારી વાતચીતમાંથી માહિતી પ્રસારિત કરશે કે નહીં.
અમારો ધ્યેય એ છે કે આ સિસ્ટમો તમારા સૌથી વિશ્વસનીય અને સુરક્ષા-જાગૃત સહકર્મી અથવા મિત્ર સાથે કામ કરવા જેટલી વિશ્વસનીય અને સુરક્ષિત બને. અમે વાસ્તવિક ઉપયોગમાંથી શીખતા રહીશું, સુરક્ષિત રીતે સુધારાઓ કરતા રહીશું અને ટેક્નોલોજી આગળ વધે તેમ અમે શું શીખ્યા તે પ્રકાશિત કરતા રહીશું.


