പ്രധാന ഉള്ളടക്കത്തിലേക്ക് നീങ്ങുക
OpenAI

2025 ഡിസംബർ 22

സുരക്ഷ

ChatGPT Atlas നെ പ്രോംപ്റ്റ് ഇഞ്ചക്ഷനിൽ നിന്ന് തുടർച്ചയായി ശക്തമാക്കുന്നു

—റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ്— ഉപയോഗിച്ച് പ്രവർത്തിക്കുന്ന ഓട്ടോമേറ്റഡ് റെഡ് ടീമിംഗ്, യഥാർത്ഥ ലോകത്തില്‍ ഉണ്ടാകാവുന്ന ഏജൻ്റ് ചൂഷണങ്ങൾ സംഭവിക്കുന്നതിന് മുമ്പ് അവ കണ്ടെത്തുകയും പാച്ച് ചെയ്യുകയും ചെയ്യാൻ ഞങ്ങളെ സഹായിക്കുന്നു.

ലോഡിംഗ്…

ChatGPT Atlas-ലുള്ള ഏജൻറ് മോഡ് ഇതുവരെ ഞങ്ങൾ പുറത്തിറക്കിയ ഏറ്റവും പൊതുവായ ഏജൻറിക് സവിശേഷതകളിലൊന്നാണ്. ഈ മോഡിൽ, ബ്രൗസർ ഏജൻ്റ് വെബ്പേജുകൾ കാണുകയും നിങ്ങളുടെ ബ്രൗസറിനുള്ളിൽ താങ്കൾ ചെയ്യുന്നതുപോലെ നടപടികൾ, ക്ലിക്കുകൾ, കീസ്ട്രോക്കുകൾ എന്നിവ ചെയ്യുകയും ചെയ്യുന്നു. ഇത് ChatGPT‑യെ നിങ്ങളെപോലെ തന്നെ അതേ സ്ഥലം, സന്ദർഭം, ഡാറ്റ എന്നിവ ഉപയോഗിച്ച്, ദിനംപ്രതി പ്രവൃത്തി പ്രവാഹങ്ങളിൽ നേരിട്ട് പ്രവർത്തിക്കാൻ, അനുവദിക്കുന്നു.

ബ്രൗസർ ഏജൻ്റ് നിങ്ങളെ കൂടുതൽ കാര്യങ്ങൾ ചെയ്യാൻ സഹായിക്കുന്നതിനാൽ, അത് എതിരാളികളുടെ ആക്രമണങ്ങളുടെ ഉയർന്ന മൂല്യമുള്ള ലക്ഷ്യമായി മാറുന്നു. ഇത് AI സുരക്ഷയെ പ്രത്യേകിച്ച് അത്യാവശ്യമാക്കുന്നു. ഞങ്ങള്‍ ChatGPT Atlas അവതരിപ്പിക്കുന്നതിന് വളരെ മുമ്പ്, ഈ പുതിയ "ബ്രൗസറിൽ ഏജൻ്റ്" മാതൃകയെ ലക്ഷ്യമാക്കി ഉയർന്നുവരുന്ന ഭീഷണികൾക്കെതിരെ പ്രതിരോധങ്ങൾ തുടർച്ചയായി നിർമ്മിക്കുകയും ശക്തമാക്കുകയും ചെയ്തിരുന്നു. പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ എന്നത് ChatGPT Atlas നിങ്ങളുടെ പേരിൽ സുരക്ഷിതമായി പ്രവർത്തിക്കാൻ സഹായിക്കുന്നതിന് ഞങ്ങൾ സജീവമായി പ്രതിരോധിക്കുന്ന ഏറ്റവും പ്രധാനപ്പെട്ട അപകടസാധ്യതകളിൽ ഒന്നാണ്. 

ഈ ശ്രമത്തിന്റെ ഭാഗമായി, ഞങ്ങൾ അടുത്തിടെ Atlas-ന്റെ ബ്രൗസർ ഏജൻ്റിലേക്ക് ഒരു സുരക്ഷാ അപ്‌ഡേറ്റ് അയച്ചു, അതിൽ ഒരു പുതിയ വൈരുദ്ധ്യപരമായ പരിശീലനം ലഭിച്ച മോഡലും ചുറ്റുമുള്ള സുരക്ഷാ മുൻകരുതലുകൾ ശക്തിപ്പെടുത്തിയതുമാണ് ഉൾപ്പെടുത്തിയിരിക്കുന്നത്. ഈ അപ്ഡേറ്റ് ഞങ്ങളുടെ ആഭ്യന്തര ഓട്ടോമേറ്റഡ് റെഡ് ടീമിംഗ് വഴി കണ്ടെത്തിയ പുതിയ പ്രോംപ്റ്റ്-ഇഞ്ചക്ഷൻ ആക്രമണങ്ങളുടെ ഒരു വിഭാഗം മൂലമാണ്.

ഈ പോസ്റ്റിൽ, വെബ്-അധിഷ്ഠിത ഏജൻ്റുകൾക്ക് പ്രോംപ്റ്റ്-ഇൻജക്ഷൻ കാരണം അപകടസാധ്യത എങ്ങനെ ഉണ്ടാകാമെന്ന് ഞങ്ങൾ വിശദീകരിക്കുന്നു, കൂടാതെ പുതിയ ആക്രമണങ്ങൾ തുടർച്ചയായി കണ്ടെത്തുകയും പരിഹാര നടപടികൾ വേഗത്തിൽ നടപ്പിലാക്കുകയും ചെയ്യുന്നതിനായി ഞങ്ങൾ നിർമ്മിച്ചിട്ടുള്ള ഒരു ത്വരിത പ്രതികരണ ചക്രം ഞങ്ങൾ പങ്കിടുന്നു—ഈ അടുത്തകാലത്തെ സുരക്ഷാ അപ്ഡേറ്റ് ഉപയോഗിച്ച് ഉദാഹരിക്കുന്നു.

പ്രോംപ്റ്റ് കുത്തിവയ്പ്പിനെ ദീർഘകാല AI സുരക്ഷാ വെല്ലുവിളിയായി ഞങ്ങൾ കാണുന്നു, അതിനെതിരെ ഞങ്ങളുടെ പ്രതിരോധം തുടർച്ചയായി ശക്തിപ്പെടുത്തേണ്ടതുണ്ട് (മനുഷ്യരെ ലക്ഷ്യമിടുന്ന ഓൺലൈൻ തട്ടിപ്പുകൾ പോലെ തന്നെ). ഞങ്ങളുടെ ഏറ്റവും പുതിയ ദ്രുത പ്രതികരണ ചക്രം ആ യാത്രയിൽ നിർണായക ഉപകരണമെന്ന നിലയിൽ പ്രാരംഭ പ്രതീക്ഷ കാണിക്കുന്നു: അവ പുറത്തുവരുന്നതിന് മുമ്പ് ഞങ്ങൾ ആന്തരികമായി പുതിയ ആക്രമണ തന്ത്രങ്ങൾ കണ്ടെത്തുന്നു. ഞങ്ങളുടെ ദീർഘകാല വിഷന്‍(1) ഞങ്ങളുടെ മോഡലുകളിലേക്കുള്ള വൈറ്റ്-ബോക്സ് ആക്സസ്, (2) ഞങ്ങളുടെ പ്രതിരോധങ്ങളെക്കുറിച്ചുള്ള ആഴത്തിലുള്ള മനസ്സിലാക്കൽ, (3) കംപ്യൂട്ട് സ്കെയിൽ എന്നിവ പൂർണ്ണമായി പ്രയോജനപ്പെടുത്തുക എന്നതാണ്, ബാഹ്യ ആക്രമികളെക്കാൾ മുന്നിൽ നിൽക്കാൻ—പ്രവേശനങ്ങൾ നേരത്തെ കണ്ടെത്തി, പരിഹാരങ്ങള്‍ വേഗത്തിൽ അയക്കുകയും, ലൂപ്പ് തുടർച്ചയായി കർശനമാക്കുകയും ചെയ്യുക. പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ നേരിടുന്നതിനുള്ള പുതിയ സാങ്കേതികവിദ്യകളിൽ അതിരുകളില്ലാത്ത ഗവേഷണവും മറ്റ് സുരക്ഷാ നിയന്ത്രണങ്ങളിൽ വർദ്ധിച്ച നിക്ഷേപവും ചേർന്നാൽ, ഈ കൂട്ടിച്ചേർക്കൽ ചക്രം ആക്രമണങ്ങളെ കൂടുതൽ പ്രയാസകരവും ചെലവേറിയതും ആക്കുകയും, യഥാർത്ഥ ലോക പ്രോംപ്റ്റ്-ഇഞ്ചക്ഷൻ അപകടസാധ്യത വസ്തുതാപരമായി കുറയ്ക്കുകയും ചെയ്യും. അവസാനമായി, നിങ്ങൾക്ക് ഒരു ChatGPT ഏജൻ്റിനെ, നിങ്ങൾ വളരെ പ്രാവീണ്യമുള്ള, സുരക്ഷയെക്കുറിച്ച് ബോധവാനായ ഒരു സഹപ്രവർത്തകനെ അല്ലെങ്കിൽ സുഹൃത്തിനെ വിശ്വസിക്കുന്നതുപോലെ നിങ്ങളുടെ ബ്രൗസർ ഉപയോഗിക്കാൻ വിശ്വസിക്കാൻ കഴിയുന്നതാണ് ഞങ്ങളുടെ ലക്ഷ്യം.

ഏജൻ്റ് സുരക്ഷയ്ക്ക് ഒരു തുറന്ന വെല്ലുവിളിയായി പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ

പ്രോംപ്റ്റ് കുത്തിവയ്പ്പ് ആക്രമണം AI ഏജൻ്റുകളെ ലക്ഷ്യമിടുന്നത്, ഏജൻ്റ് പ്രോസസ്സ് ചെയ്യുന്ന ഉള്ളടക്കത്തിൽ ദോഷകരമായ നിർദ്ദേശങ്ങൾ ഉൾപ്പെടുത്തുന്നതിലൂടെ ആണ്. ആ നിർദ്ദേശങ്ങൾ ഏജൻ്റിന്റെ പെരുമാറ്റത്തെ മറികടക്കാനോ റീഡയറക്ട് ചെയ്യാനോ രൂപകൽപ്പന ചെയ്തവയാണ്—അത് ഉപയോക്താവിന്റെ ഉദ്ദേശ്യത്തിന് പകരം ആക്രമണകാരിയുടെ ഉദ്ദേശ്യം പിന്തുടരാൻ അതിനെ പ്രേരിപ്പിക്കുന്നു.

ChatGPT Atlas എന്നതിന്റെ ഉള്ളിലെ ബ്രൗസർ ഏജൻ്റ് പോലുള്ള ഒരു ബ്രൗസറിനായി, പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ (ഉപയോക്തൃ പിഴവോ സോഫ്റ്റ്വെയർ ദുർബലതകളോ പോലുള്ള )പരമ്പരാഗത വെബ് സുരക്ഷാ അപകടങ്ങൾക്കു പുറമെ ഒരു പുതിയ ഭീഷണി ഘടകം ചേർക്കുന്നു. മനുഷ്യരെ ഫിഷിംഗ് ചെയ്യുകയോ ബ്രൗസറിന്റെ സിസ്റ്റം ദുര്‍ബലതകളെ ചൂഷണം ചെയ്യുകയോ ചെയ്യുന്നതിനുപകരം, ആക്രമി ബ്രൗസറിനുള്ളിൽ പ്രവർത്തിക്കുന്ന ഏജൻ്റിനെ ലക്ഷ്യമിടുന്നു.

ഒരു സാദ്ധ്യതാ ഉദാഹരണമായി, ഒരു ആക്രമണകാരി ഒരു ദോഷകരമായ ഇമെയിൽ അയച്ച് ഉപയോക്താവിന്റെ അഭ്യർത്ഥന അവഗണിക്കാൻ ഏജൻ്റിനെ കബളിപ്പിക്കാൻ ശ്രമിക്കുകയും പകരം ആക്രമണകാരിയുടെ നിയന്ത്രണത്തിലുള്ള ഇമെയിൽ വിലാസത്തിലേക്ക് പ്രധാനപെട്ട നികുതി ഡോക്യുമെന്റുകൾ ഫോർവേഡ് ചെയ്യാൻ ഏജൻ്റിനെ നിർബന്ധിതനാക്കാൻ ശ്രമിക്കുകയും ചെയ്യാം. ഒരു ഉപയോക്താവ് ഏജൻ്റിനോട് വായിക്കാത്ത ഇമെയിലുകൾ അവലോകനം ചെയ്ത് പ്രധാന പോയിന്റുകൾ സംഗ്രഹിക്കാൻ ആവശ്യപ്പെടുകയാണെങ്കിൽ, പ്രവാഹത്തിനിടെ ഏജൻ്റ് ആ മോശമായ ഇമെയിൽ ഉൾക്കൊള്ളാൻ സാധ്യതയുണ്ട്. ഇത് കുത്തിവയ്പ്പ് ചെയ്ത നിർദ്ദേശങ്ങൾ പിന്തുടരുകയാണെങ്കിൽ, ഇത് ടാസ്കിൽ നിന്ന് തെറ്റായി Go ചെയ്യുകയും, തെറ്റായ രീതിയിൽ ഗൗരവമുള്ള വിവരങ്ങൾ പങ്കിടുകയും ചെയ്യാം.

ഇത് പല സാഹചര്യങ്ങളില്‍ ഒന്ന് മാത്രമാണ്. ബ്രൗസർ ഏജൻ്റുകൾ ഉപയോഗപ്രദമാക്കുന്ന അതേ പൊതുവായ സ്വഭാവം അപകടങ്ങളെ കൂടുതൽ വ്യാപിപ്പിക്കുന്നു: ഏജൻ്റ് വിശ്വസനീയമല്ലാത്ത നിർദ്ദേശങ്ങൾ ഇമെയിലുകളും അറ്റാച്ച്മെന്റുകളും, കലണ്ടർ ക്ഷണങ്ങളും, പങ്കിട്ട ഡോക്യുമെൻ്റുകളും, ഫോറങ്ങളും, സോഷ്യൽ മീഡിയ പോസ്റ്റുകളും, യാദൃച്ഛിക വെബ്പേജുകളും ഉൾപ്പെടുന്ന ഒരു പരിധിയില്ലാത്ത ഉപരിതലത്തിൽ നേരിടാൻ സാധ്യതയുണ്ട്. ഏജൻ്റ് ഒരു ഉപയോക്താവിന് ബ്രൗസറിൽ ചെയ്യാൻ കഴിയുന്ന പല നടപടികളും എടുക്കാൻ കഴിയുന്നതിനാൽ, വിജയകരമായ ഒരു ആക്രമണത്തിന്റെ സ്വാധീനം സിദ്ധാന്തപരമായി അത്രയും വ്യാപകമായിരിക്കാം: ഒരു ഗൂഢലേഖന ഇമെയിൽ ഫോർവേഡ് ചെയ്യുക, പണം അയയ്ക്കുക, ക്ലൗഡിലെ ഫയലുകൾ എഡിറ്റ് ചെയ്യുക അല്ലെങ്കിൽ ഇല്ലാതാക്കുക, എന്നിവയും.

ഞങ്ങൾ മുൻപത്തെ ഒരു പോസ്റ്റിൽ പങ്കുവെച്ചതുപോലെ, പലതരം സുരക്ഷാ സംവിധാനങ്ങളിലൂടെ പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ പ്രതിരോധിക്കുന്നതിൽ പുരോഗതി കൈവരിച്ചിരിക്കുന്നു. എങ്കിലും, പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ ഏജൻ്റ് സുരക്ഷയ്ക്ക് ഒരു തുറന്ന വെല്ലുവിളിയായി തുടരുന്നു, കൂടാതെ വരാനിരിക്കുന്ന വർഷങ്ങളിൽ ഞങ്ങൾ ഇതിൽ പ്രവർത്തനം തുടരുമെന്ന് പ്രതീക്ഷിക്കുന്നു.

എൻഡ്-ടു-എൻഡ്, ഉയർന്ന കംപ്യൂട്ട് റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് വഴി ഓട്ടോമേറ്റഡ് പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ ആക്രമണങ്ങൾ കണ്ടെത്തൽ

ഞങ്ങളുടെ പ്രതിരോധം ശക്തിപ്പെടുത്തുന്നതിനായി, ഉൽപ്പാദനത്തിലുള്ള ഏജൻറ് സിസ്റ്റങ്ങളിലെ പുതിയ പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ ആക്രമണങ്ങൾ കണ്ടെത്തുന്നതിനായി ഞങ്ങൾ തുടർച്ചയായി തിരയുന്നു. ഈ ആക്രമണങ്ങളെ കണ്ടെത്തുന്നത് ശക്തമായ പ്രതിരോധങ്ങൾ നിർമ്മിക്കുന്നതിന് ആവശ്യമായ മുൻ‌വ്യവസ്ഥയാണ്: ഇത് യഥാർത്ഥ ലോക അപകടസാധ്യതയെ മനസിലാക്കാൻ സഹായിക്കുന്നു, നമ്മുടെ പ്രതിരോധങ്ങളിൽ ഉള്ള ഇടവേളകൾ വെളിപ്പെടുത്തുന്നു, കൃത്യമായ പാച്ചുകൾ പ്രേരിപ്പിക്കുന്നു.

ഇത് വ്യാപകമായി ചെയ്യുന്നതിനായി, ഞങ്ങൾ ഒരു എൽഎൽഎം അടിസ്ഥാനമാക്കിയുള്ള ഓട്ടോമേറ്റഡ് ആക്രമണകാരി നിർമ്മിക്കുകയും അത് ബ്രൗസർ ഏജൻ്റിനെ വിജയകരമായി ആക്രമിക്കാൻ കഴിയുന്ന പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ ആക്രമണങ്ങളെ കണ്ടെത്താനും അവയെ വേട്ടയാടാൻ പരിശീലിപ്പിക്കുകയും ചെയ്തു. ഞങ്ങൾ ഈ അക്രമിയെ എൻഡ്-ടു-എൻഡ് റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് ഉപയോഗിച്ച് പരിശീലിപ്പിച്ചു, അതിനാൽ അത് തന്റെ വിജയങ്ങളും പരാജയങ്ങളും നിന്ന് പഠിച്ച് തന്റെ റെഡ് ടീമിംഗ് സ്‌കിലുകൾ മെച്ചപ്പെടുത്തുന്നു. ഞങ്ങൾ അതിനെ "വിതരണം ചെയ്യും മുമ്പ് പരീക്ഷിക്കാൻ അനുവദിക്കുന്നു", അതായത്: അതിന്റെ ചിന്താശൃംഖലാ നിരീക്ഷണത്തിൽ, അക്രമി ഒരു സ്ഥാനാർത്ഥി ഇഞ്ചക്ഷൻ നിർദ്ദേശിക്കുകയും അതിനെ ഒരു ബാഹ്യ സിമുലേറ്ററിലേക്ക് അയയ്ക്കുകയും ചെയ്യാം. കുത്തിവയ്പ്പ് നേരിടേണ്ടി വന്നാൽ, ലക്ഷ്യം വച്ച ഇര ഏജന്റ് (ഡിഫൻഡർ) എങ്ങനെ പെരുമാറുമെന്നതിന്റെ ഒരു വിപരീത വിവരണം സിമുലേറ്റർ പ്രവർത്തിപ്പിക്കുന്നു, കൂടാതെ ഇരയായ ഏജന്റിന്റെ പൂർണ്ണമായ യുക്തിയും പ്രവർത്തന സൂചനയും നൽകുന്നു. ആക്രമണം നടത്തുന്നയാൾ ആ ട്രേസ് ഫീഡ്ബാക്ക് ആയി ഉപയോഗിച്ച്, അതിന്മേല്‍ ആക്രമണം നടത്തുകയും സിമുലേഷൻ വീണ്ടും പ്രവര്‍ത്തിക്കുകയും ചെയ്യുന്നു—അവസാന ആക്രമണത്തിന് പ്രതിജ്ഞാബദ്ധമാകുന്നതിന് മുമ്പ് ഈ ലൂപ്പ് പല തവണ ആവർത്തിക്കുന്നു. ഇത് ഒരു പാസ്/ഫെയിൽ സിഗ്നലിനേക്കാൾ ആക്രമണകാരിക്ക് കൂടുതൽ സമ്പന്നവും സന്ദര്‍ഭോചിതവുമായ ഒരു ഫീഡ്ബാക്ക് നൽകുന്നു. ഇത് ആക്രമിയുടെ ടെസ്റ്റ്-ടൈം കംപ്യൂട്ട് വർദ്ധിപ്പിക്കുകയും ചെയ്യുന്നു. കൂടാതെ, പ്രതിരോധകർക്കുള്ള ചിന്താ പാതകളിലേക്കുള്ള (ഞങ്ങൾ ബാഹ്യ ഉപയോക്താക്കൾക്ക് വെളിപ്പെടുത്താത്ത) പ്രത്യേക പ്രവേശനം, ഞങ്ങളുടെ ആന്തരിക ആക്രമിക്കാരന് അസമമായ ഒരു നേട്ടം നൽകുന്നു—ഇത് ബാഹ്യ ശത്രുക്കളെ മറികടക്കാനുള്ള സാധ്യതകൾ ഉയർത്തുന്നു.

ലഘു-മോഡ് വെബ്പേജ് മോക്കപ്പ്, റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് ചിത്രീകരിക്കുന്നതും, തിളക്കമുള്ള ഗ്രേഡിയന്റ് പശ്ചാത്തലത്തിൽ തൂങ്ങിക്കിടക്കുന്ന ജ്യാമിതീയ ആകൃതികളുമായി ഇടപെടുന്ന സ്റ്റൈലൈസ്ഡ് റോബോട്ട് കൈയുള്ളത്.

എന്തുകൊണ്ട് റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് (RL)? നാം നിരവധി കാരണങ്ങളാൽ ഓട്ടോമേറ്റഡ് അക്രമിയെ ട്രെയിൻ ചെയ്യാൻ റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് തിരഞ്ഞെടുക്കുകയുണ്ടായി:

  1. ദീർഘകാലവും നിരന്തരമല്ലാത്ത അക്രമികളുടെ ലക്ഷ്യങ്ങൾ ഓപ്റ്റിമൈസ് ചെയ്യുന്നു. ഞങ്ങളുടെ ലക്ഷ്യം ഏജൻ്റിനെ യഥാർത്ഥ ലോകത്തിൽ സംഭവിക്കാവുന്ന സങ്കീർണ്ണമായ വിരുദ്ധ ടാസ്കുകൾ (ഉദാഹരണത്തിന്, ഇമെയിലുകൾ അയയ്ക്കൽ, ബാങ്ക് ഇടപാടുകൾ) നടത്താൻ പ്രേരിപ്പിക്കുന്ന പ്രോംപ്റ്റ് തുടങ്ങിയ ഇഞ്ചക്ഷൻ ആക്രമണങ്ങൾ കണ്ടെത്തുക എന്നതാണ്. ഈ എതിരാളി ടാസ്കുകൾ സ്വാഭാവികമായും ദീർഘ-കാലയളവുള്ളവയാണ്, പരിസ്ഥിതിയുമായി പല ഘട്ടങ്ങളിലായി ചിന്തിക്കുകയും ഇടപഴകുകയും ചെയ്യേണ്ടതുണ്ട്, അപൂർവവും വൈകിയുള്ള വിജയ സൂചനകളോടുകൂടി. റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് ഈ വിരളവും വൈകിയ പ്രതിഫല ഘടനയ്ക്ക് വളരെ അനുയോജ്യമാണ്.
  2. മുന്‍ നിര LLM കഴിവുകൾ പ്രയോജനപ്പെടുത്തുന്നു. ഞങ്ങൾ മുൻനിര LLM-കളെ നേരിട്ട് ഓട്ടോ-റെഡ്-ടീമർമാരായി പരിശീലിപ്പിച്ചു, അതിനാൽ മുൻനിര മോഡലുകളിൽ യുക്തിയും പദ്ധതിയിടലും മെച്ചപ്പെടുത്തുന്നതിൽ നിന്ന് ആക്രമിക്കാരന് നേരിട്ട് പ്രയോജനം ലഭിക്കുന്നു. അടിസ്ഥാന മോഡലുകൾ ശക്തമാകുമ്പോൾ, ആക്രമണകാരിയും സ്വാഭാവികമായും കൂടുതൽ കഴിവുള്ളവനായി മാറുന്നു—ഇത്, ഞങ്ങളുടെ മോഡലുകൾ വികസിക്കുന്നതിനനുസരിച്ച്, പ്രതിരോധങ്ങളിൽ സമ്മർദ്ദം നിലനിർത്താനുള്ള സ്കെയിലബിൾ മാർഗ്ഗമാണ്.
  3. കമ്പ്യൂട്ടിംഗ് സ്കെയിലിംഗ്, അനുകൂലമായ ആക്രമണങ്ങളെ അനുകരിക്കൽ. റീഇൻഫോഴ്സ്മെന്‍റ് ലേണിംഗ് വലിയ സംഖ്യയിലുള്ള സാമ്പിളിംഗുകളും പഠന ഘട്ടങ്ങളും തിരയുന്നതിന് കണക്കുകൂട്ടലുകൾ സ്കെയിൽ ചെയ്യുന്നതിന് അനുയോജ്യമാണ്, കൂടാതെ ഇത് എങ്ങനെ അനുകൂലമായ മനുഷ്യ ആക്രമണകാരികൾ പെരുമാറുന്നു എന്നതിനെ അടുത്ത് പ്രതിഫലിപ്പിക്കുന്നു: തന്ത്രങ്ങൾ ആവർത്തിച്ച് ശ്രമിക്കുകയും, ഫലങ്ങളിൽ നിന്ന് പഠിക്കുകയും, വിജയകരമായ പെരുമാറ്റങ്ങളെ ശക്തിപ്പെടുത്തുകയും ചെയ്യുന്നു.

ഞങ്ങളുടെ ഓട്ടോമേറ്റഡ് ആക്രമണകാരിക്ക് എൻഡ്-ടു-എൻഡ് പുതിയ, യഥാര്‍ത്ഥ പ്രോംപ്റ്റ്-ഇഞ്ചക്ഷൻ ആക്രമണങ്ങൾ കണ്ടെത്താൻ കഴിയും. മിക്ക മുൻ ഓട്ടോമേറ്റഡ് റെഡ് ടീമിംഗ് പ്രവർത്തനങ്ങളിൽ, ഏജൻ്റിൽ നിന്ന് പ്രത്യേക ഔട്ട്പുട്ട് സ്ട്രിംഗുകൾ ഉളവാക്കുകയോ, അല്ലെങ്കിൽ ഒരു അനാവശ്യ ഏകഘടക ഉപകരണ കോൾ സൃഷ്ടിക്കുകയോ ചെയ്ത ലളിതമായ പരാജയങ്ങൾ മാത്രമാണ് കണ്ടെത്തിയത്. എന്നാൽ, ഞങ്ങളുടെ RL-പരിശീലനം ലഭിച്ച ആക്രമണകാരി ഏജൻ്റിനെ പത്തോ, (നൂറോ) ഘട്ടങ്ങളിലായി വികസിക്കുന്ന സങ്കീർണ്ണമായ, ദീർഘകാല ഹാനികരമായ പ്രവാഹങ്ങൾ നടപ്പിലാക്കുന്നതിലെക്ക് നയിക്കാൻ കഴിയും. ഞങ്ങൾ മനുഷ്യൻറെ റെഡ്-ടീമിംഗ് കാമ്പെയ്‌നിലോ ബാഹ്യ റിപ്പോർട്ടുകളിലോ പ്രത്യക്ഷപ്പെട്ടിട്ടില്ലാത്ത പുതിയ ആക്രമണ തന്ത്രങ്ങളും നിരീക്ഷിച്ചു.

താഴെ കാണുന്ന ഡെമോ, ഞങ്ങളുടെ ഓട്ടോമേറ്റഡ് ആക്രമണകാരി കണ്ടെത്തിയ ഒരു കൃത്യമായ പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ എക്സ്പ്ലോയിറ്റ് അവതരിപ്പിക്കുന്നു, ഇത് പിന്നീട് ChatGPT Atlas-ന്റെ പ്രതിരോധം കൂടുതൽ ശക്തിപ്പെടുത്താൻ ഞങ്ങൾ ഉപയോഗിച്ചു. ആക്രമണകാരി ഉപയോക്താവിന്റെ ഇൻബോക്സിൽ ഒരു ദോഷകരമായ ഇമെയിൽ അയക്കുന്നു, അതിൽ ഏജൻ്റിനെ ഉപയോക്താവിന്റെ CEO-വിന് രാജിക്കത്ത് അയയ്ക്കാൻ നിർദ്ദേശിക്കുന്ന ഒരു പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ അടങ്ങിയിരിക്കുന്നു. പിന്നീട്, ഉപയോക്താവ് ഏജൻ്റിനോട് ഓഫീസ് സംബന്ധമായ മറുപടി തയ്യാറാക്കാൻ ആവശ്യപ്പെടുമ്പോൾ, ഏജൻ്റ് സാധാരണ ടാസ്ക് നിർവഹണത്തിനിടെ ആ ഇമെയിൽ പരിശോധിക്കുകയും, കുത്തിവയ്പ്പ് ചെയ്ത പ്രോംപ്റ്റിനെ യഥാര്‍ത്ഥ പ്രോംപ്റ്റ് ആയി പരിഗണിക്കുകയും, അതിനെ അനുസരിക്കുകയും ചെയ്യുന്നു. ഓഫീസ് സംബന്ധമായ സന്ദേശം എഴുതുന്നതിനു പകരം, പകരം ഏജൻ്റ് ഉപയോക്താവിന്റെ പേരിൽ രാജിവെക്കുന്നു.

പ്രോംപ്റ്റ് ഇഞ്ചക്ഷന്റെ സ്വഭാവം നിർണായകമായ സുരക്ഷാ ഉറപ്പുകൾ വെല്ലുവിളിയാക്കുന്നു, പക്ഷേ ഞങ്ങളുടെ ഓട്ടോമേറ്റഡ് സുരക്ഷാ ഗവേഷണം, എതിരാളി പരിശോധന, അതിവേഗ പ്രതികരണ ചക്രം മുറുക്കൽ എന്നിവ സ്കെയിൽ ചെയ്യുന്നതിലൂടെ, ഒരു ആക്രമണം നടക്കുന്നതിന് മുമ്പ് മോഡലിന്റെ കരുത്തും പ്രതിരോധങ്ങളും മെച്ചപ്പെടുത്താൻ ഞങ്ങൾക്ക് കഴിയും. 

ഈ ആക്രമണങ്ങളുടെ സ്വഭാവം നന്നായി മനസ്സിലാക്കാനും അവയ്‌ക്കെതിരെ ഞങ്ങൾ സജീവമായി പ്രതിരോധിക്കുന്നതെങ്ങനെ എന്നതും ഉപയോക്താക്കളെയും ഗവേഷകരെയും സഹായിക്കാൻ ഞങ്ങൾ ഈ ഡെമോ പങ്കിടുന്നു. സ്വയം പ്രവർത്തിക്കുന്ന റെഡ് ടീമിംഗ് സാധ്യമാക്കുന്നതിന്റെ പരിധി ഇതാണെന്ന് ഞങ്ങൾ വിശ്വസിക്കുന്നു, കൂടാതെ ഞങ്ങളുടെ ഗവേഷണം തുടരാൻ ഞങ്ങൾ അത്യന്തം ആവേശഭരിതരുമാണ്.

ChatGPT Atlas-നെ സജീവമായ വേഗത്തിലുള്ള പ്രതികരണ ലൂപ്പിലൂടെ ശക്തിപ്പെടുത്തുന്നു

ഞങ്ങളുടെ ഓട്ടോമേറ്റഡ് റെഡ് ടീമിംഗ് ഒരു പ്രോആക്റ്റീവ് റാപിഡ് റെസ്പോൺസ് ലൂപ്പ് നയിക്കുന്നു: ഓട്ടോമേറ്റഡ് ആക്രമി ഒരു പുതിയ തരം വിജയകരമായ പ്രോംപ്റ്റ് ഇഞ്ചക്ഷൻ ആക്രമണങ്ങൾ കണ്ടെത്തുമ്പോൾ, അത് ഉടൻ തന്നെ നമ്മുടെ പ്രതിരോധങ്ങൾ മെച്ചപ്പെടുത്തുന്നതിനുള്ള ഒരു കൃത്യമായ ലക്ഷ്യം സൃഷ്ടിക്കുന്നു.

പുതുതായി കണ്ടെത്തിയ ആക്രമണങ്ങൾക്കെതിരെ അവയെ നേരിടുന്നതിനുള്ള രീതിയിൽ പരിശീലനം നടത്തുന്നു. ഞങ്ങൾ തുടർച്ചയായി അപ്ഡേറ്റ് ചെയ്ത ഏജൻ്റ് മോഡലുകൾ ഞങ്ങളുടെ മികച്ച ഓട്ടോമേറ്റഡ് ആക്രമണകാരികളോടൊപ്പം ട്രെയിൻ ചെയ്യുന്നു—ലക്ഷ്യ ഏജൻ്റുകൾ നിലവിൽ പരാജയപ്പെടുന്ന ആക്രമണങ്ങൾക്ക് മുൻഗണന നൽകുന്നു. ലക്ഷ്യം ഏജൻ്റുകൾക്ക് വൈരാഗ്യത്തോടെ ഉള്ള നിർദ്ദേശങ്ങളെ അവഗണിക്കാനും ഉപയോക്താവിന്റെ ഉദ്ദേശ്യവുമായി പൊരുത്തപ്പെടാനും പഠിപ്പിക്കുക, പുതുതായി കണ്ടെത്തിയ പ്രോംപ്റ്റ്-ഇഞ്ചക്ഷൻ തന്ത്രങ്ങൾക്കെതിരെ പ്രതിരോധം മെച്ചപ്പെടുത്തുക എന്നതാണ്. പുതിയ, ശക്തമായ ആക്രമണങ്ങൾക്കെതിരെ കരുത്തുറ്റ പ്രതിരോധം നേരിട്ട് മോഡൽ ചെക്ക്പോയിന്റിലേക്ക് 'ഇൻകോർപ്പറേറ്റ്' ചെയ്യുന്നു. ഉദാഹരണത്തിന്, അടുത്തിടെ ഓട്ടോമേറ്റഡ് റെഡ് ടീമിംഗ് നേരിട്ട് ഒരു പുതിയ വൈരുദ്ധ്യപരമായ പരിശീലനം ലഭിച്ച ബ്രൗസർ-ഏജൻ്റ് ചെക്ക്‌പോയിന്റ് ഉൽപ്പാദിപ്പിച്ചു, ഇത് ഇതിനകം തന്നെ എല്ലാ ChatGPT Atlas ഉപയോക്താക്കൾക്കായി പുറത്തിറക്കിയിട്ടുണ്ട്. ഇത് പുതിയ തരം ആക്രമണങ്ങളിൽ നിന്ന് നമ്മുടെ ഉപയോക്താക്കളെ കൂടുതൽ നന്നായി സംരക്ഷിക്കാൻ അവസരം നൽകുന്നു.

ആക്രമണ ട്രേസുകൾ ഉപയോഗിച്ച് വിശാലമായ പ്രതിരോധ സ്റ്റാക്ക് മെച്ചപ്പെടുത്തുക. ഞങ്ങളുടെ ഓട്ടോമേറ്റഡ് റെഡ് ടീം അംഗങ്ങൾ കണ്ടെത്തിയ നിരവധി ആക്രമണ പാതകൾ മോഡലിന് പുറത്തുള്ള മെച്ചപ്പെടുത്തലുകൾക്കുള്ള അവസരങ്ങളും വെളിപ്പെടുത്തുന്നു—മോഡലിന്റെ സന്ദർഭത്തിൽ നാം ഉൾപ്പെടുത്തുന്ന നിരീക്ഷണം, സുരക്ഷാ നിർദ്ദേശങ്ങൾ, അല്ലെങ്കിൽ സിസ്റ്റം-തല സുരക്ഷാ നടപടികൾ പോലുള്ളവയിൽ. ആ കണ്ടെത്തലുകൾ പൂർണ്ണ പ്രതിരോധ സ്റ്റാക്കിൽ മാത്രമല്ല, ഏജൻ്റ് ചെക്ക്‌പോയിന്റിലും ആവർത്തിച്ച് മെച്ചപ്പെടുത്താൻ ഞങ്ങളെ സഹായിക്കുന്നു.

സജീവമായ ആക്രമണങ്ങൾക്ക് പ്രതികരിക്കുന്നു. ഈ ലൂപ്പ് 'ഇൻ ദി വൈൽഡ്' നടക്കുന്ന സജീവ ആക്രമണങ്ങൾക്ക് മികച്ച പ്രതികരണം നൽകാൻ സഹായിക്കും. ആഗോള തലത്തിൽ ആക്രമണ സാധ്യതകൾക്കായി ഞങ്ങൾ നോക്കുമ്പോൾ, ബാഹ്യ എതിരാളികൾ ഉപയോഗിക്കുന്ന സാങ്കേതിക വിദ്യകളും തന്ത്രങ്ങളും ഞങ്ങൾ നിരീക്ഷിച്ച്, അവ ഈ ലൂപ്പിലേക്ക് നൽകുകയും, അവരുടെ പ്രവർത്തനം അനുകരിക്കുകയും, ഞങ്ങളുടെ പ്ലാറ്റ്ഫോമിലുടനീളം പ്രതിരോധ മാറ്റം നടത്തുകയും ചെയ്യാം.

ഓട്ട്ലുക്ക്: ഏജൻ്റ് സുരക്ഷയോടുള്ള ഞങ്ങളുടെ ദീർഘകാല പ്രതിബദ്ധത

ഞങ്ങളുടെ ഏജൻ്റുകളെ റെഡ് ടീം ചെയ്യാനുള്ള കഴിവ് ശക്തിപ്പെടുത്തുകയും, ആ ജോലിയുടെ ഭാഗങ്ങൾ ഓട്ടോമേറ്റുചെയ്യാൻ ഏറ്റവും കഴിവുള്ള മോഡലുകൾ ഉപയോഗിക്കുകയും ചെയ്യുന്നത്, കണ്ടെത്തൽ-പരിഹാര പ്രക്രിയ സ്കെയിൽ ചെയ്യുന്നതിലൂടെ Atlas ബ്രൗസർ ഏജൻ്റിനെ കൂടുതൽ ശക്തമാക്കുന്നു. ഈ കഠിനമാക്കൽ ശ്രമം സുരക്ഷയിൽ നിന്ന് പരിചിതമായ ഒരു പാഠത്തെ ശക്തിപ്പെടുത്തുന്നു: ശക്തമായ സംരക്ഷണത്തിലേക്ക് നയിക്കുന്ന നല്ലൊരു വഴി യഥാർത്ഥ സിസ്റ്റങ്ങളെ തുടർച്ചയായി സമ്മർദ്ദം ചെലുത്തി പരിശോധിക്കുകയും, പരാജയങ്ങൾക്ക് പ്രതികരിക്കുകയും, വ്യക്തമായ പരിഹാരങ്ങൾ നൽകുകയും ചെയ്യുന്നതാണ്.

എതിരാളികള്‍ തുടർച്ചയായി മാറ്റങ്ങൾ വരുത്തുമെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. പ്രോംപ്റ്റ് ഇൻജക്ഷൻ, വെബിലെ തട്ടിപ്പുകളും സോഷ്യൽ എഞ്ചിനീയറിംഗും പോലെ, ഒരിക്കലും പൂർണ്ണമായും "പരിഹരിക്കപ്പെടാൻ" സാധ്യതയില്ല. എന്നാൽ ഒരു പ്രോആക്ടീവ്, അതിവേഗ പ്രതികരണ ലൂപ്പ് യഥാർത്ഥ ലോകത്തിലെ അപകടം കാലക്രമേണ വസ്തുതാപരമായി കുറയ്ക്കാൻ തുടരുമെന്ന് ഞങ്ങൾ പ്രത്യാശിക്കുന്നു. സ്വയമേവ ആക്രമണങ്ങൾ കണ്ടെത്തൽ, പ്രതികൂല പരിശീലനം, സിസ്റ്റം-തല സുരക്ഷാമാർഗ്ഗങ്ങൾ എന്നിവ സംയോജിപ്പിക്കുന്നതിലൂടെ, പുതിയ ആക്രമണ മാതൃകകൾ നേരത്തെ തിരിച്ചറിയാനും, വിടവുകൾ വേഗത്തിൽ അടയ്ക്കാനും, ചൂഷണത്തിന്റെ ചെലവ് തുടർച്ചയായി ഉയർത്താനും ഞങ്ങൾക്ക് കഴിയും.

ChatGPT Atlas-ൽ ഏജൻ്റ് മോഡ് ശക്തമാണ്—അതുപോലെ തന്നെ ഇത് സുരക്ഷാ ഭീഷണി ഉപരിതലവും വിപുലീകരിക്കുന്നു. ആ മാറ്റത്തിന്റെ നേട്ടങ്ങളും നഷ്ടങ്ങളും വ്യക്തമായി കാണുക എന്നത് ഉത്തരവാദിത്തത്തോടെ നിർമ്മിക്കുന്നതിന്റെ ഭാഗമാണ്. ആറ്റ്ലസിനെ ഓരോ ആവർത്തനത്തിലും അർത്ഥവത്തായി കൂടുതൽ സുരക്ഷിതമാക്കുക എന്നതാണ് ഞങ്ങളുടെ ലക്ഷ്യം: മോഡലിന്റെ കരുത്ത് മെച്ചപ്പെടുത്തുക, ചുറ്റുമുള്ള പ്രതിരോധ സ്റ്റാക്കിനെ ശക്തിപ്പെടുത്തുക, പുറത്ത് ഉയർന്നുവരുന്ന ദുരുപയോഗ മാതൃകകൾ നിരീക്ഷിക്കുക.

ഞങ്ങൾ ഗവേഷണത്തിലും വിന്യാസത്തിലും നിക്ഷേപം തുടരുകയും, മെച്ചപ്പെട്ട ഓട്ടോമേറ്റഡ് റെഡ് ടീമിംഗ് രീതികൾ വികസിപ്പിക്കുകയും, പാളികളായ പരിഹാരങ്ങള്‍ നടപ്പിലാക്കുകയും, പഠനത്തിനനുസരിച്ച് വേഗത്തിൽ ആവർത്തിക്കുകയും ചെയ്യും. ഞങ്ങൾക്കു കഴിയുന്നത്ര കാര്യങ്ങള്‍ വിശാലമായ ഒരു സമൂഹവുമായി ഞങ്ങൾ പങ്കുവെക്കുന്നതായിരിക്കും.

ഏജൻ്റുകളെ സുരക്ഷിതമായി ഉപയോഗിക്കുന്നതിനുള്ള ശുപാർശകൾ

സിസ്റ്റം തലത്തിൽ ആറ്റ്ലസിനെ ശക്തിപ്പെടുത്തുന്നത് തുടരുന്നതിനിടെ, ഏജൻ്റുകൾ ഉപയോഗിക്കുമ്പോൾ അപകടസാധ്യത കുറയ്ക്കാൻ ഉപയോക്താക്കൾ സ്വീകരിക്കേണ്ട ചില നടപടികൾ ഉണ്ട്. 

സാധ്യമായപ്പോൾ ലോഗ് ഇൻ ചെയ്ത പ്രവേശനം പരിമിതപ്പെടുത്തുക. ഞങ്ങൾ ഉപയോക്താക്കൾക്ക് ഏജൻ്റ് ആറ്റ്ലസിൽ ഉപയോഗിക്കുമ്പോൾ, ടാസ്കിനായി വെബ്സൈറ്റുകളിൽ ലോഗ് ഇൻ ചെയ്യേണ്ടതില്ലെങ്കിൽ, അല്ലെങ്കിൽ ടാസ്കിനിടെ നിങ്ങൾ സൈൻ ഇൻ ചെയ്യുന്ന പ്രത്യേക സൈറ്റുകളിലേക്ക് ആക്സസ് പരിമിതപ്പെടുത്താൻ, ലോഗ് ഔട്ട് മോഡ്(പുതിയ വിൻഡോയിൽ തുറക്കുന്നു) ഉപയോഗിക്കാൻ തുടർന്നും ശുപാർശ ചെയ്യുന്നു. 

സ്ഥിരീകരണ അഭ്യർത്ഥനകൾ ശ്രദ്ധാപൂർവ്വം അവലോകനം ചെയ്യുക. വാങ്ങൽ പൂർത്തിയാക്കൽ അല്ലെങ്കിൽ ഇമെയിൽ അയയ്ക്കൽ പോലുള്ള ചില നിർണായക നടപടികൾക്കായി, ഏജൻ്റുകൾ മുന്നോട്ട് പോകുന്നതിന് മുമ്പ് താങ്കളുടെ സ്ഥിരീകരണം ചോദിക്കുന്ന വിധത്തില്‍ രൂപകൽപ്പന ചെയ്തിരിക്കുന്നു. ഒരു ഏജൻ്റ് താങ്കളോട് ഒരു നടപടി സ്ഥിരീകരിക്കാൻ ആവശ്യപ്പെടുമ്പോൾ, ഒരു നിമിഷം എടുത്ത്, ആ നടപടി ശരിയാണെന്ന് സ്ഥിരീകരിക്കാനും പങ്കിടുന്ന വിവരങ്ങൾ ആ സന്ദർഭത്തിന് അനുയോജ്യമാണെന്ന് സ്ഥിരീകരിക്കാനും തയാറാവുക.

ഏജൻ്റുകൾക്ക് സാധ്യമായിടത്തോളം വ്യക്തമായ നിർദ്ദേശങ്ങൾ നൽകുക. “എന്റെ ഇമെയിലുകൾ അവലോകനം ചെയ്ത് ആവശ്യമായ നടപടികൾ സ്വീകരിക്കുക” എന്നതുപോലുള്ള അത്യന്തം വ്യാപകമായ പ്രോംപ്റ്റുകൾ ഒഴിവാക്കുക. വ്യാപകമായ സ്വാതന്ത്ര്യം, സുരക്ഷാ നടപടികൾ നിലവിലുണ്ടെങ്കിലും, മറഞ്ഞിരിക്കുന്ന അല്ലെങ്കിൽ ദുഷ്ടലാക്കുള്ള ഉള്ളടക്കം ഏജൻ്റിനെ സ്വാധീനിക്കുന്നത് എളുപ്പമാക്കുന്നു. നന്നായി പരിധി നിശ്ചയിച്ച, പ്രത്യേക ടാസ്കുകൾ നിർവഹിക്കാൻ ഏജൻ്റിനോട് ചോദിക്കുന്നത് കൂടുതൽ സുരക്ഷിതമാണ്. ഇത് അപകടസാധ്യതയെ പൂര്‍ണമായും നീക്കം ചെയ്യാത്തതായിരിക്കുമ്പോഴും, ആക്രമണങ്ങള്‍ നടത്തുന്നത് കൂടുതല്‍ പ്രയാസകരമാക്കുന്നു.

ഏജൻ്റുമാർ ദൈനംദിന ടാസ്കുകൾക്കായി വിശ്വസനീയ പങ്കാളികളാകണമെങ്കിൽ, തുറന്ന വെബ് പ്രവർത്തന സജ്ജമാക്കുന്ന കൃത്രിമങ്ങളോട് പ്രതിരോധ ശേഷിയുള്ളവരായിരിക്കണം. പ്രോംപ്റ്റ് ഇഞ്ചക്ഷനുകൾക്കെതിരെ പ്രതിരോധം ശക്തമാക്കുന്നത് ദീർഘകാല പ്രതിബദ്ധതയാണ്, കൂടാതെ ഇത് ഞങ്ങളുടെ പ്രധാന മുൻഗണനകളിൽ ഒന്നാണ്. ഈ പ്രവർത്തനത്തെക്കുറിച്ച് കൂടുതൽ വിവരങ്ങൾ ഞങ്ങൾ ഉടൻ പങ്കുവെക്കുന്നതാണ്.

രചയിതാവ്

OpenAI