Континуирано јачање ChatGPT Atlas-а против напада уметањем инструкције
Аутоматизована црвена команда — покретана подстицајним учењем — помаже нам да проактивно откривамо и закрпљујемо стварне експлоите агената пре него што буду злоупотребљени у пракси.
Режим агента у ChatGPT Atlas-у једна је од најопштијих агентских функција које смо до сада објавили. У овом режиму, агент прегледача прегледа веб-странице и предузима радње, кликове и притиске тастера унутар вашег прегледача, баш као и ви. То омогућава ChatGPT‑у да директно ради на многим вашим свакодневним токовима посла користећи исти простор, контекст и податке.
Како вам агент прегледача помаже да урадите више, тако постаје и вреднија мета за противничке нападе. Због тога је AI безбедност посебно важна. Много пре него што смо покренули ChatGPT Atlas, непрекидно смо градили и јачали одбрану од нових претњи које конкретно циљају ову нову парадигму „агента у прегледачу“. Уметање инструкције је један од најзначајнијих ризика од којих се активно бранимо како бисмо помогли да ChatGPT Atlas безбедно ради у ваше име.
Као део тог напора, недавно смо објавили безбедносно ажурирање за Atlas-ов агент прегледача, укључујући нови модел обучен противничким методама и ојачане пратеће заштите. Ово ажурирање је подстакла нова класа напада уметањем инструкције откривена кроз нашу интерну аутоматизовану црвену команду.
У овом тексту објашњавамо како ризик од уметања инструкције може настати код веб агената и делимо петљу брзог одговора коју смо градили како бисмо непрекидно откривали нове нападе и брзо испоручивали мере ублажавања — илустровано овим недавним безбедносним ажурирањем.
На уметање инструкције гледамо као на дугорочни изазов AI безбедности и мораћемо непрекидно да јачамо нашу одбрану од њега (слично као код онлајн превара које се стално развијају и циљају људе). Наш најновији циклус брзог одговора већ показује рано обећање као кључни алат на том путу: интерно откривамо нове стратегије напада пре него што се појаве у пракси. Наша дугорочна визија је да у потпуности искористимо (1) наш white-box приступ нашим моделима, (2) дубоко разумевање наше одбране и (3) размере рачунарских ресурса да бисмо остали испред спољних нападача — раније проналазили експлоите, брже испоручивали ублажавања и непрекидно затезали петљу. У комбинацији са граничним истраживањем нових техника за решавање уметања инструкције и већим улагањем у друге безбедносне контроле, овај сложени циклус може нападе учинити све тежим и скупљим, уз стварно смањење ризика од уметања инструкције у пракси. На крају, наш циљ је да можете да верујете ChatGPT агенту да користи ваш прегледач онако како бисте веровали веома способном колеги или пријатељу који води рачуна о безбедности.
Напад уметањем инструкције циља AI агенте тако што уграђује злонамерне инструкције у садржај који агент обрађује. Те инструкције су осмишљене да надјачају или преусмере понашање агента — преотимајући га тако да следи намеру нападача, а не корисника.
За агента прегледача као што је онај унутар ChatGPT Atlas-а, уметање инструкције додаје нови вектор претње поред традиционалних ризика веб безбедности (као што су грешке корисника или софтверске рањивости). Уместо фишинга људи или искоришћавања системских рањивости прегледача, нападач циља агента који ради унутар њега.
Као хипотетички пример, нападач би могао да пошаље злонамерни имејл покушавајући да превари агента да игнорише захтев корисника и уместо тога проследи осетљива пореска документа на имејл адресу коју контролише нападач. Ако корисник затражи од агента да прегледа непрочитане имејлове и сажме кључне тачке, агент може током тог тока посла да унесе тај злонамерни имејл. Ако следи уметнуте инструкције, може скренути са задатка — и погрешно поделити осетљиве информације.
Ово је само један конкретан сценарио. Иста општост која агенте прегледача чини корисним чини и ризике ширим: агент може наићи на непоуздане инструкције на практично неограниченој површини — у имејловима и прилозима, календарским позивима, дељеним документима, форумима, објавама на друштвеним мрежама и произвољним веб-страницама. Пошто агент може да предузме многе исте радње које корисник може да предузме у прегледачу, утицај успешног напада хипотетички може бити подједнако широк: прослеђивање осетљивог имејла, слање новца, уређивање или брисање датотека у облаку и друго.
Остварили смо напредак у одбрани од уметања инструкције кроз више слојева заштите, као што смо поделили у ранијем тексту. Ипак, уметање инструкције остаје отворен изазов за безбедност агената и нешто на чему очекујемо да ћемо радити још годинама.
Да бисмо ојачали нашу одбрану, непрекидно смо тражили нове нападе уметањем инструкције на агентске системе у продукцији. Проналажење ових напада неопходан је предуслов за изградњу робусних мера ублажавања: помаже нам да разумемо ризик у стварном свету, открива празнине у нашој одбрани и подстиче конкретне закрпе.
Да бисмо то радили у великом обиму, изградили смо аутоматизованог нападача заснованог на LLM-у и обучили га да лови нападе уметањем инструкције који могу успешно да нападну агента прегледача. Овог нападача смо end-to-end обучили подстицајним учењем, тако да учи из сопствених успеха и неуспеха и побољшава своје вештине црвене команде. Такође смо му омогућили да „испроба пре објављивања“, под чиме мислимо следеће: током свог резоновања у ланцу мисли, нападач може да предложи кандидат за уметање и пошаље га спољном симулатору. Симулатор покреће контрафактуално извршавање тога како би се циљани агент-жртва (бранилац) понашао ако би наишао на уметање, и враћа пун траг резоновања и радњи агента-жртве. Нападач користи тај траг као повратну информацију, понавља напад и поново покреће симулацију — понављајући ову петљу више пута пре него што се одлучи за коначни напад. То нападачу пружа богатију повратну информацију у контексту него један једини сигнал успех/неуспех. Такође повећава количину рачунања коју нападач користи у време тестирања. Штавише, привилегован приступ траговима резоновања браниоца (које не откривамо спољним корисницима) даје нашем интерном нападачу асиметричну предност — повећавајући изгледе да може да надмаши спољне противнике.
Зашто подстицајно учење (RL)? Одабрали смо подстицајно учење за обуку аутоматизованог нападача из више разлога:
- Оптимизација дугорочних и неконтинуираних циљева нападача. Наш циљ је да тражимо нападе уметањем инструкције који могу да преваре агента да изврши софистициране противничке задатке (нпр. слање имејлова, банкарске трансакције) који би могли да се догоде у стварном свету. Ови противнички задаци су суштински дугорочни, захтевају много корака резоновања и интеракције са окружењем, уз ретке и одложене сигнале успеха. Подстицајно учење је добро прилагођено овој структури ретке и одложене награде.
- Искоришћавање способности граничних LLM-ова. Директно смо обучили граничне LLM-ове као аутоматске red-teamer-е, тако да нападач директно има корист од побољшања у резоновању и планирању код граничних модела. Како основни модели постају снажнији, нападач природно постаје способнији — што ово чини скалабилним начином да наставимо да вршимо притисак на нашу одбрану како се наши модели развијају.
- Скалирање рачунарских ресурса и опонашање адаптивних нападача. Подстицајно учење је добро прилагођено скалирању рачунања уложеног у тражење напада кроз велики број узорака и корака учења, а такође блиско одражава како се понашају адаптивни људски нападачи: итеративно испробавају стратегије, уче из исхода и појачавају успешна понашања.
Наш аутоматизовани нападач може end-to-end да открива нове, реалистичне нападе уметањем инструкције. За разлику од већине претходних радова на аутоматизованој црвеној команди, који су откривали једноставне неуспехе као што је изазивање одређених излазних стрингова или покретање ненамерног једнокорачног позива алату од стране агента, наш нападач обучен RL-ом може да усмери агента ка извршавању софистицираних, дугорочних штетних токова рада који се одвијају кроз десетине (или чак стотине) корака. Такође смо уочили нове стратегије напада које се нису појавиле у нашој кампањи црвене команде са људима нити у спољним извештајима.
Демонстрација у наставку приказује конкретан експлоит уметањем инструкције који је пронашао наш аутоматизовани нападач, а који смо затим искористили да додатно ојачамо одбрану ChatGPT Atlas-а. Нападач засипа корисничко сандуче злонамерним имејлом који садржи уметање инструкције које усмерава агента да пошаље писмо о отказу корисниковом CEO-у. Касније, када корисник затражи од агента да састави аутоматски одговор о одсуству, агент током нормалног извршавања задатка наилази на тај имејл, третира уметнуту инструкцију као ауторитативну и прати је. Аутоматски одговор о одсуству никада не буде написан и агент уместо тога даје отказ у име корисника.

1. Тражење помоћи од агента за управљање имејлом

2. Агент отвара последњи непрочитани имејл

3. Имејл садржи злонамерне инструкције

4. Агент шаље ненамерни имејл о отказу

5. Након нашег безбедносног ажурирања, режим агента успешно открива покушај уметања инструкције
Природа уметања инструкције чини детерминистичке безбедносне гаранције изазовним, али скалирањем нашег аутоматизованог безбедносног истраживања, противничког тестирања и затезањем наше петље брзог одговора, можемо да побољшамо робусност и одбрану модела — пре него што чекамо да се напад догоди у пракси.
Делимо ову демонстрацију како бисмо помогли корисницима и истраживачима да боље разумеју природу ових напада — и како се активно бранимо од њих. Верујемо да ово представља границу онога што аутоматизована црвена команда може да постигне и изузетно смо узбуђени што ћемо наставити истраживање.
Наша аутоматизована црвена команда покреће проактивну петљу брзог одговора: када аутоматизовани нападач открије нову класу успешних напада уметањем инструкције, то одмах ствара конкретну мету за побољшање наше одбране.
Противничка обука против новооткривених напада. Непрекидно обучавамо ажуриране моделе агената против нашег најбољег аутоматизованог нападача — дајући приоритет нападима код којих циљани агенти тренутно не успевају. Циљ је да научимо агенте да игноришу противничке инструкције и остану усклађени са намером корисника, побољшавајући отпорност на новооткривене стратегије уметања инструкције. Ово директно „утврђује“ робусност на нове, јаке нападе у checkpoint модела. На пример, недавна аутоматизована црвена команда директно је довела до новог checkpoint-а агента прегледача обученог противничким методама, који је већ уведен свим корисницима ChatGPT Atlas-а. То на крају помаже да боље заштитимо кориснике од нових врста напада.
Коришћење трагова напада за унапређење ширег одбрамбеног стека. Многе путање напада које открије наш аутоматизовани red teamer такође откривају прилике за побољшање ван самог модела — као што су надзор, безбедносне инструкције које стављамо у контекст модела или заштите на нивоу система. Ти налази нам помажу да унапређујемо цео одбрамбени стек, а не само checkpoint агента.
Одговарање на активне нападе. Ова петља такође може помоћи да боље одговоримо на активне нападе у пракси. Док посматрамо наш глобални отисак у потрази за потенцијалним нападима, можемо да узмемо технике и тактике које видимо да спољни противници користе, унесемо их у ову петљу, емулирамо њихову активност и покренемо одбрамбене промене широм наше платформе.
Јачање наше способности да спроводимо црвену команду над агентима и коришћење наших најспособнијих модела за аутоматизацију делова тог посла — помаже да Atlas-ов агент прегледача буде робуснији скалирањем петље од откривања до исправке. Овај напор на јачању потврђује познату лекцију из безбедности: утабан пут ка јачој заштити јесте да се стварни системи непрекидно стављају под притисак, реагује на неуспехе и испоручују конкретне исправке.
Очекујемо да ће противници наставити да се прилагођавају. Уметање инструкције, слично преварама и социјалном инжењерингу на вебу, вероватно никада неће бити у потпуности „решено“. Али оптимистични смо да проактивна, веома одзивна петља брзог одговора може наставити да временом стварно смањује ризик у пракси. Комбиновањем аутоматизованог откривања напада са противничком обуком и заштитама на нивоу система, можемо раније да уочимо нове обрасце напада, брже затворимо празнине и непрекидно повећавамо цену експлоатације.
Режим агента у ChatGPT Atlas-у је моћан — али истовремено проширује површину безбедносних претњи. Јасно сагледавање тог компромиса део је одговорне изградње. Наш циљ је да свака итерација Atlas учини осетно безбеднијим: побољшањем робусности модела, јачањем пратећег одбрамбеног стека и праћењем нових образаца злоупотребе у пракси.
Наставићемо да улажемо у истраживање и примену, развијамо боље методе аутоматизоване црвене команде, уводимо слојевите мере ублажавања и брзо понављамо циклус како учимо. Такође ћемо поделити оно што можемо са широм заједницом.
Док настављамо да јачамо Atlas на нивоу система, постоје кораци које корисници могу да предузму да смање ризик при коришћењу агената.
Ограничите приступ пријављеним налозима кад год је могуће. И даље препоручујемо да корисници користе режим без пријаве(отвара се у новом прозору) када користе Agent у Atlas-у кад год приступ веб-сајтовима на које сте пријављени није неопходан за задатак, или да ограниче приступ на одређене сајтове на које се пријављујете током задатка.
Пажљиво прегледајте захтеве за потврду. За одређене важне радње, као што су завршетак куповине или слање имејла, агенти су осмишљени да траже вашу потврду пре наставка. Када агент затражи да потврдите радњу, одвојте тренутак да проверите да ли је радња исправна и да ли су све информације које се деле примерене том контексту.
Дајте агентима експлицитне инструкције кад год је могуће. Избегавајте претерано широке инструкције као што су „прегледај моје имејлове и предузми све радње које су потребне“. Широка слобода деловања олакшава скривеном или злонамерном садржају да утиче на агента, чак и када су заштите успостављене. Безбедније је тражити од агента да обавља конкретне, јасно ограничене задатке. Иако то не елиминише ризик, нападе чини тежим за извођење.
Ако агенти треба да постану поуздани партнери за свакодневне задатке, морају бити отпорни на врсте манипулације које отворени веб омогућава. Јачање одбране против уметања инструкције је дугорочна посвећеност и један од наших највиших приоритета. Ускоро ћемо поделити више о овом раду.


