Прескокни до главната содржина
OpenAI

7 ноември 2025 г.

Сигурност

Разбирање на вметнувањето злонамерни инструкции во промпт: граничен безбедносен предизвик

Алатките со вештачка интелигенција почнуваат да прават повеќе од само одговарање на прашања. Сега можат да прелистуваат на интернет, да помагаат со истражување, да планираат патувања и да помогнат при купување производи. Како што стануваат поспособни, со можност да пристапат до вашите податоци во други апликации и да преземаат дејства во ваше име, се појавуваат нови безбедносни предизвици. Еден од нив, на кој сме силно фокусирани е вметнување злонамерни инструкции во промпт.

Дијаграм што илустрира како функционира напад со вметнување злонамерни инструкции во промпт. Лево, икона на насмеан корисник е означена како „Корисникот бара помош од вештачката интелигенција за задача.“ Стрелка покажува кон центарот каде што икона на компјутерски екран е означена „вештачката интелигенција гледа веб-страница со нападот“, а над неа мала фигура со шапка и подбивна насмевка е означена со „Напаѓачот вметна злонамерни инструкции во промпт“. Друга стрелка води надесно, прикажувајќи икона на документ со предупредувачки триаголник означен со „вештачка интелигенција измамена да изврши ненамерно дејство.“ Текот покажува како напаѓач може да манипулира со вештачката интелигенција преку вметнување злонамерни инструкции во промпт.

Што е вметнување злонамерни инструкции во промпт?

Вметнување злонамерни инструкции во промпт е вид на напад со социјален инженеринг специфичен за разговорната вештачка интелигенција. Раните системи со вештачка интелигенција беа разговори помеѓу еден корисник и еден агент на вештачка интелигенција. Во производите на вештачката интелигенција денес, вашиот разговор може да вклучува содржина од многу извори, вклучувајќи го и интернетот. Идејата дека трето лице (кое не е корисникот и не е вештачка интелигенција) би можело да го доведе во заблуда моделот со вметнување на злонамерни инструкции во промпт во контекстот на разговорот доведе до терминот „вметнување злонамерни инструкции во промпт“.

На ист начин како што фишинг е-пораките или измамите на интернет се обидуваат да ги измамат луѓето да откријат чувствителни информации, вметнувањата злонамерни инструкции во промпт се обид да ги измамат вештачките интелигенции да направат нешто што не сте го побарале.

Замисли дека си побарал од вештачка интелигенција да ти помогне да направиш истражување за одмор онлајн, и додека го прави тоа, наидува на погрешно заблудвачка содржина или штетни инструкции скриени на веб-страница, како на пример во коментар, на оглас или во рецензија. Содржината може да биде внимателно изработена за да ја измами вештачката интелигенција да препорача погрешен оглас или, уште полошо, да ги украде податоците за вашата кредитна картичка.

Ова се само неколку примери за напади со „вметнување злонамерни инструкции во промпт“—штетни инструкции дизајнирани да измамат вештачка интелигенција да направи нешто што не сте го намерале, често скриени во обична содржина како што се веб-страница, документ или е-пошта.

Овие ризици се зголемуваат како што вештачките интелигенции добиваат пристап до повеќе чувствителни податоци и преземаат повеќе иницијативи и подолги задачи.

Резиме

Што ти побара од вештачката интелигенција да направи

Што прави напаѓачот

Можен исход ако нападот успее

Бараш од вештачка интелигенција да истражи станови, и таа е подложена на вметнување злонамерни инструкции во промпт за да препорача оглас што не е најдобрата опција за тебе.

Бараш од вештачка интелигенција да истражи станови според одредени критериуми.

Напаѓачот вклучил вметнување злонамерни инструкции во промпт во огласот за стан за да ја измами вештачката интелигенција да мисли дека нивниот оглас треба да се избере без оглед на преференциите на корисникот.

Ако нападот успее, вештачката интелигенција може погрешно да препорача подоптимална понуда за стан врз основа на вашите преференции.

Бараш од агент на вештачката интелигенција да одговори на твоите е-пораки од претходната ноќ, а тој на крајот ги споделува твоите банкарски изводи.

Бараш од агент на вештачката интелигенција да одговара на твоите е-пораки од претходната ноќ бидејќи си зафатен утрово.

Види „Кога е можно, дај му на агентот експлицитни инструкции“ подолу


Напаѓачот ви испрати е-пошта која содржи дезинформации што го наведуваат моделот да ги пронајде вашите банкарски изводи и да ги сподели со напаѓачот.

Ако нападот успее, агентот може да бара документи како банкарски изводи во вашата е-пошта (на која сте дале пристап за задачата) и ќе ги сподели со напаѓачот.

Нашиот пристап за заштита на корисниците

Одбраната од вметнување злонамерни инструкции во промпт е предизвик низ целата индустрија за вештачка интелигенција и клучен фокус во OpenAI. Иако очекуваме противниците да продолжат да развиваат вакви напади, ние градиме одбрани дизајнирани да ја извршат задачата што корисникот имал намера да ја изврши, дури и кога некој активно се обидува да го доведе во заблуда. Таа способност е од суштинско значење за безбедно остварување на придобивките од вештачката општа интелигенција (AGI).

За да ги заштитиме нашите корисници и да помогнеме во подобрувањето на нашите модели против овие напади, применуваме повеќеслоен пристап, кој го вклучува следново:

Обучување за безбедност

Сакаме вештачка интелигенција што препознава вметнувања на злонамерни инструкции во промпт и не подлегнува на нив. Сепак, отпорноста на напади од противници е долгогодишен предизвик за машинското учење и вештачката интелигенција, што го прави ова тежок и отворен проблем. Развивме истражување наречено Хиерархија на инструкции за да развиеме модели што разликуваат меѓу доверливи и недоверливи инструкции. Продолжуваме да развиваме нови пристапи за да ги обучуваме моделите подобро да ги препознаваат обрасците на вметнување злонамерни инструкции во промпт за да можат да ги игнорираат или да ги означат за корисниците. Една од техниките што ги применуваме е автоматизирано тестирање на отпорноста, област што ја проучуваме(се отвора во нов прозорец) со години, за да развиеме нови напади со вметнување злонамерни инструкции во промпт.

Следење

Развивме повеќе автоматизирани монитори напојувани со вештачка интелигенција за да идентификуваме и блокираме напади со вметнување злонамерни инструкции во промпт. Овие ги надополнуваат пристапите за обука за безбедност бидејќи можат брзо да се ажурираат за да ги блокираат сите нови напади што ги откриваме. Овие монитори не само што помагаат да се идентификуваат потенцијални напади со вметнување злонамерни инструкции во промпт против нашите корисници, туку исто така ни овозможуваат да откриеме истражување и тестирање на противничко вметнување злонамерни инструкции во промпт што ја користи нашата платформа, пред тие напади да бидат пуштени во реалниот свет.

Безбедносни заштити

Нашите производи и инфраструктура се дизајнирани со различни слоеви на безбедносни заштити за да се обезбеди заштита на корисничките податоци. Овие функции, кои ќе ги истражиме во повеќе технички детали во идни објави, се прилагодени за секој производ посебно. На пример, за да ви помогнеме да избегнете недоверливи сајтови, ќе ве замолиме да одобрите одредени врски во ChatGPT, особено на веб-страници кои бараат да не ги каталогизираме(се отвора во нов прозорец), пред да можат да се посетат. Кога нашата вештачка интелигенција користи алатки за извршување други програми или код (како во Canvas или нашата развојна алатка Codex), користиме техника наречена „песочна кутија“ за да спречиме моделот да направи штетни промени кои може да бидат резултат на вметнување злонамерни инструкции во промпт.

Овозможете им контрола на корисниците

Вклучуваме вградени контроли во нашите производи за да им помогнеме на корисниците да се заштитат. На пример, во ChatGPT Atlas, можете да изберете режим на одјавување што му овозможува на ChatGPT агентот да започне задачи без да биде најавен на сајтови. Агентот на ChatGPT исто така паузира и бара потврда пред да преземе чувствителни чекори, како што е завршување на купување. Кога агентот работи на чувствителни сајтови, воведовме и „режим на набљудување“ што те предупредува за чувствителната природа на сајтот и бара јазичето да биде активно за да гледаш како агентот ја извршува својата работа. Агентот ќе паузира ако се оддалечите од јазичето со чувствителни информации. Ова обезбедува дека сте свесни - и имате контрола - врз дејствата што ги извршува агентот.

Тестирање на отпорноста

Спроведуваме обемно тестирање на отпорноста со внатрешни и надворешни тимови за да ги тестираме и подобриме нашите одбрани, да го имитираме однесувањето на напаѓачите и да најдеме нови начини за подобрување на нашата безбедност. Ова вклучува илјадници часови фокусирани конкретно на вметнување злонамерни инструкции во промпт. Како што откривме нови техники и напади, нашите тимови проактивно ги адресираат безбедносните ранливости и ги подобруваат нашите мерки за ублажување на моделите.

Награда за откривање грешки

За да ги поттикнеме независните истражувачи за безбедност кои постапуваат со добра намера да ни помогнат да откриеме нови техники и напади за вметнување злонамерни инструкции во промпт, нудиме финансиски награди преку нашата програма за наградување за откривање грешки(се отвора во нов прозорец) кога ќе покажат реалистичен пат на напад што би можел да резултира со ненамерно изложување на корисничките податоци. Ги поттикнуваме надворешните соработници брзо да ги откријат овие проблеми за да можеме да ги решиме и дополнително да ги зајакнеме нашите одбрани.

Дозволете им на корисниците да одлучат

Ги информираме корисниците за ризиците од користење на одредени функции во производот, за да можат да донесуваат информирани одлуки. На пример, кога го поврзуваме ChatGPT со други апликации, објаснуваме до кои податоци може да се пристапи, како може да се користат и кои ризици може да се појават, како што е сајт што се обидува да ги украде вашите податоци, заедно со линк за да научите како да останете побезбедни. Исто така, им даваме на организациите контрола врз тоа кои функции можат да бидат овозможени или користени од корисниците во нивните работни простори.

Чекори што можете да ги преземете за да останете побезбедни

Вметнување злонамерни инструкции во промпт е граничен безбедносен предизвик што очекуваме да продолжи да се развива со текот на времето. Новите нивоа на интелигенција и способност бараат технологијата, општеството и стратегијата за ублажување на ризикот да се развиваат заедно. И како и со компјутерските вируси во раните 2000-ти, сметаме дека е важно сите да ја разберат заканата од вметнување злонамерни инструкции во промпт и како да се справат со ризикот, за да можеме сите да научиме безбедно да ја користиме оваа технологија. Останувањето свесни и претпазливи помага да ги зачувате вашите податоци побезбедни кога користите вештачка интелигенција и функции на агенти што можат да дејствуваат во ваше име.

Користете вградени функции за ограничување на пристапот до чувствителни податоци

Каде што е можно, ограничете го пристапот на агентот само на чувствителните податоци или акредитиви што му се потребни за да ја заврши задачата. На пример, кога користите режим на агент во ChatGPT Atlas за истражување на одмор, ако агентот само истражува и не му треба пристап со најавување, користете режим „одјавен“.

Кога агентот бара потврда, внимателно прегледајте дали ќе ја направи вистинската работа

Често ги дизајнираме агентите да добијат конечна потврда од вас пред да преземат одредени важни дејства, како што се завршување на купување или испраќање е-пошта. Кога агентот ќе побара да потврдите дејство, внимателно проверете дали дејството изгледа правилно и дали информациите што се споделуваат се соодветни за тој контекст.

Кога агентот работи на чувствителен сајт, како што е вашата банка, следете го агентот додека ја извршува својата работа. Ова е како да надгледувате автомобил што вози самостојно додека ги држите рацете на управувачот.

Кога е можно, дајте му на агентот јасни инструкции.

Давањето на агентот многу општа инструкција, како што е "прегледај ми ги е-пораките и преземи какво било дејство што е потребно", може да го олесни измамувањето на моделот од страна на скриена злонамерна содржина, иако е дизајниран да се консултира со вас пред да преземе чувствителни дејства.

Побезбедно е да побарате од агентот да извршува конкретни задачи и да не му давате широка слобода да следи потенцијално штетни инструкции од други извори, како што е е-пошта. Иако ова не гарантира дека нема да има напади, го отежнува успехот на напаѓачите.

Останете информирани и следете ги најдобрите практики за безбедност

Како што се развива технологијата на вештачката интелигенција, ќе се појават нови ризици и заштитни мерки. Следете ги ажурирањата од OpenAI и други доверливи извори за да дознаете за најдобрите практики.

Гледајќи напред

Вметнувањето злонамерни инструкции во промпт останува граничен и предизвикувачки истражувачки проблем, и исто како традиционалните измами на интернет, очекуваме нашата работа да продолжи. Иако сè уште не сме забележале значително усвојување на оваа техника од страна на напаѓачите, очекуваме противниците да вложат значително време и ресурси за да најдат начини како да ги измамат вештачките интелигенции да подлегнат на овие напади. Продолжуваме да инвестираме значително во обезбедување на безбедноста на нашите производи и во истражување за да ја зголемиме робусноста на вештачката интелигенција против овој ризик. Ќе споделуваме ажурирања како што дознаваме повеќе, вклучувајќи го тековниот напредок во нашата безбедносна работа во оваа област. На пример, подготвуваме извештај што наскоро ќе го објавиме, кој ќе содржи повеќе детали за тоа како откриваме дали комуникацијата на вашата вештачка интелигенција со интернетот би пренела информации од вашиот разговор.

Нашата цел е да ги направиме овие системи исто толку сигурни и безбедни како работењето со вашиот најдоверлив колега или пријател кој ја познава безбедноста. Ќе продолжиме да учиме од реалната употреба, безбедно да ги подобруваме нашите процеси и да објавуваме што сме научиле додека технологијата напредува.