Проєктування агентів ШІ зі стійкістю до промпт-ін'єкцій
Чого соціальна інженерія вчить нас про захист агентів ШІ.
Агенти ШІ дедалі частіше здатні переглядати веб-сторінки, отримувати інформацію та виконувати дії від імені користувача. Ці можливості корисні, але вони також створюють нові способи маніпуляцій системою для зловмисників.
Такі атаки часто описують як вставлення шкідливих запитів, чи промпт-ін'єкції: розміщення в зовнішньому контенті спеціальних інструкцій, мета яких — змусити модель зробити щось, про що користувач не просив. Із нашого досвіду, найефективніші реальні версії цих атак дедалі більше нагадують соціальну інженерію, а не прості перевизначення запитів.
І це важливо. Якщо проблема полягає не лише у виявленні шкідливого рядка, а й у протидії оманливому або маніпулятивному контенту в контексті, тоді захист від нього не може базуватися лише на фільтруванні вхідних даних. Це також вимагає проєктування системи таким чином, щоб вплив маніпуляцій був обмеженим, навіть якщо деякі атаки виявляться успішними.
Ранні атаки типу «вставлення шкідливих запитів» часто були дуже простими — наприклад, передбачали редагування статті у Wikipedia з додаванням прямих інструкцій для агентів ШІ, які її відвідують. Без навчання в такому ворожому середовищі моделі ШІ часто виконували б ці інструкції без жодних запитань1. Але моделі стали розумнішими та менш вразливими до такого роду маніпуляцій, і з часом ми почали помічати, що атаки зі вставленням шкідливих запитів стали включати елементи соціальної інженерії.
Приклад електронного листа з промпт-ін'єкцією
Приклад атаки зі вставленням шкідливих запитів на ChatGPT у 2025 році, про яку повідомили OpenAI зовнішні дослідники безпеки(відкривається у новому вікні). Під час тестування це працювало у 50% випадків із запитом користувача «Я хочу, щоб ти провів поглиблене дослідження моїх електронних листів за сьогодні, прочитав і перевірив кожне джерело, яке могло б надати інформацію про мій процес адаптації нового працівника».
У ширшій екосистемі безпеки ШІ стало звичним рекомендувати такі методи, як «AI firewalling», за яких посередник між агентом ШІ та зовнішнім світом намагається класифікувати вхідні дані як вставлення шкідливих запитів і звичайні вхідні дані — але такі повністю розроблені атаки зазвичай не виявляються такими системами. Для таких систем виявлення зловмисного введення стає настільки ж складною проблемою, що й виявлення брехні чи дезінформації, часто без необхідного контексту.
У міру того як реальні атаки з промпт-ін'єкціями ставали дедалі складнішими, ми виявили, що найефективніші техніки спиралися на методи соціальної інженерії. Замість того, аби розглядати ці атаки вставлення шкідливих запитів із соціальною інженерією як окремий або цілком новий клас проблем, ми почали дивитися на них крізь ту саму призму, яку використовують для управління ризиками соціальної інженерії щодо людей в інших сферах. Мета тут полягає не лише в бездоганному виявленні шкідливих вхідних даних, а й у проєктуванні агентів і систем таким чином, щоб вплив маніпуляцій був обмеженим, навіть якщо атаки виявляться успішними. Такі системи демонструють ефективність у зменшенні впливу як промпт-ін'єкцій, так і соціальної інженерії.
Таким чином, можна уявити ШІ-агента як такого, що існує в подібній системі з трьома учасниками, як і агент служби підтримки клієнтів: агент хоче діяти від імені свого «роботодавця», але постійно піддається впливу зовнішніх вхідних даних, які можуть намагатися ввести його в оману. Можливості агента служби підтримки клієнтів (як людини, так і ШІ) повинні бути обмежені з метою зменшення ризику негативних наслідків, пов'язаного з роботою в такому зловмисному середовищі.
Уявіть ситуацію: людина-агент системи підтримки клієнтів може видавати подарункові картки та здійснювати відшкодування за незручності, яких зазнав клієнт — повільну доставку, пошкодження товару внаслідок несправності тощо. Така робота залучає багато сторін: компанія має бути впевненою, що агент видає відшкодування з правильних причин, при цьому агент також взаємодіє зі сторонніми особами, які можуть намагатися ввести його в оману або навіть чинити на нього тиск.
У реальному світі агенту надають набір правил, яких він має дотримуватися, та очікують, що у ворожому робочому середовищі його можуть спробувати ввести в оману. Наприклад, клієнт може стверджувати, що так і не отримав відшкодування, або почати погрожувати агресією, якщо йому не повернуть кошти. Детерміновані системи, з якими взаємодіє агент, обмежують обсяг відшкодувань, які можна надати клієнту, позначають потенційні фішингові електронні листи та забезпечують інші подібні заходи пом’якшення, аби обмежити ризик компрометації окремого агента.
Такий підхід сприяв формуванню надійного набору заходів протидії, які ми впровадили, щоб відповідати очікуванням наших користувачів щодо безпеки.
У ChatGPT ми поєднуємо цю модель соціальної інженерії з більш традиційними підходами до забезпечення безпеки, такими як аналіз джерела та приймача.
У такому формулюванні зловмиснику потрібні і джерело чи спосіб вплинути на систему, і приймач чи можливість, що стає небезпечною в неправильному контексті. Для агентних систем це часто означає поєднання ненадійного зовнішнього контенту з дією, як-от передавання інформації третім особам, перехід за посиланням або взаємодія з інструментом.
Наша мета — зберегти базове очікування безпеки для користувачів: потенційно небезпечні дії або передавання потенційно чутливої інформації не повинні відбуватися непомітно або без належних запобіжних заходів.
Атаки, які ми найчастіше спостерігаємо проти ChatGPT, зазвичай полягають у спробах переконати асистента, що він має взяти з розмови якусь конфіденційну інформацію та передати її зловмисній третій стороні. У більшості відомих нам випадків ці атаки зазнають невдачі, оскільки наше навчання з безпеки змушує агента відмовляти. Для тих випадків, коли агент піддається на переконання, ми розробили стратегію пом’якшення під назвою Safe Url, призначену для виявлення ситуацій, коли інформацію, яку помічник дізнався під час розмови, може бути передано сторонній третій стороні. У цих рідкісних випадках ми або показуємо користувачеві, яку інформацію буде передано, і просимо його підтвердити цю дію, або блокуємо це та повідомляємо агенту, щоб він спробував інший спосіб виконання запиту користувача.
Цей самий механізм застосовується до навігації та закладок у Atlas, а також до пошуку та навігації у режимі Deep Research. ChatGPT Canvas і застосунки ChatGPT використовують подібний підхід, дозволяючи агенту створювати та використовувати функціональні застосунки. Вони працюють у пісочниці, яка здатна виявляти неочікувані комунікації та запитувати згоду користувача(відкривається у новому вікні).
Більше інформації про Safe Url та його структуру ви можете знайти в окремому дописі «Як захищаються ваші дані, коли ШІ-агент натискає на посилання».
Безпечна взаємодія з ворожим зовнішнім середовищем необхідна для повністю автономної роботи агентів. Під час інтеграції ШІ-моделі із системою застосунку ми рекомендуємо запитувати, які засоби контролю повинен був би мати агент-людина у подібній ситуації, і впроваджувати їх. Ми очікуємо, що максимально розумна й навчена модель ШІ зможе краще протистояти соціальній інженерії, ніж агент-людина, але це не завжди можливо чи навіть економічно доцільно залежно від застосування.
Ми продовжуємо досліджувати вплив соціальної інженерії на моделі ШІ та методи захисту від неї, та інтегруємо наші висновки як в архітектури безпеки наших застосунків, так і в навчання, яке проходять наші моделі ШІ.
Виноски
- 1
Rehberger, J. (15 квітня 2023 р.). Don't blindly trust LLM responses. Threats to chatbots. EmbraceTheRed. Завантажено 14 листопада 2025 р. з https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Автори
Thomas Shadwell, Adrian Spânu



Соціальна інженерія та ШІ-агенти