Перейти до основного вмісту
OpenAI

7 листопада 2025 р.

Захист

Промпт-ін'єкції: новий виклик у сфері безпеки

Сьогодні ШІ-інструменти здатні не просто відповідати на питання. Вони навчилися виконувати пошук в Інтернеті, допомагати з дослідженнями, плануванням подорожей та купівлею товарів. Отримуючи можливість доступу до ваших даних в інших програмах і виконання дій від вашого імені, вони стають все більш функціональними, але це тягне за собою нові проблеми безпеки. Особливу увагу ми приділяємо так званим промпт-ін'єкціям.

Схема, що демонструє проведення атаки з використанням промпт-ін'єкції. Ліворуч — значок усміхненого користувача з підписом «Користувач просить ШІ допомогти із завданням». Стрілка вказує на центр, де розташований значок екрана комп'ютера з підписом «ШІ бачить веб-сайт із шкідливим контентом», а над ним маленька фігурка в капелюсі та з хитрою посмішкою, із підписом «Зловмисник впровадив промпт-ін'єкцію». Інша стрілка веде праворуч, показуючи значок документа із попереджувальним значком-трикутником та написом «ШІ обдурили, змусивши виконати ненавмисну дію». Цей процес демонструє, як зловмисник може маніпулювати ШІ через ін'єкції промптів.

Що таке промпт-ін'єкція?

Промпт-ін'єкція — це різновид атаки соціальної інженерії, специфічний для діалогового ШІ. Ранні ШІ-системи являли собою взаємодію у форматі «один користувач — один агент ШІ». У сучасних продуктах на базі ШІ ваша розмова може включати контент із багатьох джерел, включаючи Інтернет. Ідея про те, що третя сторона (не користувач і не ШІ) може обдурити модель, буквально ввівши шкідливі інструкції в контекст розмови, і призвела до появи терміну «промпт-ін'єкція».

Промпт-ін'єкції по суті своїй схожі на фішингові листи чи повідомлення: через фішинг зловмисники намагаються обдурити людей, щоб вони розкрили конфіденційну інформацію, а через промпт-ін'єкції — намагаються обдурити ШІ, щоб він зробив те, про що ви не просили.

Уявіть, що ви попросили ШІ допомогти вам з організацією відпустки: він виконує пошук інформації в Інтернеті, і в процесі стикається зі змістом, що вводить в оману, або шкідливими інструкціями, прихованими на веб-сторінці — наприклад, у коментарі до оголошення, або у відгуку. Контент може бути ретельно продуманий з метою обдурити ШІ, щоб він у результаті порекомендував вам неправильне оголошення або, що ще гірше, видав сторонній людині дані вашої кредитної картки.

Це лише кілька прикладів «промпт-ін'єкцій» — шкідливих інструкцій, призначених для того, аби обманом змусити ШІ зробити не те, що ви просили, часто прихованих усередині звичайного контенту (веб-сторінки, документа або електронного листа).

Ризики зростають у міру того, як ШІ отримують доступ до більш конфіденційних даних і беруть на себе більше ініціативи та триваліші завдання.

Зведення

Що ви попросили зробити ШІ

Що робить зловмисник

Потенційний результат, якщо атака виявиться успішною

Ви просите ШІ допомогти з пошуком квартири, і в нього впроваджують промпт, щоб він рекомендував оголошення, яке не є для вас найкращим варіантом.

Ви просите ШІ допомогти з пошуком квартири за заданими критеріями.

Зловмисник включив в оголошення про оренду квартири промпт-ін'єкцію, щоб обманом змусити ШІ думати, що потрібно вибрати саме його оголошення незалежно від заявлених користувачем уподобань.

Якщо атака виявиться успішною, ШІ може помилково порекомендувати не найкраще оголошення про квартиру, навіть виходячи з ваших уподобань.

Ви просите ШІ-агента відповісти на ваші електронні листи, що прийшли за вчорашній вечір, а він ділиться вашими банківськими виписками.

Ви просите ШІ-агента відповісти на ваші електронні листи, що прийшли за вчорашній вечір, оскільки цього ранку ви зайняті.

Див. розділ нижче: «Давайте агентам чіткі інструкції, коли це можливо»


Зловмисник відправив вам електронний лист, що містить дезінформацію, яка вводить модель в оману, змушуючи її знаходити ваші банківські виписки та ділитися ними зі зловмисником.

Якщо атака виявиться успішною, агент може знайти у вашій електронній пошті (до якої ви надали доступ для виконання завдання) такі речі, як банківські виписки, та передати їх зловмиснику.

Наш підхід до захисту користувачів

Захист від промпт-ін'єкцій — складне завдання для всієї індустрії ШІ та ключовий пріоритет OpenAI. Хоча ми й розуміємо, що зловмисники продовжать проводити подібні атаки, ми старанно розробляємо захисні заходи, що дозволяють ШІ виконувати завдання користувача, навіть якщо хтось активно намагається ввести його в оману. Ця можливість потрібна для безпечного використання переваг AGI.

Щоб захистити наших користувачів та наші моделі від подібних атак, ми використовуємо багаторівневий підхід, який включає наступні аспекти:

Ми хочемо, щоб ШІ навчився розпізнавати промпт-ін'єкції та не піддавався їм. Тим не менш, стійкість до зловмисних атак — це давня проблема для сфери машинного навчання та ШІ, що робить її складною та відкритою. Ми розробили дослідження під назвою Instruction Hierarchy, спрямоване на створення моделей, що розрізняють довірені та недовірені інструкції. Ми продовжуємо розробляти нові підходи до навчання моделей, щоб вони краще розпізнавали шаблони промпт-ін'єкцій і могли ігнорувати їх або повідомляти про них користувачам. Одна з технік, що застосовуються для розробки нових способів захисту від промпт-ін'єкцій, — автоматизоване тестування red teaming: цю сферу ми вивчаємо(відкривається у новому вікні) вже багато років.

Відстеження

Ми розробили кілька автоматизованих засобів відстеження на базі ШІ для виявлення та блокування промпт-ін'єкцій. Ці методи доповнюють підходи до навчання з безпеки: їх можна швидко оновлювати для оперативного блокування будь-яких нововиявлених атак. Засоби відстеження не тільки допомагають виявляти потенційні атаки з промпт-ін'єкціями проти наших користувачів, але й дозволяють нам проводити дослідження та тестування ворожих промпт-ін'єкцій із використанням нашої платформи до того, як ці атаки будуть розгорнуті в реальних умовах.

Гарантії безпеки

Наші продукти та інфраструктура розробляються з урахуванням низки заходів захисту, що перетинаються, покликаних допомогти забезпечити безпеку даних користувачів. Ці функції, які ми розглянемо докладніше з технічної точки зору в наступних публікаціях, адаптовані для кожного продукту. Наприклад, щоб допомогти вам уникати небезпечних сайтів, ChatGPT проситиме вас підтверджувати перехід за певними посиланнями до переходу — особливо це стосується веб-сайтів, які просять нас не включати їх до каталогу(відкривається у новому вікні). Коли наш ШІ використовує інструменти для запуску інших програм або коду (як у Canvas або в нашому інструменті для розробки Codex), ми застосовуємо техніку, яка називається пісочницею, щоб запобігти внесенню моделлю шкідливих змін, які можуть бути результатом промпт-ін'єкції.

Надання користувачам можливості контролю

Щоб допомогти користувачам убезпечити себе, ми включаємо в наші продукти вбудовані засоби захисту. Наприклад, у ChatGPT Atlas ви можете вибрати режим без входу в систему, який дозволяє агенту ChatGPT запускати завдання без авторизації на сайтах. Агент ChatGPT також припиняє роботу та запитує підтвердження перед виконанням важливих дій, таких як завершення покупки. Для роботи агента на сайтах із конфіденційною інформацією ми також запровадили так званий «Режим спостереження», який попереджає вас про конфіденційний характер даних на сайті та вимагає, щоб вкладка була активною, щоб ви могли особисто спостерігати за тим, як агент виконує свою роботу. Агент припинить роботу, якщо ви залишите цю вкладку. Це гарантує, що ви будете в курсі всіх дій, які виконує агент, та зможете контролювати його роботу.

Red teaming

Ми проводимо масштабні заходи щодо тестування на вразливості (red teaming) із внутрішніми та зовнішніми командами, щоб тестувати та покращувати наш захист, моделювати поведінку зловмисників та знаходити нові способи підвищення нашої безпеки. Тисячі годин уже були присвячені саме промпт-ін'єкціям. У міру виявлення нових методів та типів атак наші команди активно усувають уразливості у безпеці та покращують заходи щодо пом'якшення наслідків для нашої моделі.

Програма «Bug Bounty»

Щоб мотивувати незалежних сумлінних дослідників у галузі безпеки допомагати нам виявляти нові методи та типи промпт-ін'єкцій, ми запустили програму пошуку багів «Bug Bounty»(відкривається у новому вікні), в рамках якої ентузіасти отримують фінансові винагороди за демонстрацію реалістичного шляху атаки, який може призвести до ненавмисного розкриття. Ми заохочуємо зовнішніх користувачів швидко виявляти ці проблеми, щоб ми могли їх своєчасно вирішити та ще більше зміцнити наш захист.

Рішення приймають користувачі

Ми навчаємо користувачів ризику використання певних функцій продукту, щоб вони могли приймати обґрунтовані рішення. Наприклад, при підключенні ChatGPT до інших програм ми пояснюємо, до яких даних можна отримати доступ, як вони можуть використовуватися і які ризики можуть виникнути (наприклад, сайт може спробувати вкрасти ваші дані), а також надаємо посилання на матеріали про захист і безпеку. Також ми надаємо організаціям контроль за тим, які функції можуть бути активовані або можуть використовуватись користувачами в робочому середовищі.

Заходи, яких ви можете вжити для підвищення безпеки

Промпт-ін'єкція — це нова проблема безпеки, яка з часом продовжуватиме розростатися. Нові рівні інтелекту та можливостей вимагають, щоб технології, суспільство та стратегії щодо зниження ризиків розвивалися паралельно. Як і у випадку з комп'ютерними вірусами на початку 2000-х років, ми вважаємо важливим, щоб усі розуміли загрозу промпт-ін'єкцій і знали, як керувати цими ризиками, щоб ми всі могли безпечно отримувати користь з цієї технології. Пильність та обережність допомагають краще захистити ваші дані при використанні ШІ та агентів, які можуть діяти від вашого імені.

Використовуйте вбудовані функції для обмеження доступу до конфіденційних даних

За можливості обмежуйте доступ агента лише до тих конфіденційних або облікових даних, які необхідні йому для виконання завдання. Наприклад, при використанні агента в ChatGPT Atlas для пошуку готелів на відпустку, якщо агент виконує лише пошук і йому не потрібен доступ до входу в систему, використовуйте режим «без входу в систему».

Коли агент запитує підтвердження, переконайтеся, що він збирається зробити правильну дію

Ми часто розробляємо агентів таким чином, щоб вони запитували у вас остаточне підтвердження перед виконанням деяких важливих дій, таких як завершення покупки або надсилання електронного листа. Коли агент просить вас підтвердити дію, переконайтеся, що дія виглядає коректною, і будь-яка інформація, якою ви ділитеся, доречна для передачі в даному контексті.

Коли агент працює на сайті з конфіденційними даними, наприклад, на сайті вашого банку, уважно стежте за його роботою. Це як із їздою на автомобілі з автопілотом: ви все одно тримаєте руки на кермі.

Давайте агентам чіткі інструкції, коли це можливо

Надання агенту занадто загальної інструкції, наприклад «переглянь мою пошту і виконай усі необхідні дії», може полегшити зловмиснику введення моделі в оману прихованим шкідливим контентом, навіть якщо модель запрограмована запросити у вас підтвердження перед виконанням важливих дій.

Безпечніше попросити вашого агента виконувати конкретні завдання та не надавати йому широку свободу дій, щоб він не дотримувався потенційно шкідливих інструкцій з інших джерел, таких як електронні листи. Хоча це не гарантує повну відсутність атак, так зловмисникам буде складніше досягти своєї мети.

Будьте в курсі подій і дотримуйтесь кращих практик безпеки

У міру розвитку технологій ШІ з'являтимуться нові ризики та заходи захисту. Слідкуйте за новинами від OpenAI та інших надійних джерел, щоб вчасно дізнаватися про найкращі практики.

Наші перспективи

Промпт-ін'єкція залишається новою та складною дослідницькою проблемою, і, як і у випадку з традиційними схемами шахрайства в Інтернеті, ми знаємо, що наша робота триватиме. Хоча ми поки що не спостерігаємо значного поширення цієї техніки серед зловмисників, ми розуміємо, що вони напевно витратять багато часу та ресурсів, щоб знайти способи таки змусити ШІ піддаватися цим атакам. Ми продовжуємо активно інвестувати у забезпечення безпеки наших продуктів та дослідження, спрямовані на підвищення стійкості ШІ до цього ризику. У міру отримання нової інформації ми будемо ділитися з громадськістю новинами, у тому числі про поточний прогрес у нашій роботі з безпеки в цій галузі. Наприклад, ми вже готуємо до публікації звіт, де будуть докладніші відомості про те, як ми визначаємо, що ШІ збирається передати в мережу інформацію з вашої розмови.

Наша мета — зробити ці системи такими ж надійними та безпечними, як робота з вашим найнадійнішим та обізнаним у питаннях безпеки колегою чи другом. Ми продовжуватимемо навчатися на реальному використанні, безпечно вдосконалюватися і публікуватимемо те, що ми дізнаємося, у міру розвитку технологій.