Переход к основному контенту
OpenAI

7 ноября 2025 г.

Защита

Промпт-инъекции: новый вызов в сфере безопасности

Сегодня ИИ-инструменты способны не просто отвечать на вопросы. Они научились выполнять поиск в Интернете, помогать с исследованиями, планированием поездок и покупкой товаров. Получая возможность доступа к вашим данным в других приложениях и выполнения действий от вашего имени, они становятся все более функциональными, но это влечет за собой и новые проблемы безопасности. Особое внимание мы уделяем промпт-инъекциям.

Схема, демонстрирующая проведение атаки с использованием промпт-инъекции. Слева значок улыбающегося пользователя с подписью «Пользователь просит ИИ помочь с задачей». Стрелка указывает на центр, где расположен значок экрана компьютера с подписью «ИИ видит веб-сайт с вредоносным контентом», а над ним маленькая фигурка в шляпе и с ухмылкой, с подписью «Злоумышленник внедрил промпт-инъекцию». Другая стрелка ведет вправо, показывая значок документа с предупреждающим треугольником и надписью «ИИ обманули, заставив выполнить непреднамеренное действие». Этот процесс демонстрирует, как злоумышленник может манипулировать ИИ через инъекции промптов.

Что такое промпт-инъекция?

Промпт-инъекция — это разновидность атаки социальной инженерии, специфичная для диалогового ИИ. Ранние ИИ-системы представляли собой взаимодействие в формате «один пользователь — один агент ИИ». В современных продуктах на базе ИИ ваш разговор может включать контент из множества источников, включая Интернет. Идея о том, что третья сторона (не пользователь и не ИИ) может обмануть модель, введя вредоносные инструкции в контекст разговора, и привела к появлению термина «промпт-инъекция».

Промпт-инъекции по сути своей похожи на фишинговые письма или сообщения: через фишинг злоумышленники пытаются обмануть людей, чтобы они раскрыли конфиденциальную информацию, а через промпт-инъекции — пытаются обмануть ИИ, чтобы он сделал то, о чем вы не просили.

Представьте, что вы попросили ИИ помочь вам с организацией отпуска: он выполняет поиск информации в Интернете, и в процессе сталкивается с вводящим в заблуждение содержанием или вредоносными инструкциями, скрытыми на веб-странице — например, в комментарии к объявлению, или в отзыве. Контент может быть тщательно продуман с целью обмануть ИИ, чтобы он в итоге порекомендовал вам неправильное объявление или, что еще хуже, выдал постороннему человеку данные вашей кредитной карты.

Это лишь несколько примеров «промпт-инъекций» — вредоносных инструкций, предназначенных для того, чтобы обманом заставить ИИ сделать не то, что вы просили, часто скрытых внутри обычного контента (веб-страницы, документа или электронного письма).

Риски увеличиваются по мере того, как ИИ получают доступ к более конфиденциальным данным и берут на себя больше инициативы и более продолжительные задачи.

Краткое содержание

Что вы попросили ИИ сделать

Что делает злоумышленник

Потенциальный результат, если атака окажется успешной

Вы просите ИИ помочь с поиском квартиры, и в него внедряют промпт, чтобы он рекомендовал объявление, которое не является для вас наилучшим вариантом.

Вы просите ИИ помочь с поиском квартиры по заданным критериям.

Злоумышленник включил в объявление об аренде квартиры промпт-инъекцию, чтобы обманом заставить ИИ думать, что нужно выбрать именно его объявление, независимо от заявленных пользователем предпочтений.

Если атака окажется успешной, ИИ может ошибочно порекомендовать неудачное объявление о квартире, даже исходя из ваших предпочтений.

Вы просите ИИ-агента ответить на ваши электронные письма, пришедшие за вчерашний вечер, а он в итоге делится вашими банковскими выписками.

Вы просите ИИ-агента ответить на ваши электронные письма, пришедшие за вчерашний вечер, так как этим утром вы заняты.

См. раздел ниже: «Давайте агентам четкие инструкции, когда это возможно»


Злоумышленник отправил вам электронное письмо, содержащее дезинформацию, которая вводит модель в заблуждение, заставляя её находить ваши банковские выписки и делиться ими со злоумышленником.

Если атака окажется успешной, агент может найти в вашей электронной почте (к которой вы предоставили доступ для выполнения задачи) такие вещи, как банковские выписки, и передать их злоумышленнику.

Наш подход к защите пользователей

Защита от промпт-инъекций — сложная задача для всей индустрии ИИ и ключевой приоритет OpenAI. Хоть мы и понимаем, что злоумышленники продолжат проводить подобные атаки, мы старательно разрабатываем защитные меры, позволяющие ИИ выполнять задачи пользователя, даже если кто-то активно пытается его ввести в заблуждение. Эта возможность необходима для безопасного использования преимуществ AGI.

Чтобы защитить наших пользователей и наши модели от подобных атак, мы используем многоуровневый подход, который включает следующие аспекты:

Обучение по безопасности

Мы хотим, чтобы ИИ научился распознавать промпт-инъекции и не поддавался им. Тем не менее, устойчивость к злонамеренным атакам — это давняя проблема для сферы машинного обучения и ИИ, что делает её сложной и открытой. Мы разработали исследование под названием Instruction Hierarchy, направленное на создание моделей, различающих доверенные и недоверенные инструкции. Мы продолжаем разрабатывать новые подходы к обучению моделей, чтобы они лучше распознавали шаблоны промпт-инъекций и могли игнорировать их или сообщать о них пользователям. Одна из применяемых нами техник для разработки новых способов защиты от промпт-инъекций — автоматизированное тестирование red teaming: эту сферу мы изучаем(открывается в новом окне) уже много лет.

Отслеживание

Мы разработали несколько автоматизированных средств отслеживания на базе ИИ для выявления и блокировки промпт-инъекций. Эти методы дополняют подходы к обучению по безопасности: их можно быстро обновлять для оперативного блокирования любых нововыявленных атак. Средства отслеживания не только помогают выявлять потенциальные атаки с промпт-инъекциями против наших пользователей, но и позволяют нам проводить исследования и тестирование враждебных промпт-инъекций с использованием нашей платформы до того, как эти атаки будут развернуты в реальных условиях.

Обеспечение безопасности

Наши продукты и инфраструктура разрабатываются с учетом ряда пересекающихся мер защиты, призванных помочь обеспечить безопасность данных пользователей. Эти функции, которые мы рассмотрим более подробно с технической точки зрения в следующих публикациях, адаптированы для каждого продукта. Например, чтобы помогать вам избегать небезопасных сайтов, ChatGPT будет просить вас подтверждать переход по определенным ссылкам до перехода — особенно это касается веб-сайтов, которые просят нас не включать их в каталог(открывается в новом окне). Когда наш ИИ использует инструменты для запуска других программ или кода (как в Canvas или в нашем инструменте для разработки Codex), мы применяем технику, называемую песочницей, чтобы предотвратить внесение моделью вредоносных изменений, которые могут быть результатом промпт-инъекции.

Предоставление пользователям возможности контроля

Чтобы помочь пользователям обезопасить себя, мы включаем в наши продукты встроенные средства защиты. Например, в ChatGPT Atlas вы можете выбрать режим «без входа в систему», который позволяет агенту ChatGPT запускать задачи без авторизации на сайтах. Агент ChatGPT также приостанавливает работу и запрашивает подтверждение перед выполнением важных действий, таких как завершение покупки. Для работы агента на сайтах с конфиденциальной информацией мы также внедрили так называемый «Режим наблюдения», который предупреждает вас о конфиденциальном характере данных на сайте и требует, чтобы вкладка была активной, чтобы вы могли лично наблюдать за тем, как агент выполняет свою работу. Агент приостановит работу, если вы покинете эту вкладку. Это гарантирует, что вы будете в курсе всех действий, которые выполняет агент, и сможете контролировать его работу.

Red teaming

Мы проводим обширные мероприятия по тестированию на уязвимости (red teaming) с внутренними и внешними командами, чтобы тестировать и улучшать нашу защиту, моделировать поведение злоумышленников и находить новые способы повышения нашей безопасности. Тысячи часов уже были посвящены конкретно промпт-инъекциям. По мере обнаружения новых методов и типов атак наши команды активно устраняют уязвимости в безопасности и улучшают меры по смягчению последствий для нашей модели.

Программа «Bug Bounty»

Чтобы мотивировать независимых добросовестных исследователей в области безопасности помогать нам выявлять новые методы и типы промпт-инъекций, мы запустили программу отлова багов «Bug Bounty»(открывается в новом окне), в рамках которой энтузиасты получают финансовые вознаграждения за демонстрацию реалистичного пути атаки, который может привести к непреднамеренному раскрытию пользовательских данных. Мы поощряем внешних пользователей быстро выявлять эти проблемы, чтобы мы могли их своевременно решить и еще больше укрепить нашу защиту.

Решения принимают пользователи

Мы обучаем пользователей рискам использования определённых функций продукта, чтобы они могли принимать обоснованные решения. Например, при подключении ChatGPT к другим приложениям мы объясняем, к каким данным может быть получен доступ, как они могут использоваться и какие риски могут возникнуть (например, сайт может попытаться украсть ваши данные), а также предоставляем ссылку на материалы о защите и безопасности. Также предоставляем организациям контроль над тем, какие функции могут быть активированы или могут использоваться пользователями в рабочей среде.

Меры, которые вы можете предпринять для повышения безопасности

Промпт-инъекция — это новая проблема безопасности, которая со временем будет продолжать разрастаться. Новые уровни интеллекта и возможностей требуют, чтобы технологии, общество и стратегии по снижению рисков развивались совместно. Как и в случае с компьютерными вирусами в начале 2000-х годов, мы считаем важным, чтобы все понимали угрозу промпт-инъекций и знали, как управлять этими рисками, чтобы мы все могли безопасно извлекать пользу из этой технологии. Бдительность и осторожность помогают лучше защитить ваши данные при использовании ИИ и агентов, которые могут действовать от вашего имени.

Используйте встроенные функции для ограничения доступа к конфиденциальным данным

По возможности ограничивайте доступ агента только к тем конфиденциальным или учетным данным, которые необходимы ему для выполнения задачи. Например, при использовании режима агента в ChatGPT Atlas для поиска отелей на отпуск, если агент выполняет только поиск и ему не нужен доступ со входом в систему, используйте режим «без входа в систему».

Когда агент запрашивает подтверждение, убедитесь, что он собирается выполнить правильное действие

Мы часто разрабатываем агентов таким образом, чтобы они запрашивали у вас окончательное подтверждение перед выполнением некоторых важных действий, таких как завершение покупки или отправка электронного письма. Когда агент просит вас подтвердить действие, убедитесь, что действие выглядит корректным, и что любая информация, которой вы делитесь, уместна для передачи в данном контексте.

Когда агент работает на сайте с конфиденциальными данными — например, на сайте вашего банка, — внимательно следите за его работой. Это как с ездой на автомобиле с автопилотом: вы все равно держите руки на руле.

Давайте агентам четкие инструкции, когда это возможно

Предоставление агенту слишком общей инструкции, например «просмотри мою почту и выполни все необходимые действия», может облегчить задачу по введению модели в заблуждение скрытому вредоносному контенту, даже если модель запрограммирована запросить у вас подтверждение перед выполнением важных действий.

Безопаснее попросить вашего агента выполнять конкретные задачи и не предоставлять ему широкую свободу действий, чтобы он не следовал потенциально вредоносным инструкциям из других источников, таких как электронные письма. Хотя это не гарантирует полное отсутствие атак, так злоумышленникам сложнее добиться своей цели.

Будьте в курсе событий и следуйте лучшим практикам безопасности

По мере развития технологий ИИ будут появляться новые риски и меры защиты. Следите за новостями от OpenAI и других надежных источников, чтобы вовремя узнавать о лучших практиках.

Планы на будущее

Промпт-инъекция остается новой и сложной исследовательской проблемой, и, как и в случае с традиционными схемами мошенничества в Интернете, мы знаем, что наша работа будет продолжаться. Хотя мы пока не наблюдаем значительного распространения этой техники среди злоумышленников, мы понимаем, что они наверняка потратят много времени и ресурсов, чтобы найти способы все-таки заставить ИИ поддаться этим атакам. Мы продолжаем активно инвестировать в обеспечение безопасности наших продуктов и в исследования, направленные на повышение устойчивости ИИ к этому риску. По мере получения новой информации мы будем делиться с общественностью новостями, в том числе о текущем прогрессе в нашей работе по обеспечению безопасности в этой области. Например, мы уже готовим к публикации отчет, где будут более подробные сведения о том, как мы определяем, что ИИ собирается передать в сеть информацию из вашей беседы.

Наша цель — сделать эти системы такими же надёжными и безопасными, как работа с вашим самым надёжным и осведомлённым в вопросах безопасности коллегой или другом. Мы будем продолжать учиться на реальном использовании, безопасно совершенствоваться и публиковать то, что мы узнаем, по мере развития технологий.