Постоянное усиление защиты ChatGPT Atlas от атак с внедрением запросов
Автоматизированное тестирование на уязвимости на базе обучения с подкреплением помогает нам проактивно обнаруживать и устранять реальные эксплойты агентов до того, как они будут использованы в реальных условиях.
Режим агента в ChatGPT Atlas — одна из самых универсальных агентных функций, которые мы выпустили на сегодняшний день. В этом режиме агент браузера просматривает веб-страницы и выполняет действия, клики и нажатия клавиш в вашем браузере, так же, как это делали бы вы. Это позволяет ChatGPT работать напрямую с многими вашими повседневными рабочими процессами, используя одно и то же пространство, контекст и данные.
Поскольку агент браузера помогает вам больше успевать, он также становится более ценным объектом для атак злоумышленников. Это делает безопасность ИИ особенно важной. Задолго до того, как мы запустили ChatGPT Atlas, мы постоянно строили и укрепляли защиту от возникающих угроз, которые специально нацелены на новую парадигму «агента в браузере». Внедрение запросов — это один из самых значительных рисков, против которых мы активно защищаемся, чтобы обеспечить безопасную работу ChatGPT Atlas от вашего имени.
В рамках этих усилий мы недавно выпустили обновление безопасности для браузерного агента Atlas, включающее новую модель, обученную в состязательной среде, и усиленные меры защиты. Это обновление было реализовано в связи с выявлением в ходе нашего внутреннего автоматизированного тестирования на уязвимости новой категории атак с внедрением запросов.
В этом посте мы объясняем, как может возникнуть риск внедрения запросов для веб-агентов, и делимся циклом быстрого реагирования, который мы разрабатываем для постоянного обнаружения новых атак и быстрого внедрения мер по их предотвращению, что иллюстрируется недавним обновлением безопасности.
Мы рассматриваем внедрение запросов как долгосрочную проблему безопасности ИИ, и нам необходимо будет постоянно укреплять нашу защиту от этого (подобно постоянно развивающимся онлайн-мошенничествам, нацеленным на людей). Наш последний цикл быстрого реагирования показывает ранние многообещающие результаты как критический инструмент на этом пути: мы обнаруживаем новые стратегии атак внутри компании, прежде чем они появляются в реальных условиях. Наша долгосрочная цель — полностью использовать (1) наш доступ к моделям как к «белым ящикам», (2) глубокое понимание наших защитных механизмов и (3) вычислительные мощности, чтобы опережать внешних злоумышленников — находить уязвимости раньше, быстрее внедрять меры по их устранению и постоянно улучшать этот процесс. В сочетании с передовыми исследованиями новых методов для решения проблемы внедрения запросов и увеличением инвестиций в другие средства безопасности, этот нарастающий цикл может сделать атаки все более сложными и дорогостоящими, существенно снижая риск внедрения запросов в реальных условиях. В конечном итоге наша цель состоит в том, чтобы вы могли доверять агенту ChatGPT использовать ваш браузер так же, как вы доверяете высококвалифицированному и осведомленному о безопасности коллеге или другу.
Атака с внедрением запросов нацелена на агентов ИИ: ее принцип — встроить вредоносные инструкции в обрабатываемый агентом контент. Эти инструкции разработаны для того, чтобы переопределить или перенаправить поведение агента, захватывая его для выполнения намерений злоумышленника, а не пользователя.
Для браузерного агента, подобного тому, что находится внутри ChatGPT Atlas, внедрение запросов добавляет новый вектор угрозы, выходящий за пределы традиционных рисков веб-безопасности (таких как ошибки пользователя или уязвимости программного обеспечения). Вместо фишинга людей или эксплуатации уязвимостей системы браузера злоумышленник нацелен на агента, работающего внутри него.
В качестве гипотетического примера злоумышленник может отправить вредоносное электронное письмо, пытаясь обмануть агента, чтобы тот проигнорировал запрос пользователя и вместо этого переслал конфиденциальные налоговые документы на адрес электронной почты, контролируемый злоумышленником. Если пользователь попросит агента просмотреть непрочитанные электронные письма и резюмировать ключевые моменты, агент может обработать это вредоносное письмо в процессе рабочего потока. Если следовать внедренным инструкциям, система может отклониться от задачи и ошибочно поделиться конфиденциальной информацией.
Это всего лишь один конкретный сценарий. Та же общая характеристика, которая делает браузерные агенты полезными, также увеличивает риски: агент может столкнуться с ненадежными инструкциями на практически неограниченной поверхности — электронные письма и вложения, приглашения в календарь, общие документы, форумы, публикации в социальных сетях и произвольные веб-страницы. Поскольку агент может выполнять многие из тех же действий, что и пользователь в браузере, последствия успешной атаки могут быть гипотетически столь же широкими: пересылка конфиденциального электронного письма, отправка денег, редактирование или удаление файлов в облаке и так далее.
Мы добились прогресса в защите от внедрения запросов через несколько уровней мер безопасности, о чем мы сообщили в предыдущем посте. Тем не менее, внедрение запросов остается открытой проблемой для безопасности агентов, и мы планируем продолжать работать над этой проблемой и далее.
Для усиления нашей защиты мы постоянно ищем новые типы атак со внедрением запросов против агентных систем в эксплуатации. Обнаружение этих атак является необходимым предварительным условием для создания надежных мер противодействия: это помогает нам понять реальные риски, выявить пробелы в нашей защите и стимулирует разработку конкретных исправлений.
Чтобы реализовать это в большом масштабе, мы разработали автоматизированного атакующего на основе LLM и обучили его выявлять атаки внедрения запросов, которые могут успешно атаковать агент браузера. Мы обучили этого атакующего от начала до конца с использованием обучения с подкреплением, чтобы он учился на своих успехах и неудачах для улучшения своих навыков в области тестирования на уязвимости. Мы также позволяем ему сначала сделать «пробу», то есть: в процессе цепочки рассуждений злоумышленник может предложить вариант внедрения и отправить его внешнему симулятору. Симулятор выполнит контрфактическую симуляцию того, как целевой агент-жертва (защитник) будет вести себя при внедрении, и в ответ предоставит полное обоснование и последовательность действий агента-жертвы. Злоумышленник использует этот отзыв как обратную связь, повторит атаку и заново запустит симуляцию, повторяя этот цикл несколько раз, прежде чем приступить к окончательной атаке. Это обеспечивает более богатый отзыв в контексте для злоумышленника, чем единичный сигнал «pass/fail». Это также увеличивает вычислительные мощности злоумышленника во время тестирования. Более того, привилегированный доступ к следам рассуждений защитника (которые мы не раскрываем внешним пользователям) предоставляет нашему внутреннему атакующему асимметричное преимущество, увеличивая вероятность того, что он сможет обойти внешних противников.
Почему именно обучение с подкреплением (RL)? Мы выбрали для автоматизированного атакующего обучение с подкреплением по нескольким причинам:
- Оптимизация долгосрочных и не непрерывных целей атакующих. Наша цель — выявлять атаки с внедрением запросов, которые могут обмануть агента и заставить его выполнять сложные враждебные задачи (например, отправку электронных писем, банковские транзакции), которые могут произойти в реальном мире. Эти противоборствующие задачи по своей природе являются долгосрочными, требующими многих этапов рассуждения и взаимодействия с окружающей средой, с редкими и отложенными сигналами успеха. Обучение с подкреплением хорошо подходит для этой разреженной, задержанной структуры вознаграждения.
- Использование возможностей передовых LLM. Мы обучили передовые LLM непосредственно как автотестировщиков, поэтому злоумышленник получает прямую выгоду от улучшений в рассуждении и планировании в передовых моделях. По мере усиления базовых моделей атакующий также естественным образом становится более способным, что делает это масштабируемым способом поддержания давления на нашу защиту по мере эволюции наших моделей.
- Масштабирование вычислительных мощностей и имитация адаптивных атакующих. Обучение с подкреплением хорошо подходит для масштабирования вычислительных затрат на поиск атак при большом количестве выборок и шагов обучения, и также точно отражает адаптивное поведение атакующих-людей: итеративно пробуя стратегии, обучаясь на результатах и укрепляя успешные действия.
Наш автоматизированный атакующий может обнаруживать новые, реалистичные методы атаки с внедрением запросов от начала до конца. В отличие от большинства предыдущих работ по автоматизированному тестированию, которые выявляли простые ошибки, такие как получение определенных строк вывода или непреднамеренный вызов агентом инструмента с одни действием, наш атакующий, обученный с помощью методов обучения с подкреплением, способен направить агента на выполнение сложных, долгосрочных вредоносных рабочих процессов, которые разворачиваются на протяжении десятков (или даже сотен) этапов. Мы также наблюдали новые стратегии атак, данные о которых не указывались в нашей кампании по тестированию на уязвимости или во внешних отчетах.
Демонстрация ниже представляет конкретный пример эксплойта с внедрением запросов, обнаруженный нашим автоматизированным атакующим, который мы затем использовали для дальнейшего укрепления защиты ChatGPT Atlas. Злоумышленник отправляет в почтовый ящик пользователя вредоносное письмо с внедрением запроса, который направляет агента отправить заявление об увольнении генеральному директору пользователя. Позже, когда пользователь просит агента составить автоматический ответ в нерабочее времени, агент сталкивается с этим электронным письмом во время выполнения обычной задачи, рассматривает внедренный запрос как авторитетный и следует ему. Сообщение о нерабочем времени так и не пишется, а вместо этого агент увольняется от имени пользователя.

1. Запрос к агенту о помощи в управлении электронной почтой

2. Агент открывает последнее непрочитанное письмо.

3. Электронное письмо содержит вредоносные инструкции.

4. Агент непреднамеренно отправил письмо с заявлением об увольнении

5. После обновления безопасности режим агента успешно обнаруживает попытку внедрения запроса
Природа внедрений запросов затрудняет детерминированные гарантии безопасности, но благодаря масштабированию наших автоматизированных исследований безопасности, тестированию на устойчивость к атакам и ужесточению нашего быстрого цикла реагирования мы можем улучшить устойчивость и защиту модели — до того, как атака произойдет в реальных условиях.
Мы делимся этой демонстрацией, чтобы помочь пользователям и исследователям лучше понять природу этих атак и то, как мы активно защищаемся от них. Мы считаем, что это представляет собой передовой рубеж возможностей автоматизированного тестирования на уязвимости, и мы чрезвычайно рады продолжить наши исследования.
Наши автоматизированные команды тестирования создают проактивный цикл быстрого реагирования: когда автоматизированный атакующий обнаруживает новый класс успешных атак с внедрением запросов, он немедленно создает конкретную цель для улучшения нашей защиты.
Состязательное обучение в борьбе против выявленных типов атак. Мы постоянно обучаем обновленные модели агентов, противопоставляя их нашему лучшему автоматизированному атакующему, уделяя приоритетное внимание атакам, в которых целевые агенты в настоящее время терпят неудачу. Цель состоит в том, чтобы научить агентов игнорировать враждебные инструкции и оставаться согласованными с намерениями пользователя, повышая устойчивость к недавно обнаруженным стратегиям внедрения подсказок. Это «встраивает» устойчивость к новым, высокоэффективным атакам непосредственно в контрольную точку модели. Например, недавнее автоматизированное тестирование уязвимостей непосредственно привело к созданию нового контрольного пункта браузер-агента, обученного в условиях противодействия, который уже внедрён для всех пользователей ChatGPT Atlas. Это в конечном итоге помогает лучше защищать наших пользователей от новых типов атак.
Использование следов атак для расширения системы защиты. Многие пути атаки, обнаруженные нашей автоматизированной командой по тестированию на уязвимости, также выявляют возможности для улучшения за пределами самой модели — например, в мониторинге, инструкциях по безопасности, которые мы включаем в контекст модели, или системных мерах безопасности. Эти выводы помогают нам итеративно улучшать весь защитный стек, а не только контрольную точку агента.
Реагирование на активные атаки. Этот цикл также может помочь лучше реагировать на активные атаки в реальных условиях. Когда мы анализируем наш глобальный охват для выявления потенциальных атак, мы можем взять техники и тактики, которые наблюдаем у внешних противников, интегрировать их в этот цикл, имитировать их действия и внести изменения в защиту на нашей платформе.
Укрепление нашей способности проводить тестирование агентов на уязвимости и использование наших самых мощных моделей для автоматизации частей этой работы помогает сделать агента браузера Atlas более надежным, масштабируя цикл от обнаружения до исправления. Эти усилия по укреплению подтверждают уже знакомый нам урок по безопасности: проверенный путь к более надежной защите заключается в том, чтобы постоянно проводить стресс-тестирование реальных систем, реагировать на сбои и внедрять конкретные исправления.
Безусловно, злоумышленники будут продолжать адаптироваться. Проблему внедрения запросов, как и мошенничества, и социальной инженерии и прочего, вряд ли когда-либо удастся решить полностью. Но мы оптимистично настроены на то, что проактивный, высокоотзывчивый цикл быстрого реагирования может продолжить существенно снижать реальные риски с течением времени. Объединяя автоматическое обнаружение атак с обучением на основе противодействия и системными мерами безопасности, мы можем раньше выявлять новые паттерны атак, быстрее устранять уязвимости и постоянно повышать эффективность эксплуатации.
Режим агента в ChatGPT Atlas обладает мощными возможностями, но эти возможности также увеличивают поверхность угроз безопасности. Четкое понимание этих компромиссов является частью ответственного подхода к разработке. Наша цель — делать Atlas более безопасным с каждой итерацией: улучшая устойчивость модели, укрепляя защитный стек и отслеживая новые паттерны злоупотреблений в реальных условиях.
Мы продолжим инвестировать в исследования и развертывание, разрабатывать более совершенные автоматизированные методы тестирования на уязвимости, внедрять многоуровневые меры безопасности и быстро вносить изменения по мере обучения. Мы также будем делиться некоторыми ограниченными данными с более широкой аудиторией.
Пока мы продолжаем укреплять Atlas на системном уровне, пользователи со своей стороны могут предпринимать шаги для снижения риска при использовании агентов.
По возможности ограничивайте доступ к входу в систему. Мы продолжаем рекомендовать пользователям использовать режим без входа в систему(открывается в новом окне) при использовании агента в Atlas, когда доступ к сайтам, на которые вы вошли в систему, не требуется для выполнения задачи, или чтобы ограничить доступ к конкретным сайтам, на которые вы входите в систему во время выполнения задачи.
Внимательно проверяйте запросы на подтверждение. Для некоторых важных действий, таких как завершение покупки или отправка электронной почты, агенты настроены запрашивать ваше подтверждение перед выполнением. Когда агент просит вас подтвердить действие, не спешите и проверьте, что выполняется правильное действие, а информация, которой вы делитесь, подходит для данного контекста.
Давайте агентам чёткие инструкции, когда это возможно. Избегайте чрезмерно общих запросов вроде «проверь мои электронные письма и выполни все необходимые действия». Широкая свобода действий позволяет скрытому или вредоносному контенту легче влиять на агента, даже если предусмотрены меры безопасности. Безопаснее попросить агента выполнять конкретные, четко определённые задачи. Хотя это не устраняет риск полностью, это усложняет проведение атак.
Если агенты должны стать надёжными партнёрами для повседневных задач, они должны быть устойчивы к видам манипуляций, которые существуют в Интернете. Укрепление защиты от внедрения запросов — это долгосрочное обязательство и один из наших главных приоритетов. Скоро мы поделимся дополнительной информацией об этой работе.


