Преминаване към основното съдържание
OpenAI

7 ноември 2025 г.

Сигурност

Разбиране на инжектирането на подкани – авангардно предизвикателство пред сигурността

Изкуственият интелект започва да върши повече от това да отговаря на въпроси. Инструментите с ИИ вече могат да сърфират в интернет, да съдействат при проучвания, да организират пътувания и да подпомагат покупката на продукти. С нарастването на техните възможности, включително достъпа им до Вашите данни в други приложения и предприемането на действия от Ваше име, се появяват нови предизвикателства пред сигурността. Едно от нещата, върху които сме силно фокусирани, е инжектирането на подкана.

Диаграма, илюстрираща как функционира атаката чрез инжектиране на подкана. Вляво има икона на усмихнат потребител, обозначена с „Потребителят иска помощ от ИИ за задача“. Стрелка сочи към центъра, където икона на компютърен екран е обозначена като „ИИ вижда уебсайт с атаката“, а над нея малка фигура с шапка и усмивка е обозначена като „Нападателят е вмъкнал инжектиране на подкана“. Друга стрелка сочи надясно, показвайки икона на документ с предупредителен триъгълник, обозначен с надпис „ИИ е подведен да извърши непреднамерено действие“. Процесът показва как нападател може да манипулира ИИ чрез инжектирани подкани.

Какво е инжектиране на подкана?

Инжектирането на подкана е вид атака чрез социално инженерство, специфична за изкуствения интелект за водене на разговори. Ранните системи с изкуствен интелект водеха разговори между един потребител и един интелигентен агент. В днешните продукти с ИИ, Вашият разговор може да съдържа информация от различни източници, включително интернет. Идеята, че трета страна (която не е потребителят и не е ИИ) може да подведе модела, като инжектира злонамерени инструкции в контекста на разговора, доведе до термина „инжектиране на подкана“.

Също както фишинг имейлите или измамите в интернет се опитват да подмамят хората да разкрият чувствителна информация, инжектирането на подкана се опитва да подмами ИИ да извърши нещо, което не сте поискали.

Представете си, че сте помолили изкуствен интелект да Ви помогне с онлайн проучване за почивка и докато го прави, той се натъква на подвеждащо съдържание или вредни инструкции, скрити на уебстраница, например в коментар към обява или в отзив. Съдържанието може да бъде внимателно изработено с цел да подмами ИИ да препоръча неправилната обява или, още по-лошо, да открадне информацията за Вашата кредитна карта.

Това са само няколко примера за атаки чрез „инжектиране на подкана“ – вредни инструкции, предназначени да подмамят ИИ да извърши нещо, което не сте възнамерявали, често скрити в обикновено съдържание като уеб страница, документ или имейл.

Тези рискове нарастват, когато ИИ получава достъп до по-чувствителни данни и поема повече инициатива и по-дълги задачи.

Обобщение

Какво поискахте от ИИ да направи

Какво прави нападателят

Възможен резултат, ако атаката е успешна

Вие молите ИИ да проучи апартаменти и в него е вмъкната подкана, за да препоръча обява, която не е най-добрият вариант за Вас.

Молите ИИ да проучи апартаменти с определени критерии.

Нападателят е включил атака с инжектиране на подкана в обявата за апартамент, за да заблуди ИИ да мисли, че неговата обява трябва да бъде избрана, независимо от предпочитанията, заявени от потребителя.

Ако атаката е успешна, ИИ може да препоръча неподходяща обява за апартамент въз основа на Вашите предпочитания.

Молите интелигентен агент да отговори на имейлите Ви от предния ден, но той в крайна сметка споделя банковите ви извлечения.

Молите интелигентен агент да отговаря на имейлите ви от предния ден, защото сте заети тази сутрин.

Вижте „Когато е възможно, давайте на агента изрични инструкции“ по-долу.


Нападателят Ви е изпратил имейл с дезинформация, която подвежда модела да открие банковите Ви извлечения и да ги сподели с него.

Ако атаката успее, агентът може да потърси във Вашия имейл неща като банкови извлечения (до които сте дали достъп за задачата) и ще ги сподели с нападателя.

Нашият подход към защитата на потребителите

Защитата срещу инжектиране на подкани е предизвикателство в цялата индустрия с ИИ и основен фокус на OpenAI. Докато очакваме нападателите да продължат да разработват такива атаки, ние изграждаме защити, които са предназначени да изпълняват задачата, която потребителят изисква, дори когато някой активно се опитва да го подведе. Тази способност е от съществено значение за безопасното реализиране на ползите от изкуствения общ интелект (AGI).

За да защитим нашите потребители и да подобрим нашите модели срещу тези атаки, прилагаме многослоен подход, който включва следното:

Обучение за безопасност

Искаме ИИ, който разпознава инжектирането на подкани и не се поддава на тях. Въпреки това, устойчивостта срещу злонамерен атаки е дългогодишно предизвикателство пред машинното обучение и изкуствения интелект, което прави този проблем труден и открит. Разработихме изследване, наречено Йерархия на инструкциите, за да създадем модели, които разграничават надеждни от ненадеждни инструкции. Продължаваме да разработваме нови подходи за обучение на модели, за да разпознават по-добре модели на инжектиране на подкани, така че да могат да ги игнорират или да ги сигнализират на потребителите. Една от техниките, които прилагаме, е автоматизираният стрес тест, област, която сме изучавали(отваря се в нов прозорец) в продължение на години, за да разработим нови атаки чрез инжектиране на команди.

Мониторинг

Разработихме множество автоматизирани наблюдателни системи, задвижвани от изкуствен интелект, за да идентифицираме и блокираме атаки чрез инжектиране на подкани. Те допълват подходите за обучение по безопасност, тъй като могат да бъдат актуализирани бързо, за да блокират незабавно всички нови атаки, които откриваме. Тези наблюдателни системи не само помагат за идентифицирането на потенциални атаки с инжектиране на подкани срещу нашите потребители. Те също така ни позволяват да засичаме изследвания и тестване на враждебно инжектиране на подкани, използвайки нашата платформа, преди тези атаки да бъдат разгърнати в реални условия.

Мерки за сигурност

Проектирахме нашите продукти и инфраструктура с различни припокриващи се мерки за сигурност, за да защитим данните на потребителите. Тези функции, които ще разгледаме в по-технически детайли в бъдещи публикации, са адаптирани за всеки продукт поотделно. Например, за да Ви помогнем да избягвате ненадеждни сайтове, ще Ви помолим да одобрите определени връзки в ChatGPT, особено към уебсайтове, които ни молят да не ги индексираме(отваря се в нов прозорец), преди да могат да бъдат посетени. Когато нашият ИИ използва инструменти за изпълнение на други програми или код (като в Canvas или в нашия инструмент за разработка Codex), прилагаме техника, наречена „изолирана среда“, за да попречим на модела да прави вредни промени, които могат да бъдат резултат от инжектиране на подкана.

Даваме контрол на потребителите

В нашите продукти има вградени контроли, за да помогнем на потребителите да се защитят. Например в ChatGPT Atlas можете да изберете режим на излизане от акаунта, който позволява на ChatGPT агента да стартира задачи, без да е вписан в сайтове. Агентът на ChatGPT също спира и иска потвърждение, преди да предприеме деликатни действия, като например извършване на покупка. Когато агентът работи на чувствителни сайтове, сме внедрили и „Режим на наблюдение“, който ви предупреждава за чувствителния характер на сайта и изисква да имате активен раздел, за да наблюдавате как агентът върши работата си. Агентът ще се спре, ако се отдалечите от раздела с чувствителна информация. Това гарантира, че сте наясно и че запазвате контрола върху действията, които извършва агентът.

Стрес тест

Извършваме обширни стрес тестове с вътрешни и външни екипи, за да тестваме и подобряваме нашите защити, да симулираме поведението на нападателите и да откриваме нови начини за подобряване на нашата сигурност. Това включва хиляди часове, посветени конкретно на инжектиране на подкани. С откриването на нови техники и атаки, нашите екипи проактивно се справят с уязвимостите в сигурността и подобряват мерките за защита на нашия модел.

Награда за откриване на бъгове

За да насърчим добросъвестни независими изследователи по сигурността да ни помагат да откриваме нови техники и атаки за инжектиране на подкани, предлагаме финансови награди чрез нашата програма за откриване на уязвимости(отваря се в нов прозорец), когато експертите демонстрират реалистична атака, която може да доведе до неволно разкриване на потребителски данни. Насърчаваме външни сътрудници да докладват за тези проблеми бързо, за да можем да ги разрешим и допълнително да укрепим защитата си.

Нека потребителите решат

Ние осведомяваме потребителите за рисковете от използването на определени функции в продукта, за да могат да вземат информирани решения. Например, когато свързвате ChatGPT с други приложения, обясняваме какви данни могат да бъдат достъпни, как могат да бъдат използвани и какви рискове могат да възникнат, като например сайт, който се опитва да открадне Вашите данни, заедно с връзка, за да научите как да останете в безопасност. Също така даваме на организациите възможност да контролират функциите, които могат да бъдат активирани или използвани от потребителите в техните работни пространства.

Стъпки, които можете да предприемете, за да останете в безопасност

Инжектирането на подкана е авангарден проблем за сигурността, който очакваме да продължи да се развива с времето. Новите нива на интелигентност и способности изискват технологиите, обществото и стратегиите за управление на рисковете да се развиват съвместно. И също както при компютърните вируси в началото на века, смятаме, че е важно всеки да разбира заплахата от инжектиране на подкани и как да се справя с риска, за да можем всички да се научим да се възползваме безопасно от тази технология. Да сте осведомени и предпазливи помага да запазите данните си обезопасени, когато използвате ИИ и агентните функции, които могат да действат от Ваше име.

Използвайте вградените функции, за да ограничите достъпа до чувствителни данни.

Когато е възможно, ограничете достъпа на агента само до чувствителните данни или идентификационните данни, от които се нуждае, за да изпълни задачата. Например, когато използвате агентен режим в ChatGPT Atlas за проучване на ваканция, ако агентът само извършва проучване и не се нуждае от достъп с влизане в профил, използвайте режим „без влизане“.

Когато агентът поиска потвърждение, внимателно прегледайте дали е на път да извърши правилното действие

Често проектираме агентите така, че да получат Вашето окончателно потвърждение, преди да предприемат определени значими действия като извършване на покупка или изпращане на имейл. Когато агент Ви помоли да потвърдите действие, внимателно проверете дали действието изглежда правилно и дали информацията, която се споделя, е подходяща за споделяне в този контекст.

Когато агент работи на чувствителен сайт, като например Вашата банка, наблюдавайте какво върши. Това е като да наблюдавате самоуправляваща се кола, като държите ръцете си на волана.

Когато е възможно, давайте на агента изрични инструкции

Давайки на агента общо указание като „прегледай моите имейли и предприеми каквото действие е необходимо“, може да улесните скрито злонамерено съдържание да подведе модела, въпреки че е проектиран да се консултира с Вас, преди да предприеме чувствителни действия.

По-безопасно е да помолите агента да изпълнява конкретни задачи, вместо да му давате широка свобода, която може да го накара да следва вредни инструкции от други източници, като например имейли. Въпреки че не гарантира липсата на атаки, това затруднява успеха на нападателите.

Бъдете информирани и следвайте най-добрите практики за сигурност

С развитието на технологиите за изкуствен интелект ще възникват нови рискове и мерки за безопасност. Следете новините от OpenAI и други надеждни източници, за да научите за най-добрите практики.

Поглед напред

Инжектирането на подкана остава авангарден и предизвикателен проблем за проучване и, подобно на традиционните измами в интернет, очакваме работата ни да продължи. Въпреки че все още не сме наблюдавали значително възприемане на тази техника от страна на нападателите, очакваме те да отделят значително време и ресурси, за да намерят начини да накарат изкуствения интелект да се поддава на тези атаки. Продължаваме да инвестираме значително в осигуряването на безопасността на нашите продукти и в изследвания за подобряване на устойчивостта на изкуствения интелект към този риск. Ще споделяме актуализации, когато научим повече, включително за текущия напредък в работата ни по сигурността в тази област. Например, подготвяме доклад, който скоро ще публикуваме и в който ще споделим повече подробности за това как откриваме дали комуникацията на Вашия ИИ с интернет би предала информация от Вашия разговор.

Нашата цел е да направим тези системи толкова надеждни и безопасни, колкото работата с най-доверения и осведомен за сигурността колега или приятел. Ще продължим да се учим от реалната употреба, да правим безопасни итерации и да публикуваме наученото с напредването на технологията.