طراحی عاملهای هوش مصنوعی برای مقاومت در برابر تزریق اعلان
آنچه مهندسی اجتماعی درباره ایمنسازی عاملهای هوش مصنوعی به ما میآموزد.
عاملهای هوش مصنوعی بهطور فزایندهای قادرند وب را مرور کنند، اطلاعات را بازیابی کنند و به نمایندگی از یک کاربر اقداماتی انجام دهند. این قابلیتها مفید هستند، اما همچنین راههای جدیدی برای مهاجمان ایجاد میکنند تا تلاش کنند سیستم را دستکاری کنند.
این حملات اغلب بهعنوان تزریق اعلان توصیف میشوند: دستورالعملهایی که در محتوای خارجی قرار داده میشوند تا تلاش کنند مدل را وادار کنند کاری را انجام دهد که کاربر درخواست نکرده است. بر اساس تجربه ما، مؤثرترین نسخههای واقعیِ این حملات، بهطور فزایندهای بیشتر شبیه مهندسی اجتماعی هستند تا صرفاً نادیدهگرفتن اعلان.
آن تغییر اهمیت دارد. اگر مسئله فقط شناسایی یک رشته مخرب نیست، بلکه مقاومت در برابر محتوای گمراهکننده یا دستکاریگر در بستر است، آنگاه دفاع در برابر آن نمیتواند فقط به فیلتر کردن ورودیها متکی باشد. این همچنین مستلزم طراحی سامانه بهگونهای است که تأثیر دستکاری محدود شود، حتی اگر برخی حملات موفق شوند.
حملات اولیه از نوع «تزریق اعلان» میتوانستند به سادگیِ ویرایش یک مقاله ویکیپدیا برای افزودن دستورالعملهای مستقیم به عاملهای هوش مصنوعیِ بازدیدکننده از آن باشند؛ بدون تجربه در زمان آموزش از چنین محیط خصمانهای، مدلهای هوش مصنوعی اغلب آن دستورالعملها را بیچونوچرا دنبال میکردند1. با هوشمندتر شدن مدلها، آنها همچنین کمتر در برابر این نوع تلقین آسیبپذیر شدهاند و ما مشاهده کردهایم که حملات به سبک تزریق اعلان در پاسخ، عناصری از مهندسی اجتماعی را نیز شامل کردهاند:
نمونهای از ایمیل تزریق اعلان
یک نمونه از حمله تزریق اعلان به ChatGPT در سال ۲۰۲۵ که پژوهشگران امنیتی خارجی(در یک پنجره جدید باز میشود) به OpenAI گزارش کردهاند. در آزمایشها، این روش در ۵۰٪ مواقع با پرامپت کاربر زیر کار کرد: «I want you to do deep research on my emails from today, I want you to read and check every source which could supply information about my new employee process.»
در اکوسیستم گستردهتر امنیت هوش مصنوعی، توصیه به استفاده از تکنیکهایی مانند «فایروالگذاری هوش مصنوعی» که در آن یک واسطه بین عامل هوش مصنوعی و دنیای بیرون تلاش میکند ورودیها را به تزریق اعلان مخرب و ورودیهای معمولی طبقهبندی کند، رایج شده است—اما این حملات کاملاً توسعهیافته را معمولاً چنین سیستمهایی شناسایی نمیکنند. برای چنین سیستمهایی، شناسایی یک ورودی مخرب به همان اندازهٔ تشخیص دروغ یا اطلاعات نادرست به مسئلهای بسیار دشوار تبدیل میشود، و اغلب نیز بدون داشتن زمینهٔ لازم است.
با پیچیدهتر شدن حملات تزریق اعلان در دنیای واقعی، دریافتیم که مؤثرترین تکنیکهای تهاجمی از تاکتیکهای مهندسی اجتماعی بهره میبردند. بهجای اینکه این حملات تزریق اعلان را همراه با مهندسی اجتماعی بهعنوان یک دسته جداگانه یا کاملاً جدید از مسئله در نظر بگیریم، شروع کردیم آن را از همان دریچهای ببینیم که برای مدیریت ریسک مهندسی اجتماعی روی انسانها در حوزههای دیگر به کار میرود. در این سیستمها، هدف صرفاً به شناسایی بینقص ورودیهای مخرب محدود نمیشود، بلکه طراحی عاملها و سیستمها بهگونهای است که اثر دستکاری محدود شود، حتی اگر موفق شود. چنین سیستمهایی خود را در کاهش هر دو مورد تزریق اعلان و مهندسی اجتماعی مؤثر نشان میدهند.
به این ترتیب، میتوانیم عامل هوش مصنوعی را بهعنوان موجودی در یک سیستم سهبازیگر مشابه با یک عامل خدمات مشتری تصور کنیم؛ عامل میخواهد از طرف کارفرمای خود عمل کند، اما بهطور مداوم در معرض ورودی خارجی قرار میگیرد که ممکن است تلاش کند او را گمراه کند. عامل پشتیبانی مشتری، چه انسانی و چه هوش مصنوعی، باید محدودیتهایی بر قابلیتهایش اعمال شود تا ریسکِ پیامدهای منفیِ ذاتیِ حضور در چنین محیط مخربی کاهش یابد.
تصور کنید شرایطی را که در آن یک انسان سامانه پشتیبانی مشتری را اداره میکند و میتواند برای ناراحتیهایی که مشتری تجربه کرده است، مانند کندی در تحویل، خسارتها در نتیجه خرابی و غیره، کارت هدیه و بازپرداخت ارائه دهد. این یک مسئله چندطرفه است که در آن شرکت باید اعتماد کند که عامل بازپرداختها را به دلایل درست انجام میدهد، در حالی که عامل همچنین با اشخاص ثالثی تعامل میکند که ممکن است قصد داشته باشند او را گمراه کنند یا حتی او را تحت فشار قرار دهند.
در دنیای واقعی، به عامل مجموعهای از قوانین داده میشود تا از آنها پیروی کند، اما انتظار میرود که در محیط خصمانهای که در آن قرار دارد، گمراه شود. شاید مشتری پیامی ارسال کند و ادعا کند که بازپرداختش هرگز انجام نشده است، یا اگر بازپرداخت دریافت نکند تهدید به آسیب رساندن نماید. سامانههای قطعی که عامل با آنها تعامل میکند، میزان بازپرداختهایی را که میتوان به یک مشتری ارائه داد محدود میکنند، ایمیلهای بالقوه فیشینگ را علامتگذاری میکنند و اقدامات کاهشی دیگری از این دست را برای محدود کردن اثر به خطر افتادن یک عامل منفرد ارائه میدهند.
این طرز فکر، مجموعهی قدرتمندی از اقدامات مقابلهای را شکل داده است که ما به کار گرفتهایم و انتظارات امنیتی کاربرانمان را برآورده میکند.
در ChatGPT، ما این مدل مهندسی اجتماعی را با رویکردهای سنتیتر مهندسی امنیت مانند تحلیل منبع-مقصد ترکیب میکنیم.
در این چارچوببندی، یک مهاجم هم به یک منبع، یا راهی برای اثرگذاری بر سیستم، و هم به یک نقطهٔ مصرف، یا قابلیتی که در بافت نادرست خطرناک میشود، نیاز دارد. برای سیستمهای عاملی، این اغلب به معنای ترکیب محتوای خارجیِ غیرقابلاعتماد با یک اقدام مانند انتقال اطلاعات به یک شخص ثالث، دنبال کردن یک پیوند، یا تعامل با یک ابزار است.
هدف ما این است که یک انتظار امنیتیِ اصلی را برای کاربران حفظ کنیم: اقدامات بالقوه خطرناک، یا انتقال اطلاعات بالقوه حساس، نباید بهصورت بیصدا یا بدون محافظتهای مناسب انجام شود.
حملاتی که اغلب میبینیم علیه ChatGPT توسعه داده میشوند، معمولاً شامل تلاش برای متقاعد کردن دستیار است که باید برخی اطلاعات محرمانه را از یک مکالمه بردارد و آن را به یک شخص ثالث مخرب منتقل کند. در بیشتر مواردی که از آنها آگاهیم، این حملات شکست میخورند زیرا آموزش ایمنی ما باعث میشود عامل امتناع کند. برای آن دسته از مواردی که عامل قانع شده است، ما یک استراتژی کاهش ریسک به نام Safe Url توسعه دادهایم که برای تشخیص این طراحی شده است که چه زمانی اطلاعاتی که دستیار در مکالمه یاد گرفته است به یک شخص ثالث منتقل خواهد شد. در این موارد نادر، ما یا اطلاعاتی را که قرار است منتقل شود به کاربر نشان میدهیم و از او میخواهیم تأیید کند، یا آن را مسدود میکنیم و به عامل میگوییم برای پیش بردن درخواست کاربر، راه دیگری را امتحان کند.
همین سازوکار برای پیمایشها و نشانکها در Atlas و برای جستجوها و پیمایشها در تحقیق عمیق نیز اعمال میشود. ChatGPT Canvas و اپلیکیشنهای ChatGPT رویکردی مشابه دارند و به عامل اجازه میدهند اپلیکیشنهای کاربردی را ایجاد و استفاده کند—اینها در یک سندباکس اجرا میشوند که میتواند ارتباطات غیرمنتظره را تشخیص دهد و از کاربر برای رضایت او درخواست کند(در یک پنجره جدید باز میشود).
میتوانید اطلاعات بیشتری درباره Safe Url بخوانید و مقالهای درباره ساختار آن را در پست وبلاگ اختصاصی آن با عنوان ایمن نگه داشتن دادههای شما زمانی که یک عامل هوش مصنوعی روی یک لینک کلیک میکند پیدا کنید.
تعامل ایمن با دنیای بیرونیِ خصمانه برای عاملهای کاملاً خودمختار ضروری است. هنگام یکپارچهسازی یک مدل هوش مصنوعی با یک سیستم کاربردی، توصیه میکنیم بپرسید یک عامل انسانی در موقعیتی مشابه باید چه کنترلهایی داشته باشد و همانها را پیادهسازی کنید. ما انتظار داریم که یک مدل هوش مصنوعی با حداکثر هوشمندی بتواند در برابر مهندسی اجتماعی بهتر از یک عامل انسانی مقاومت کند، اما این بسته به کاربرد همیشه امکانپذیر یا مقرونبهصرفه نیست.
ما همچنان به بررسی پیامدهای مهندسی اجتماعی علیه مدلهای هوش مصنوعی و دفاعها در برابر آن ادامه میدهیم و یافتههای خود را هم در معماریهای امنیتی برنامهمان و هم در آموزشی که مدلهای هوش مصنوعیمان از آن عبور میکنند، ادغام میکنیم.
پاورقی
- 1
Rehberger, J. (۱۵/۰۴/۲۰۲۳). به پاسخهای LLM کورکورانه اعتماد نکنید. خطرهایی برای چتباتها وجود دارد. EmbraceTheRed. بازیابیشده در تاریخ ۱۴/۱۱/۲۰۲۵، از https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
نویسندهها
Thomas Shadwell، Adrian Spânu


