پرش به محتوای اصلی
OpenAI

۱۶ آبان ۱۴۰۴

امنیت

درک تزریق اعلان مخرب: یک چالش امنیتی پیشرو

ابزارهای هوش مصنوعی در حال شروع به انجام کارهایی فراتر از پاسخ دادن به سوالات هستند. اکنون می‌توانند وب را مرور کنند، در تحقیقات کمک کنند، سفرها را برنامه‌ریزی کنند و در خرید محصولات یاری رسانند. با افزایش توانمندی آن‌ها و قابلیت دسترسی به داده‌های شما در برنامه‌های دیگر و انجام اقدامات به نمایندگی از شما، چالش‌های امنیتی جدیدی ظهور می‌کنند. یکی از مواردی که ما به‌شدت روی آن تمرکز داریم، تزریق اعلان مخرب است.

نموداری که نشان می‌دهد حمله تزریق اعلان مخرب چگونه عمل می‌کند. در سمت چپ، یک آیکون از یک کاربر خندان با برچسب «کاربر از هوش مصنوعی برای کمک در انجام یک وظیفه درخواست می‌کند» مشخص شده است. یک فلش به مرکز اشاره می‌کند، جایی که یک آیکون صفحه‌نمایش رایانه با برچسب «AI وب‌سایتی با محتوای مخرب را مشاهده میکند» مشخص شده است، و بالای آن یک شخصیت کوچک با کلاه و پوزخند با برچسب «مهاجم تزریق اعلان مخرب را وارد کرد» دیده میشود. فلش دیگری به سمت راست می‌رود و یک آیکون سند را با یک مثلث هشدار نشان می‌دهد که برچسب آن «AI فریب خورده و به اقدام ناخواسته وادار شده است.» این جریان نشان می‌دهد که چگونه یک مهاجم می‌تواند هوش مصنوعی را از طریق اعلان‌های تزریقی دستکاری کند.

تزریق اعلان مخرب چیست؟

تزریق اعلان مخرب نوعی حمله مهندسی اجتماعی است که به‌طور خاص برای هوش مصنوعی مکالمه‌ای طراحی شده است. سیستم‌های اولیه هوش مصنوعی مکالمات بین یک کاربر و یک عامل هوش مصنوعی بودند. در محصولات هوش مصنوعی امروزی، مکالمه شما ممکن است شامل محتوایی از منابع مختلف، از جمله اینترنت، باشد. ایده اینکه یک شخص ثالث (که نه کاربر است و نه هوش مصنوعی) می‌تواند با تزریق دستورالعمل‌های مخرب به زمینه گفتگو، مدل را گمراه کند، به اصطلاح «تزریق اعلان مخرب» منجر شد.

به همان شیوه‌ای که ایمیل‌های فیشینگ یا کلاهبرداری‌ها در وب تلاش می‌کنند مردم را فریب دهند تا اطلاعات حساس را افشا کنند، تزریق‌های اعلان تلاش می‌کنند هوش‌های مصنوعی را فریب دهند تا کاری را انجام دهند که شما درخواست نکرده‌اید.

تصور کنید از یک هوش مصنوعی خواسته‌اید تا به شما در تحقیق آنلاین دربارهٔ تعطیلات کمک کند، و در حین انجام این کار با محتوای گمراه‌کننده یا دستورالعمل‌های مضر که در یک صفحهٔ وب پنهان شده‌اند، مواجه می‌شود؛ مثلاً در یک نظر روی یک آگهی یا در یک نقد و بررسی. این محتوا ممکن است با دقت طراحی شده باشد تا هوش مصنوعی را فریب دهد و آن را به توصیهٔ فهرست نادرست وادار کند، یا بدتر از آن، اطلاعات کارت اعتباری شما را سرقت کند.

این‌ها تنها چند نمونه از حملات «تزریق اعلان مخرب» هستند—دستورالعمل‌های مخربی که برای فریب دادن یک هوش مصنوعی طراحی شده‌اند تا کاری را انجام دهد که شما قصدش را نداشتید و اغلب در محتوای معمولی مانند یک صفحه وب، سند یا ایمیل پنهان می‌شوند.

این خطرات با افزایش دسترسی هوش مصنوعی به داده‌های حساس‌تر و بر عهده گرفتن ابتکار عمل بیشتر و وظایف طولانی‌تر افزایش می‌یابد.

خلاصه

آنچه از هوش مصنوعی خواستید انجام دهد

کاری که مهاجم انجام می‌دهد

نتیجه احتمالی در صورت موفقیت‌آمیز بودن حمله

شما از یک هوش مصنوعی می‌خواهید تا درباره آپارتمان‌ها تحقیق کند، و به آن تزریق اعلان مخرب می‌شود تا فهرستی را توصیه کند که بهترین گزینه برای شما نیست.

شما از یک هوش مصنوعی می‌خواهید که با معیارهای مشخصی، آپارتمان‌ها را جستجو کند.

مهاجم یک حمله تزریق اعلان مخرب را در فهرست آپارتمان گنجانده است تا هوش مصنوعی را فریب دهد و آن را به این باور برساند که فهرست او باید بدون توجه به ترجیحات اعلام‌شده کاربر انتخاب شود.

اگر حمله موفقیت‌آمیز باشد، هوش مصنوعی ممکن است به‌اشتباه یک فهرست آپارتمان کمتر از حد بهینه را بر اساس ترجیحات شما توصیه کند.

شما از یک عامل هوش مصنوعی می‌خواهید که به ایمیل‌های شب گذشته شما پاسخ دهد، و در نهایت صورت‌حساب‌های بانکی شما را به اشتراک می‌گذارد.

شما از یک عامل هوش مصنوعی می‌خواهید که به‌طور کلی به ایمیل‌های شب گذشته شما پاسخ دهد، زیرا امروز صبح مشغول هستید.

به بخش «در صورت امکان، به عامل دستورالعمل‌های صریح بده» در زیر مراجعه کنید.


مهاجم ایمیلی برای شما ارسال کرده است که حاوی اطلاعات نادرستی است که مدل را فریب می‌دهد تا صورت‌حساب‌های بانکی شما را پیدا کرده و آن‌ها را با مهاجم به اشتراک بگذارد.

اگر حمله موفق شود، عامل ممکن است به دنبال هر چیزی مانند صورت‌حساب‌های بانکی در ایمیل شما (که برای انجام این کار به آن دسترسی داده‌اید) بگردد و آن‌ها را با مهاجم به اشتراک بگذارد.

رویکرد ما برای حفاظت از کاربران

دفاع در برابر تزریق اعلان مخرب یک چالش در سراسر صنعت هوش مصنوعی و یک تمرکز اصلی در OpenAI محسوب می‌شود. در حالی که انتظار داریم دشمنان به توسعه چنین حملاتی ادامه دهند، ما در حال ساخت دفاع‌هایی هستیم که به گونه‌ای طراحی شده‌اند که حتی وقتی کسی فعالانه تلاش می‌کند کاربر را گمراه کند، وظیفه مورد نظر کاربر را انجام دهند. آن قابلیت برای تحقق ایمن مزایای AGI ضروری است.

برای محافظت از کاربران‌مان و کمک به بهبود مدل‌هایمان در برابر این حملات، ما رویکردی چندلایه اتخاذ می‌کنیم که شامل موارد زیر است:

آموزش ایمنی

ما هوش مصنوعی‌ای می‌خواهیم که تزریق‌های اعلان مخرب را تشخیص دهد و فریب آن‌ها را نخورد. با این حال، مقاومت در برابر حملات خصمانه یک چالش دیرینه برای یادگیری ماشین و هوش مصنوعی است که این مسئله را به یک مشکل دشوار و حل‌نشده تبدیل می‌کند. ما پژوهشی با عنوان سلسله مراتب دستورالعمل توسعه داده‌ایم تا به‌سوی مدل‌هایی حرکت کنیم که بین دستورالعمل‌های معتبر و غیرمعتبر مورد اعتماد و غیرمورد اعتماد تمایز قائل شوند. ما به توسعه رویکردهای جدید برای آموزش مدل‌ها ادامه می‌دهیم تا الگوهای تزریق اعلان مخرب را بهتر تشخیص دهند و بتوانند آن‌ها را نادیده بگیرند یا به کاربران گزارش دهند. یکی از تکنیک‌هایی که به کار می‌بریم، تیم قرمز خودکار است؛ حوزه‌ای که سال‌هاست در حال مطالعه(در یک پنجره جدید باز می‌شود) آن هستیم، تا حملات جدید تزریق اعلان مخرب را توسعه دهیم.

نظارت

ما چندین پایشگر خودکار مبتنی بر هوش مصنوعی توسعه داده‌ایم تا حملات تزریق اعلان مخرب را شناسایی و مسدود کنیم. این‌ها رویکردهای آموزش ایمنی را تکمیل می‌کنند زیرا می‌توانند به‌سرعت به‌روزرسانی شوند تا هر حمله جدیدی را که کشف می‌کنیم، سریعاً مسدود کنند. این پایشگرها نه تنها به شناسایی حملات بالقوه تزریق اعلان مخرب علیه کاربران ما کمک می‌کنند، بلکه می‌توانند به ما امکان دهند پژوهش و آزمایش خصمانه تزریق اعلان مخرب را که با استفاده از پلتفرم ما انجام می‌شود، پیش از آنکه آن حملات در دنیای واقعی به کار گرفته شوند، شناسایی کنیم.

محافظت‌های امنیتی

ما محصولات و زیرساخت‌های خود را با لایه‌های مختلفی از حفاظت‌های امنیتی طراحی کرده‌ایم تا از داده‌های کاربران محافظت کنیم. این ویژگی‌ها که در پست‌های آینده با جزئیات فنی بیشتری بررسی خواهیم کرد، به‌صورت اختصاصی برای هر محصول تنظیم شده‌اند. برای مثال، برای کمک به شما در اجتناب از سایت‌های نامعتبر، از شما می‌خواهیم برخی لینک‌ها را در ChatGPT، به‌ویژه در وب‌سایت‌هایی که از ما می‌خواهند آن‌ها را فهرست نکنیم(در یک پنجره جدید باز می‌شود)، قبل از اینکه بتوانید از آن‌ها بازدید کنید، تأیید کنید. هنگامی که هوش مصنوعی ما از ابزارها برای اجرای برنامه‌ها یا کدهای دیگر استفاده می‌کند (مانند Canvas یا ابزار توسعه ما Codex)، از تکنیکی به نام سندباکسینگ استفاده می‌کنیم تا از ایجاد تغییرات مضر توسط مدل جلوگیری کنیم؛ تغییراتی که ممکن است نتیجه تزریق اعلان مخرب باشند.

به کاربران اختیار بدهید

ما در محصولات خود کنترل‌های داخلی را قرار می‌دهیم تا به کاربران کمک کنیم از خود محافظت کنند. برای مثال، در ChatGPT Atlas، می‌توانید حالت خروج از سیستم را انتخاب کنید که به عامل ChatGPT اجازه می‌دهد بدون ورود به سایت‌ها، وظایف را آغاز کند. عامل ChatGPT همچنین مکث می‌کند و قبل از انجام مراحل حساس مانند تکمیل خرید، تاییدیه می‌خواهد. هنگامی که عامل در سایت‌های حساس فعالیت می‌کند، ما همچنین یک «حالت نظارت» پیاده‌سازی کرده‌ایم که شما را از ماهیت حساس سایت آگاه می‌کند و نیاز دارد که تب را فعال نگه دارید تا بتوانید کار عامل را مشاهده کنید. عامل اگر از زبانه‌ای که اطلاعات حساس دارد خارج شوید، متوقف می‌شود. این تضمین می‌کند که شما آگاه بمانید—و کنترل اینکه عامل چه اقداماتی را انجام میدهد، در دست داشته باشید.

تیم قرمز

ما با تیم‌های داخلی و خارجی، عملیات تیم قرمز گسترده‌ای انجام می‌دهیم تا دفاع‌های خود را آزمایش و تقویت کنیم، رفتار مهاجمان را شبیه‌سازی کنیم و راه‌های جدیدی برای بهبود امنیت‌مان پیدا کنیم. این شامل هزاران ساعت کار است که به‌طور خاص بر تزریق اعلان مخرب متمرکز شده است. همان‌طور که تکنیک‌ها و حملات جدیدی را کشف کرده‌ایم، تیم‌های ما به‌طور پیشگیرانه آسیب‌پذیری‌های امنیتی را برطرف می‌کنند و بهبودهایی در کاهش‌دهنده‌های مدل ایجاد می‌کنند.

جایزه گزارش باگ

برای تشویق پژوهشگران مستقل امنیتی با حسن نیت به کمک به ما برای کشف تکنیک‌ها و حملات جدید تزریق اعلان مخرب، زمانی که آن‌ها یک مسیر حمله واقع‌بینانه را نشان دهند که می‌تواند به افشای ناخواسته داده‌های کاربر منجر شود، تحت برنامه باگ بانتی(در یک پنجره جدید باز می‌شود) خود پاداش‌های مالی ارائه می‌کنیم. ما به مشارکت‌کنندگان خارجی انگیزه می‌دهیم تا این مسائل را به‌سرعت مطرح کنند تا بتوانیم آن‌ها را حل کنیم و دفاع‌های خود را بیشتر تقویت کنیم.

به کاربران اجازه دهید تصمیم بگیرند

ما کاربران را از خطرات استفاده از برخی ویژگی‌ها در محصول آگاه می‌کنیم تا بتوانند تصمیمات آگاهانه‌ای بگیرند. برای مثال، هنگام اتصال ChatGPT به برنامه‌های دیگر، توضیح می‌دهیم که چه داده‌هایی ممکن است در دسترس قرار بگیرند، چگونه ممکن است از آن‌ها استفاده شود و چه خطراتی ممکن است به‌وجود آید—مانند اینکه سایتی تلاش کند داده‌های شما را سرقت کند—و همچنین لینکی برای یادگیری نحوهٔ ایمن‌تر ماندن ارائه می‌کنیم. ما همچنین به سازمان‌ها اختیار می‌دهیم که کدام ویژگی‌ها می‌توانند توسط کاربران در فضاهای کاری‌شان فعال یا استفاده شوند.

مراحلی ک می‌توانید برای ایمنی بیشتر طی کنید

تزریق اعلان مخرب یک چالش امنیتی پیشرو است که انتظار داریم با گذشت زمان به تکامل خود ادامه دهد. سطوح جدیدی از هوشمندی و توانمندی نیازمند آن است که فناوری، جامعه و استراتژی کاهش ریسک به طور همزمان تکامل یابند. و همان‌طور که در مورد ویروس‌های رایانه‌ای در اوایل دهه 2000 بود، فکر می‌کنیم مهم است که همه تهدید تزریق اعلان مخرب و نحوه مدیریت این خطر را درک کنند، تا همه بتوانیم یاد بگیریم چگونه از این فناوری به‌طور ایمن بهره‌مند شویم. آگاه بودن و احتیاط کردن به حفظ امنیت بیشتر داده‌های شما هنگام استفاده از هوش مصنوعی و ویژگی‌های عامل‌محور که می‌توانند به جای شما عمل کنند، کمک می‌کند.

از ویژگی‌های داخلی برای محدود کردن دسترسی به اطلاعات حساس استفاده کنید

در صورت امکان، دسترسی یک عامل را فقط به داده‌های حساس یا اعتبارنامه‌هایی که برای انجام وظیفه نیاز دارد محدود کنید. برای مثال، هنگام استفاده از حالت عامل در ChatGPT Atlas برای تحقیق درباره‌ی تعطیلات، اگر عامل فقط در حال تحقیق است و نیازی به دسترسی ورود به حساب ندارد، از حالت «خروج از حساب» استفاده کنید.

هنگامی که یک عامل درخواست تأیید می‌کند، با دقت بررسی کنید که آیا قرار است کار صحیحی انجام دهد

ما اغلب عامل‌ها را طوری طراحی می‌کنیم که قبل از انجام برخی اقدامات مهم مانند تکمیل خرید یا ارسال ایمیل، از شما تأیید نهایی بگیرند. هنگامی که یک عامل از شما می‌خواهد یک اقدام را تأیید کنید، با دقت بررسی کنید که اقدام درست به نظر می‌رسد و هر اطلاعاتی که به اشتراک گذاشته می‌شود، برای به اشتراک گذاشتن در آن زمینه مناسب است.

هنگامی که یک عامل در یک سایت حساس مانند بانک شما فعالیت می‌کند، نظارت بر عملکرد آن ضروری است. این مانند نظارت بر یک خودروی خودران است که دستانتان را روی فرمان نگه دارید.

در صورت امکان، به یک عامل دستورالعمل‌های واضح و مشخص بدهید

دادن یک دستورالعمل بسیار کلی به یک عامل هوش مصنوعی، مانند «ایمیل‌هایم را بررسی کن و هر اقدام لازم را انجام بده»، می‌تواند راه را برای گمراه کردن مدل توسط محتوای مخرب پنهان باز کند، حتی اگر مدل طوری طراحی شده باشد که قبل از انجام اقدامات حساس با شما تأیید بگیرد.

ایمن‌تر است که از عامل خود بخواهید کارهای مشخصی انجام دهد و به آن آزادی عمل گسترده‌ای ندهید تا احتمالاً دستورالعمل‌های مضر از منابع دیگر مانند ایمیل‌ها را دنبال کند. در حالی که این تضمین نمی‌کند که حمله‌ای رخ ندهد، اما موفقیت مهاجمان را دشوارتر می‌کند.

مطلع باشید و بهترین شیوه‌های امنیتی را رعایت کنید

با پیشرفت فناوری هوش مصنوعی، خطرات و تدابیر حفاظتی جدیدی ظهور خواهند کرد. به‌روزرسانی‌های OpenAI و منابع معتبر دیگر را دنبال کنید تا با بهترین شیوه‌ها آشنا شوید.

با نگاهی به آینده

تزریق اعلان مخرب همچنان یک مسئله پژوهشی پیشرو و چالش‌برانگیز است و درست مانند کلاهبرداری‌های سنتی در وب، انتظار داریم کار ما ادامه داشته باشد. در حالی که هنوز شاهد پذیرش گسترده این تکنیک توسط مهاجمان نبوده‌ایم، انتظار داریم که دشمنان زمان و منابع زیادی را صرف کنند تا راه‌هایی برای فریب هوش مصنوعی و گرفتار کردن آن در این حملات پیدا کنند. ما همچنان به سرمایه‌گذاری گسترده در ایمن‌سازی محصولاتمان و تحقیق برای تقویت مقاومت هوش مصنوعی در برابر این خطر ادامه می‌دهیم. ما به‌روزرسانی‌ها را به محض کسب اطلاعات بیشتر، از جمله پیشرفت‌های مداوم در کارهای امنیتی‌مان در این حوزه، به اشتراک خواهیم گذاشت. برای مثال، ما در حال تهیه گزارشی هستیم که به‌زودی منتشر خواهیم کرد و جزئیات بیشتری را درباره نحوه تشخیص ما از انتقال اطلاعات مکالمه شما توسط ارتباط هوش مصنوعی با اینترنت، به اشتراک می‌گذارد.

هدف ما این است که این سیستم‌ها را به اندازهٔ کار کردن با قابل‌اعتمادترین و آگاه‌ترین همکار یا دوست از نظر امنیت، مطمئن و ایمن کنیم. ما به یادگیری از استفاده در دنیای واقعی ادامه خواهیم داد، با ایمنی تکرار خواهیم کرد و هم‌زمان با پیشرفت فناوری، آنچه می‌آموزیم را منتشر خواهیم کرد.