درک تزریق اعلان مخرب: یک چالش امنیتی پیشرو
ابزارهای هوش مصنوعی در حال شروع به انجام کارهایی فراتر از پاسخ دادن به سوالات هستند. اکنون میتوانند وب را مرور کنند، در تحقیقات کمک کنند، سفرها را برنامهریزی کنند و در خرید محصولات یاری رسانند. با افزایش توانمندی آنها و قابلیت دسترسی به دادههای شما در برنامههای دیگر و انجام اقدامات به نمایندگی از شما، چالشهای امنیتی جدیدی ظهور میکنند. یکی از مواردی که ما بهشدت روی آن تمرکز داریم، تزریق اعلان مخرب است.
تزریق اعلان مخرب نوعی حمله مهندسی اجتماعی است که بهطور خاص برای هوش مصنوعی مکالمهای طراحی شده است. سیستمهای اولیه هوش مصنوعی مکالمات بین یک کاربر و یک عامل هوش مصنوعی بودند. در محصولات هوش مصنوعی امروزی، مکالمه شما ممکن است شامل محتوایی از منابع مختلف، از جمله اینترنت، باشد. ایده اینکه یک شخص ثالث (که نه کاربر است و نه هوش مصنوعی) میتواند با تزریق دستورالعملهای مخرب به زمینه گفتگو، مدل را گمراه کند، به اصطلاح «تزریق اعلان مخرب» منجر شد.
به همان شیوهای که ایمیلهای فیشینگ یا کلاهبرداریها در وب تلاش میکنند مردم را فریب دهند تا اطلاعات حساس را افشا کنند، تزریقهای اعلان تلاش میکنند هوشهای مصنوعی را فریب دهند تا کاری را انجام دهند که شما درخواست نکردهاید.
تصور کنید از یک هوش مصنوعی خواستهاید تا به شما در تحقیق آنلاین دربارهٔ تعطیلات کمک کند، و در حین انجام این کار با محتوای گمراهکننده یا دستورالعملهای مضر که در یک صفحهٔ وب پنهان شدهاند، مواجه میشود؛ مثلاً در یک نظر روی یک آگهی یا در یک نقد و بررسی. این محتوا ممکن است با دقت طراحی شده باشد تا هوش مصنوعی را فریب دهد و آن را به توصیهٔ فهرست نادرست وادار کند، یا بدتر از آن، اطلاعات کارت اعتباری شما را سرقت کند.
اینها تنها چند نمونه از حملات «تزریق اعلان مخرب» هستند—دستورالعملهای مخربی که برای فریب دادن یک هوش مصنوعی طراحی شدهاند تا کاری را انجام دهد که شما قصدش را نداشتید و اغلب در محتوای معمولی مانند یک صفحه وب، سند یا ایمیل پنهان میشوند.
این خطرات با افزایش دسترسی هوش مصنوعی به دادههای حساستر و بر عهده گرفتن ابتکار عمل بیشتر و وظایف طولانیتر افزایش مییابد.
خلاصه | آنچه از هوش مصنوعی خواستید انجام دهد | کاری که مهاجم انجام میدهد | نتیجه احتمالی در صورت موفقیتآمیز بودن حمله |
شما از یک هوش مصنوعی میخواهید تا درباره آپارتمانها تحقیق کند، و به آن تزریق اعلان مخرب میشود تا فهرستی را توصیه کند که بهترین گزینه برای شما نیست. | شما از یک هوش مصنوعی میخواهید که با معیارهای مشخصی، آپارتمانها را جستجو کند. | مهاجم یک حمله تزریق اعلان مخرب را در فهرست آپارتمان گنجانده است تا هوش مصنوعی را فریب دهد و آن را به این باور برساند که فهرست او باید بدون توجه به ترجیحات اعلامشده کاربر انتخاب شود. | اگر حمله موفقیتآمیز باشد، هوش مصنوعی ممکن است بهاشتباه یک فهرست آپارتمان کمتر از حد بهینه را بر اساس ترجیحات شما توصیه کند. |
شما از یک عامل هوش مصنوعی میخواهید که به ایمیلهای شب گذشته شما پاسخ دهد، و در نهایت صورتحسابهای بانکی شما را به اشتراک میگذارد. | شما از یک عامل هوش مصنوعی میخواهید که بهطور کلی به ایمیلهای شب گذشته شما پاسخ دهد، زیرا امروز صبح مشغول هستید. به بخش «در صورت امکان، به عامل دستورالعملهای صریح بده» در زیر مراجعه کنید. | مهاجم ایمیلی برای شما ارسال کرده است که حاوی اطلاعات نادرستی است که مدل را فریب میدهد تا صورتحسابهای بانکی شما را پیدا کرده و آنها را با مهاجم به اشتراک بگذارد. | اگر حمله موفق شود، عامل ممکن است به دنبال هر چیزی مانند صورتحسابهای بانکی در ایمیل شما (که برای انجام این کار به آن دسترسی دادهاید) بگردد و آنها را با مهاجم به اشتراک بگذارد. |
دفاع در برابر تزریق اعلان مخرب یک چالش در سراسر صنعت هوش مصنوعی و یک تمرکز اصلی در OpenAI محسوب میشود. در حالی که انتظار داریم دشمنان به توسعه چنین حملاتی ادامه دهند، ما در حال ساخت دفاعهایی هستیم که به گونهای طراحی شدهاند که حتی وقتی کسی فعالانه تلاش میکند کاربر را گمراه کند، وظیفه مورد نظر کاربر را انجام دهند. آن قابلیت برای تحقق ایمن مزایای AGI ضروری است.
برای محافظت از کاربرانمان و کمک به بهبود مدلهایمان در برابر این حملات، ما رویکردی چندلایه اتخاذ میکنیم که شامل موارد زیر است:
ما هوش مصنوعیای میخواهیم که تزریقهای اعلان مخرب را تشخیص دهد و فریب آنها را نخورد. با این حال، مقاومت در برابر حملات خصمانه یک چالش دیرینه برای یادگیری ماشین و هوش مصنوعی است که این مسئله را به یک مشکل دشوار و حلنشده تبدیل میکند. ما پژوهشی با عنوان سلسله مراتب دستورالعمل توسعه دادهایم تا بهسوی مدلهایی حرکت کنیم که بین دستورالعملهای معتبر و غیرمعتبر مورد اعتماد و غیرمورد اعتماد تمایز قائل شوند. ما به توسعه رویکردهای جدید برای آموزش مدلها ادامه میدهیم تا الگوهای تزریق اعلان مخرب را بهتر تشخیص دهند و بتوانند آنها را نادیده بگیرند یا به کاربران گزارش دهند. یکی از تکنیکهایی که به کار میبریم، تیم قرمز خودکار است؛ حوزهای که سالهاست در حال مطالعه(در یک پنجره جدید باز میشود) آن هستیم، تا حملات جدید تزریق اعلان مخرب را توسعه دهیم.
ما چندین پایشگر خودکار مبتنی بر هوش مصنوعی توسعه دادهایم تا حملات تزریق اعلان مخرب را شناسایی و مسدود کنیم. اینها رویکردهای آموزش ایمنی را تکمیل میکنند زیرا میتوانند بهسرعت بهروزرسانی شوند تا هر حمله جدیدی را که کشف میکنیم، سریعاً مسدود کنند. این پایشگرها نه تنها به شناسایی حملات بالقوه تزریق اعلان مخرب علیه کاربران ما کمک میکنند، بلکه میتوانند به ما امکان دهند پژوهش و آزمایش خصمانه تزریق اعلان مخرب را که با استفاده از پلتفرم ما انجام میشود، پیش از آنکه آن حملات در دنیای واقعی به کار گرفته شوند، شناسایی کنیم.
ما محصولات و زیرساختهای خود را با لایههای مختلفی از حفاظتهای امنیتی طراحی کردهایم تا از دادههای کاربران محافظت کنیم. این ویژگیها که در پستهای آینده با جزئیات فنی بیشتری بررسی خواهیم کرد، بهصورت اختصاصی برای هر محصول تنظیم شدهاند. برای مثال، برای کمک به شما در اجتناب از سایتهای نامعتبر، از شما میخواهیم برخی لینکها را در ChatGPT، بهویژه در وبسایتهایی که از ما میخواهند آنها را فهرست نکنیم(در یک پنجره جدید باز میشود)، قبل از اینکه بتوانید از آنها بازدید کنید، تأیید کنید. هنگامی که هوش مصنوعی ما از ابزارها برای اجرای برنامهها یا کدهای دیگر استفاده میکند (مانند Canvas یا ابزار توسعه ما Codex)، از تکنیکی به نام سندباکسینگ استفاده میکنیم تا از ایجاد تغییرات مضر توسط مدل جلوگیری کنیم؛ تغییراتی که ممکن است نتیجه تزریق اعلان مخرب باشند.
ما در محصولات خود کنترلهای داخلی را قرار میدهیم تا به کاربران کمک کنیم از خود محافظت کنند. برای مثال، در ChatGPT Atlas، میتوانید حالت خروج از سیستم را انتخاب کنید که به عامل ChatGPT اجازه میدهد بدون ورود به سایتها، وظایف را آغاز کند. عامل ChatGPT همچنین مکث میکند و قبل از انجام مراحل حساس مانند تکمیل خرید، تاییدیه میخواهد. هنگامی که عامل در سایتهای حساس فعالیت میکند، ما همچنین یک «حالت نظارت» پیادهسازی کردهایم که شما را از ماهیت حساس سایت آگاه میکند و نیاز دارد که تب را فعال نگه دارید تا بتوانید کار عامل را مشاهده کنید. عامل اگر از زبانهای که اطلاعات حساس دارد خارج شوید، متوقف میشود. این تضمین میکند که شما آگاه بمانید—و کنترل اینکه عامل چه اقداماتی را انجام میدهد، در دست داشته باشید.
ما با تیمهای داخلی و خارجی، عملیات تیم قرمز گستردهای انجام میدهیم تا دفاعهای خود را آزمایش و تقویت کنیم، رفتار مهاجمان را شبیهسازی کنیم و راههای جدیدی برای بهبود امنیتمان پیدا کنیم. این شامل هزاران ساعت کار است که بهطور خاص بر تزریق اعلان مخرب متمرکز شده است. همانطور که تکنیکها و حملات جدیدی را کشف کردهایم، تیمهای ما بهطور پیشگیرانه آسیبپذیریهای امنیتی را برطرف میکنند و بهبودهایی در کاهشدهندههای مدل ایجاد میکنند.
برای تشویق پژوهشگران مستقل امنیتی با حسن نیت به کمک به ما برای کشف تکنیکها و حملات جدید تزریق اعلان مخرب، زمانی که آنها یک مسیر حمله واقعبینانه را نشان دهند که میتواند به افشای ناخواسته دادههای کاربر منجر شود، تحت برنامه باگ بانتی(در یک پنجره جدید باز میشود) خود پاداشهای مالی ارائه میکنیم. ما به مشارکتکنندگان خارجی انگیزه میدهیم تا این مسائل را بهسرعت مطرح کنند تا بتوانیم آنها را حل کنیم و دفاعهای خود را بیشتر تقویت کنیم.
ما کاربران را از خطرات استفاده از برخی ویژگیها در محصول آگاه میکنیم تا بتوانند تصمیمات آگاهانهای بگیرند. برای مثال، هنگام اتصال ChatGPT به برنامههای دیگر، توضیح میدهیم که چه دادههایی ممکن است در دسترس قرار بگیرند، چگونه ممکن است از آنها استفاده شود و چه خطراتی ممکن است بهوجود آید—مانند اینکه سایتی تلاش کند دادههای شما را سرقت کند—و همچنین لینکی برای یادگیری نحوهٔ ایمنتر ماندن ارائه میکنیم. ما همچنین به سازمانها اختیار میدهیم که کدام ویژگیها میتوانند توسط کاربران در فضاهای کاریشان فعال یا استفاده شوند.
تزریق اعلان مخرب یک چالش امنیتی پیشرو است که انتظار داریم با گذشت زمان به تکامل خود ادامه دهد. سطوح جدیدی از هوشمندی و توانمندی نیازمند آن است که فناوری، جامعه و استراتژی کاهش ریسک به طور همزمان تکامل یابند. و همانطور که در مورد ویروسهای رایانهای در اوایل دهه 2000 بود، فکر میکنیم مهم است که همه تهدید تزریق اعلان مخرب و نحوه مدیریت این خطر را درک کنند، تا همه بتوانیم یاد بگیریم چگونه از این فناوری بهطور ایمن بهرهمند شویم. آگاه بودن و احتیاط کردن به حفظ امنیت بیشتر دادههای شما هنگام استفاده از هوش مصنوعی و ویژگیهای عاملمحور که میتوانند به جای شما عمل کنند، کمک میکند.
در صورت امکان، دسترسی یک عامل را فقط به دادههای حساس یا اعتبارنامههایی که برای انجام وظیفه نیاز دارد محدود کنید. برای مثال، هنگام استفاده از حالت عامل در ChatGPT Atlas برای تحقیق دربارهی تعطیلات، اگر عامل فقط در حال تحقیق است و نیازی به دسترسی ورود به حساب ندارد، از حالت «خروج از حساب» استفاده کنید.
ما اغلب عاملها را طوری طراحی میکنیم که قبل از انجام برخی اقدامات مهم مانند تکمیل خرید یا ارسال ایمیل، از شما تأیید نهایی بگیرند. هنگامی که یک عامل از شما میخواهد یک اقدام را تأیید کنید، با دقت بررسی کنید که اقدام درست به نظر میرسد و هر اطلاعاتی که به اشتراک گذاشته میشود، برای به اشتراک گذاشتن در آن زمینه مناسب است.
هنگامی که یک عامل در یک سایت حساس مانند بانک شما فعالیت میکند، نظارت بر عملکرد آن ضروری است. این مانند نظارت بر یک خودروی خودران است که دستانتان را روی فرمان نگه دارید.
دادن یک دستورالعمل بسیار کلی به یک عامل هوش مصنوعی، مانند «ایمیلهایم را بررسی کن و هر اقدام لازم را انجام بده»، میتواند راه را برای گمراه کردن مدل توسط محتوای مخرب پنهان باز کند، حتی اگر مدل طوری طراحی شده باشد که قبل از انجام اقدامات حساس با شما تأیید بگیرد.
ایمنتر است که از عامل خود بخواهید کارهای مشخصی انجام دهد و به آن آزادی عمل گستردهای ندهید تا احتمالاً دستورالعملهای مضر از منابع دیگر مانند ایمیلها را دنبال کند. در حالی که این تضمین نمیکند که حملهای رخ ندهد، اما موفقیت مهاجمان را دشوارتر میکند.
با پیشرفت فناوری هوش مصنوعی، خطرات و تدابیر حفاظتی جدیدی ظهور خواهند کرد. بهروزرسانیهای OpenAI و منابع معتبر دیگر را دنبال کنید تا با بهترین شیوهها آشنا شوید.
تزریق اعلان مخرب همچنان یک مسئله پژوهشی پیشرو و چالشبرانگیز است و درست مانند کلاهبرداریهای سنتی در وب، انتظار داریم کار ما ادامه داشته باشد. در حالی که هنوز شاهد پذیرش گسترده این تکنیک توسط مهاجمان نبودهایم، انتظار داریم که دشمنان زمان و منابع زیادی را صرف کنند تا راههایی برای فریب هوش مصنوعی و گرفتار کردن آن در این حملات پیدا کنند. ما همچنان به سرمایهگذاری گسترده در ایمنسازی محصولاتمان و تحقیق برای تقویت مقاومت هوش مصنوعی در برابر این خطر ادامه میدهیم. ما بهروزرسانیها را به محض کسب اطلاعات بیشتر، از جمله پیشرفتهای مداوم در کارهای امنیتیمان در این حوزه، به اشتراک خواهیم گذاشت. برای مثال، ما در حال تهیه گزارشی هستیم که بهزودی منتشر خواهیم کرد و جزئیات بیشتری را درباره نحوه تشخیص ما از انتقال اطلاعات مکالمه شما توسط ارتباط هوش مصنوعی با اینترنت، به اشتراک میگذارد.
هدف ما این است که این سیستمها را به اندازهٔ کار کردن با قابلاعتمادترین و آگاهترین همکار یا دوست از نظر امنیت، مطمئن و ایمن کنیم. ما به یادگیری از استفاده در دنیای واقعی ادامه خواهیم داد، با ایمنی تکرار خواهیم کرد و همزمان با پیشرفت فناوری، آنچه میآموزیم را منتشر خواهیم کرد.


