۷ نومبر، ۲۰۲۵

پرومپٹ انجیکشن کو سمجھنا: جدید ترین سیکیورٹی کا ایک چیلنج

AI ٹولز سوالات کے جواب دینے کے علاوہ مزید کام انجام دینا شروع کر رہے ہیں. اب وہ ویب براؤز کر سکتے ہیں، تحقیق میں مدد کر سکتے ہیں، سفر کی منصوبہ بندی کر سکتے ہیں اور مصنوعات خریدنے میں مدد کر سکتے ہیں. جب وہ دیگر ایپس میں آپ کے ڈیٹا تک رسائی حاصل کرنے اور آپ کی طرف سے کارروائی کرنے کی صلاحیت کے ساتھ زیادہ قابل ہوتے جاتے ہیں، تو نئے سیکیورٹی چیلنجز سامنے آتے ہیں. ایک چیز جس پر ہم خاص توجہ دے رہے ہیں وہ پرومپٹ انجیکشن ہے.

ایک ڈایاگرام جو یہ دکھاتی ہے کہ پرومپٹ انجیکشن حملہ کیسے کام کرتا ہے. بائیں طرف، مسکراتے ہوئے صارف کے آئیکن پر "صارف AI سے کسی کام میں مدد مانگتا ہے" کا لیبل لگا ہوا ہے. ایک تیر مرکز کی طرف اشارہ کرتا ہے جہاں کمپیوٹر اسکرین کے آئیکن پر "AI حملے کے ساتھ ایک ویب سائٹ دیکھتا ہے" کا لیبل لگا ہے اور اس کے اوپر ٹوپی اور مسکراہٹ والی ایک چھوٹی شکل پر "حملہ آور نے پرومپٹ انجیکشن داخل کیا" کا لیبل لگا ہوا ہے. ایک اور تیر دائیں طرف جاتا ہے جو ایک دستاویز آئیکن دکھاتا ہے جس پر ایک وارننگ مثلث ہے اور اس پر "AI کو غیر ارادی عمل میں دھوکہ دیا گیا" کا لیبل لگا ہوا ہے. یہ فلو ظاہر کرتا ہے کہ کس طرح ایک حملہ آور انجیکٹ کردہ پرومپٹس کے ذریعے AI کو کنٹرول کر سکتا ہے.

پرومپٹ انجیکشن کیا ہوتا ہے؟

پرومپٹ انجیکشن ایک قسم کا سوشل انجینئرنگ حملہ ہے جو خاص طور پر گفتگو پر مبنی AI کے لیے ہوتا ہے. ابتدائی AI سسٹمز میں ایک صارف اور ایک AI ایجنٹ کے درمیان گفتگو ہوتی تھی. آج کی AI مصنوعات میں، آپ کی گفتگو میں کئی ذرائع سے مواد شامل ہو سکتا ہے، بشمول انٹرنیٹ. یہ تصور کہ کوئی تیسرا فریق (جو نہ صارف ہے اور نہ AI) گفتگو کے سیاق و سباق میں بدنیتی پر مبنی ہدایات داخل کر کے ماڈل کو گمراہ کر سکتا ہے، اصطلاح 'پرومپٹ انجیکشن' کا باعث بنا ہے.

جس طرح فشنگ ای میلز یا ویب پر موجود دھوکے لوگوں کو حساس معلومات ظاہر کرنے کے لیے بہکانے کی کوشش کرتے ہیں، اسی طرح پرومپٹ انجیکشن مصنوعی ذہانت کو ایسا کچھ کرنے کے لیے بہکانے کی کوشش کرتے ہیں جو آپ نے نہیں کہا ہوتا.

تصور کریں کہ آپ نے ایک AI سے کہا ہے کہ وہ آپ کی چھٹیوں کے لیے آن لائن کچھ تحقیق میں مدد کرے اور جب وہ ایسا کر رہا ہو تو اسے کسی ویب صفحے پر چھپایا گیا گمراہ کن مواد یا نقصان دہ ہدایات مل جائیں، جیسے کسی لسٹنگ پر تبصرے میں یا کسی جائزے میں. مواد کو احتیاط سے تیار کیا جا سکتا ہے تاکہ AI کو دھوکہ دے کر غلط لسٹنگ کی سفارش کی جا سکے، یا اس سے بھی بدتر، آپ کے کریڈٹ کارڈ کی معلومات چوری کی جا سکیں.

یہ "پرومپٹ انجیکشن" حملوں کی چند مثالیں ہیں—نقصان دہ ہدایات جو AI کو دھوکہ دے کر غیر ارادی کام کروانے کے لیے بنائی جاتی ہیں، جو اکثر ویب صفحہ، دستاویز، یا ای میل جیسے عام مواد میں چھپی ہوتی ہیں.

یہ خطرات بڑھ جاتے ہیں جب AI کو زیادہ حساس ڈیٹا تک رسائی ملتی ہے اور وہ زیادہ پہل کرتے ہیں اور طویل تر کام انجام دیتے ہیں.

خلاصہ

آپ نے AI کو کیا کرنے کا کہا ہے

حملہ آور کیا کرتا ہے

ممکنہ نتیجہ اگر حملہ کامیاب ہوتا ہے

آپ ایک AI کو اپارٹمنٹس کی تحقیق کرنے کا کہتے ہیں اور اسے پرومپٹ انجیکشن کے ذریعے متاثر کیا جاتا ہے تاکہ وہ ایسی لسٹنگ کی سفارش کرے جو آپ کے لیے بہترین انتخاب نہ ہو.

آپ AI کو کچھ مخصوص معیار کے ساتھ اپارٹمنٹس کی تحقیق کرنے کا کہتے ہیں.

حملہ آور نے اپارٹمنٹ کی فہرست میں ایک پرومپٹ انجیکشن حملہ شامل کیا ہے تاکہ AI کو یہ یقین دلایا جا سکے کہ صارف کی بیان کردہ ترجیحات سے قطع نظر اس کی فہرست کو منتخب کیا جانا چاہیے.

اگر حملہ کامیاب ہو جائے تو AI آپ کی ترجیحات کی بنیاد پر غلط طور پر ایک غیر موزوں اپارٹمنٹ لسٹنگ کی سفارش کر سکتا ہے.

آپ ایک AI ایجنٹ کو کہتے ہیں کہ وہ رات بھر کی آپ کی ای میلز کا جواب دے اور وہ آپ کی بینک اسٹیٹمنٹس شیئر کر دیتا ہے.

آپ ایک AI ایجنٹ سے کہتے ہیں کہ وہ رات بھر کی آپ کی ای میلز کا عمومی جواب دے کیونکہ آپ آج صبح مصروف ہیں.

ذیل میں "جب ممکن ہو، ایجنٹ کو واضح ہدایات دیں" دیکھیں

حملہ آور نے آپ کو ایک ای میل بھیجی جس میں غلط معلومات شامل ہیں جو ماڈل کو دھوکہ دے کر آپ کی بینک اسٹیٹمنٹس تلاش کرنے اور انہیں حملہ آور کے ساتھ شیئر کرنے پر اکساتی ہے.

اگر حملہ کامیاب ہو جاتا ہے، تو ایجنٹ آپ کی ای میل میں (جس تک آپ نے کام کے لیے رسائی دی تھی) بینک اسٹیٹمنٹس جیسی کسی بھی چیز کو تلاش کر سکتا اور حملہ آور کے ساتھ ان کا اشتراک کر سکتا ہے.

صارفین کی حفاظت کے لیے ہمارا طریقہ کار

پرومپٹ انجیکشن کے خلاف دفاع AI صنعت میں ایک چیلنج ہے اور OpenAI میں ایک اہم توجہ کا مرکز ہے. جبکہ ہم توقع کرتے ہیں کہ مخالفین ایسے حملے تیار کرتے رہیں گے، ہم ایسے دفاع بنا رہے ہیں جو صارف کے مطلوبہ کام کو انجام دینے کے لیے تیار کیے گئے ہیں، یہاں تک کہ جب کوئی شخص انہیں فعال طور پر گمراہ کرنے کی کوشش کر رہا ہو. یہ صلاحیت AGI کے فوائد کو محفوظ طریقے سے حاصل کرنے کے لئے لازمی ہے.

ہم اپنے صارفین کی حفاظت کے لیے اور ان حملوں کے خلاف اپنے ماڈلز کو بہتر بنانے میں مدد کے لیے، ایک کثیر سطحی حکمت عملی اپناتے ہیں، جس میں درج ذیل شامل ہیں:

حفاظت کی تربیت

ہم ایسا AI چاہتے ہیں جو پرومپٹ انجیکشنز کو پہچانے اور ان کے جھانسے میں نہ آئے. تاہم، مخالفانہ حملوں کے خلاف مضبوطی مشین لرننگ اور AI کے لیے ایک دیرینہ چیلنج ہے، جو اسے ایک مشکل اور حل طلب مسئلہ بناتا ہے. ہم نے ہدایات کی درجہ بندی⁠ کے نام سے ایک تحقیق تیار کی ہے تاکہ ماڈلز کو قابلِ اعتماد اور ناقابلِ اعتماد ہدایات کے درمیان فرق کرنے کے قابل بنایا جا سکے. ہم ماڈلز کو تربیت دینے کے لیے نئے طریقے تیار کرتے رہتے ہیں تاکہ وہ پرومپٹ انجیکشن کے پیٹرنز کو بہتر طور پر پہچان سکیں اور انہیں نظر انداز کر سکیں یا صارفین کو ان کے بارے میں خبردار کر سکیں. ہم جو تکنیکیں استعمال کرتے ہیں ان میں سے ایک خودکار ریڈ ٹیمنگ ہے، ایک ایسا شعبہ جس کا ہم برسوں سے مطالعہ⁠(نئی ونڈو میں کھلتا ہے) کر رہے ہیں، تاکہ نئے پرومپٹ انجیکشن حملے تیار کیے جا سکیں.

مانیٹرنگ

ہم نے پرومپٹ انجیکشن حملوں کی شناخت اور انہیں بلاک کرنے کے لیے متعدد خودکار AI سے چلنے والے مانیٹرز⁠ تیار کیے ہیں. یہ حفاظتی تربیتی طریقوں کی تکمیل کرتے ہیں کیونکہ انہیں تیزی سے اپ ڈیٹ کیا جا سکتا ہے تاکہ ہم دریافت کردہ کسی بھی نئے حملے کو فوری طور پر روکا جا سکے. یہ مانیٹر نہ صرف ہمارے صارفین کے خلاف ممکنہ پرومپٹ انجیکشن حملوں کی شناخت میں مدد کرتے ہیں بلکہ یہ ہمیں اپنے پلیٹ فارم کا استعمال کرتے ہوئے مخالفانہ پرومپٹ انجیکشن تحقیق اور جانچ کو بھی پکڑنے میں مدد دے سکتے ہیں، اس سے پہلے کہ وہ حملے حقیقی دنیا میں نافذ کیے جائیں.

تحفظات برائے سیکیورٹی

ہم نے اپنی پروڈکٹس اور انفراسٹرکچر کو مختلف اوورلیپنگ سیکیورٹی پروٹیکشنز کے ساتھ ڈیزائن کیا ہے تاکہ صارف کے ڈیٹا کی حفاظت میں مدد مل سکے. یہ خصوصیات، جنہیں ہم مستقبل کی پوسٹس میں مزید تکنیکی تفصیل سے دیکھیں گے، ہر پروڈکٹ کے لحاظ سے مخصوص کی گئی ہیں. مثال کے طور پر، آپ کو غیر معتبر سائٹس سے بچانے کے لیے، ہم آپ سے ChatGPT میں کچھ لنکس کی منظوری طلب کریں گے، خاص طور پر وہ ویب سائٹس جو ہم سے درخواست کرتی ہیں کہ ہم انہیں کیٹلاگ نہ کریں⁠(نئی ونڈو میں کھلتا ہے)، اس سے پہلے کہ ان تک رسائی حاصل کی جا سکے. جب ہماری AI دوسرے پروگرام یا کوڈ چلانے کے لیے ٹولز استعمال کرتی ہے (جیسے Canvas یا ہمارے ترقیاتی ٹول Codex میں)، تو ہم ایک تکنیک استعمال کرتے ہیں جسے سینڈ باکسنگ کہا جاتا ہے تاکہ ماڈل کو نقصان دہ تبدیلیاں کرنے سے روکا جا سکے جو پرومپٹ انجیکشن کے نتیجے میں پیدا ہو سکتی ہیں.

صارفین کو اختیار دیں

ہم اپنے پروڈکٹس میں در ساختہ کنٹرولز شامل کرتے ہیں تاکہ صارفین اپنی حفاظت کر سکیں. مثال کے طور پر، ChatGPT Atlas میں، آپ لاگ آؤٹ موڈ منتخب کر سکتے ہیں جو ChatGPT ایجنٹ کو سائٹس پر لاگ ان کیے بغیر کام شروع کرنے کی اجازت دیتا ہے. ChatGPT ایجنٹ حساس اقدامات جیسے خریداری مکمل کرنے سے پہلے رُک کر تصدیق طلب کرتا ہے. جب ایجنٹ حساس سائٹس پر کام کر رہا ہو، تو ہم نے ایک "واچ موڈ" بھی نافذ کیا ہے جو آپ کو سائٹ کی حساس نوعیت سے آگاہ کرتا ہے اور اس کے لیے ضروری ہے کہ آپ ٹیب کو فعال رکھیں تاکہ آپ ایجنٹ کو اپنا کام کرتے ہوئے دیکھ سکیں. ایجنٹ حساس معلومات والے ٹیب سے دور جانے پر رُک جائے گا. یہ یقینی بناتا ہے کہ آپ باخبر رہیں—اور کنٹرول میں رہیں—کہ ایجنٹ کون سے اقدامات انجام دے رہا ہے.

ریڈ ٹیمنگ

ہم اپنی دفاعی صلاحیتوں کی جانچ کرنے اور بہتر بنانے، حملہ آور کے رویّے کی نقل کرنے اور اپنی سیکیورٹی کو بہتر بنانے کے نئے طریقے تلاش کرنے کے لیے داخلی اور بیرونی ٹیموں کے ساتھ وسیع پیمانے پر ریڈ ٹیمنگ کرتے ہیں. اس میں ہزاروں گھنٹے شامل ہیں جو خاص طور پر پرومپٹ انجیکشن پر مرکوز ہیں. جب ہم نئی تکنیکیں اور حملے دریافت کرتے ہیں، تو ہماری ٹیمیں سیکیورٹی کی کمزوریوں کو پیشگی طور پر حل کرتی ہیں اور ہمارے ماڈل کی تخفیفی تدابیر کو بہتر بناتی ہیں.

بگ باؤنٹی

نیک نیتی کے ساتھ کام کرنے والے آزاد سیکیورٹی محققین کی حوصلہ افزائی کے لیے کہ وہ ہمیں نئی پرومپٹ انجیکشن تکنیکیں اور حملے دریافت کرنے میں مدد کریں، ہم اپنے بگ باؤنٹی پروگرام⁠(نئی ونڈو میں کھلتا ہے) کے تحت مالی انعامات پیش کرتے ہیں جب وہ ایک حقیقت پسندانہ حملے کا راستہ دکھاتے ہیں جو غیر ارادی صارف ڈیٹا کی نمائش کا سبب بن سکتا ہے. ہم بیرونی تعاون کنندگان کو ترغیب دیتے ہیں کہ وہ ان مسائل کو جلدی سے سامنے لائیں تاکہ ہم انہیں حل کر سکیں اور اپنے دفاع کو مزید مضبوط بنا سکیں.

صارفین کو خود فیصلہ کرنے دیں

ہم صارفین کو پروڈکٹ کی بعض خصوصیات کے استعمال کے خطرات سے آگاہ کرتے ہیں تاکہ وہ باخبر فیصلے کر سکیں. مثال کے طور پر، جب ChatGPT کو دیگر ایپس سے منسلک کیا جاتا ہے، تو ہم وضاحت کرتے ہیں کہ کون سے ڈیٹا تک رسائی حاصل کی جا سکتی ہے، اسے کس طرح استعمال کیا جا سکتا ہے اور کون سے خطرات پیدا ہو سکتے ہیں جیسا کہ کوئی سائٹ آپ کا ڈیٹا چرانے کی کوشش کرے، نیز زیادہ محفوظ رہنے کا طریقہ جاننے کے لیے ایک لنک بھی فراہم کرتے ہیں. ہم تنظیموں کو یہ اختیار بھی دیتے ہیں کہ وہ فیصلہ کریں کہ ان کے ورک اسپیسز میں صارفین کون سی خصوصیات کو فعال یا استعمال کر سکتے ہیں.

محفوظ رہنے کے لیے آپ جو اقدامات کر سکتے ہیں

پرومپٹ انجیکشن ایک جدید ترین سیکیورٹی چیلنج ہے جس کے بارے میں ہم توقع کرتے ہیں کہ یہ وقت کے ساتھ ساتھ ترقی کرتا رہے گا. نئی سطحوں کی ذہانت اور صلاحیت کے لیے ضروری ہے کہ ٹیکنالوجی، معاشرہ اور خطرے کی تخفیف کی حکمت عملی ہم آہنگی سے ارتقاء پذیر ہوں. اور جیسے 2000 کی دہائی کے اوائل میں کمپیوٹر وائرسز کے ساتھ تھا، ہم سمجھتے ہیں کہ ہر کسی کے لیے پرومپٹ انجیکشنز کے خطرے کو سمجھنا اور اس خطرے سے نمٹنے کا طریقہ جاننا اہم ہے، تاکہ ہم سب اس ٹیکنالوجی سے محفوظ طریقے سے فائدہ اٹھانا سیکھ سکیں. باخبر رہنا اور محتاط رہنا، AI اور ایجنٹک فیچرز استعمال کرتے وقت آپ کے ڈیٹا کو زیادہ محفوظ رکھنے میں مدد کرتا ہے جو آپ کی طرف سے کارروائی کر سکتے ہیں.

حساس ڈیٹا تک رسائی کو محدود کرنے کے لیے در ساختہ خصوصیات کا استعمال کریں

جہاں ممکن ہو، ایجنٹ کی رسائی کو صرف ان حساس ڈیٹا یا اسناد تک محدود کریں جن کی اسے کام مکمل کرنے کے لیے ضرورت ہے. مثال کے طور پر، جب ChatGPT Atlas میں چھٹیوں کی تحقیق کے لیے ایجنٹ موڈ استعمال کیا جائے، اگر ایجنٹ صرف تحقیق کر رہا ہو اور اسے لاگ ان رسائی کی ضرورت نہ ہو، تو "لاگڈ آؤٹ" موڈ استعمال کریں.

جب کوئی ایجنٹ تصدیق طلب کرے، تو احتیاط سے جائزہ لیں کہ وہ صحیح کام کرنے والا ہے

ہم اکثر ایجنٹس کو اس طرح ڈیزائن کرتے ہیں کہ وہ خریداری مکمل کرنے یا ای میل بھیجنے جیسی کچھ اہم نوعیت کی کارروائیاں کرنے سے پہلے آپ سے آخری تصدیق حاصل کریں. جب کوئی ایجنٹ آپ سے کسی عمل کی تصدیق کرنے کا کہے، تو احتیاط سے یہ پڑتال کر لیں کہ عمل درست نظر آتا ہے اور جو معلومات شیئر کی جا رہی ہیں وہ اس سیاق و سباق میں شیئر کرنے کے لیے مناسب ہیں یا نہیں.

جب کوئی ایجنٹ کسی حساس سائٹ پر کام کر رہا ہو، جیسے کہ آپ کا بینک، تو ایجنٹ کو اپنا کام کرتے ہوئے دیکھیں. یہ اپنے ہاتھ اسٹیئرنگ پر رکھ کر خودکار گاڑی کی نگرانی کرنے کی طرح ہے.

جب ممکن ہو، ایجنٹ کو واضح ہدایات فراہم کریں

کسی ایجنٹ کو "میری ای میلز کا جائزہ لیں اور جو بھی کارروائی ضروری ہو وہ کریں" جیسی بہت وسیع ہدایت دینا مخفی بدنیتی پر مبنی مواد کے لیے ماڈل کو گمراہ کرنا آسان بنا سکتا ہے، حالانکہ ایسی حساس کارروائیاں کرنے سے پہلے آپ سے تصدیق کرنے کے لیے ڈیزائن کیا گیا ہے.

یہ زیادہ محفوظ ہے کہ آپ اپنے ایجنٹ سے مخصوص کام کرنے کو کہیں اور اسے وسیع گنجائش نہ دیں کہ وہ ممکنہ طور پر کہیں اور سے، جیسے ای میلز، نقصان دہ ہدایات پر عمل کرے. اگرچہ یہ ضمانت نہیں دیتا کہ حملے نہیں ہوں گے، لیکن یہ حملہ آوروں کے لیے کامیابی حاصل کرنا مشکل بنا دیتا ہے.

باخبر رہیں اور سیکیورٹی کے بہترین طریقوں کو فالو کریں

جیسے جیسے AI ٹیکنالوجی ترقی کرتی ہے، نئے خطرات اور حفاظتی اقدامات سامنے آئیں گے. بہترین طریقوں کے بارے میں جاننے کے لیے OpenAI اور دیگر قابل اعتماد ذرائع سے اپ ڈیٹس کی پیروی کریں.

مستقبل کی طرف دیکھتے ہوئے

پرومپٹ انجیکشن ایک جدید ترین، چیلنجنگ تحقیقی مسئلہ بنا ہوا ہے اور بالکل ویب پر روایتی دھوکہ دہی کی طرح، ہم توقع کرتے ہیں کہ ہمارا کام جاری رہے گا. اگرچہ ہم نے ابھی تک حملہ آوروں کی جانب سے اس تکنیک کو نمایاں طور پر اپناتے ہوئے نہیں دیکھا، ہم توقع کرتے ہیں کہ مخالفین AI کو ان حملوں کے جھانسے میں لانے کے طریقے تلاش کرنے کے لیے خاطرخواہ وقت اور وسائل صرف کریں گے. ہم اپنی مصنوعات کو محفوظ بنانے اور اس خطرے کے خلاف AI کی مضبوطی کو بڑھانے کے لیے تحقیق میں بھاری سرمایہ کاری جاری رکھے ہوئے ہیں. ہم جیسے جیسے مزید جانیں گے، اپ ڈیٹس، بشمول اس شعبے میں ہمارے سیکیورٹی کام کی جاری پیش رفت کا اشتراک کریں گے. مثال کے طور پر، ہم ایک رپورٹ تیار کر رہے ہیں جسے ہم جلد شائع کریں گے، جس میں اس بارے میں مزید تفصیلات فراہم کی جائیں گی کہ ہم کیسے پتہ لگاتے ہیں کہ آیا انٹرنیٹ کے ساتھ آپ کے AI کی مواصلت آپ کی گفتگو سے معلومات منتقل کرتی ہے.

ہمارا مقصد یہ ہے کہ ان نظاموں کو اتنا ہی قابل اعتماد اور محفوظ بنایا جائے جتنا آپ اپنے سب سے قابل بھروسہ اور سیکیورٹی سے آگاہ ساتھی یا دوست کے ساتھ کام کرتے ہیں. ہم حقیقی دنیا کے استعمال سے سیکھتے رہیں گے، محفوظ طریقے سے تکرار کریں گے اور جیسے جیسے ٹیکنالوجی ترقی کرتی ہے، ہم اپنی سیکھ کو شائع کرتے رہیں گے.

پڑھتے رہیں

سب دیکھیں

OpenAI اور Hugging Face سکیورٹی واقعے سے نمٹ رہے ہیں

سیکیورٹی۲۱ جولائی، ۲۰۲۶

Daybreak: دنیا کی ہر تنظیم کو محفوظ بنانے کے لیے ٹولز

سیکیورٹی۲۲ جون، ۲۰۲۶

Patch the Planet: a Daybreak initiative to support open source maintainers

سیکیورٹی۲۲ جون، ۲۰۲۶