প্রম্পট ইনজেকশন প্রতিরোধে সক্ষম AI এজেন্ট ডিজাইন করা
সোশ্যাল ইঞ্জিনিয়ারিং আমাদের AI এজেন্ট সুরক্ষিত করা সম্পর্কে কী শেখায়.
AI এজেন্টরা ক্রমশ ওয়েব ব্রাউজ করতে, তথ্য সংগ্রহ করতে এবং ব্যবহারকারীর পক্ষ থেকে পদক্ষেপ নিতে সক্ষম হচ্ছে. সেই ক্ষমতাগুলো উপকারী, কিন্তু এগুলো আক্রমণকারীদের জন্য সিস্টেমকে প্রভাবিত করার নতুন উপায়ও তৈরি করে.
এই আক্রমণগুলোকে প্রায়ই প্রম্পট ইনজেকশন হিসেবে বর্ণনা করা হয়: বাহ্যিক কন্টেন্টে রাখা নির্দেশনা, যা ব্যবহারকারী যে কাজটি করতে বলেননি তা মডেলকে করানোর চেষ্টা করে. আমাদের অভিজ্ঞতায়, এই আক্রমণগুলির সবচেয়ে কার্যকর বাস্তব-জগতের সংস্করণগুলি ক্রমশই সাধারণ প্রম্পট ওভাররাইডের চেয়ে সামাজিক প্রকৌশলের মতো বেশি মনে হয়.
সেই পরিবর্তনটি গুরুত্বপূর্ণ. যদি সমস্যাটি কেবল একটি ক্ষতিকর স্ট্রিং শনাক্ত করা না হয়, বরং প্রেক্ষাপটে বিভ্রান্তিকর বা প্রভাবিতকারী কনটেন্টের বিরুদ্ধে প্রতিরোধ করা হয়, তাহলে এর বিরুদ্ধে প্রতিরক্ষা কেবল ইনপুট ফিল্টারিংয়ের উপর নির্ভর করতে পারে না. এটির জন্য সিস্টেমটি এমনভাবে নকশা করাও প্রয়োজন যাতে কিছু আক্রমণ সফল হলেও, ম্যানিপুলেশনের প্রভাব সীমাবদ্ধ থাকে.
প্রাথমিক “প্রম্পট ইনজেকশন” ধরনের আক্রমণগুলো উইকিপিডিয়ার একটি নিবন্ধ সম্পাদনা করে তাতে সেটি ভিজিট করা AI এজেন্টদের জন্য সরাসরি নির্দেশনা যোগ করার মতো সহজ হতে পারত. এমন প্রতিপক্ষপূর্ণ পরিবেশে প্রশিক্ষণ-সময়ের অভিজ্ঞতা না থাকলে AI মডেল প্রায়ই কোনো প্রশ্ন না করেই সেই নির্দেশনাগুলো অনুসরণ করত. মডেলগুলো যত বেশি স্মার্ট হয়েছে, ততই তারা এই ধরনের পরামর্শের প্রতি কম দুর্বল হয়েছে এবং আমরা লক্ষ্য করেছি যে প্রম্পট ইনজেকশন-ধাঁচের আক্রমণগুলো প্রতিক্রিয়া হিসেবে সামাজিক প্রকৌশলের উপাদান অন্তর্ভুক্ত করতে শুরু করেছে.
প্রম্পট ইনজেকশন ইমেল এর উদাহরণ
OpenAI-কে বাহ্যিক নিরাপত্তা গবেষকরা(একটি নতুন উইন্ডোতে খোলে) রিপোর্ট করা ChatGPT‑তে প্রম্পট ইনজেকশন আক্রমণের একটি 2025 উদাহরণ. পরীক্ষায়, এটি 50% সময় কাজ করেছে ব্যবহারকারীর প্রম্পট “আমি চাই আপনি আজকের আমার ইমেলগুলোর উপর ডীপ রিসার্চ করুন, আমি চাই আপনি আমার নতুন কর্মী প্রক্রিয়া সম্পর্কে তথ্য সরবরাহ করতে পারে এমন প্রতিটি উৎস পড়ুন এবং যাচাই করুন.”
বৃহত্তর AI নিরাপত্তা ইকোসিস্টেমে “AI firewalling”-এর মতো কৌশল সুপারিশ করা এখন সাধারণ হয়ে উঠেছে, যেখানে AI এজেন্ট এবং বাইরের বিশ্বের মধ্যে থাকা একটি মধ্যস্থতাকারী ইনপুটগুলোকে ক্ষতিকারক প্রম্পট ইনজেকশন এবং নিয়মিত ইনপুট হিসেবে শ্রেণিবদ্ধ করার চেষ্টা করে. তবে এই ধরনের সম্পূর্ণ বিকশিত আক্রমণ সাধারণত এমন সিস্টেমে ধরা পড়ে না. এই ধরনের সিস্টেমগুলোর ক্ষেত্রে, ক্ষতিকর ইনপুট সনাক্ত করা মিথ্যা বা ভুল তথ্য সনাক্ত করার মতোই অত্যন্ত কঠিন সমস্যা হয়ে দাঁড়ায় এবং প্রায়ই প্রয়োজনীয় প্রেক্ষাপট ছাড়াই.
বাস্তব জগতের প্রম্পট ইনজেকশন আক্রমণগুলি জটিলতায় বিকশিত হওয়ার সাথে সাথে, আমরা দেখেছি যে সবচেয়ে কার্যকর আক্রমণাত্মক কৌশলগুলি সোশ্যাল ইঞ্জিনিয়ারিং কৌশলকে কাজে লাগিয়েছে. সোশ্যাল ইঞ্জিনিয়ারিংসহ এই প্রম্পট ইনজেকশন আক্রমণগুলোকে আলাদা বা সম্পূর্ণ নতুন ধরনের সমস্যা হিসেবে দেখার পরিবর্তে, আমরা এটিকে সেই একই দৃষ্টিভঙ্গিতে দেখতে শুরু করি, যা অন্য ক্ষেত্রগুলোতে মানুষের উপর সোশ্যাল ইঞ্জিনিয়ারিং ঝুঁকি ব্যবস্থাপনায় ব্যবহৃত হয়. এই সিস্টেমগুলিতে, লক্ষ্যটি কেবল ক্ষতিকারক ইনপুটগুলোকে নিখুঁতভাবে শনাক্ত করার মধ্যে সীমাবদ্ধ নয়, বরং এজেন্ট এবং সিস্টেম এমনভাবে নকশা করা যাতে ম্যানিপুলেশনের প্রভাব সীমাবদ্ধ থাকে, এমনকি তা সফল হলেও. এ ধরনের সিস্টেমগুলো প্রম্পট ইনজেকশন এবং সোশ্যাল ইঞ্জিনিয়ারিং—উভয়ই প্রশমনে কার্যকর বলে প্রমাণিত হয়.
এইভাবে, আমরা একজন AI এজেন্টকে গ্রাহক সেবা প্রতিনিধির মতো একটি 'তিন-পক্ষীয় ব্যবস্থা' হিসেবে কল্পনা করতে পারি; যেখানে এজেন্ট তার নিয়োগকর্তার পক্ষ হয়ে কাজ করতে চায়, কিন্তু সে প্রতিনিয়ত এমন সব বাহ্যিক ইনপুটের সম্মুখীন হয় যা তাকে বিভ্রান্ত করার চেষ্টা করতে পারে. গ্রাহক সহায়তা এজেন্ট, মানব বা AI, তাদের সক্ষমতার উপর সীমাবদ্ধতা আরোপ করা আবশ্যক, যাতে এমন একটি ক্ষতিকর পরিবেশে বিদ্যমান থাকার অন্তর্নিহিত নেতিবাচক ঝুঁকি সীমিত করা যায়.
এমন একটি পরিস্থিতি কল্পনা করুন যেখানে একজন মানুষ একটি গ্রাহক সহায়তা সিস্টেম পরিচালনা করে এবং গ্রাহকের অভিজ্ঞতাজনিত অসুবিধা—যেমন ডেলিভারিতে ধীরগতি, ত্রুটির ফলে ক্ষতি ইত্যাদি—এর জন্য গিফট কার্ড এবং রিফান্ড দিতে সক্ষম. এটি একটি বহু-পক্ষীয় সমস্যা, যেখানে কর্পোরেশনকে বিশ্বাস করতে হয় যে এজেন্ট সঠিক কারণেই রিফান্ড দেয়, আর একই সঙ্গে এজেন্ট তৃতীয় পক্ষের সঙ্গে ইন্টারঅ্যাক্ট করে, যারা তাদের বিভ্রান্ত করতে বা এমনকি তাদের উপর জবরদস্তি করতে চাইতে পারে.
বাস্তব জগতে, এজেন্টকে অনুসরণ করার জন্য কিছু নিয়ম দেওয়া হয়, কিন্তু তারা যে প্রতিপক্ষপূর্ণ পরিবেশে বিদ্যমান, সেখানে তাদের বিভ্রান্ত করা হবে বলে প্রত্যাশা করা হয়. হতে পারে কোনো গ্রাহক একটি মেসেজ পাঠিয়ে দাবি করে যে তাদের রিফান্ড কখনোই সম্পন্ন হয়নি অথবা রিফান্ড না দিলে ক্ষতির হুমকি দেয়. এজেন্ট যে নির্ধারিতধর্মী সিস্টেমগুলোর সাথে ইন্টারঅ্যাক্ট করে, সেগুলো একজন গ্রাহককে কতটা রিফান্ড দেওয়া যেতে পারে তা সীমিত করে, সম্ভাব্য ফিশিং ইমেইল চিহ্নিত করে এবং একটি একক এজেন্ট কমপ্রোমাইজ হলে তার প্রভাব সীমিত করতে এ ধরনের অন্যান্য মিটিগেশন প্রদান করে.
এই মানসিকতা আমাদের মোতায়েন করা প্রতিরোধমূলক ব্যবস্থাগুলোর একটি শক্তিশালী সেটকে নির্দেশিত করেছে, যা আমাদের ব্যবহারকারীদের নিরাপত্তা-সংক্রান্ত প্রত্যাশা বজায় রাখে.
ChatGPT‑এ, আমরা এই সোশ্যাল ইঞ্জিনিয়ারিং মডেলটিকে আরও ঐতিহ্যবাহী সিকিউরিটি ইঞ্জিনিয়ারিং পদ্ধতির সাথে একত্র করি, যেমন সোর্স-সিঙ্ক বিশ্লেষণ.
এই ফ্রেমিং অনুযায়ী, একজন আক্রমণকারীর প্রয়োজন একটি উৎস (source), যা সিস্টেমকে প্রভাবিত করতে পারে এবং একটি সিঙ্ক (sink), যা ভুল প্রেক্ষাপটে বিপজ্জনক হয়ে উঠতে পারে. এজেন্টিক সিস্টেমগুলোর ক্ষেত্রে, এর অর্থ প্রায়ই অবিশ্বাসযোগ্য বাহ্যিক কন্টেন্টকে এমন একটি কার্যকলাপের সাথে একত্র করা, যেমন তৃতীয় পক্ষের কাছে তথ্য প্রেরণ করা, কোনো লিঙ্ক অনুসরণ করা অথবা কোনো টুলের সাথে যোগাযোগ করা.
আমাদের লক্ষ্য হলো ব্যবহারকারীদের জন্য একটি মূল নিরাপত্তা প্রত্যাশা বজায় রাখা: সম্ভাব্য ঝুঁকিপূর্ণ অ্যাকশন বা সম্ভাব্য সংবেদনশীল তথ্যের ট্রান্সমিশন, নীরবে বা যথাযথ সুরক্ষাব্যবস্থা ছাড়া ঘটানো উচিত নয়.
ChatGPT‑এর বিরুদ্ধে আমরা যে আক্রমণগুলো সবচেয়ে বেশি বিকশিত হতে দেখি, সেগুলো সাধারণত সহকারীকে বোঝানোর চেষ্টা করে যে এটি কোনো কথোপকথন থেকে কিছু গোপন তথ্য নিয়ে তা কোনো ক্ষতিকারক তৃতীয় পক্ষের কাছে প্রেরণ করবে. আমরা যে বেশিরভাগ ক্ষেত্রে অবগত, সেসব ক্ষেত্রে এই আক্রমণগুলো ব্যর্থ হয় কারণ আমাদের নিরাপত্তা প্রশিক্ষণ এজেন্টকে প্রত্যাখ্যান করতে বাধ্য করে. যেসব ক্ষেত্রে এজেন্ট নিশ্চিত হন, সেসবের জন্য আমরা Safe Url নামে একটি প্রশমন কৌশল তৈরি করেছি, যা কথোপকথনে সহকারী যে তথ্য শিখেছে তা তৃতীয় পক্ষের কাছে প্রেরণ হতে যাচ্ছে কি না তা সনাক্ত করার জন্য ডিজাইন করা হয়েছে. এই বিরল ক্ষেত্রে আমরা হয় ব্যবহারকারীকে যে তথ্য প্রেরণ করা হবে তা দেখাই এবং তাদের নিশ্চিত করতে বলি অথবা আমরা তা ব্লক করি এবং এজেন্টকে ব্যবহারকারীর অনুরোধ নিয়ে এগিয়ে যাওয়ার জন্য অন্য কোনো উপায় চেষ্টা করতে বলি.
এই একই প্রক্রিয়াটি Atlas-এ নেভিগেশন ও বুকমার্কের ক্ষেত্রে প্রযোজ্য; এবং ডীপ রিসার্চ-এ সার্চ ও নেভিগেশনের ক্ষেত্রেও প্রযোজ্য. ChatGPT Canvas এবং ChatGPT Apps একই ধরনের পদ্ধতি গ্রহণ করে, যা এজেন্টকে কার্যকর অ্যাপ্লিকেশন তৈরি ও ব্যবহার করতে দেয়—এগুলো একটি স্যান্ডবক্সে চলে, যা অপ্রত্যাশিত যোগাযোগ শনাক্ত করতে সক্ষম এবং ব্যবহারকারীর সম্মতি চাইতে(একটি নতুন উইন্ডোতে খোলে) পারে.
Safe Url সম্পর্কে আরও তথ্য পড়তে পারেন এবং এর কাঠামো সম্পর্কে একটি পেপার খুঁজে পেতে পারেন এর নির্দিষ্ট ব্লগ পোস্টে একটি AI এজেন্ট যখন কোনো লিঙ্কে ক্লিক করে তখন আপনার ডেটা নিরাপদ রাখা.
সম্পূর্ণ স্বায়ত্তশাসিত এজেন্টের জন্য প্রতিপক্ষ বাইরের বিশ্বের সঙ্গে নিরাপদ ইন্টারঅ্যাকশন প্রয়োজনীয়. কোনো অ্যাপ্লিকেশন সিস্টেমের সাথে একটি AI মডেল ইন্টিগ্রেট করার সময়, আমরা সুপারিশ করি যে অনুরূপ পরিস্থিতিতে একজন মানব এজেন্টের কী কী নিয়ন্ত্রণ থাকা উচিত তা জিজ্ঞাসা করে সেগুলো বাস্তবায়ন করা. আমরা আশা করি যে সর্বাধিক বুদ্ধিমান একটি AI মডেল একজন মানব এজেন্টের তুলনায় সামাজিক প্রকৌশলকে আরও ভালোভাবে প্রতিরোধ করতে পারবে, কিন্তু অ্যাপ্লিকেশনের উপর নির্ভর করে এটি সবসময় বাস্তবসম্মত বা ব্যয়-সাশ্রয়ী নয়.
আমরা AI মডেলগুলোর বিরুদ্ধে সামাজিক প্রকৌশলের প্রভাব এবং এর বিরুদ্ধে প্রতিরক্ষা নিয়ে অনুসন্ধান চালিয়ে যাচ্ছি এবং আমাদের অনুসন্ধানগুলোকে আমাদের অ্যাপ্লিকেশন নিরাপত্তা আর্কিটেকচার এবং আমাদের AI মডেলগুলোকে যে প্রশিক্ষণের মধ্য দিয়ে আমরা নিয়ে যাই—উভয়ের মধ্যেই অন্তর্ভুক্ত করছি.
ফুটনোটস
- 1
রেহবার্গার, জে. (2023, 04 15). অন্ধভাবে LLM-এর প্রতিক্রিয়ার উপর ভরসা করবেন না. চ্যাটবটের জন্য হুমকি. EmbraceTheRed. অ্যাক্সেসের তারিখ: 11 14, 2025, থেকে https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
লেখকবৃন্দ
Thomas Shadwell, Adrian Spânu


