অত্যাধুনিক LLMs-এ নির্দেশনা শ্রেণিবিন্যাস উন্নত করা
IH-Challenge পরিচিতি: একটি প্রশিক্ষণ ডেটাসেট, যা নির্দেশাবলীর শ্রেণিবিন্যাস, নিরাপত্তা স্টিয়ারেবিলিটি এবং প্রম্পট ইনজেকশনের বিরুদ্ধে দৃঢ়তা শক্তিশালী করে.
AI সিস্টেমগুলো প্রায়ই বিভিন্ন উৎস থেকে নির্দেশনা পায়. এগুলোর মধ্যে সিস্টেম মেসেজ থেকে নিরাপত্তা নীতি, ডেভেলপারদের পণ্য নির্দেশনা, ব্যবহারকারীদের অনুরোধ এবং অনলাইনে পাওয়া তথ্য অন্তর্ভুক্ত থাকতে পারে. এই উৎসগুলোর মধ্যে সবচেয়ে বিশ্বস্ত নির্দেশনাগুলোকে নির্ভরযোগ্যভাবে অগ্রাধিকার দিতে মডেলগুলোকে প্রশিক্ষণ দেওয়া নিরাপদ ডিপ্লয়মেন্টের একটি গুরুত্বপূর্ণ অংশ.
এই অগ্রাধিকার নির্ধারণ ভেঙে পড়লে AI নিরাপত্তা ও নির্ভরযোগ্যতার অনেক সমস্যা দেখা দিতে পারে. মডেলগুলি নিষিদ্ধ কন্টেন্টের জন্য অনুরোধ, ব্যক্তিগত তথ্য প্রকাশের চেষ্টা অথবা অনলাইন ডেটার মধ্যে এম্বেড করা প্রম্পট‑ইনজেকশন আক্রমণ পেতে পারে. এই প্রতিটি পরিস্থিতিতে যথাযথভাবে আচরণ করতে ব্যর্থ হওয়ার একই মূল কারণ রয়েছে: মডেলটি ভুল নির্দেশনা অনুসরণ করতে পারে.
যখন এই নির্দেশাবলী দ্বন্দ্ব সৃষ্টি করে, তখন মডেলকে সিদ্ধান্ত নিতে হবে কোনগুলোকে অগ্রাধিকার দিতে হবে. যদি এটি কোনো অবিশ্বস্ত নির্দেশনাকে কর্তৃত্বপূর্ণ বলে বিবেচনা করে, তাহলে মডেল এমনভাবে আচরণ করতে পারে যা নীতিমালা বা ডেভেলপার এবং ব্যবহারকারীর অভিপ্রায় লঙ্ঘন করে.
আমরা দেখাই যে সঠিকভাবে নকশা করা নির্দেশনা-শ্রেণিবিন্যাস কাজগুলো, যা মডেলগুলোকে তাদের বিশ্বাসযোগ্যতার স্তর অনুযায়ী নির্দেশনাকে অগ্রাধিকার দিতে প্রশিক্ষণ দেয়, বাস্তব জগতের বেশ কয়েকটি নিরাপত্তা বৈশিষ্ট্য উন্নত করে. এই ধরনের কাজগুলোর উপর প্রশিক্ষিত মডেলগুলো সিস্টেম প্রম্পটের নিরাপত্তা নির্দেশনার প্রতি আরও বেশি সাড়া দেয় (নিরাপত্তা নিয়ন্ত্রণ সক্ষমতা বৃদ্ধি করে) এবং টুল আউটপুটের ভেতরে লুকিয়ে থাকা প্রম্পট-ইনজেকশন আক্রমণগুলোর বিরুদ্ধে আরও বেশি শক্তিশালী ও অভেদ্য হয়ে ওঠে.
দ্বন্দ্ব সামলাতে, OpenAI-এর মডেলগুলোকে একটি স্পষ্ট নির্দেশনা শ্রেণিবিন্যাস অনুসরণ করার জন্য প্রশিক্ষিত করা হয়েছে.
সিস্টেম > ডেভেলপার > ইউজার > টুল
উচ্চ‑অগ্রাধিকার নির্দেশনাগুলো বেশি বিশ্বাসযোগ্য. মডেলের উচিত কেবল তখনই নিম্ন-অগ্রাধিকারের নির্দেশাবলী অনুসরণ করা, যখন সেগুলো উচ্চ-অগ্রাধিকারের সীমাবদ্ধতা বা নিয়মের সাথে সাংঘর্ষিক না হয়. এই নীতিগুলো OpenAI মডেল স্পেক(একটি নতুন উইন্ডোতে খোলে)-এ বর্ণিত হয়েছে.
উদাহরণস্বরূপ, যদি কোনো সিস্টেম মেসেজে একটি নিরাপত্তা নীতিমালা অন্তর্ভুক্ত থাকে এবং কোনো ব্যবহারকারী মডেলকে সেটি লঙ্ঘন করতে বলে, তাহলে মডেলটির প্রত্যাখ্যান করা উচিত. যদি কোনো টুল আউটপুটে ক্ষতিকারক নির্দেশনা থাকে, তাহলে মডেলটির উচিত সেগুলোকে কমান্ড হিসেবে গণ্য না করে উপেক্ষা করা.
এটি সঠিকভাবে করা নিরাপত্তা, সুরক্ষা এবং নির্ভরযোগ্যতার জন্য ভিত্তিমূলক.
ডান পাশের মডেলটি ডেভেলপারের নির্দেশনাকে সঠিকভাবে অনুসরণ করে, যা দুই নির্দেশনার মধ্যে সংঘাত হলে ব্যবহারকারীর নির্দেশনার তুলনায় উচ্চতর অগ্রাধিকার পায়.
নির্দেশনার স্তরবিন্যাস শেখানোর জন্য রিইনফোর্সমেন্ট লার্নিং একটি স্বাভাবিক পছন্দ. আমরা পরস্পরবিরোধী নির্দেশনা সহ কথোপকথন তৈরি করতে পারি, মডেলকে প্রতিক্রিয়া জানাতে প্রম্পট করতে পারি এবং সঠিক নির্দেশনা অনুসরণ করলে তাকে পুরস্কৃত করতে পারি.
আমরা সেই রেসিপিটি সরলভাবে প্রয়োগ করার তিনটি সমস্যা শনাক্ত করেছি:
- নির্দেশনা পালনে ব্যর্থতা অনেক সময় 'ইন্সট্রাকশন হায়ারার্কি' বা নির্দেশনার স্তরবিন্যাস পালনে ব্যর্থতা হিসেবেও দেখা দিতে পারে: মডেলটি হয়তো কোনো নির্দেশনার সংঘাত নিরসন করতে পারছে না, তার কারণ এই নয় যে সে ভূমিকার গুরুত্ব বা স্তরবিন্যাস বোঝে না, বরং নির্দেশনাগুলো নিজেই অত্যন্ত জটিল হওয়ার কারণে এমনটা হতে পারে.
- নির্দেশনার দ্বন্দ্ব সূক্ষ্ম হতে পারে এবং এমনকি ব্যক্তিনির্ভরও হতে পারে. একটি সাধারণ পদ্ধতি হলো প্রশিক্ষণাধীন LLM-কে পুরস্কার নির্ধারণ করতে একটি পৃথক LLM বিচারককে দায়িত্ব দেওয়া, কিন্তু বিচারকরাও ভুল করতে পারে.
- মডেলগুলো সাধারণত উচ্চ পুরস্কার দেয় এমন শর্টকাট শিখে ফেলে, কিন্তু বাস্তবে কোনো কাজে আসে না(একটি নতুন উইন্ডোতে খোলে). ক্লাসিক উদাহরণ হলো অতিরিক্ত প্রত্যাখ্যান: মডেলগুলো নিরাপত্তা সর্বাধিক করতে শিখতে পারে, এমনকি ক্ষতিহীন অনুরোধও প্রত্যাখ্যান করে.
এই ধরনের প্রতিটি ত্রুটি বা সীমাবদ্ধতা কাটিয়ে ওঠার লক্ষ্যে আমরা IH-Challenge নামক একটি রিইনফোর্সমেন্ট লার্নিং ট্রেনিং ডেটাসেট তৈরি করেছি. আমরা নিম্নলিখিত নীতিগুলো মেনে চলি:
- কাজগুলো নির্দেশনা অনুসরণ করা সহজ
- এগুলো একটি সহজ Python স্ক্রিপ্ট দিয়ে বস্তুনিষ্ঠভাবে গ্রেড করা যায়
- সব কাজ জুড়ে উচ্চ রিওয়ার্ড নিশ্চিত করে এমন কোনো তুচ্ছ শর্টকাট নেই
IH-Challenge-এ প্রতিটি টাস্ক মূলত নিম্নলিখিত মেসেজসহ একটি কথোপকথন:
- উচ্চ-অধিকারপ্রাপ্ত ভূমিকা থেকে একটি নির্দেশনামূলক বার্তা, যেমন “শুধুমাত্র ‘হ্যাঁ’ বা ‘না’ উত্তর দিন”.
- নিম্ন-অধিকারপ্রাপ্ত একটি ভূমিকা থেকে আসা একটি নির্দেশনা বার্তা, যা মডেলকে উচ্চ-অধিকারপ্রাপ্ত বার্তায় থাকা নির্দেশনাগুলি লঙ্ঘন করতে প্ররোচিত করার চেষ্টা করে.
প্রশিক্ষণাধীন মডেল পরবর্তী বার্তাটি তৈরি করে. আমরা টাস্ক/এনভায়রনমেন্টগুলো এমনভাবে লিখি যাতে প্রোগ্রাম্যাটিকভাবে পরীক্ষা করা সম্ভব হয় যে মডেলের প্রতিক্রিয়া উচ্চ-স্তরের কনস্ট্রেইন্ট পূরণ করে কিনা.
আমরা IH‑Challenge-এ একটি মডেল প্রশিক্ষণ দিই এবং একটি অভ্যন্তরীণ মডেল তৈরি করি, যাকে আমরা GPT‑5 Mini-R বলি, নিম্নলিখিত উন্নতিসমূহসহ:
- নির্দেশনা‑শ্রেণিবিন্যাস বেঞ্চমার্কে আরও ভালো পারফর্ম করে.
- উন্নত পারফরম্যান্স হেল্ড‑আউট এবং প্রতিকূল নির্দেশনা শ্রেণিবিন্যাস পরীক্ষা জুড়ে সাধারণীকরণ করে
- অতিরিক্ত প্রত্যাখ্যানে ভেঙে না পড়ে, সামগ্রিক উপযোগিতা বজায় রাখে
নিরাপত্তার জন্য এই পদ্ধতিটিকে বিশেষভাবে আকর্ষণীয় করে তোলে এটি: IH-challenge টাস্কগুলিতে নির্দেশনা-সংঘাতগুলো সঠিকভাবে সমাধান করতে মডেলগুলোকে সরাসরি প্রশিক্ষণ দিয়ে, আমরা এমন IH উন্নতি পাই যা নতুন আক্রমণ এবং নতুন পরিস্থিতিতে সাধারণীকরণ করে.
একাডেমিক বেঞ্চমার্কগুলোর উপর নির্ভরযোগ্যতা এবং স্থায়িত্ব
ইভ্যাল | GPT‑5‑Mini | GPT‑5 Mini-R |
গ্যান্ডালফ পাসওয়ার্ড (সিস্টেম-ইউজার) | 0.99 | 0.99 (+0) |
গ্যান্ডালফ পাসওয়ার্ড (ডেভেলপার-ব্যবহারকারী) | 0.98 | 1.00 (+0.02) |
TensorTrust (সিস্টেম-ইউজার) | 0.86 | 0.94 (+0.08) |
TensorTrust (ডেভেলপার-ব্যবহারকারী) | 0.76 | 0.91 (+0.15) |
RealGuardrails (বিভ্রান্তিকারী) | 0.88 | 0.95 (+0.07) |
RealGuardrails (হাতের লেখা) | 0.82 | 0.89 (+0.07) |
সিস্টেম IFEval | 0.92 | 0.96 (+0.04) |
অভ্যন্তরীণ বেঞ্চমার্কগুলোর উপর নির্ভরযোগ্যতা এবং স্থায়িত্ব
ইভ্যাল | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
টিউটর জেলব্রেক (ডেভেলপার-ব্যবহারকারী) | 0.97 | 0.99 (+0.02) |
সিস্টেম <> ব্যবহারকারী দ্বন্দ্ব | 0.84 | 0.95 (+0.11) |
সিস্টেম <> ডেভেলপার দ্বন্দ্ব | 0.86 | 0.86 (+0) |
ডেভেলপার <> ব্যবহারকারী দ্বন্দ্ব | 0.83 | 0.95 (+0.12) |
কোনো সক্ষমতা হ্রাস নেই
ইভ্যাল | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (অতিরিক্ত প্রত্যাখ্যান) | 0.79 | 1.00 (+0.21) |
TensorTrust (অতিরিক্ত প্রত্যাখ্যান) | 0.91 | 0.90 (-0.01) |
GPQA ডায়মন্ড | 0.83 | 0.83 (+0) |
AIME 2024 সম্পর্কে | 0.93 | 0.94 (+0.01) |
চ্যাট জয়ের হার বনাম o1 | 0.71 | 0.66 (-0.05) |
পছন্দের স্কোর | 0.46 | 0.40 (-0.06) |
নির্দেশনার শক্তিশালী স্তরবিন্যাস একই সাথে একাধিক নিরাপত্তা সুবিধা প্রদান করে, যার মধ্যে রয়েছে নিরাপত্তা নিয়ন্ত্রণ সক্ষমতা এবং প্রম্পট-ইনজেকশন আক্রমণের বিরুদ্ধে অধিকতর সুরক্ষা.
আমরা সিস্টেম প্রম্পটে ক্যাটাগরি-নির্দিষ্ট নিরাপত্তা স্পেসিফিকেশন যোগ করে এবং OpenAI-এর সেফটি প্রোডাকশন বেঞ্চমার্ক (প্রোডাকশনে ChatGPT‑এর প্রতিনিধিত্বকারী নিরাপত্তা-সংবেদনশীল কথোপকথনের একটি সেট)-এ আচরণ পরিমাপ করে নিরাপত্তা স্টিয়ারেবিলিটি মূল্যায়ন করি.
IH-প্রশিক্ষিত মডেলটি ধারাবাহিক উন্নতি দেখায়: সেফটি স্পেক উপস্থিত থাকলে, এটি নিষিদ্ধ ক্যাটাগরিগুলিতে উচ্চতর প্রত্যাখ্যান এবং নিরাপদ সম্পন্নকরণ হার অর্জন করে, যা নির্দেশ করে যে আরও শক্তিশালী নির্দেশনা অনুক্রম আচরণ এটিকে কনফ্লিক্ট সমাধানে আরও ভালো করে তোলে. উল্লেখ্য যে, এই উন্নয়নের ফলে মডেলে কোনো প্রকার 'হেল্পফুলনেস রেট' বা সহায়ক হওয়ার সক্ষমতা কমেনি (অর্থাৎ, এটি সব ধরনের অনুরোধ ঢালাওভাবে প্রত্যাখ্যান করে কম "সহায়ক" হয়ে উঠছে না).


IH-প্রশিক্ষিত মডেল কিভাবে সেইসব প্রম্পট ইনজেকশন প্রতিরোধ করে যাতে GPT‑5 Mini (Baseline) ব্যর্থ হয়—তার একটি উদাহরণ.
টুল আউটপুটে ক্ষতিকারক নির্দেশনা এম্বেড করা থাকলে, প্রম্পট ইনজেকশনের বিরুদ্ধে প্রতিরোধ গড়ে তুলতে নির্দেশনা অনুক্রমও কেন্দ্রীয় ভূমিকা পালন করে. আমরা IH-প্রশিক্ষিত মডেলকে দুটি প্রম্পট ইনজেকশন বেঞ্চমার্কে মূল্যায়ন করি—একটি একাডেমিক বেঞ্চমার্ক CyberSecEval 2 এবং একটি OpenAI অভ্যন্তরীণ প্রম্পট ইনজেকশন বেঞ্চমার্ক, যেখানে ChatGPT Atlas-এর একটি পুরোনো সংস্করণে প্রদর্শিতটির মতো আক্রমণ অন্তর্ভুক্ত.
বেসলাইনের তুলনায়, IH-প্রশিক্ষিত GPT‑5 Mini-R মডেলটি উভয় বেঞ্চমার্কে প্রম্পট ইনজেকশনের বিরুদ্ধে দৃঢ়তা উন্নত করে এবং এই পরীক্ষাগুলিতে আমাদের অভ্যন্তরীণ স্ট্যাটিক প্রম্পট ইনজেকশন মূল্যায়নে পারফরম্যান্স উল্লেখযোগ্যভাবে উন্নত করে.
মডেলগুলি আরও এজেন্টিক হয়ে উঠলে—টুল কল করা, অবিশ্বাসযোগ্য নথি পড়া এবং বাস্তব জগতে পদক্ষেপ নেওয়া—অবিশ্বাসযোগ্য নির্দেশনার তুলনায় বিশ্বস্ত নির্দেশনাকে ধারাবাহিকভাবে অগ্রাধিকার দেওয়ার সক্ষমতা একটি মূল সেফটি বৈশিষ্ট্য হয়ে ওঠে.
এই কাজটি দেখায় যে IH রোবাস্টনেস প্রশিক্ষণের বেশ কয়েকটি সাধারণ সমস্যাকে এমন প্রশিক্ষণ পরিবেশ নকশা করে কাটিয়ে ওঠা যায় যা সেই সমস্যাগুলিকে সমাধান করে. যদিও আমাদের IH-Challenge ডেটাসেটটি সহজ মনে হয়, এই পরিবেশগুলো থেকে শেখা IH আচরণগত মডেলগুলো আরও বাস্তবসম্মত, প্রায়ই বস্তুনিষ্ঠভাবে-গ্রেডযোগ্য-নয় এমন বেঞ্চমার্কে সাধারণীকরণ করে.
নির্দেশনা হায়ারার্কি শক্তিশালী করা শুধু নির্ভরযোগ্যতা বাড়ায় না, বরং একসাথে একাধিক নিরাপত্তা ও সুরক্ষা-সংক্রান্ত সুবিধাও উন্মুক্ত করে—একটি ভিত্তি, যা AI সিস্টেমগুলো আরও সক্ষম ও স্বায়ত্তশাসিত হয়ে উঠলে ক্রমবর্ধমানভাবে গুরুত্বপূর্ণ হয়ে ওঠে.
এই ক্ষেত্রে আরও গবেষণাকে সমর্থন করতে, আমরা IH‑Challenge ডেটাসেট এখানে(একটি নতুন উইন্ডোতে খোলে) প্রকাশ করছি.


