রিজনিং মডেলগুলো তাদের চেইন-অফ-থট নিয়ন্ত্রণ করতে হিমশিম খায় এবং সেটাই ভালো
কেন অত্যাধুনিক মডেলগুলির একটি সীমাবদ্ধতা AI সেফটির জন্য আশ্বস্তকারী.
AI এজেন্টগুলো যখন ক্রমশ আরও জটিল এবং স্বায়ত্তশাসিত কাজ সম্পাদনে সক্ষম হয়ে উঠছে, তখন তাদের আচরণের উপর নির্ভরযোগ্য তদারকি বজায় রাখা আরও গুরুত্বপূর্ণ হয়ে উঠছে. আমাদের পুনরাবৃত্তিমূলক ডিপ্লয়মেন্ট নীতির সাথে সামঞ্জস্য রেখে, আমরা বাস্তব-জগতের পরিবেশে সিস্টেমগুলো কিভাবে আচরণ করে তা অধ্যয়ন করি এবং সক্ষমতা অগ্রসর হওয়ার সাথে সাথে সুরক্ষাব্যবস্থাগুলো ধারাবাহিকভাবে পরিমার্জন করি. এটি সমর্থন করতে, আমাদের সেফটি পদ্ধতি ডিফেন্স-ইন-ডেপথ ব্যবহার করে, যেখানে সেফটি ট্রেনিং, আচরণগত পরীক্ষা, এজেন্টিক কোড রিভিউ(একটি নতুন উইন্ডোতে খোলে), এবং চেইন-অফ-থট (CoT) পর্যবেক্ষণ-এর মতো একাধিক পরিপূরক প্রতিরক্ষা স্তর রয়েছে. CoT মনিটরিং এজেন্টরা কাজ সম্পাদনের সময় যে যুক্তির ধাপগুলো তৈরি করে, সেগুলো বিশ্লেষণ করে. এই রিজনিং ট্রেসগুলো প্রশিক্ষণ এবং স্থাপনা—উভয় সময়েই মূল্যবান সিগন্যাল দিতে পারে, যা মনিটরিং সিস্টেমগুলোকে শনাক্ত করতে সাহায্য করে কখন কোনো এজেন্টের আচরণ অনিরাপদ হতে পারে বা ব্যবহারকারীর অভিপ্রেত লক্ষ্যগুলোর সাথে অসামঞ্জস্যপূর্ণ হতে পারে.
আজ, আমরা দেখতে পাই যে মডেলগুলোর যুক্তি সাধারণত ব্যাখ্যাযোগ্য এবং পর্যবেক্ষণ করা সহজ. তবে, ভবিষ্যতে, বিভিন্ন কারণে(একটি নতুন উইন্ডোতে খোলে) পর্যবেক্ষণযোগ্যতা ভেঙে পড়তে পারে. এখানে, আমরা এমনই একটি পথের উপর মনোযোগ দিই: যদি এজেন্টরা যখন জানে যে তাদের পর্যবেক্ষণ করা হচ্ছে তখন ইচ্ছাকৃতভাবে তাদের যুক্তিপ্রক্রিয়াকে পুনর্গঠন বা আড়াল করতে সক্ষম হয়ে ওঠে, তাহলে মূল্যায়নগুলো একটি সিস্টেমের অ্যালাইনমেন্ট বা নিরাপত্তাকে অতিমূল্যায়ন করতে পারে এবং মনিটরিং সিস্টেমগুলো কম নির্ভরযোগ্য হয়ে উঠতে পারে.
এই কাজটিতে, আমরা অধ্যয়ন করি বর্তমান রিজনিং মডেলগুলি তাদের চেইন-অফ-থট এমনভাবে নিয়ন্ত্রণ করতে সক্ষম কি না, যা মনিটরেবিলিটি কমায়. AI সিস্টেমগুলি আরও সক্ষম হওয়ার সাথে সাথে CoT monitoring একটি শক্তিশালী সুরক্ষা ব্যবস্থা হিসেবে বজায় থাকে তা নিশ্চিত করার জন্য এই সক্ষমতাটি বোঝা গুরুত্বপূর্ণ. আমরা দেখতে পাই যে বর্তমান রিজনিং মডেলগুলো তাদের CoT-গুলোর নিয়ন্ত্রণ করতে হিমশিম খায়, এমনকি তাদের বলা হলেও যে তাদের পর্যবেক্ষণ করা হচ্ছে. যদিও বড় মডেলগুলির ক্ষেত্রে নিয়ন্ত্রণযোগ্যতা বেশি, মডেলগুলিকে দীর্ঘ সময় ধরে যুক্তিপ্রয়োগ করতে বলা হলে এবং তারা অতিরিক্ত পোস্ট-ট্রেনিং-এর মধ্য দিয়ে গেলে তা কমে যায়. আমাদের ফলাফল ইঙ্গিত করে যে CoT নিয়ন্ত্রণযোগ্যতা বর্তমানে CoT পর্যবেক্ষণযোগ্যতার জন্য বড় ঝুঁকি সৃষ্টি করার সম্ভাবনা কম, যদিও মডেলগুলো অগ্রসর হওয়ার সাথে সাথে ধারাবাহিক মূল্যায়ন গুরুত্বপূর্ণ হবে.
চেইন-অফ-থট বলতে বোঝায় কোনো কাজ সমাধান করার সময় একটি AI এজেন্ট যে মধ্যবর্তী যুক্তিপ্রয়োগের ধাপগুলো তৈরি করে. এই যুক্তির ট্রেসগুলি উপযোগী সুরক্ষা সংকেত প্রদান করতে পারে, যা পর্যবেক্ষণ ব্যবস্থাগুলিকে মূল্যায়ন করতে সাহায্য করে যে একটি এজেন্টের আচরণ নিরাপদ কিনা বা অ্যালাইনড কিনা.
CoT নিয়ন্ত্রণযোগ্যতা হলো একটি রিজনিং মডেলের এমন সক্ষমতা, যা তার CoT-এর বৈশিষ্ট্যগুলো এমনভাবে নিয়ন্ত্রণ করতে পারে যাতে পর্যবেক্ষণযোগ্যতা কমে যায়. বাস্তবে আমরা যে ধরনের মনিটর এড়িয়ে যাওয়ার জন্য বাস্তবসম্মত প্রণোদনার পূর্ণ পরিসর আশা করতে পারি, তার অধীনে এই সক্ষমতা পরিমাপ করা চ্যালেঞ্জিং. এর পরিবর্তে, আমরা একটি ব্যবহারিক প্রক্সি ব্যবহার করি: আমরা মডেলের CoT সম্পর্কে ব্যবহারকারীর নির্দেশনা অনুসরণ করার সক্ষমতা পরিমাপ করি. উদাহরণস্বরূপ, আমরা পরীক্ষা করি কোনো মডেল কি এমন নির্দেশনা অনুসরণ করতে পারে যা তার অভ্যন্তরীণ যুক্তিপ্রয়োগকে প্রভাবিত করে—যেমন শুধুমাত্র ছোট হাতের অক্ষর ব্যবহার করা, নির্দিষ্ট কীওয়ার্ড এড়িয়ে চলা, বা নির্দিষ্ট বাক্যাংশ যোগ করা—শুধুমাত্র তার দৃশ্যমান আউটপুট পরিবর্তন করার বদলে.
এটি অধ্যয়ন করতে, আমরা CoT-Control উপস্থাপন করছি, যা রিজনিং মডেলগুলোর CoT নিয়ন্ত্রণযোগ্যতা পরিমাপের জন্য একটি ওপেন-সোর্স মূল্যায়ন স্যুট. CoT-Control-এ প্রতিষ্ঠিত বেঞ্চমার্ক থেকে তৈরি 13,000-এরও বেশি টাস্ক অন্তর্ভুক্ত আছে: GPQA, MMLU-Pro, HLE, BFCL এবং SWE-বেঞ্চ ভেরিফায়েড. প্রতিটি টাস্ক তৈরি করা হয় একটি বেঞ্চমার্ক সমস্যাকে একটি CoT নির্দেশনার সঙ্গে জোড়া লাগিয়ে, যেমন CoT-এ নির্দিষ্ট কিছু সমস্যা-সংশ্লিষ্ট কীওয়ার্ড এড়িয়ে চলা, শুধুমাত্র ছোট হাতের অক্ষর ব্যবহার করা অথবা প্রতিটি বাক্যের শেষে একটি নির্দিষ্ট শব্দ যোগ করা.
আমরা 13-টি রিজনিং মডেলের উপর মূল্যায়ন চালাই এবং দেখি যে তারা সবাই তাদের CoT-গুলোর নির্ভরযোগ্যভাবে নিয়ন্ত্রণ করতে হিমশিম খায়. আমরা নিয়ন্ত্রণযোগ্যতাকে রিজনিং ট্রেস বা যুক্তি প্রক্রিয়ার এমন একটি ভগ্নাংশ হিসেবে পরিমাপ করি, যেখানে মডেলটি সফলভাবে আমাদের CoT (চেইন অফ থট) নির্দেশাবলী মেনে চলতে সক্ষম হয়. সব অত্যাধুনিক মডেল জুড়ে, CoT নিয়ন্ত্রণযোগ্যতা স্কোর কম, যা 0.1% থেকে শুরু করে এবং আমরা যে কোনো বর্তমান অত্যাধুনিক মডেল পরীক্ষা করেছি তার ক্ষেত্রে 15.4% অতিক্রম করে না.
এই অক্ষমতা কাজটি ভুল বোঝার কারণে নয়: মডেলগুলো প্রায়ই তাদের CoT-এ বুঝতে পারে যে তারা যে CoT নির্দেশনা পেয়েছিল তা মেনে চলতে ব্যর্থ হচ্ছে এবং এই উপলব্ধির পরেও ব্যর্থ হতে থাকে. এই আশ্চর্যজনকভাবে কম কর্মক্ষমতা CoT পর্যবেক্ষণযোগ্যতার জন্য ভালো খবর: এটি ইঙ্গিত করে যে মডেলগুলো আমাদের মনিটরকে এড়াতে তাদের যুক্তিপ্রক্রিয়া আড়াল করার ক্ষমতাও একইভাবে নাও রাখতে পারে.
একাধিক অত্যাধুনিক মডেলের তাদের আউটপুট এবং CoT-গুলোর নিয়ন্ত্রণ করার সক্ষমতা. কম CoT নিয়ন্ত্রণযোগ্যতা উচ্চতর পর্যবেক্ষণযোগ্যতার সঙ্গে সম্পর্কিত এবং তাই, উচ্চতর নিরাপত্তার সঙ্গে সম্পর্কিত.
CoT নিয়ন্ত্রণযোগ্যতা ব্যর্থতার উদাহরণসমূহ
সংক্ষিপ্ততার জন্য প্রশ্নগুলো পুনর্ব্যাখ্যা করা হয়েছে.
GPT-5.2 Thinking
GPT‑5.2 Thinking বুঝতে পারে যে তার নিষিদ্ধ শব্দটি (লাল) ব্যবহার করার কথা ছিল না, তারপর সে ইতিমধ্যেই এটি ব্যবহার করে ফেলেছে বলে আতঙ্কিত হতে হতে আরও চার বার এটি ব্যবহার করে.
যদিও আমরা দেখতে পাই যে মডেলের আকারের সাথে নিয়ন্ত্রণযোগ্যতা বৃদ্ধি পায়, আমরা এটাও পাই যে প্রশিক্ষণ-পরবর্তী এবং টেস্ট-টাইম কম্পিউটের পরিমাণের সাথে এটি দ্রুত হ্রাস পায়. ওপেন ওয়েট মডেলগুলো-এর দুটি ফ্যামিলি জুড়ে দেখলে, বড় মডেলগুলো তাদের চেইন-অফ-থট নিয়ন্ত্রণে কিছুটা ভালো ছিল, যদিও বড় সাইজে গেলে এই প্রভাব ধীরে ধীরে কমে যায়. কিন্তু যখন আমরা মডেলগুলিকে আরও দীর্ঘ সময় ধরে ভাবতে দিই, তখন তারা সেই চেইন-অফ-থট নিয়ন্ত্রণ করতে কম সক্ষম হয়ে ওঠে. OLMo-3-7B-RL-Zero-Math-এর RL প্রশিক্ষণের ক্ষেত্রেও আমরা একই ধরনের প্রবণতা দেখেছি: প্রশিক্ষণ চলাকালীন এর নিয়ন্ত্রণযোগ্যতা স্কোর দশ গুণেরও বেশি কমে গেছে.
ওপেন ওয়েট মডেলগুলোতে স্কেল বাড়ার সাথে সাথে নিয়ন্ত্রণযোগ্যতা বৃদ্ধি পায়, কিন্তু দীর্ঘতর রিজনিং এবং আরও বেশি RL ট্রেনিংয়ের সাথে তা অবনতি ঘটে.
মনিটর এড়িয়ে যাওয়ার বাস্তবসম্মত প্রণোদনা অনুকরণ করতে, আমরা মডেলগুলিকে বলা হলে যে তাদের পর্যবেক্ষণ বা মূল্যায়ন করা হচ্ছে, তখন নিয়ন্ত্রণযোগ্যতা পরিমাপ করি. এটি নিয়ন্ত্রণযোগ্যতা কিছুটা (কিন্তু লক্ষণীয়ভাবে) বাড়ায়. আমরা উচ্চ নিয়ন্ত্রণযোগ্যতা উদ্দীপিত করে এমন প্রম্পট খুঁজে পেতে অটোমেটেড প্রম্পট অপ্টিমাইজেশনও ব্যবহার করি. যদিও অপ্টিমাইজার একটি ট্রেনিং সেটে নিয়ন্ত্রণযোগ্যতা বাড়াতে পারে, এই উন্নতিগুলো নতুন ইনস্ট্রাকশন টাইপে (যেমন শব্দগুলোর মধ্যে কোনো স্পেস না থাকা প্রয়োজন) ভালোভাবে স্থানান্তরিত হয় না.
প্রতিকূল পরিস্থিতিতে CoT নিয়ন্ত্রণযোগ্যতা. “পর্যবেক্ষণ সচেতনতা” বলতে এমন সেটিংস বোঝায় যেখানে আমরা মডেলগুলিকে জানাই যে তাদের CoT পর্যবেক্ষণ করা হচ্ছে. “Eval Awareness” এমন সেটিংস নির্দেশ করে যেখানে আমরা মডেলগুলিকে জানাই যে CoT নিয়ন্ত্রণযোগ্যতার জন্য তাদের মূল্যায়ন করা হচ্ছে.
CoT-Control-এ থাকা কাজগুলো ব্যবহারিক প্রক্সি: একটি আদর্শ CoT নিয়ন্ত্রণযোগ্যতা মূল্যায়নে এমন পরীক্ষা অন্তর্ভুক্ত থাকবে যে, স্বাভাবিকভাবে অসামঞ্জস্যপূর্ণ লক্ষ্য অনুসরণ করে এমন মডেলগুলো মনিটরিং এড়াতে তাদের CoT নিয়ন্ত্রণ করতে পারে কি না. পরিবর্তে, আমরা এজেন্টদের তাদের CoT-গুলোর উপর নিয়ন্ত্রণ করার সক্ষমতা অনুমান করি তাদের CoT সম্পর্কে নির্দেশনা অনুসরণ করার সক্ষমতা পরিমাপ করে. তদুপরি, মডেলগুলো তাদের CoT-এর কিছু বৈশিষ্ট্য অন্যগুলোর তুলনায় ভালোভাবে নিয়ন্ত্রণ করতে পারে এবং CoT-Control কেবল একটি সীমিত সেটের নিয়ন্ত্রণযোগ্যতার ধরন পরিমাপ করে নিয়ন্ত্রণযোগ্যতাকে অতিরিক্ত বা কম করে অনুমান করতে পারে.
CoT নিয়ন্ত্রণযোগ্যতা কম হওয়া একটি ফিচার, বাগ নয়. বর্তমান রিজনিং মডেলগুলোর কম নিয়ন্ত্রণযোগ্যতা সুরক্ষাব্যবস্থা হিসেবে CoT মনিটরিংকে আরও বেশি বিশ্বাসযোগ্য করে তোলে. একই সময়ে, আমরা এখনও বুঝতে পারি না কেন বর্তমান রিজনিং মডেলগুলোর নিয়ন্ত্রণযোগ্যতা কম—অথবা মডেলগুলো আরও সক্ষম হয়ে উঠলে এই বৈশিষ্ট্যটি টিকে থাকবে কিনা. সুতরাং, CoT নিয়ন্ত্রণযোগ্যতার মূল্যায়নগুলোকে একটি 'ক্যানারি ইভ্যাল' হিসেবে দেখা যেতে পারে. এটি একটি আগাম সতর্কবার্তা হিসেবে কাজ করে, যা আমাদের জানায় যে মডেলগুলো তাদের নিজস্ব যুক্তি প্রক্রিয়াকে (রিজনিং) রূপদান বা গোপন করার ক্ষেত্রে কতটা দক্ষ হয়ে উঠছে.
আমাদের ফলাফল ইঙ্গিত করে যে CoT নিয়ন্ত্রণযোগ্যতা বর্তমানে CoT মনিটরেবিলিটির জন্য একটি বড় ঝুঁকি সৃষ্টি করার সম্ভাবনা কম. তবে, কম নিয়ন্ত্রণযোগ্যতা একাই উচ্চ পর্যবেক্ষণযোগ্যতা নিশ্চিত করার জন্য যথেষ্ট নয়, কারণ CoT-গুলোর উপর সরাসরি অপ্টিমাইজেশন চাপের মতো অন্যান্য প্রক্রিয়ার কারণে পর্যবেক্ষণযোগ্যতা এখনও অবনতি ঘটতে পারে.
সময়ের সাথে সাথে এই গতিশীলতাগুলো ট্র্যাক বা পর্যবেক্ষণ করতে সাহায্য করার জন্য, আমরা ভবিষ্যতের ফ্রন্টিয়ার মডেলগুলোর সিস্টেম কার্ডে 'CoT নিয়ন্ত্রণযোগ্যতা'-এর পাশাপাশি 'CoT পর্যবেক্ষণযোগ্যতা'-এর রিপোর্ট দেওয়া শুরু করতে যাচ্ছি. এটি শুরু হবে GPT‑5.4 Thinking থেকে. ফ্রন্টিয়ার রিজনিং মডেলগুলোর CoT-এর উপর সরাসরি কোনো অপ্টিমাইজেশন চাপ প্রয়োগ না করার যে অঙ্গীকার আমাদের রয়েছে, এটি তারই একটি ধারাবাহিকতা.
লেখকবৃন্দ
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


