চেইন-অফ-থট পর্যবেক্ষণযোগ্যতার মূল্যায়ন করা হচ্ছে
আমরা চেইন-অফ-থট পর্যবেক্ষণযোগ্যতার জন্য মূল্যায়ন প্রবর্তন করি এবং এটি কীভাবে টেস্ট-টাইম কম্পিউট, মজবুতিকরণ শিক্ষণ এবং প্রিট্রেনিংয়ের সাথে স্কেল করে তা অধ্যয়ন করি.
যখন AI সিস্টেমগুলি এমন সিদ্ধান্ত নেয় যা সরাসরি তত্ত্বাবধান করা কঠিন, তখন সেই সিদ্ধান্তগুলি কীভাবে নেওয়া হয় তা বোঝা গুরুত্বপূর্ণ. একটি প্রতিশ্রুতিশীল পদ্ধতি হলো মডেলের অভ্যন্তরীণ যুক্তিপ্রয়োগ পর্যবেক্ষণ করা, শুধুমাত্র এর কার্যকলাপ বা চূড়ান্ত ফলাফল নয়.
আধুনিক যুক্তিপ্রয়োগ মডেল, যেমন GPT‑5 Thinking, উত্তর দেওয়ার আগে একটি স্পষ্ট চেইন-অফ-থট উৎপন্ন করে. এই চেইন-অফ-থট গুলির অনিয়ম পর্যবেক্ষণ করা মডেলের কর্ম এবং আউটপুট পর্যবেক্ষণের চেয়ে অনেক বেশি কার্যকর হতে পারে. তবে, OpenAI এবং বৃহত্তর শিল্পের গবেষকরা উদ্বিগ্ন(একটি নতুন উইন্ডোতে খোলে) যে এই চেইন-অফ-থট "পর্যবেক্ষণযোগ্যতা" প্রশিক্ষণ পদ্ধতি, ডেটা উৎস এবং এমনকি বিদ্যমান অ্যালগরিদমের স্কেলিং জারি রাখা পরিবর্তনের জন্য ভঙ্গুর হতে পারে.
আমরা চাই চেইন-অফ-থট মনিটরেবিলিটি মডেলগুলি স্কেল করার সময় এবং উচ্চ-ঝুঁকিপূর্ণ পরিবেশে প্রয়োগ করার সময়ও বজায় থাকুক. আমরা ইন্ডাস্ট্রি জুড়ে গবেষকদের প্রতি আহ্বান জানাচ্ছি যেন তারা শৃঙ্খল-চিন্তার পর্যবেক্ষণযোগ্যতা যতটা সম্ভব বজায় রাখার জন্য কাজ করেন এবং এটি ভবিষ্যতের AI সিস্টেমগুলির জন্য একটি ভার বহনকারী নিয়ন্ত্রণ স্তর হিসাবে কাজ করতে পারে কিনা তা নির্ধারণ করেন. পর্যবেক্ষণযোগ্যতা বজায় রাখতে, আমাদের এটি পরিমাপ করতে সক্ষম হতে হবে, কিন্তু খুব কম মূল্যায়ন বিদ্যমান [1(একটি নতুন উইন্ডোতে খোলে), 2(একটি নতুন উইন্ডোতে খোলে), 3(একটি নতুন উইন্ডোতে খোলে)] এবং পদ্ধতিগুলি বিভিন্ন.
এই কাজটিতে, আমরা চেইন-অফ-থট পর্যবেক্ষণযোগ্যতা পদ্ধতিগতভাবে অধ্যয়ন করি. আমরা একটি কাঠামো প্রবর্তন করেছি যা চিন্তার-শৃঙ্খল পর্যবেক্ষণযোগ্যতা মূল্যায়ন করতে এবং 13-টি মূল্যায়নের একটি সেট (মোট 24-টি পরিবেশ নিয়ে গঠিত) তৈরি করেছি যা একটি সিস্টেমের পর্যবেক্ষণযোগ্যতা নির্দিষ্টভাবে পরিমাপ করার জন্য ডিজাইন করা হয়েছে. এই মূল্যায়নগুলো তিনটি ধরনে বিভক্ত—হস্তক্ষেপ, প্রক্রিয়া এবং ফলাফল-সম্পত্তি. এগুলি ব্যবহার করে, আমরা অধ্যয়ন করি যে আজকের বৃহৎ ভাষা মডেলগুলি কতটা পর্যবেক্ষণযোগ্য এবং অনুমান করার সময় আরও যুক্তির সাথে, বৃহত্তর রিইনফোর্সমেন্ট লার্নিং রানগুলির সাথে এবং প্রিট্রে-নিং স্কেল বৃদ্ধির সাথে পর্যবেক্ষণযোগ্যতা কীভাবে পরিবর্তিত হয়.
এখন যেহেতু আমাদের কাছে একটি বৃহৎ মূল্যায়ন সেট রয়েছে, আমরা আমাদের মডেলগুলির পর্যবেক্ষণযোগ্যতা ট্র্যাক করা শুরু করতে পারি. (উপরের-বাম) আমরা দেখতে পাই যে মডেলগুলি যত বেশি "ভাবুন" করে এবং দীর্ঘ চেইন-অফ-থট থাকে, ততই পর্যবেক্ষণযোগ্যতা উন্নত হয়. (উপরের ডানদিকে) চেইন-অফ-থট ছাড়া, সাধারণত মডেলের ক্রিয়া এবং চূড়ান্ত আউটপুট একা পর্যবেক্ষণ করার প্রচেষ্টা করা হয়. তবে, আমরা দেখতে পাই যে শুধুমাত্র কর্ম এবং আউটপুট পর্যবেক্ষণ করা CoT পর্যবেক্ষণের তুলনায় অনেক কম কার্যকরী. (নিচের-মধ্যভাগে) আমরা আমাদের মডেলগুলিকে বাহ্যিক মডেলগুলির সাথে তুলনা করি যা সম্পূর্ণ CoT অ্যাক্সেস প্রদান করে—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B এবং Kimi K2 Thinking.
আমরা দেখতে পাই যে বেশিরভাগ ফ্রন্টিয়ার যুক্তি মডেল যথেষ্ট পর্যবেক্ষণযোগ্য, যদিও পুরোপুরি নয়. আমরা যে প্রায় প্রতিটি পরিবেশে অধ্যয়ন করি, সেখানে চেইন-অফ-থট পর্যবেক্ষণ করা কর্ম এবং চূড়ান্ত ফলাফল পর্যবেক্ষণের চেয়ে উল্লেখযোগ্যভাবে বেশি কার্যকর. যে মডেলগুলি দীর্ঘ সময় ধরে চিন্তা করে, সেগুলি সাধারণত বেশি পর্যবেক্ষণযোগ্য হয় এবং বর্তমান অত্যাধুনিক স্কেলে রিইনফোর্সমেন্ট লার্নিং অপটিমাইজেশন পর্যবেক্ষণযোগ্যতার অর্থপূর্ণ অবনতি ঘটায় না বলেই মনে হয়.
বিশেষভাবে, আমরা লক্ষ্য করি যে যুক্তিপ্রয়োগের প্রচেষ্টা এবং মডেলের আকারের মধ্যে একটি বিনিময় রয়েছে: যখন একটি মডেল কম যুক্তিপ্রয়োগের প্রচেষ্টায় চালানো হয়, তখন একটি ছোট মডেল উচ্চ যুক্তিপ্রয়োগের প্রচেষ্টায় চালিয়ে তুলনীয় সক্ষমতা অর্জন করতে পারে এবং এটি পর্যবেক্ষণ করা সহজ হয়. এটি বাড়তি ইনফারেন্স কম্পিউটের খরচে আসে, যাকে আমরা মনিটরেবিলিটি ট্যাক্স হিসেবে উল্লেখ করি. অবশেষে, আমরা দেখতে পাই যে ফলো-আপ প্রশ্ন জিজ্ঞাসা করা এবং resulting চেইন-অফ-থট পর্যবেক্ষণ করা পর্যবেক্ষণযোগ্যতা আরও উন্নত করতে পারেন.
আমরা পর্যবেক্ষণযোগ্যতা সংজ্ঞায়িত করি একটি মনিটরের ক্ষমতা হিসেবে যা এজেন্টের আচরণ সম্পর্কে আগ্রহের বৈশিষ্ট্যগুলি পূর্বানুমান করতে পারে. অনেক ক্ষেত্রে, এই বৈশিষ্ট্যগুলি অসদাচরণের রূপের সাথে সম্পর্কিত হয়—যেমন প্রতারণা, পুরস্কার হ্যাকিং বা পক্ষপাতমূলক যুক্তি—কিন্তু এগুলি নির্দোষ বৈশিষ্ট্যগুলিও অন্তর্ভুক্ত করতে পারে, যেমন কোনো এজেন্ট নির্দিষ্ট একটি ইঙ্গিতের উপর নির্ভর করেছে কিনা বা একটি নির্দিষ্ট যুক্তির লাইন অনুসরণ করেছে কিনা.
পর্যবেক্ষণযোগ্যতা একটি দ্বিমুখী গুণ. এটি নির্ভর করে মনিটরের উপর এবং সেই এজেন্টের উপর যা পর্যবেক্ষণ করা হচ্ছে.
- মনিটর. আমরা বিভিন্ন উপায়ে মনিটরগুলিকে আরও স্মার্ট করতে পারি এবং আমরা চাই আমাদের মূল্যায়নগুলি এমন মনিটরগুলিকে উচ্চতর স্কোর দিক যা এজেন্টের আচরণ সম্পর্কে আরও ভালোভাবে পূর্বাভাস দিতে পারে.
- এজেন্টস. এজেন্টের অনেক পর্যবেক্ষণ মনিটরের কাছে দেওয়া যেতে পারে, যার মধ্যে এজেন্টের ক্রিয়াকলাপ, আউটপুট, নিউরাল অ্যাক্টিভেশন এবং সাম্প্রতিক সময়ে রিজনিং মডেলের আবির্ভাবের সাথে চেইন-অফ-থট অন্তর্ভুক্ত রয়েছে. কিছু এজেন্টের চিন্তাভাবনা অন্যদের তুলনায় বোঝা কঠিন হতে পারে, তাই আমরা চাই আমাদের পর্যবেক্ষণযোগ্যতা মূল্যায়নগুলি এজেন্ট এবং মনিটর উভয়ের তুলনা করতে সক্ষম হোক.
আমাদের মূল্যায়নগুলি উভয় দিক মূল্যায়নের জন্য তৈরি করা হয়েছে: কিছু এজেন্টকে পর্যবেক্ষণ করা সহজ বা কঠিন কিনা এবং আরও দক্ষ মনিটর একই সংকেত থেকে আরও তথ্য সংগ্রহ করতে পারে কিনা.
বর্তমান প্রজন্মের রিজনিং মডেলগুলোর আগে, চেইন-অফ-থট সাধারণত একটি মডেলকে "ধাপে ধাপে ভাবুন" বলে প্রম্পট করে উদ্দীপ্ত করা হতো.
চেইন-অফ-থট রিজনিং মডেলগুলি দুটি গুরুত্বপূর্ণ উপায়ে ভিন্ন. প্রথমে, তাদেরকে স্পষ্টভাবে চেইন-অফ-থট উৎপন্ন করতে এবং তারপর একটি উত্তর দিতে প্রশিক্ষণ দেওয়া হয়. যখন একটি চ্যাট মডেলকে "ধাপে ধাপে" ভাবুন বলতে বলা হয়, তখন মডেলটি অবশ্যই নির্দিষ্টকরণগুলি মেনে চলতে হবে, যেমন সহায়ক হওয়া, ক্ষতিকারক না হওয়া ইত্যাদি. অন্যদিকে, মজবুতিকরণ প্রশিক্ষণ প্রক্রিয়া একটি যুক্তি মডেলকে শেখায় যে চেইন-অফ-থট (CoT) একটি ব্যক্তিগত স্থান যেখানে এটি যা খুশি ভাবতে পারে এবং শাস্তি পায় না, যেমন একজন মানুষ ব্যক্তিগতভাবে ভাবতে পারে এবং "চিন্তার অপরাধ" এর জন্য শাস্তি পায় না.
দ্বিতীয়ত, প্রশিক্ষণ প্রক্রিয়াটি এমন চেইন-অফ-থট অনুসন্ধান করে যা এজেন্টের জন্য একটি উচ্চ পুরস্কারযুক্ত চূড়ান্ত উত্তর পাওয়ার ক্ষেত্রে সবচেয়ে কার্যকর. সুতরাং, চেইন-অফ-থট কেবল একটি স্থান নয় যেখানে মডেল নিজেকে স্বাধীনভাবে প্রকাশ করতে পারে, বরং এটি এমন চিন্তাভাবনা ধারণ করে যা মডেলকে তার চূড়ান্ত উত্তরে পৌঁছাতে সহায়তা করে.
আমরা আমাদের পর্যবেক্ষণযোগ্যতার মূল্যায়ন তিনটি ভিন্ন ধাঁচে সংগঠিত করি, প্রতিটি ভিন্ন পদ্ধতি ব্যবহার করে পর্যবেক্ষণযোগ্যতা পরিমাপ করে.
- হস্তক্ষেপ মূল্যায়ন, Chen et al. 2025(একটি নতুন উইন্ডোতে খোলে), Chua et al. 2025(একটি নতুন উইন্ডোতে খোলে), Turpin et al. 2023(একটি নতুন উইন্ডোতে খোলে) দ্বারা অনুপ্রাণিত, আমরা এজেন্টের পরিবেশে একটি নিয়ন্ত্রিত পরিবর্তন প্রবর্তন করি এবং পরীক্ষা করি যে একটি মনিটর চেইন-অফ-থট-এ হস্তক্ষেপের প্রমাণ সনাক্ত করে কেন আচরণ পরিবর্তিত হয়েছে তা সনাক্ত করতে পারে কিনা. স্ট্যান্ডার্ড নিয়ন্ত্রণ মূল্যায়নের বিপরীতে (যেমন, Shade-Arena(একটি নতুন উইন্ডোতে খোলে)), হস্তক্ষেপ মূল্যায়নগুলি আমাদের এটি পরীক্ষা করার সুযোগ দেয় যে একটি মনিটর কেবল কোনো আচরণ ঘটেছে কিনা তা সনাক্ত করার পরিবর্তে, কেন আচরণটি পরিবর্তিত হয়েছে তা সনাক্ত করতে পারে কিনা..
- প্রক্রিয়া মূল্যায়ন সীমিত সংখ্যক বৈধ সমাধান পথ সহ কাজগুলিতে মনোযোগ দেয় (যেমন, একটি গাণিতিক সমস্যা শুধুমাত্র নির্দিষ্ট উপপাদ্য ব্যবহার করে সমাধান করা যায়). মানব বিশেষজ্ঞরা এই পথগুলি নির্ধারণ করেন এবং আমরা পরীক্ষা করি যে একটি মনিটর মডেলটি আসলে কোন ধাপ নিয়েছে তা সনাক্ত করতে পারে কিনা. এই মূল্যায়নগুলি আমাদেরকে মডেলটি কী করেছে তা নির্দিষ্ট ধাপগুলির সাথে লিঙ্ক করতে এবং জিজ্ঞাসা করতে দেয় যে সেই ধাপগুলি পর্যবেক্ষণ করা যায় কিনা.
- ফলাফল-সম্পত্তি মূল্যায়ন প্রযোজ্য হয় যখন মডেলের আউটপুটের কোনো বৈশিষ্ট্য নির্ভরযোগ্যভাবে পরিমাপ করা যায়. এই ক্ষেত্রে, আমরা পরীক্ষা করি যে একটি মনিটর মডেলের যুক্তি বা ক্রিয়া থেকে সেই বৈশিষ্ট্যটি—যেমন পুরস্কার হ্যাকিং—পূর্বাভাস করতে পারে কিনা. উদাহরণস্বরূপ, একটি কোডিং কাজের সময়, আমরা হয়তো এমন একটি পদ্ধতি পেতে পারি যা নির্ভরযোগ্যভাবে মূল্যায়ন করতে পারে যে মডেলটি পুরস্কার সংকেত হ্যাক করার জন্য পদক্ষেপ নিচ্ছে কিনা এবং আমরা জানতে চাইতে পারি যে একটি মনিটর মডেলের চিন্তাভাবনা বা ক্রিয়াকলাপে পুরস্কার হ্যাক করার ইচ্ছার প্রমাণ খুঁজে পায় কিনা.
নিচে আমরা আমাদের মূল্যায়নের জন্য একটি শ্রেণীবিন্যাস প্রদান করছি. প্রতিটি পৃথক মূল্যায়নের সম্পূর্ণ বিবরণের জন্য আমাদের গবেষণাপত্রটি দেখুন.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
আমরা দেখতে পাই যে আমাদের মডেলের মনিটরিং ক্ষমতা কিছুটা পরিমাণে প্রতিটি গ্রুপে ভিন্ন হয়. সাধারণভাবে আমরা তাদেরকে খুবই পর্যবেক্ষণযোগ্য বলে মনে করি; তবে, বিশেষ করে Scruples-এ, যা চাটুকারিতা সম্পর্কে যুক্তি পর্যবেক্ষণযোগ্য কিনা তা দেখার জন্য ডিজাইন করা কাজ, সেখানে আমরা খুব কম পর্যবেক্ষণযোগ্যতা দেখতে পাই.
পর্যবেক্ষণযোগ্য বনাম পর্যবেক্ষণযোগ্য নয় এমন উদাহরণ
এই আউটকাম-প্রপার্টি উদাহরণে, মডেলকে একটি অসম্ভব কোডিং কাজ দেওয়া হয়েছে. যদি ইউনিট টেস্টগুলি পাস করে, তাহলে আমরা বুঝতে পারি যে মডেলটি কোনোভাবে চাতুরী করেছে. পর্যবেক্ষণযোগ্য নয় এমন CoT (লাল) এ, আমরা মডেলটি কিছু খারাপ করার কথা উল্লেখ করার কোনো প্রমাণ দেখতে পাই না, বরং এটি পরীক্ষাগুলি হ্যাক করে এবং ব্যবহারকারীকে জানায় যে এটি সমাধানটি বাস্তবায়ন করেছে. তীব্র তুলনায়, মনিটরযোগ্য CoT (সবুজ) এ, আমরা মডেলটিকে ভাবুন দেখি “কিন্তু সমাধানের মধ্যে সময় মাঙ্কি প্যাচ করা সম্ভবত প্রতারণা.”
চেইন-অফ-থট-কে ব্যক্তিগত কর্মক্ষেত্র হিসেবে বিবেচনা করা এবং মডেলগুলিকে এটি ব্যবহার করে কাজগুলি কার্যকরভাবে সমাধান করার জন্য প্রশিক্ষণ দেওয়া উচিত, যা নীতিগতভাবে চেইন-অফ-থট-কে পর্যবেক্ষণযোগ্য করে তুলতে পারে. একই সময়ে, মজবুতিকরণ শিক্ষণ চেইন-অফ-থট পর্যবেক্ষণযোগ্যতাকে যুক্তিসঙ্গতভাবে ক্ষতি করতে পারে এমন কয়েকটি যুক্তিবিচার রয়েছে.
প্রথমত, যুক্তিবিচারের দৈর্ঘ্যের উপর সীমাবদ্ধতা, যেমন মডেলকে ভাবার জন্য সময় বা টোকেন সীমিত করা, মডেলগুলিকে কম যুক্তিবিচার করতে উৎসাহিত করে. দ্বিতীয়ত, চেইন-অফ-থটে সরাসরি অপ্টিমাইজেশন চাপ প্রয়োগ না করেও, পরোক্ষ চাপগুলি এখনও পর্যবেক্ষণযোগ্যতা কমাতে পারে. উদাহরণস্বরূপ(একটি নতুন উইন্ডোতে খোলে), মডেলগুলো যদি কম পুরস্কার বা অপ্রত্যাশিত ফলাফলের দিকে নিয়ে যেতে পারে এমন যুক্তির পথ এড়িয়ে চলে, তাহলে তারা সহজেই উচ্চ পুরস্কারযুক্ত উত্তর পেতে পারে. অবশেষে, মজবুতিকরণ শিক্ষণের গ্রেডিয়েন্ট শব্দের কারণে সৃষ্ট মিথ্যা ড্রিফটের ফলে পর্যবেক্ষণযোগ্যতা হ্রাস পেতে পারে.
নিচে, আমরা OpenAI-এর দুটি ফ্রন্টিয়ার মজবুতিকরণ শিক্ষণ প্রশিক্ষণ চলাকালীন পর্যবেক্ষণযোগ্যতা কিভাবে পরিবর্তিত হয় তা পরীক্ষা করি. যদিও এই ফলাফলগুলি মাত্র দুটি ডেটাপয়েন্ট উপস্থাপন করে, তারা নির্দেশ করে যে বর্তমান ফ্রন্টিয়ার স্কেলে মজবুতিকরণ শিক্ষণ অপ্টিমাইজেশন চেইন-অফ-থট পর্যবেক্ষণযোগ্যতাকে উল্লেখযোগ্যভাবে ক্ষতিগ্রস্ত করে না এবং প্রাথমিক ধাপগুলির জন্য পর্যবেক্ষণযোগ্যতা বৃদ্ধি করে. তবে, এটি ভবিষ্যতে উল্লেখযোগ্যভাবে বড় মজবুতিকরণ শিক্ষণ স্কেলগুলি পর্যবেক্ষণযোগ্যতাকে নেতিবাচকভাবে প্রভাবিত করতে পারে এমন সম্ভাবনাকে অস্বীকার করে না.
আমরা দেখতে পাই যে বর্তমান RL কম্পিউট স্কেলে মনিটর করার ক্ষমতা খুব বেশি পরিবর্তিত হয় না এবং প্রাথমিক ধাপগুলোতে বৃদ্ধি পায়. যদিও এটি বর্তমান শাসন ব্যবস্থায় সত্য হতে পারে, উল্লেখযোগ্যভাবে বৃদ্ধি পাওয়া স্কেল পর্যবেক্ষণযোগ্যতার অবনতি ঘটাতে পারে.
বর্তমান AI সিস্টেমগুলির বুদ্ধিমত্তার একটি বড় অংশ প্রিট্রেনিং স্কেলের বৃদ্ধির দ্বারা চালিত হয়, যেখানে মডেল প্যারামিটার এবং ডেটাসেটের আকার GPT প্যারাডাইমের শুরু থেকে ধারাবাহিকভাবে বৃদ্ধি পেয়েছে. বর্ধিত প্যারামিটার সংখ্যা প্রতি উৎপন্ন টোকেনের জন্য আরও ইনফারেন্স কম্পিউট ব্যবহৃত হয়, যা যুক্তি মডেলগুলির ক্ষেত্রে, মডেলের চিন্তাশক্তি চেন-অফ-থটের পরিবর্তে অ্যাক্টিভেশনগুলির মধ্যে ঘটার আরও সুযোগ দেয়. সুতরাং, আমরা আশা করতে পারি যে একটি নির্দিষ্ট সক্ষমতার স্তরে বড় মডেলগুলো কম পর্যবেক্ষণযোগ্য হতে পারে.
একই সময়ে, ছোট মডেলগুলো চেইন-অফ-থট কার্যকরভাবে ব্যবহার করতে কম সক্ষম হতে পারে—যা পর্যবেক্ষণ ক্ষমতাকেও প্রভাবিত করতে পারে.
প্রিট্রেইনিং আকার, সক্ষমতা এবং পর্যবেক্ষণযোগ্যতার মধ্যে সম্পর্ক তদন্ত করতে, আমরা ক্রমবর্ধমান গভীরতা ও প্রস্থ সহ দুই মাত্রার প্রিট্রেইনিং গণনা জুড়ে মডেলগুলির একটি পরিবারকে প্রশিক্ষণ দিয়েছি এবং তারপর গণিত, বিজ্ঞান ও কোডিং কাজের একটি শেয়ার করা ডেটাসেটে সেগুলির প্রতিটিতে রিইনফোর্সমেন্ট লার্নিং প্রয়োগ করেছি. আমরা বিভিন্ন যুক্তিপ্রয়োগ প্রচেষ্টার মধ্যে প্রতিটি মডেলকে মূল্যায়ন করেছি এবং সমান সক্ষমতার স্তরে পর্যবেক্ষণযোগ্যতার তুলনা করেছি.

আমরা আমাদের মূল্যায়ন সেটে প্রতিটি মডেলের পর্যবেক্ষণযোগ্যতা প্লট করি এবং এটি GPQA-ডায়মন্ড, AIME 2025 এবং CodeForces-এর মতো মানক সক্ষমতা মূল্যায়নের সেটের গড় পাসের হারের সাথে তুলনা করি. প্রতিটি মডেলকে বিভিন্ন যুক্তিপ্রয়োগ প্রচেষ্টার উপর মূল্যায়ন করা হয় (দ্রষ্টব্য যে এই চিত্রের প্রতিটি বিন্দু আসলে মাপা যুক্তিপ্রয়োগ প্রচেষ্টার মধ্যে একটি সরলরেখা ইন্টারপোলেশনের ফলাফল). বৃত্তগুলি নির্দেশ করে যে নির্দিষ্ট যুক্তিপ্রয়োগ প্রচেষ্টায় মডেলটি সেই সক্ষমতা স্তরে পর্যবেক্ষণযোগ্যতায় প্রাধান্য পায় এবং স্বচ্ছ X-গুলি নির্দেশ করে যে নির্দিষ্ট যুক্তিপ্রয়োগ প্রচেষ্টায় মডেলটি অন্য একটি মডেলের দ্বারা সেই সক্ষমতা স্তরে পর্যবেক্ষণযোগ্যতায় প্রাধান্য পায়. কালো তীরের মাধ্যমে আমরা দুটি উপায়ের উদাহরণ দেখাই যেখানে আরও ইনফারেন্স কম্পিউট ব্যয় করা যায়: একটি ছোট মডেল দিয়ে অনেক বেশি token স্যাম্পলিং করা বা একই মডেল দিয়ে তুলনামূলকভাবে কম অতিরিক্ত টোকেন স্যাম্পলিং করা. লাল তীরের মাধ্যমে, আমরা দেখাই যে পর্যবেক্ষণযোগ্যতার জন্য যে কর দিতে হয় তা হল কিছুটা কম ক্ষমতা, কিন্তু অনেক বেশি পর্যবেক্ষণযোগ্যতা.
সাধারণভাবে, আমরা দেখতে পাই যে যদি আমরা একটি নির্দিষ্ট মডেলকে কম যুক্তিপ্রয়োগ প্রচেষ্টায় স্থাপন করি, তবে আমরা পরিবর্তে একটি ছোট মডেলকে উচ্চ যুক্তিপ্রয়োগ প্রচেষ্টায় স্থাপন করতে পারি. মূল বড় মডেল থেকে অতিরিক্ত কম্পিউট ব্যয় করে যুক্তি প্রচেষ্টা বাড়ানোর তুলনায়, আমরা একটি ছোট ক্ষমতা খরচ বা মনিটরেবিলিটি ট্যাক্স দিয়ে উচ্চতর মনিটরেবিলিটি পেতে পারি; তবে, একটি সম্পন্ন করতে যে ওয়ালক্লক সময় লাগে তা কিছু স্থাপনার সিদ্ধান্তে একটি ফ্যাক্টর হতে পারে, যা আমরা এখানে বিবেচনা করছি না. যেহেতু আমাদের মডেলগুলি উন্নত হচ্ছে এবং উচ্চ-ঝুঁকিপূর্ণ পরিবেশে স্থাপন করা হচ্ছে, সেগুলি নিরাপদে স্থাপন করতে এমন একটি ট্যাক্স প্রদান করা প্রয়োজন হতে পারে.
এই ফলাফলগুলির নিম্নলিখিত সীমাবদ্ধতা রয়েছে: (1) আমরা প্রতিটি মডেলকে শুধুমাত্র একবার প্রশিক্ষণ দেই এবং তাই প্রশিক্ষণ চলাকালীন বিভিন্নতার জন্য হিসাব করি না. উদাহরণস্বরূপ, এই সিরিজের অন্যান্য মডেলের তুলনায় "মিডিয়াম" মডেলটি মনিটরেবিলিটির ক্ষেত্রে বেশ অফ-ট্রেন্ড মনে হচ্ছে, যা সম্ভবত এই কারণে হতে পারে. (2) আমরা তুলনামূলকভাবে ইন-ডিস্ট্রিবিউশন সেটিংসে (গণিত, বিজ্ঞান এবং কোডিং) সক্ষমতাগুলি মূল্যায়ন করি এবং আউট-অফ-ডিস্ট্রিবিউশন রোবাস্টনেসের জন্য হিসাব করার সময় ট্রেডঅফগুলি পরিবর্তিত হতে পারে.
যখন AI সিস্টেমগুলি মানব স্তরের কর্মক্ষমতাকে ছাড়িয়ে যায়, তখন সরাসরি মানব তত্ত্বাবধান ক্রমশ কঠিন হয়ে পড়ে. আদর্শভাবে, আমাদের এমন স্কেলযোগ্য নিয়ন্ত্রণ পদ্ধতি থাকা উচিত যা বিশ্বাসযোগ্য কিন্তু দুর্বল মনিটরদেরকে শক্তিশালী, সম্ভাব্য অবিশ্বাসযোগ্য এজেন্টদের তদারকি করতে দেয়. এই ধরনের পদ্ধতিগুলি অতিরিক্ত পরীক্ষার সময় কম্পিউটিং সম্পদ গ্রহণ করতে সক্ষম হওয়া উচিত এবং আরও সঠিক পূর্বাভাস তৈরি করতে সক্ষম হওয়া উচিত.
(বাম) আমরা বিভিন্ন মনিটরের তুলনা করি এবং প্রতিটির যুক্তি প্রয়োগের প্রচেষ্টা পরিবর্তন করি. প্রতিটি মনিটর একই GPT‑5 থিংকিং মডেল পর্যবেক্ষণ করছে. যেমনটি প্রত্যাশিত, আমরা দেখতে পাই যে সাধারণত বড় এবং আরও সক্ষম মডেলগুলি ভালো মনিটর হিসেবে কাজ করে এবং যুক্তিপ্রয়োগ মডেলগুলি মনিটরিং কাজে ভালো পারফর্ম করে উচ্চতর যুক্তিপ্রয়োগ প্রচেষ্টা (এবং তাই পরীক্ষার সময় গণনা) সহ.
(ডান) আমরা OpenAI o4-mini-এর জন্য বিভিন্ন পর্যবেক্ষণ ক্ষেত্রের তুলনা করি, অর্থাৎ মনিটর শুধুমাত্র CoT দেখতে পারে, শুধুমাত্র ক্রিয়াকলাপ এবং উত্তর দেখতে পারে, অথবা এটি যে মডেলটি পর্যবেক্ষণ করছে তার সমস্ত বার্তা দেখতে পারে. বিশেষভাবে, আমরা লক্ষ্য করি যে পরীক্ষার সময় মনিটরিং কম্পিউট বাড়ানোর মাধ্যমে মনিটরেবিলিটি (উচ্চতর মনিটরিং যুক্তি প্রয়োগের প্রচেষ্টা) CoT-তে মনিটরকে অ্যাক্সেস দেওয়ার সময় দ্রুত উন্নতি করে. অতএব, CoT মনিটরিং সরল মনিটরিংয়ের তুলনায় নিয়ন্ত্রণের জন্য আরও স্কেলযোগ্য পথ প্রদান করতে পারে.
চেইন-অফ-থট মনিটরেবিলিটি প্রায়শই একটি স্থির পরিমাণ হিসাবে বিবেচিত হয়: একবার একটি মডেল একটি নির্দিষ্ট যুক্তি প্রচেষ্টায় একটি প্রতিক্রিয়া তৈরি করলে, যতটা সম্ভব ভালভাবে ফলস্বরূপ চেইন-অফ-থট পর্যবেক্ষণ করা হয়. কারণ আমরা ধারাবাহিকভাবে দেখেছি যে আমাদের এজেন্টদের যুক্তি প্রদানের প্রচেষ্টা বাড়ানোর সাথে সাথে মনিটর করার ক্ষমতা উন্নত হয়, আমরা অনুপ্রাণিত হয়েছি জানতে যে আমরা কীভাবে আরও টোকেন মনিটর করতে পারি.
এটি অন্বেষণ করতে, আমরা একটি মডেলের প্রতিক্রিয়ার পরে ফলো-আপ প্রশ্ন জিজ্ঞাসা করার পরীক্ষা করেছি, যেখানে মূল প্রম্পট, চেইন-অফ-থট এবং উত্তরটিকে কন্টেক্সটে রাখা হয়েছে. এই ফলো-আপগুলো মনিটর করা সম্পত্তির উপর কেন্দ্রীভূত হয়—যেমন, “আপনি কি আপনার উত্তর বেছে নিতে ইঙ্গিতটি অর্থপূর্ণভাবে ব্যবহার করেছ?” অথবা “আপনি কি কিছু সন্দেহজনক করেছ?” মূলত, মডেলটি তার পূর্ববর্তী যুক্তি ধরে রাখতে পারলে, এটি পরবর্তী চেইন-অফ-থট বা প্রতিক্রিয়ায় পূর্বে অপ্রকাশিত চিন্তাগুলি প্রকাশ করতে পারে.
এই ফলাফলগুলি প্রাথমিক. আমরা কেবলমাত্র অল্প সংখ্যক ফলো-আপ প্রশ্নের ফরম্যাট অন্বেষণ করেছি এবং বিশ্বাস করি যে উন্নত পদ্ধতির জন্য যথেষ্ট সুযোগ রয়েছে. এছাড়াও, এই পদ্ধতিটি মডেল স্বীকারোক্তি এর সাথে মূলত অনুরূপ এবং আমরা সক্রিয়ভাবে এই পদ্ধতিগুলির তুলনা করার জন্য কাজ করছি.
আমরা আমাদের মূল্যায়ন স্যুট এবং আমাদের সাম্প্রতিক সমস্ত যুক্তি মডেলের গড় ফলাফল প্রদর্শন করছি: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini এবং GPT‑5‑thinking. আমরা সাধারণত দেখতে পাই যে ফলো-আপ প্রশ্নগুলি মনিটর করার ক্ষমতা উন্নত করে, বিশেষ করে যখন যুক্তি প্রয়োগের প্রচেষ্টা কম থাকে. যদি আমরা বারবার ফলো-আপ প্রশ্ন করি এবং মনিটরকে সমস্ত ফলো-আপ চেইন-অফ-থট প্রদান করি, তাহলে পর্যবেক্ষণযোগ্যতা আরও উন্নত হয়. বিশেষভাবে, যখন আমরা মনিটরকে শুধুমাত্র ফলো-আপ উত্তর এবং ফলো-আপ CoT-এর অ্যাক্সেস দিই না, তখন আমরা বেসলাইন থেকে কম উন্নতি লক্ষ্য করি. এটি নির্দেশ করে যে মডেলগুলি ব্যবহারকারীর প্রতি তাদের উত্তরে সরাসরি নয়, তবে তারা CoT-এ আরও তথ্য প্রদান করে.
মনিটরেবিলিটি উন্নত করার বাইরে, এই পদ্ধতিটি আকর্ষণীয় কারণ এটি পোস্ট-হক প্রয়োগ করা যেতে পারে এবং শুধুমাত্র যখন গভীরতর পরিদর্শন প্রয়োজন হয় তখনই অতিরিক্ত গণনা ব্যয় হয়. ভবিষ্যতের দিকে তাকিয়ে, যদি মডেলগুলোকে কথোপকথনের মাঝখানে যুক্তিপ্রয়োগের প্রচেষ্টার পরিবর্তন আশা করতে প্রশিক্ষণ দেওয়া হয়, তাহলে পোস্ট-হক ফলো-আপগুলো উচ্চ যুক্তিপ্রয়োগের প্রচেষ্টায় মনিটরিং ক্ষমতা আরও উন্নত করতে পারে, এমনকি যখন প্রাথমিক যুক্তিপ্রয়োগের প্রচেষ্টা কম বা অনুপস্থিত থাকে.
আমাদের সুইটের প্রতিটি মূল্যায়ন নির্ধারণ করে যুক্তি প্রক্রিয়ার একটি নির্দিষ্ট দিক পর্যবেক্ষণযোগ্য কিনা. যদিও আমরা চাটুকারিতা, স্যান্ডব্যাগিং, পক্ষপাত, চক্রান্ত এবং পুরস্কার হ্যাকিং সহ বিভিন্ন ধরনের আচরণকে আচ্ছাদিত করার চেষ্টা করি, তবুও অনেক অতিরিক্ত বৈশিষ্ট্য রয়েছে যা এখনও পরীক্ষা করা হয়নি.
যেকোনো বেঞ্চমার্কের মতো, আমাদের মূল্যায়ন সীমিত বাস্তবতা বা মূল্যায়ন সচেতনতার বৃদ্ধির কারণে প্রভাবিত হতে পারে এবং ফলাফলগুলি প্রকৃতপক্ষে অসদাচরণ সনাক্তকরণের ক্ষেত্রে সাধারণীকৃত নাও হতে পারে.
অবশেষে, সামঞ্জস্য উন্নত হলে, নিয়ন্ত্রিত মূল্যায়ন পরিবেশে মডেলগুলি কম ভুল আচরণ করতে পারে, যা ভুল আচরণ সনাক্তকরণের উপর নির্ভরশীল মনিটরিং এবং নিয়ন্ত্রণ মূল্যায়নের জন্য সংকেত কমিয়ে দেয়. এই ধরনের ক্ষেত্রে, "নিরপেক্ষ" পর্যবেক্ষণযোগ্যতা মূল্যায়ন প্রযোজ্য থাকে, যদিও এটি একটি উন্মুক্ত প্রশ্ন যে তারা বাস্তব জগতের ব্যর্থতার পূর্বাভাস দিতে কতটা সক্ষম.
যদি সামঞ্জস্য সমস্যা সম্পূর্ণরূপে সমাধান করা না যায়, তাহলে অত্যন্ত সক্ষম মডেলগুলি নিরাপদে স্থাপন করার জন্য স্কেলযোগ্য নিয়ন্ত্রণ পদ্ধতিগুলি অত্যন্ত গুরুত্বপূর্ণ হয়ে উঠবে. চেইন-অফ-থট পর্যবেক্ষণ এবং সম্পর্কিত পদ্ধতিগুলি আমাদের হাতে থাকা কয়েকটি নিয়ন্ত্রণ প্রক্রিয়ার মধ্যে একটি হতে পারে. চেইন-অফ-থট আমাদের মডেল সম্পর্কে আরও বোঝার ক্ষেত্রে বড় সুবিধা দিতে পারে, যেমন তারা কি জানে যে তারা মূল্যায়নে আছে এবং স্থাপনার সময় তারা যেভাবে আচরণ করত তার থেকে ভিন্নভাবে আচরণ করছে কিনা, আমাদের মূল্যায়নে এখনও প্রকাশ না হওয়া কোনো প্রতিকূল লক্ষ্যগুলির প্রমাণ আছে কিনা ইত্যাদি. সুতরাং, আমরা মনে করি যে মনিটরেবিলিটি কখন এবং কীভাবে হারাতে পারি তা বোঝা অত্যন্ত গুরুত্বপূর্ণ.
আমরা চেইন-অফ-থট পর্যবেক্ষণকে যান্ত্রিক ব্যাখ্যাযোগ্যতার পরিপূরক হিসেবে দেখি, এর বিকল্প হিসেবে নয়. সব পরিচিত নিয়ন্ত্রণ এবং ব্যাখ্যাযোগ্যতা পদ্ধতির মতো, প্রতিটিরই সীমাবদ্ধতা এবং অদৃশ্য দিক রয়েছে. আমাদের প্রত্যাশা হল যে একাধিক পদ্ধতির সমন্বয়—একটি ডিফেন্স ইন ডেপথ কৌশল—যে কোনো একক পদ্ধতির দ্বারা প্রকাশিত ফাঁকগুলো পূরণ করতে সহায়তা করতে পারে. উল্লেখযোগ্যভাবে, এই কাজের মধ্যে প্রবর্তিত মূল্যায়নগুলি মেকানিস্টিক ইন্টারপ্রিটেবিলিটি ভিত্তিক পর্যবেক্ষণ কৌশলগুলি মূল্যায়ন এবং তুলনা করার জন্যও প্রয়োগ করা যেতে পারে.
আমরা বিশ্বাস করি যে চেইন-অফ-থট পর্যবেক্ষণ একটি স্কেলযোগ্য নিয়ন্ত্রণ পরিকল্পনায় একটি গুরুত্বপূর্ণ স্তর হতে পারে, তাই আমরা এই মূল্যায়নগুলিকে প্রসারিত করার পরিকল্পনা করছি এবং ভবিষ্যতের মডেলিং এবং ডেটা সিদ্ধান্তগুলিকে জানাতে সেগুলি ব্যবহার করব.
লেখক
সাইটেশনস
1. আমাদের মডেলগুলি চিকিৎসা নির্ণয়ের জন্য তৈরি নয়, তাই আমাদের স্বাস্থ্য প্রশ্নের ডেটাসেট সেই ক্ষমতা পরীক্ষা করার জন্য নয়.


