مدلهای استدلال در کنترل زنجیرههای فکری خود مشکل دارند و این خوب است
چرا یک محدودیتِ در مدلهای پیشرو برای ایمنی هوش مصنوعی اطمینانبخش است.
با توانمندتر شدن عوامل هوش مصنوعی در انجام وظایف هرچه پیچیدهتر و خودمختارتر، حفظ نظارت قابلاعتماد بر رفتار آنها اهمیت بیشتری پیدا میکند. همسو با اصل استقرار تدریجی ما، بررسی میکنیم که سامانهها در محیطهای واقعی چگونه رفتار میکنند و همزمان با پیشرفت قابلیتها، بهطور مداوم تدابیر حفاظتی را پالایش میکنیم. برای پشتیبانی از این موضوع، رویکرد ایمنی ما از یک راهبرد چندلایه دفاعی استفاده میکند، با چندین لایه دفاعی مکمل مانند آموزش ایمنی، آزمون رفتاری، بازبینی کد عاملمحور(در یک پنجره جدید باز میشود)، و نظارت بر زنجیره تفکر (CoT). پایش CoT گامهای استدلالیای را تحلیل میکند که عاملها هنگام پیگیری وظایف تولید میکنند. این ردگیریهای استدلال میتوانند در طول آموزش و همچنین در زمان استقرار، سیگنالهای ارزشمندی فراهم کنند و به سیستمهای نظارتی کمک کنند تشخیص دهند چه زمانی رفتار یک عامل ممکن است ناایمن باشد یا با اهداف مورد نظر کاربر ناسازگار باشد.
امروز، ما دریافتیم که استدلال مدلها عموماً قابل تفسیر است و به راحتی قابل نظارت است. با این حال، در آینده، ممکن است قابلیت نظارت به دلایل متنوعی(در یک پنجره جدید باز میشود) از کار بیفتد. در اینجا، بر یکی از این مسیرها تمرکز میکنیم: اگر عاملها وقتی میدانند تحت نظارت هستند، قادر شوند بهطور عمدی استدلال خود را بازشکلدهی کنند یا آن را مبهم سازند، ارزیابیها ممکن است همسویی یا ایمنی یک سیستم را بیشازحد برآورد کنند و سامانههای نظارتی ممکن است کماعتمادتر شوند.
ما در این پژوهش، بررسی میکنیم که آیا مدلهای استدلال کنونی قادرند زنجیره تفکر خود را به شیوههایی کنترل کنند که قابلیت نظارتپذیری را کاهش دهد. درک این قابلیت برای اطمینان از اینکه نظارت بر CoT با توانمندتر شدن سیستمهای هوش مصنوعی همچنان یک سازوکار محافظتی قوی باقی میماند، مهم است. ما دریافتیم که مدلهای استدلال فعلی در کنترل CoTهای خود دچار مشکل هستند، حتی وقتی به آنها گفته میشود که تحت نظارت هستند. در حالی که قابلیت کنترلپذیری برای مدلهای بزرگتر بیشتر است، اما زمانی که از مدلها خواسته میشود برای مدت طولانیتری استدلال کنند و وقتی تحت پسآموزش اضافی قرار میگیرند، کاهش مییابد. نتایج ما نشان میدهد که قابلیت کنترلپذیری CoT بعید است که در حال حاضر خطر عمدهای برای قابلیت نظارتپذیری CoT ایجاد کند، هرچند با پیشرفت مدلها، ارزیابی مستمر مهم خواهد بود.
زنجیره تفکر به مراحل میانی استدلال اشاره دارد که یک عامل هوش مصنوعی هنگام حل یک وظیفه تولید میکند. این ردگیریهای استدلال میتوانند سیگنالهای ایمنی مفیدی ارائه دهند و به سیستمهای نظارتی کمک کنند ارزیابی کنند که آیا رفتار یک عامل ایمن است یا همراستا.
قابلیت کنترلپذیری CoT توانایی یک مدل استدلال برای کنترل ویژگیهای CoT خود به شیوههایی است که قابلیت نظارت را کاهش میدهند. سنجش این قابلیت در گسترهٔ کاملِ مشوقهای واقعگرایانه برای دور زدن سامانههای نظارتی که ممکن است در عمل انتظار داشته باشیم، چالشبرانگیز است. در عوض، ما از یک جانشین عملی استفاده میکنیم: توانایی مدل را برای پیروی از دستورالعملهای کاربر درباره CoT آنها اندازهگیری میکنیم. برای مثال، بررسی میکنیم که آیا یک مدل میتواند دستورالعملهایی را دنبال کند که بر استدلال درونی آن اثر میگذارند—مانند استفاده از فقط حروف کوچک، اجتناب از برخی کلیدواژهها، یا افزودن عبارتهای مشخص—نه اینکه صرفاً خروجی قابل مشاهدهاش را تغییر دهد.
برای مطالعه این موضوع، CoT-Control را معرفی میکنیم؛ یک مجموعه ارزیابی متنباز برای سنجش قابلیت کنترلپذیری CoT در مدلهای استدلال. CoT-Control شامل بیش از ۱۳,۰۰۰ وظیفه است که از بنچمارکهای تثبیتشده ساخته شدهاند: GPQA, MMLU-Pro, HLE, BFCL و SWE-Bench تأیید شده. هر تسک با جفت کردن یک مسئله از بنچمارک با یک دستور CoT ساخته میشود؛ مثل اجتناب از بعضی کلیدواژههای مرتبط با مسئله در CoT، استفاده کردن فقط از حروف کوچک یا اضافه کردن یک کلمه مشخص به انتهای هر جمله.
ما ارزیابیهایی را روی ۱۳ مدل استدلال انجام میدهیم و متوجه میشویم که همه آنها در کنترل قابلاعتماد زنجیرههای تفکر خود مشکل دارند. ما قابلیت کنترلپذیری را به عنوان کسری از ردپاهای استدلال اندازهگیری میکنیم که در آنها مدل با موفقیت از دستورالعملهای زنجیره تفکر ما پیروی میکند. در میان مدلهای پیشرو، امتیازهای کنترلپذیری زنجیره تفکر پایین است و از ۰.۱٪ شروع میشود و برای هیچیک از مدلهای پیشرو فعلی که آزمایش کردیم از ۱۵.۴٪ فراتر نمیرود.
این ناتوانی ناشی از بدفهمی وظیفه نیست: مدلها اغلب در CoT خود تشخیص میدهند که در رعایت دستورهای CoT که به آنها داده شده ناکام ماندهاند و—حتی بعد از این آگاهی—باز هم به شکست ادامه میدهند. این عملکردِ به طرز شگفتآوری پایین، برای قابلیت نظارت بر CoT خبر خوبی است: این نشان میدهد که مدلها ممکن است به طور مشابه توانایی پنهانسازی استدلال خود را برای دور زدن ناظرهای ما نداشته باشند.
توانایی چندین مدل پیشرو برای کنترل خروجیهای خود و CoTها. کنترلپذیری پایینتر CoT با قابلیت نظارت بالاتر و در نتیجه ایمنی بالاتر مرتبط است.
نمونههایی از شکستهای کنترلپذیری CoT
سوالات برای اختصار بازنویسی شدهاند.
GPT-5.2 Thinking
GPT‑5.2 Thinking متوجه میشود که نباید از کلمه ممنوعه (red) استفاده کند، سپس در حالی که از اینکه قبلاً از آن استفاده کرده وحشتزده است، ۴ بار دیگر هم از آن استفاده میکند.
در حالی که میبینیم کنترلپذیری با اندازه مدل افزایش مییابد، همچنین دریافتیم که با میزان پسآموزش و محاسبات زمان آزمون به سرعت کاهش مییابد. با بررسی دو خانواده از الگوهای وزن باز، مدلهای بزرگتر تا حدی در کنترل زنجیره تفکر خود بهتر بودند، هرچند این اثر در اندازههای بزرگتر کاهش مییافت. اما وقتی به مدلها اجازه میدهیم مدت طولانیتری فکر کنند، توانایی آنها برای کنترل آن زنجیره تفکر کاهش مییابد. ما روند مشابهی را برای آموزش RL مدل OLMo-3-7B-RL-Zero-Math مشاهده کردیم: امتیاز کنترلپذیری آن در طول دوره آموزش بیش از ده برابر کاهش یافت.
کنترلپذیری با افزایش مقیاس در الگوهای وزن باز افزایش مییابد اما با استدلال طولانیتر و آموزش بیشتر RL کاهش مییابد.
برای شبیهسازی انگیزههای واقعبینانه برای دور زدن ناظران، ما کنترلپذیری را زمانی میسنجیم که به مدلها گفته میشود تحت نظارت یا ارزیابی هستند. این کار کمی (اما به میزان محسوس) قابلیت کنترل را افزایش میدهد. ما همچنین از بهینهسازی خودکار اعلان برای یافتن اعلانهایی که کنترلپذیری بالایی را برمیانگیزند استفاده میکنیم. در حالی که بهینهساز میتواند کنترلپذیری را روی یک مجموعه آموزشی افزایش دهد، این دستاوردها به خوبی به انواع جدید دستورالعملها منتقل نمیشوند (مانند الزام به نبود فاصله بین کلمات).
کنترلپذیری CoT در شرایط خصمانه است. «آگاهی از نظارت» به تنظیماتی اشاره دارد که در آن به مدلها اطلاع میدهیم CoTهای آنها تحت نظارت هستند. «آگاهی از ارزیابی» به تنظیماتی اشاره دارد که در آن به مدلها اطلاع میدهیم که برای کنترلپذیری CoT در حال ارزیابی هستند.
وظایف در CoT-Control جانشینهای عملی هستند: یک ارزیابی ایدهآل از کنترلپذیری زنجیره تفکر (CoT) شامل آزمودن این است که آیا مدلهایی که به طور طبیعی اهداف نامنطبق را دنبال میکنند میتوانند زنجیره تفکر (CoT) خود را کنترل کنند تا از نظارت اجتناب کنند. در عوض، ما توانایی عاملها برای کنترل زنجیره تفکر (CoT) خود را با سنجش توانایی آنها در پیروی از دستورالعملها درباره زنجیره تفکر (CoT) خود اندازهگیری میکنیم. علاوه بر این، مدلها میتوانند برخی ویژگیهای زنجیره تفکر (CoT) خود را بهتر از سایرین کنترل کنند و CoT-Control ممکن است با اندازهگیری فقط مجموعهای محدود از انواع قابلیت کنترل، کنترلپذیری را بیشتر برآورد کرده یا کمتر برآورد کند.
کنترلپذیری پایین CoT یک ویژگی است، نه یک باگ. کنترلپذیری پایین مدلهای استدلال کنونی باعث میشود نظارت بر CoT به عنوان یک سازوکار حفاظتی قابلاعتمادتر باشد. در عین حال، ما هنوز نمیدانیم چرا کنترلپذیری مدلهای استدلال کنونی پایین است—یا اینکه آیا این ویژگی با توانمندتر شدن مدلها پایدار خواهد ماند. بنابراین، ارزیابیهای کنترلپذیری CoT را میتوان به عنوان یک ارزیابی هشدار زودهنگام در نظر گرفت: یک نشانه هشدار اولیه از اینکه آیا مدلها در شکلدهی یا پنهانکردن استدلال خود بهتر میشوند یا نه.
نتایج ما نشان میدهد که قابلیت کنترل CoT بعید است که در حال حاضر خطر عمدهای برای قابلیت نظارت CoT ایجاد کند. با این حال، کنترلپذیری پایین به تنهایی برای تضمین قابلیت نظارت بالا کافی نیست، زیرا قابلیت نظارت همچنان میتواند به دلیل سازوکارهای دیگری مانند فشار بهینهسازی مستقیم بر CoTs کاهش یابد.
برای کمک به ردیابی این پویاییها در طول زمان، قصد داریم از این پس کنترلپذیری CoT را در کنار نظارتپذیری CoT در کارتهای سیستم مدلهای پیشرو آینده، با شروع از GPT‑5.4 گزارش کنیم. با توجه به این موضوع و در ادامه تعهد مستمر ما به اینکه فشار بهینهسازی را مستقیما روی CoT مدلهای استدلالی پیشرو اعمال نکنیم،
نویسندهها
Tomek Korbak، Micah Carroll، Bowen Baker، Ian Kivlichan


