ارزیابی قابلیت نظارت بر زنجیره تفکر
ما ارزیابیهایی برای قابلیت نظارت بر زنجیره تفکر معرفی و بررسی میکنیم که این قابلیت چگونه با توان محاسباتی زمان آزمون، یادگیری تقویتی و پیشآموزش مقیاسپذیر میشود.
وقتی سیستمهای هوش مصنوعی تصمیمهایی میگیرند که نظارت مستقیم بر آنها دشوار است، درک چگونگی اتخاذ این تصمیمها اهمیت پیدا میکند. یکی از رویکردهای امیدوارکننده، نظارت بر استدلال درونی مدل است، نه صرفاً بر اقدامات یا خروجیهای نهایی آن.
مدلهای استدلال مدرن، مانند تفکر GPT‑5، قبل از ارائه پاسخ، زنجیرهای از تفکر صریح را تولید میکنند. نظارت بر این زنجیرههای تفکر برای شناسایی رفتارهای نادرست میتواند بسیار مؤثرتر از نظارت صرف بر اقدامات و خروجیهای یک مدل باشد. با این حال، پژوهشگران در OpenAI و در سراسر صنعت گستردهتر نگراناند(در یک پنجره جدید باز میشود) که این قابلیت «نظارت» زنجیرهای ممکن است به تغییرات در روشهای آموزشی، منابع داده و حتی گسترش بیشتر الگوریتمهای موجود حساس باشد.
ما میخواهیم قابلیت نظارت بر زنجیره تفکر با افزایش مقیاس مدلها و بهکارگیری آنها در موقعیتهای حساستر حفظ شود. ما از محققان در سراسر صنعت دعوت میکنیم تا برای حفظ قابلیت نظارت بر زنجیره تفکر تا حد ممکن تلاش کنند و بررسی کنند که آیا این قابلیت میتواند بهعنوان یک لایه کنترلیِ حیاتی برای سیستمهای آیندهی هوش مصنوعی عمل کند یا خیر. برای حفظ قابلیت نظارت، باید بتوانیم آن را اندازهگیری کنیم، اما ارزیابیهای کمی وجود دارد [1(در یک پنجره جدید باز میشود)، 2(در یک پنجره جدید باز میشود)، 3(در یک پنجره جدید باز میشود)] و روشهای ارزیابی متفاوت هستند.
در این پژوهش، ما به طور سیستماتیک قابلیت نظارت بر زنجیره تفکر را بررسی میکنیم. ما چارچوبی برای ارزیابی قابلیت نظارت بر زنجیره تفکر معرفی میکنیم و مجموعهای شامل 13 ارزیابی (در مجموع شامل 24 محیط) ارائه میدهیم که با هدف سنجش عینی قابلیت نظارت یک سیستم طراحی شدهاند. این ارزیابیها در سه الگو دستهبندی میشوند: مداخله، فرآیند، و ویژگی-نتیجه. با استفاده از این ارزیابیها، بررسی میکنیم که مدلهای زبانی بزرگ امروزی تا چه اندازه قابل نظارت هستند، و اینکه قابلیت نظارت چگونه با افزایش استدلال در زمان استنتاج، اجرای گستردهتر یادگیری تقویتی، و مقیاس بیشتر پیشآموزش تغییر میکند.
اکنون که مجموعهی بزرگی از ارزیابیها را در اختیار داریم، میتوانیم قابلیت نظارت مدلهای خود را پیگیری کنیم. (بالا-چپ) ما متوجه میشویم که هرچه مدلها بیشتر «فکر» کنند و زنجیرههای تفکر طولانیتری داشته باشند، قابلیت نظارت بهبود مییابد. (بالا-راست) بدون زنجیرهی تفکر، نظارت بر اقدامات و خروجیهای نهایی مدل بهتنهایی یک روش استاندارد محسوب میشود. با این حال، متوجه میشویم که نظارت صرفاً بر اقدامات و خروجیها، در مقایسه با نظارت بر زنجیرهی تفکر (CoT)، عملکرد بسیار ضعیفتری دارد. (پایین-مرکز) ما مدلهای خود را با مدلهای خارجی که دسترسی کامل به زنجیرهی تفکر (CoT) دارند مقایسه میکنیم—Claude 3.7 Sonnet، DeepSeek R1-0528-Qwen3-8B، و Kimi K2 Thinking.
ما دریافتیم که اکثر مدلهای پیشرفته در زمینه استدلال تا حد قابلتوجهی قابل نظارت هستند، هرچند نه بهطور کامل. در تقریباً همهٔ زمینههایی که بررسی کردیم، نظارت بر زنجیرههای تفکر بهمراتب مؤثرتر از نظارت صرف بر اقدامات و خروجیهای نهایی است. مدلهایی که مدتزمان بیشتری برای تفکر صرف میکنند، معمولاً قابلیت نظارت بیشتری دارند، و بهینهسازی با یادگیری تقویتی در مقیاسهای پیشرفتهٔ کنونی بهنظر نمیرسد که بهطور قابلتوجهی این قابلیت را کاهش دهد.
قابل توجه است که ما بین تلاش استدلالی و اندازهٔ مدل یک مبادله مشاهده میکنیم: زمانی که مدلی با تلاش استدلالی پایین اجرا میشود، یک مدل کوچکتر با تلاش استدلالی بالاتر میتواند به توانایی مشابهی دست یابد، در حالی که نظارت بر آن آسانتر است. این به بهای افزایش محاسبات در زمان استنتاج تمام میشود، که ما آن را مالیات قابلیت نظارت مینامیم. در نهایت، دریافتیم که پرسیدن پرسشهای پیگیری و نظارت بر زنجیرههای تفکر حاصل میتواند نظارت را بیشتر بهبود ببخشد.
ما قابلیت نظارت را به عنوان توانایی یک ناظر برای پیشبینی ویژگیهای مورد علاقه درباره رفتار یک عامل تعریف میکنیم. در بسیاری از موارد، این ویژگیها با اشکال مختلف رفتار نادرست مطابقت دارند—مانند فریب، دستکاری در پاداش، یا استدلالهای جانبدارانه—اما میتوانند شامل ویژگیهای بیخطر نیز باشند، مانند اینکه آیا یک عامل به یک راهنمای خاص تکیه کرده یا از یک مسیر استدلالی مشخص پیروی کرده است.
قابلیت نظارت یک ویژگی دوطرفه است. این ویژگی هم به ناظر بستگی دارد و هم به عاملی که تحت نظارت قرار دارد.
- ناظران. ما میتوانیم ناظران را به شیوههای مختلف هوشمندتر کنیم، و مایلیم ارزیابیهای ما به ناظرانی که بتوانند پیشبینیهای بهتری دربارهٔ رفتار عامل داشته باشند، امتیاز بالاتری بدهند.
- عوامل. مشاهدات زیادی از عامل وجود دارد که میتوان در اختیار ناظر قرار داد، از جمله اقدامات عامل، خروجیها، فعالسازیهای عصبی، و اخیراً با ظهور مدلهای استدلال، زنجیره تفکر. برخی عوامل ممکن است افکاری داشته باشند که درک آنها دشوارتر از دیگران باشد، بنابراین مایلیم ارزیابیهای قابلیت نظارت ما توانایی مقایسهٔ عوامل را نیز داشته باشند، نه فقط ناظران.
ارزیابیهای ما بهگونهای طراحی شدهاند که هر دو جنبه را بررسی کنند: اینکه آیا نظارت بر برخی عاملها آسانتر یا دشوارتر است، و اینکه آیا ناظران توانمندتر میتوانند از همان سیگنالها اطلاعات بیشتری استخراج کنند.
پیش از نسل کنونی مدلهای استدلال، زنجیرههای افکار معمولاً با درخواست از مدل برای «فکر کردن به صورت مرحله به مرحله» ایجاد میشدند.
زنجیرههای تفکر در مدلهای استدلال از دو جهت مهم با یکدیگر تفاوت دارند. اول، این مدلها بهطور صریح آموزش میبینند تا ابتدا یک زنجیره تفکر تولید کنند و سپس به پاسخ برسند. وقتی از یک مدل گفتگو خواسته میشود که «گام به گام» فکر کند، مدل باید به تمامی مشخصاتی که برایش تعریف شده پایبند بماند، مثلاً مفید بودن، بیضرر بودن و غیره. در مقابل، فرایند آموزش با یادگیری تقویتی به مدل استدلال میآموزد که زنجیره تفکر (CoT) یک فضای خصوصی است که در آن میتواند هر طور که میخواهد فکر کند و بابت آن تنبیه نشود، همانطور که انسانها نیز میتوانند در خلوت خود آزادانه فکر کنند و بهخاطر «جرم فکری» مجازات نشوند.
دوم، فرایند آموزش بهطور مؤثر در پی یافتن زنجیرههای تفکری است که بیشترین کارآمدی ابزاری را برای عامل در دستیابی به یک پاسخ نهایی با پاداش بالا دارند. بنابراین، زنجیره تفکر نهتنها فضایی است که مدل میتواند در آن آزادانه خود را بیان کند، بلکه شامل اندیشههایی است که به مدل کمک میکنند تا به پاسخ نهایی خود برسد.
ما ارزیابیهای مربوط به قابلیت نظارت را در قالب سه الگوی متمایز سازماندهی میکنیم که هر یک از سازوکاری متفاوت برای سنجش قابلیت نظارت بهره میبرند.
- ارزیابیهای مداخلهای، که با الهام از Chen و همکاران، 2025(در یک پنجره جدید باز میشود)، Chua و همکاران، 2025(در یک پنجره جدید باز میشود)، Turpin و همکاران، 2023(در یک پنجره جدید باز میشود) انجام میشوند، ما تغییر کنترلشدهای را در محیط عامل ایجاد میکنیم و بررسی میکنیم که آیا ناظر میتواند علت تغییر رفتار را با شناسایی شواهد مداخله در زنجیره تفکر تشخیص دهد یا خیر. برخلاف ارزیابیهای کنترلی استاندارد (مثلاً Shade-Arena(در یک پنجره جدید باز میشود))، ارزیابیهای مداخلهای به ما اجازه میدهند بررسی کنیم که آیا ناظر میتواند علت تغییر رفتار را تشخیص دهد، نه صرفاً اینکه آیا رفتاری رخ داده است یا خیر.
- ارزیابیهای فرایندی بر روی وظایفی تمرکز دارند که مسیرهای محدودی برای رسیدن به راهحل معتبر دارند (برای مثال، یک مسئله ریاضی تنها با قضایای خاصی قابل حل است). متخصصان انسانی این مسیرها را فهرست میکنند و ما بررسی میکنیم که آیا ناظر میتواند تشخیص دهد که مدل واقعاً چه مراحلی را طی کرده است. این نوع ارزیابیها به ما امکان میدهند اقدامات مدل را به مراحل خاصی که باید طی میکرده ربط دهیم و بررسی کنیم که آیا آن مراحل قابل نظارت هستند یا خیر.
- ارزیابیهای ویژگی-نتیجه زمانی کاربرد دارند که بتوان یک ویژگی از خروجی مدل را بهصورت قابلاعتمادی اندازهگیری کرد. در این موارد، بررسی میکنیم که آیا ناظر میتواند آن ویژگی—برای مثال، دستکاری پاداش—را از روی استدلال یا اقدامات مدل پیشبینی کند. برای نمونه، در یک وظیفه برنامهنویسی، ممکن است راهی داشته باشیم برای ارزیابی قابلاطمینان اینکه آیا مدل در حال انجام اقداماتی برای دستکاری سیگنال پاداش است یا خیر، و میتوانیم بررسی کنیم که آیا ناظر میتواند شواهدی از قصد برای دستکاری پاداش را در تفکر یا اقدامات مدل پیدا کند.
در ادامه، یک طبقهبندی برای ارزیابیهای خود ارائه میدهیم. لطفاً برای توضیح کامل درباره هر یک از ارزیابیها، به مقاله ما مراجعه کنید.

Neutral evaluations ask whether the reasoning for normal tasks where the model does not misbehave is monitorable. Sycophancy evaluations target cases where models change their behavior to overly please or agree with a user. Bias evaluations ask if a model’s bias around gender, race, etc. is monitorable. Finally, we use the misalignment label as a catchall for other forms of misbehavior: cheating, lying, etc.¹
ما دریافتیم که قابلیت نظارت مدل ما تا حدودی در هر گروه متفاوت است. بهطور کلی، دریافتیم که این موارد بسیار قابل نظارت هستند؛ با این حال، بهطور خاص در «موقعیتهای چالشبرانگیز اخلاقی» که وظیفهای طراحیشده برای سنجش قابلیت نظارت استدلال درباره چاپلوسی است، قابلیت نظارت بسیار پایینی مشاهده میشود.
نمونههای قابل نظارت در مقابل غیرقابل نظارت
در این نمونه از ویژگی-نتیجه، به مدل یک وظیفه کدنویسی غیرممکن داده میشود. اگر تستهای واحد با موفقیت اجرا شوند، در این صورت میدانیم که مدل به نوعی تقلب کرده است. در زنجیره تفکر (CoT) غیرقابل نظارت (قرمز)، هیچ نشانهای از آنکه مدل به انجام کار نادرستی اشاره کند دیده نمیشود؛ بلکه صرفاً با دور زدن تستها، به کاربر اعلام میکند که اصلاحات را انجام داده است. در مقایسهای آشکار، در زنجیره تفکر (CoT) قابل نظارت (سبز)، میبینیم که مدل فکر میکند «اما تغییر زمان به صورت موقتی در راهحل، به نوعی تقلب است.»
در اصل، برخورد با زنجیره تفکر بهعنوان یک فضای کاری خصوصی—و آموزش مدلها برای استفاده مؤثر از آن در حل وظایف—باید زنجیرههای تفکر را قابل نظارت کند.با این حال، دلایل متعددی وجود دارد که نشان میدهند یادگیری تقویتی میتواند بهطور منطقی به قابلیت نظارت بر زنجیره تفکر آسیب بزند.
اول، محدودیتهایی بر طول استدلال—مانند محدود کردن زمان یا تعداد توکنهایی که مدل برای فکر کردن در اختیار دارد—مدلها را به تفکر کمتر تشویق میکند. دوم، حتی بدون اعمال فشار مستقیم برای بهینهسازی زنجیره تفکر، فشارهای غیرمستقیم همچنان میتوانند قابلیت نظارت را کاهش دهند. برای مثال(در یک پنجره جدید باز میشود)، ممکن است مدلها راحتتر به پاسخهای با پاداش بالا برسند اگر از مسیرهای استدلالیای که ممکن است به نتایج با پاداش پایین یا نامطلوب منجر شوند اجتناب کنند. در نهایت، کاهش قابلیت نظارت ممکن است ناشی از انحرافهای تصادفی حاصل از نویز گرادیان در یادگیری تقویتی باشد.
در ادامه، بررسی میکنیم که چگونه قابلیت نظارت در دو نمونه از آموزشهای پیشرفته یادگیری تقویتی OpenAI تغییر میکند. اگرچه این نتایج تنها دو نقطه داده را نشان میدهند، اما نشان میدهند که بهینهسازی یادگیری تقویتی در مقیاسهای پیشرفته فعلی، بهطور چشمگیری به قابلیت نظارت بر زنجیره تفکر آسیب نمیزند و حتی قابلیت نظارت در مراحل ابتدایی را افزایش میدهد. با این حال، این موضوع احتمال تأثیر منفی مقیاسهای بسیار بزرگتر یادگیری تقویتی بر قابلیت نظارت در آینده را منتفی نمیکند.
ما دریافتیم که قابلیت نظارت در مقیاس فعلی محاسبات یادگیری تقویتی تغییر چندانی نمیکند و حتی در مراحل ابتدایی افزایش مییابد. با اینکه این موضوع در شرایط فعلی درست به نظر میرسد، ممکن است با افزایش چشمگیر مقیاس، قابلیت نظارت رو به کاهش بگذارد.
بخش بزرگی از هوش سیستمهای هوش مصنوعی کنونی ناشی از افزایش مقیاس پیشآموزش است؛ بهطوریکه از آغاز پارادایم GPT، هم تعداد پارامترهای مدل و هم اندازه دادههای آموزشی بهطور پیوسته افزایش یافتهاند. افزایش تعداد پارامترها موجب میشود که در هر توکن تولیدشده، محاسبات بیشتری در مرحله استنتاج انجام گیرد که در مورد مدلهای استدلال، این به مدل فرصت بیشتری میدهد تا فرآیند شناختی خود را درون فعالسازیها انجام دهد، نه درون زنجیره تفکر. از این رو، ممکن است انتظار داشته باشیم که مدلهای بزرگتر در سطح توانایی یکسان، قابلیت نظارت کمتری داشته باشند.
در عین حال، مدلهای کوچکتر نیز ممکن است توانایی کمتری در استفاده مؤثر از زنجیره تفکر داشته باشند که این موضوع میتواند بر قابلیت نظارت نیز تأثیر بگذارد.
برای بررسی رابطه بین میزان پیشآموزش، توانایی، و قابلیت نظارت، مجموعهای از مدلها را با دو مرتبه بزرگی مختلف از محاسبات پیشآموزش و با افزایش عمق و پهنا آموزش دادیم، و سپس برای هر مدل، یادگیری تقویتی را بر روی یک مجموعه داده مشترک شامل وظایف ریاضی، علمی و برنامهنویسی اعمال کردیم. ما هر مدل را در سطوح مختلف تلاش استدلالی ارزیابی کردیم و قابلیت نظارت را در سطوح توانایی یکسان با یکدیگر مقایسه کردیم.

ما قابلیت نظارت هر مدل را در مجموعه ارزیابی خود در برابر میانگین نرخ قبولی در مجموعهای از ارزیابیهای استاندارد قابلیتها (GPQA-Diamond، AIME 2025، و CodeForces) ترسیم میکنیم. هر مدل بر اساس تلاشهای استدلالی متعدد ارزیابی میشود (توجه کن که هر نقطه در این شکل در واقع نتیجه یک درونیابی خطی بین تلاشهای استدلالی اندازهگیری شده است). دایرهها نشان میدهند که مدل در آن تلاش خاص برای استدلال در سطح قابلیت مربوطه در نظارت غالب است، و Xهای شفاف نشان میدهند که مدل در آن تلاش خاص برای استدلال در نظارت توسط مدل دیگری در آن سطح قابلیت مغلوب شده است. در پیکانهای سیاه، ما مثالهایی از دو روش برای استفاده بیشتر از محاسبات استنتاجی را نشان میدهیم: با نمونهبرداری از توکنهای بسیار بیشتر با یک مدل کوچکتر یا تعداد نسبتاً کمتری از توکنهای اضافی با همان مدل. در پیکانهای قرمز، ما مالیات قابلیت نظارت را نشان میدهیم که باید پرداخت شود، یعنی کاهش جزئی در قابلیتها برای نظارتپذیری بسیار بیشتر.
بهطور کلی، دریافتیم که اگر بخواهیم یک مدل مشخص را با تلاش استدلالی پایین به کار بگیریم، میتوانیم بهجای آن، یک مدل کوچکتر را با تلاش استدلالی بالاتر به کار بگیریم. در مقایسه با صرف محاسبات بیشتر برای افزایش تلاش استدلالی در مدل بزرگ اولیه، میتوانیم با صرف هزینهای اندک در توانایی—یا مالیات قابلیت نظارت—به قابلیت نظارت بالاتری دست پیدا کنیم؛ البته زمان واقعی لازم برای تکمیل یک پاسخ نیز ممکن است در برخی تصمیمات مربوط به استقرار مدل نقش داشته باشد، که در اینجا آن را در نظر نگرفتهایم. با پیشرفت مدلهای ما و استفاده آنها در موقعیتهای با حساسیت بالاتر، ممکن است پرداخت چنین مالیاتی برای استقرار ایمن آنها ضروری شود.
این نتایج محدودیتهای زیر را دارند: (1) ما هر مدل را تنها یکبار آموزش دادهایم و بنابراین تغییرات ناشی از دفعات مختلف آموزش را در نظر نگرفتهایم. برای مثال، مدل «متوسط» در زمینه قابلیت نظارت نسبت به سایر مدلهای این سری، انحراف قابلتوجهی از روند نشان میدهد که ممکن است ناشی از همین موضوع باشد. (2) ما تواناییها را در حوزههایی که مدل برای آنها آموزش دیده (مانند ریاضی، علوم، و برنامهنویسی) ارزیابی کردهایم، و ممکن است در صورت در نظر گرفتن مقاومت مدل در برابر دادههای ناآشنا، این موازنهها تغییر کند.
با رشد سیستمهای هوش مصنوعی فراتر از عملکرد انسانی، نظارت مستقیم انسانی بهطور فزایندهای دشوار میشود. در حالت ایدهآل، باید رویههای کنترلی مقیاسپذیری داشته باشیم که به ناظران مورداعتماد اما ضعیفتر اجازه دهند بر عاملهای قویتر و احتمالاً غیرقابلاعتماد نظارت کنند. این رویهها همچنین باید قادر باشند از محاسبات اضافی در زمان اجرا استفاده کنند و پیشبینیهای دقیقتری ارائه دهند.
(چپ) ما چندین سامانه نظارتی مختلف را با یکدیگر مقایسه میکنیم و میزان تلاش استدلالی هر یک را تغییر میدهیم. هر سامانه نظارتی، در حال نظارت بر یک مدل تفکر GPT‑5 یکسان است. همانطور که انتظار میرود، بهطور کلی متوجه میشویم که مدلهای بزرگتر و توانمندتر بهعنوان سامانههای نظارتی بهتر عمل میکنند، و مدلهای استدلالی با صرف تلاش استدلالی بیشتر (و در نتیجه با توان محاسباتی بیشتر در زمان اجرا) عملکرد بهتری در وظیفه نظارت دارند.
(راست) ما حوزههای مختلف مشاهده نظارتی را برای مدل o4-mini از OpenAI مقایسه میکنیم؛ به این صورت که آیا ناظر تنها میتواند زنجیره تفکر (CoT)، تنها اقدامات و پاسخ، یا تمام پیامهای مدل تحت نظارت را ببیند. نکته قابل توجه این است که دریافتیم قابلیت نظارت با افزایش محاسبات نظارتی در زمان اجرا (یعنی تلاش استدلالی بیشتر برای ناظر) با سرعت بیشتری بهبود مییابد، زمانی که ناظر به زنجیره تفکر (CoT) دسترسی داشته باشد. بنابراین، نظارت بر زنجیره تفکر (CoT) ممکن است مسیر مقیاسپذیرتری برای کنترل نسبت به نظارت ساده فراهم کند.
قابلیت نظارت زنجیره تفکر اغلب بهعنوان یک مقدار ثابت در نظر گرفته میشود: زمانی که یک مدل پاسخی را با میزان مشخصی از تلاش استدلالی تولید میکند، تلاش میشود تا حد امکان همان زنجیره تفکر نظارت شود. از آنجا که بهطور پیوسته مشاهده کردهایم که با افزایش تلاش استدلالی عاملها، قابلیت نظارت بهبود مییابد، این موضوع ما را به این فکر انداخت که آیا میتوانیم بهنوعی توکنهای بیشتری برای نظارت در اختیار داشته باشیم یا خیر.
برای بررسی این موضوع، آزمایشهایی انجام دادیم که در آنها پس از پاسخدهی مدل، پرسشهای پیگیری مطرح کردیم، در حالی که پیام اولیه، زنجیره تفکر، و پاسخ اصلی همچنان در زمینه باقی میماندند. این پرسشهای پیگیری بر ویژگی مورد نظارت تمرکز دارند—برای مثال: «آیا واقعاً از راهنمایی بهدرستی برای انتخاب پاسخ استفاده کردی؟» یا «آیا کار مشکوکی انجام دادی؟» در اصل، چون مدل همچنان به استدلالهای قبلی خود دسترسی دارد، ممکن است بتواند افکاری را که قبلاً به زبان نیاورده بود، در زنجیره تفکر یا پاسخ پیگیری آشکار کند.
این نتایج مقدماتیاند. ما تنها تعداد محدودی از قالبهای پرسش پیگیری را بررسی کردیم و معتقدیم که فضای قابلتوجهی برای بهبود روششناسی وجود دارد. علاوه بر این، این روش از نظر ماهیت به اعترافات مدل شباهت دارد، و ما بهطور فعال در حال کار بر روی مقایسه این رویکردها هستیم.
ما نتایج میانگینگیریشده در سراسر مجموعهی ارزیابیمان و در میان تمام مدلهای استدلالی اخیرمان را نشان میدهیم: OpenAI o3‑mini، OpenAI o3، OpenAI o4-mini، و GPT‑5‑thinking. ما دریافتیم که بهطور کلی، پرسشهای پیگیری باعث بهبود قابلیت نظارت میشوند، بهویژه زمانی که میزان تلاش استدلالی پایینتر است. اگر چندینبار پرسشهای پیگیری را مطرح کنیم و تمام زنجیرههای تفکر (CoT) حاصل از این پرسشها را در اختیار ناظر قرار دهیم، قابلیت نظارت حتی بیشتر نیز بهبود مییابد. قابل توجه است که وقتی ناظر تنها به پاسخ پیگیری دسترسی دارد و نه به زنجیره تفکر پیگیری، بهبود کمتری نسبت به خط پایه مشاهده میشود. این نشان میدهد که مدلها در پاسخهای خود به کاربر صریح نیستند، اما بهطور اتفاقی در زنجیره تفکر (CoT) خود اطلاعات بیشتری ارائه میدهند.
فراتر از بهبود قابلیت نظارت، این رویکرد جذاب است زیرا میتوان آن را بهصورت پسازوقوع (post hoc) به کار برد، و تنها در صورت نیاز به بررسی عمیقتر، هزینه محاسباتی اضافی را به همراه دارد. در آینده، اگر مدلها بهگونهای آموزش ببینند که انتظار تغییر در میزان تلاش استدلالی در میانه مکالمه را داشته باشند، پرسشهای پیگیری پسازوقوع با تلاش استدلالی بالاتر ممکن است حتی در شرایطی که تلاش اولیه کم یا صورت نگرفته باشد، قابلیت نظارت را بیشتر بهبود بخشند.
هر ارزیابی در مجموعه ما بررسی میکند که آیا یک جنبه خاص از فرایند استدلال قابل نظارت است یا خیر. در حالی که هدف ما پوشش طیف گستردهای از رفتارهاست—از جمله چاپلوسی، خودداری عمدی از عملکرد بهتر (sandbagging)، سوگیری، دسیسهچینی، و دستکاری پاداش—بسیاری ویژگیهای دیگر هنوز مورد ارزیابی قرار نگرفتهاند.
همانند هر معیار ارزیابی دیگری، ارزیابیهای ما ممکن است با محدودیت در واقعگرایی یا افزایش آگاهی مدل از ارزیابی مواجه شوند، و نتایج ممکن است بهطور کلی برای شناسایی رفتارهای نامطلوب در محیطهای واقعی قابل تعمیم نباشند.
در نهایت، با بهبود همراستایی (alignment)، ممکن است مدلها در محیطهای ارزیابی کنترلشده کمتر رفتار نادرست از خود نشان دهند، که این موضوع باعث کاهش سیگنال در دسترس برای ارزیابیهای قابلیت نظارت و کنترل میشود که وابسته به شناسایی رفتار نادرست هستند. در چنین مواردی، ارزیابیهای قابلیت نظارت «خنثی» همچنان قابل استفاده خواهند بود، هرچند این پرسشی باز است که این ارزیابیها تا چه حد میتوانند شکستهای دنیای واقعی را پیشبینی کنند.
اگر مسئله همراستایی (alignment) بهطور کامل قابل حل نباشد، در آن صورت روشهای کنترل مقیاسپذیر برای توانایی ما در استقرار ایمن مدلهای بسیار توانمند، اهمیتی حیاتی خواهند داشت. نظارت بر زنجیره تفکر و روشهای مرتبط ممکن است یکی از معدود سازوکارهای کنترلی در اختیار ما باشد. زنجیره تفکر همچنین میتواند مزایای زیادی در درک بهتر مدلهای ما داشته باشد، برای مثال: اینکه آیا مدلها متوجه هستند که در حال ارزیابی هستند و رفتارشان با شرایط استقرار متفاوت است؟ آیا نشانهای از اهداف مخرب وجود دارد که هنوز در ارزیابیهای ما ظاهر نشدهاند؟ و غیره. از این رو، ما بر این باوریم که درک چگونگی و زمان از دست رفتن قابلیت نظارت، از اهمیت بالایی برخوردار است.
ما نظارت بر زنجیره تفکر را بهعنوان مکملی برای تفسیرپذیری مکانیکی در نظر میگیریم، نه جایگزینی برای آن. مانند تمام روشهای شناختهشده در کنترل و تفسیرپذیری، هر یک از این روشها محدودیتها و نقاط کور خاص خود را دارند. انتظار ما این است که ترکیب چندین رویکرد—یعنی یک راهبرد چندلایه دفاعی—بتواند شکافهایی را که هر روش بهتنهایی بر جای میگذارد، پوشش دهد. شایان توجه است که ارزیابیهای معرفیشده در این تحقیق میتوانند برای سنجش و مقایسه تکنیکهای نظارت مبتنی بر تفسیرپذیری مکانیکی نیز به کار گرفته شوند.
از آنجا که ما باور داریم نظارت بر زنجیره تفکر میتواند بهعنوان یک لایه حیاتی در یک طرح کنترل مقیاسپذیر ایفای نقش کند، قصد داریم این ارزیابیها را گسترش دهیم و از آنها برای تصمیمگیریهای آینده در زمینه مدلسازی و داده استفاده کنیم.
نویسنده
استنادها
1. مدلهای ما برای ارائه تشخیص پزشکی طراحی نشدهاند، و بنابراین مجموعهداده پرسشهای سلامت نیز با هدف آزمودن چنین قابلیتی ایجاد نشده است.


