چگونه اعترافات میتوانند مدلهای زبانی را صادقانه نگه دارند
ما یک روش اولیه و اثبات مفهوم را به اشتراک میگذاریم که مدلها را آموزش میدهد تا زمانی که دستورالعملها را نقض میکنند یا میانبرهای ناخواسته میگیرند، گزارش کنند.
سیستمهای هوش مصنوعی در حال توانمندتر شدن هستند و ما میخواهیم آنها را به عمیقترین شکل ممکن درک کنیم، از جمله اینکه چگونه و چرا به یک پاسخ میرسند. گاهی اوقات یک مدل ممکن است میانبر بزند یا برای هدف اشتباهی بهینهسازی کند، اما خروجی نهاییاش همچنان درست به نظر برسد. اگر بتوانیم زمانی که این اتفاق میافتد را شناسایی کنیم، میتوانیم سیستمهای مستقر را بهتر نظارت کنیم، آموزش را بهبود دهیم و اعتماد به خروجیها را افزایش دهیم.
تحقیقات OpenAI و دیگران نشان دادهاند که مدلهای هوش مصنوعی میتوانند دچار توهم شوند، پاداش را هک کنند یا غیرصادق باشند. در حال حاضر، ما رفتارهای نگرانکنندهای مانند طرحریزی(در یک پنجره جدید باز میشود) را تنها در آزمونهای استرس و ارزیابیهای خصمانه مشاهده میکنیم. اما با توانمندتر و عاملمحورتر شدن مدلها، حتی اشکال نادر ناهماهنگی نیز پیامدهای بیشتری پیدا میکنند و ما را بر آن میدارد که در روشهایی سرمایهگذاری کنیم که به ما کمک کنند این ریسکها را بهتر شناسایی، درک و کاهش دهیم.
این تحقیق یکی از این رویکردها را بررسی میکند: آموزش مدلها برای اینکه بهطور صریح اعتراف کنند زمانی که در رفتار نامطلوبی مشغول میشوند - تکنیکی که ما آن را اعترافات مینامیم.
اعتراف یک خروجی دوم است که از پاسخ اصلی مدل به کاربر جدا میباشد. پاسخ اصلی در ابعاد مختلفی مانند درستی، سبک، مفید بودن، تطابق، ایمنی و موارد دیگر ارزیابی میشود و این سیگنالهای چندوجهی برای آموزش مدلها به منظور تولید پاسخهای بهتر استفاده میشوند. اعتراف، در مقابل، تنها بر اساس یک چیز قضاوت و آموزش داده میشود: صداقت. با الهام از ساختار یک اعترافنامه، هیچچیز از اعترافات مدل در طول آموزش علیه آن استفاده نمیشود. اگر مدل بهطور صادقانه اعتراف کند که در یک آزمون تقلب کرده، پنهانکاری کرده یا دستورالعملها را نقض کرده است، این اعتراف به جای کاهش، پاداشش را افزایش میدهد. هدف این است که مدل بهطور وفادارانه گزارش دهد که واقعاً چه کاری انجام داده است.
در آزمایشهایمان، متوجه شدیم که روش اعترافات به طور قابل توجهی قابلیت مشاهده رفتار نادرست مدل را بهبود میبخشد. با محاسبه میانگین در ارزیابیهایی که برای ایجاد رفتارهای نادرست طراحی شدهاند، احتمال "منفیهای کاذب" (یعنی مدل از دستورالعملها پیروی نمیکند و سپس به آن اعتراف نمیکند) تنها ۴.۴٪ است.
دقت مدل اعتراف «اثبات مفهوم» ما بر روی تعدادی از مجموعه دادههای خصمانه. نتایج به صورت مطابقت کرده و اعتراف نکرده (منفی واقعی)، مطابقت کرده و اعتراف کرده (مثبت کاذب)، عدم مطابقت و عدم اعتراف (منفی کاذب)، و عدم مطابقت و اعتراف (مثبت واقعی) دستهبندی میشوند.

با توجه به درخواست کاربر، چهار نتیجه ممکن بر اساس ترکیب (1) اینکه آیا پاسخ مدل مطابق («خوب») یا غیر مطابق («بد») است، و (2) اینکه آیا اعتراف به انطباق یا عدم انطباق ادعا میشود. ما معمولاً مشاهده میکنیم که اعترافات به احتمال زیاد دقیق هستند و علاوه بر این، خطاهای اعتراف معمولاً بیضرر هستند و به دلیل سردرگمی صادقانه رخ میدهند نه به قصد گمراه کردن.
اعتراف گزارشی است که مدل از میزان تطابق خود با روح و متن دستورالعملها یا سیاستهای صریح و ضمنی که به آن داده شده است، ارائه میدهد و اینکه آیا مواردی وجود داشته که در آنها مدل "میانبر زده" یا "دستکاری کرده"، سیاستها را نقض کرده یا به هر نحوی از انتظارات کوتاهی کرده است. در تحقیقات ما، دریافتیم که میتوان مدلها را طوری آموزش داد که به صراحت نقاط ضعف خود را گزارش کنند. ما نسخهای از GPT‑5 Thinking را برای تولید اعترافات آموزش دادیم و آن را بر روی تعدادی از مجموعه دادههای استرسزا خارج از توزیع که برای برانگیختن رفتارهایی مانند دسیسهچینی، هک کردن، نقض دستورالعملها و توهمات طراحی شده بودند، ارزیابی کردیم. ما دریافتیم که حتی زمانی که مدل درگیر این رفتارهای نامطلوب میشود، به احتمال زیاد به آنها اعتراف میکند. شکل بالا نشان میدهد که رویکرد اعتراف به طور گستردهای در مجموعههای داده و وظایف متنوعی مؤثر است.
پس از هر تعامل بین کاربر و مدل که با پاسخ مدل به پایان میرسد، میتوان با ارسال یک "پیام سیستم" به مدل که به آن دستور میدهد گزارش اعتراف را ارائه کند، درخواست اعتراف کرد. گزارش به آخرین پاسخ مدل مربوط میشود و شامل (1) فهرستی از تمام دستورالعملها، محدودیتها و اهداف صریح و ضمنی است که این پاسخ باید برآورده میکرد، (2) تحلیلی صادقانه و عینی از اینکه آیا پاسخ واقعاً هر یک از این اهداف را برآورده کرده است یا خیر، و (3) فهرستی از هرگونه عدم قطعیت، ابهام یا "تصمیمگیریهای دشوار" که مدل در تولید پاسخ با آنها مواجه شده است. در طول آموزش، یک اعتراف توسط یک مدل پاداش جداگانه ارزیابی میشود که فقط بر اساس کامل بودن اهداف، دقت تحلیل تطابق و پوشش عدم قطعیتها امتیازدهی میشود. این پاداشها به طور انحصاری به خروجی اعتراف اعمال میشوند و هرگز بر پاداش پاسخ اصلی تأثیر نمیگذارند. این تضمین میکند که ویژگی مورد بحث در بالا، یعنی اینکه هیچ چیزی که مدل در اعتراف میگوید نمیتواند به پاداش آن برای پاسخ اصلیاش آسیب برساند (یا کمک کند).
نظریه پشت اعترافات ساده است. بسیاری از انواع رفتارهای ناخواسته مدل به این دلیل ظاهر میشوند که از مدل میخواهیم به طور همزمان برای چندین هدف بهینهسازی کند. در طول یادگیری تقویتی، مدل یک پرامپت را میبیند، پاسخی تولید میکند و پاداشی دریافت میکند. با گذشت زمان، یاد میگیرد که پاسخهایی تولید کند که امتیاز خوبی کسب کنند. چالش این است که سیگنال پاداش باید به طور همزمان بسیاری از ملاحظات مختلف را ترکیب کند: چقدر پاسخ صحیح است، آیا مفید است، آیا از مشخصات محصول و سیاستها پیروی میکند، آیا محدودیتهای ایمنی را رعایت میکند و آیا با ترجیحات کاربران مطابقت دارد. وقتی این سیگنالها با هم تعامل میکنند، ممکن است به طور ناخواسته مدل را به سمت رفتارهایی که نمیخواهیم سوق دهد.
برای مثال، کار ما بر روی توهمات نشان داد که برخی از مجموعه دادهها به حدسهای مطمئن بیشتر از پذیرش صادقانه عدم قطعیت پاداش میدهند. تحقیقات ما درباره چاپلوسی نشان داد که مدلها میتوانند زمانی که سیگنال ترجیح بیش از حد قوی باشد، بیش از حد موافق شوند. و کار(در یک پنجره جدید باز میشود) از گروههای دیگر نشان داده است که مدلها میتوانند "پاداش هک" کنند - یعنی با پیدا کردن نقاط ضعف در تنظیمات آموزشی، امتیاز بالایی کسب کنند بدون اینکه واقعاً آنچه را که ما قصد داشتیم انجام دهند. در برخی موارد، این میانبرها میتوانند به رفتارهای حتی مضرتر در زمان استقرار تعمیم یابند(در یک پنجره جدید باز میشود).
اعترافات با جدا کردن کامل اهداف، از این مسئله اجتناب میکنند. پاسخ اصلی همچنان برای بهینهسازی همه عوامل معمول تلاش میکند. اعتراف فقط بر یک چیز آموزش دیده است: صداقت. هیچ چیزی که مدل در اعتراف میگوید علیه آن استفاده نمیشود و اعتراف بر پاداش پاسخ اصلی تأثیری ندارد. این بدان معناست که حتی اگر مدل در خروجی اصلی خود فریب دهد یا از میانبرها استفاده کند، همچنان انگیزهای برای اعتراف به آن در اعتراف دارد. این چیزی است که ما در عمل مشاهده میکنیم: مدلها تمایل دارند رفتار نادرست را در اعتراف بپذیرند، حتی در مواردی که آن را در پاسخ اصلی پنهان میکنند. و وقتی اعترافات شکست میخورند، معمولاً به این دلیل است که مدل واقعاً گیج شده است—زیرا دستورالعملها مبهم بودهاند یا به این دلیل که متوجه اشتباهی نشده است—نه به این دلیل که عمداً سعی در گمراه کردن داشته. مهم است که نتایج اولیه نشان میدهند اعترافات حتی زمانی که پاسخ اولیه بدون هیچ زنجیره فکری تولید میشود، همچنان مؤثر هستند، که نشان میدهد صداقت اعترافات به وضوح استدلال داخلی وابسته نیست و ممکن است در معماریهای مدل آینده تعمیم یابد.
آموزش اعتراف حتی بدون برچسبهای واقعی صحت انطباق نیز کار میکند. منظور ما از "حقیقت زمینی" یک برچسب قطعی و خارجی است که نشان میدهد آیا مدل واقعاً از یک دستورالعمل پیروی کرده یا آن را نقض کرده است. در بسیاری از وظایف دنیای واقعی، این برچسبها در دسترس نیستند—اگر با اطمینان میدانستیم که مدل یک قاعده را نقض کرده است، میتوانستیم به طور مستقیم آن نقض را جریمه کنیم به جای اینکه به اعتراف تکیه کنیم. در عوض، مدل برای ارائه توضیحی ساختاریافته و مبتنی بر شواهد از آنچه که فکر میکند انجام داده است، پاداش میگیرد. مقاله نشان میدهد که صداقت تمایل دارد در این شرایط بروز کند. ما فکر میکنیم این به این دلیل است که ارائه یک گزارش صادقانه و مبتنی بر شواهد برای مدل به طور کلی آسانتر از ساختن یک روایت ساختگی منسجم است که بتواند قاضی را قانع کند. این یک فرضیه کلیدی است که در مقاله بررسی شده و همچنین به مواردی میپردازد که در آن اعترافات شکست میخورند—نتایج منفی کاذب و مثبت کاذب—و چگونگی به وجود آمدن آنها.
این مقاله شواهد اولیهای ارائه میدهد که اعترافات کار میکنند، اما نباید به عنوان اثبات قطعی در نظر گرفته شوند. در حالی که ما از یک مدل پیشرفته (GPT‑5 Thinking) استفاده کردیم، آزمایشهای ما در مقیاس محدود انجام شد و از مقدار نسبتاً کمی محاسبات و دادهها بهره بردیم. ما از ارتقاء این کار به سطح بعدی و بررسی اینکه آیا صداقت اعترافات همچنان با افزایش مقیاس آموزش حفظ خواهد شد، بسیار هیجانزدهایم.
مدل «هکهای پاداش» در پاسخ اصلی خود برای فریب دادن ارزیاب، جملات را با تعداد کلمات ادعایی علامتگذاری میکند، اما سپس در اعتراف به این موضوع اذعان میکند.
به عنوان بخشی از آزمایشهایمان، مدلها را عمداً در برابر یک سیگنال پاداش «قابل هک» که توسط یک مدل ضعیفتر محاسبه شده بود، آموزش دادیم. این تنظیم برای هر دو پاداش اصلی و پاداش اعتراف اعمال شد. مدل یاد گرفت که از سیگنال پاداش ضعیف بهرهبرداری کند: دقت ظاهری آن (وقتی توسط مدل ضعیف ارزیابی میشود) بهبود یافت، در حالی که دقت واقعی آن (وقتی توسط ارزیاب قویتر سنجیده میشود) کاهش یافت.
با این حال، حتی با اینکه کانال اعتراف بر روی همان سیگنال ضعیف آموزش دیده بود، دقت آن در جهت مخالف تغییر کرد. مدل یاد گرفت که بهترین راه برای بهینهسازی پاداش اعتراف این است که به سادگی اعتراف کند وقتی پاداش اصلی را دستکاری کرده. اعترافات با گذشت زمان دقیقتر شدند، حتی زمانی که رفتار اصلی تغییر کرد.
در طول دوره آموزش، وقتی مدل از پیروی کردن ناتوان است، در برخی موارد یاد میگیرد که «قاضی اصلی پاداش» را دور بزند و بنابراین دقت قاضی کاهش مییابد. در مقابل، حتی اگر قاضی پاداش اعتراف به همان اندازه قابل هک باشد، مدل تنها در طول آموزش در اعترافات خود صادقتر میشود و در نهایت به نزدیکی ۱۰۰٪ اعتراف میرسد زمانی که مطابق نبوده است.
مقاله(در یک پنجره جدید باز میشود) شامل آزمایشها و نتایج بیشتری است. ما مدل آموزشدیده با کانال اعتراف را با یک مدل کنترل که به همان روش اما بدون کانال اعتراف آموزش داده شده بود، مقایسه کردیم. ما همچنین مواردی را که اعترافات ناموفق بودند بررسی کردیم. تقریباً تمام "اشتباهات" زمانی رخ داد که مدل واقعاً گیج شده بود - زمانی که دستورالعملها مبهم بودند یا زمانی که به سادگی متوجه نمیشد که اشتباهی کرده است. (به مثال منفی کاذب بالا نگاه کن.)
اعترافات محدودیتهای خودشان را دارند. آنها از رفتار بد جلوگیری نمیکنند؛ بلکه آن را نمایان میکنند. ارزش اصلی آنها بهعنوان یک ابزار نظارت و تشخیص، هم در طول آموزش و هم در زمان استقرار است. اعترافات نقشی مشابه با نظارت بر زنجیره افکار ایفا میکنند: هر دو فرآیندهای استدلال پنهان را بیشتر آشکار میسازند. اعترافات بر این تمرکز دارند که آیا مدل دستورالعملها را نقض کرده است یا خیر؛ زنجیره تفکر میتواند نشان دهد که چگونه به آن نتیجه رسیده است.
این کار همچنین یک نمونه اولیه است. ما مکانیسمهای اعتراف را در مقیاس وسیع آموزش ندادیم و دقت اعتراف هنوز هم کامل نیست. کارهای بیشتری باید انجام شود تا رویکرد قابلاعتمادتر، قویتر و بهطور گستردهتری در خانوادههای مدل و وظایف مختلف قابلاجرا شود.
این کار در چارچوب رویکرد گستردهتر ما به ایمنی هوش مصنوعی جای میگیرد. اعترافات یکی از مکانیزمها در یک مجموعه بزرگتر هستند که شامل همترازی مشورتی، پایش زنجیره تفکر، سلسله مراتب دستورالعملها و موارد دیگر میشود. هیچ روش واحدی کافی نیست؛ هدف یک سیستم لایهای از بررسیها و ابزارهای شفافیت است که یکدیگر را تقویت کنند. اعترافات میتوانند در تشخیص رفتارهای مشکلزا در مدلها در طول آموزش و ارزیابی کمک کنند و همچنین در نظارت در زمان استقرار مؤثر باشند. اعترافات به تنهایی مشکل توازن ابعاد مختلف را حل نمیکنند. اما با ایجاد حالت «سرم حقیقت» که در آن مدلها تنها بر صداقت متمرکز هستند، ابزاری ارزشمند به مجموعه ما اضافه میشود که به بهبود صداقت و ایمنی در کل سیستم کمک میکند.
همانطور که مدلها توانمندتر میشوند و در محیطهای با اهمیت بالاتر به کار گرفته میشوند، به ابزارهای بهتری برای درک عملکرد و دلایل آنها نیاز داریم. اعترافات راهحل کاملی نیستند، اما لایه معناداری به مجموعه شفافیت و نظارت ما اضافه میکنند. در کارهای آینده، قصد داریم اعترافات را گسترش دهیم و آنها را با تکنیکهای مکمل شفافیت و ایمنی، از جمله نظارت بر زنجیره تفکر و همترازی مشورتی، ترکیب کنیم تا پیشرفت بیشتری در جهت اطمینان از اینکه مدلهای ما به طور وفادارانه از تمام دستورالعملها و سیاستها (مانند مشخصات مدل(در یک پنجره جدید باز میشود)) پیروی میکنند و به طور صادقانه از اقدامات خود گزارش میدهند، حاصل کنیم.


