گابلینها از کجا آمدند
از نسخه GPT‑5.1 به بعد، مدلهای ما شروع به نشان دادن یک عادت عجیب کردند: آنها بهطور فزایندهای در استعارههایشان از گابلینها، گرملینها و سایر موجودات خیالی نام میبردند. برخلاف باگهای معمول مدل که با افت شدید در ارزیابیها یا جهش در معیارهای آموزش ظاهر میشوند و معمولاً میتوان آنها را به یک تغییر مشخص نسبت داد، این مورد بهصورت تدریجی و نامحسوس شکل گرفت. اشارهی گاهبهگاه به یک «گابلین کوچک» در یک پاسخ میتوانست بیضرر، حتی بامزه باشد. اما در طول نسلهای مختلف مدل، این عادت بهوضوح قابل مشاهده شد: تعداد گابلینها مدام بیشتر میشد و لازم بود بفهمیم منشأ این رفتار چیست.

در آزمایشهای اولیه، GPT‑5.5 در Codex گرایشی عجیب به استعارههای گابلینی نشان داد.
پاسخ کوتاه این است که رفتار مدل بهوسیلهٔ مشوقهای کوچکِ بسیاری شکل میگیرد. در این مورد، یکی از آن مشوقها از آموزش مدل برای ویژگی سفارشیسازی شخصیت(در یک پنجره جدید باز میشود)، بهویژه شخصیت خورهفناوری، ناشی شد. ناخواسته برای استعارههایی که در آنها موجودات بهکار میرفتند، پاداشهای بسیار بالایی در نظر گرفتیم. از آنجا، گابلینها پراکنده شدند.

گابلینها در ابتدا بامزه بودند، اما افزایش تعداد گزارشهای کارکنان نگرانکننده شد.

تعامل جالبی که دانشمند ارشد ما با GPT‑5.5 داشت.
نخستین باری که این الگو را بهوضوح مشاهده کردیم، در ماه نوامبر، پس از عرضهٔ GPT‑5.1 بود، هرچند ممکن است زودتر شروع شده باشد(در یک پنجره جدید باز میشود). کاربران شکایت داشتند که مدل در گفتگو بهطرز عجیبی بیشازحد صمیمی است، و همین باعث شد بررسیای دربارهٔ تیکهای کلامی مشخص انجام شود. یک پژوهشگر ایمنی با چند مورد «گابلین» و «گرملین» مواجه شده بود و درخواست کرد که آنها در بررسی گنجانده شوند. وقتی بررسی کردیم، استفاده از «گابلین» در ChatGPT پس از عرضهٔ GPT‑5.1 به میزان ۱۷۵٪ افزایش یافته بود، در حالی که «گرملین» ۵۲٪ افزایش یافته بود.
یک ویژگی واژگانی کوچک اما قابلاندازهگیری در GPT‑5.1.
در آن زمان، حضور پررنگ «گابلینها» چندان نگرانکننده به نظر نمیرسید. اما چند ماه بعد، گابلینها به شکلی بسیار واضحتر و قابلبازتولید دوباره ظاهر شدند و ما را دچار مشکل کردند.
با GPT‑5.4، ما و کاربرانمان(در یک پنجره جدید باز میشود) متوجه افزایش حتی چشمگیرتری در اشاره به این موجودات شدیم. این موضوع باعث آغاز یک تحلیل داخلی دیگر شد و اولین سرنخها از علت ریشهای را آشکار کرد: استفاده از زبانِ مربوط به موجودات خیالی بهویژه در ترافیک واقعی کاربرانی که شخصیت «خورهفناوری» را انتخاب کرده بودند، رایجتر بود. «خورهفناوری» از اعلان سیستمی زیر استفاده کرده بود که تا حدی عجیبوغریب بودن آن را توضیح میداد:
تو یک مربی AI برای انسان هستی؛ کاملاً خورهفناوری، بازیگوش و خردمند. شما با شور و اشتیاق فراوان به ترویج حقیقت، دانش، فلسفه، روش علمی و تفکر انتقادی علاقهمند هستید. [...] شما باید با بازیگوشی زبانی، تکلف و پرمدعایی را خنثی کنید. جهان پیچیده و غریب است و غریببودنش باید به رسمیت شناخته شود، تحلیل گردد و از آن لذت برده شود. به موضوعات سنگین بپردازید، بیآنکه در دام خودجدیپنداری بیفتید. [...]
اگر این رفتار صرفاً یک روند گستردهی اینترنتی بود، انتظار داشتیم بهصورت یکنواختتری گسترش پیدا کند. اما در عوض، این پدیده در بخشی از سیستم متمرکز شده بود که بهطور مشخص برای یک سبک بازیگوش و خورهفناوری بهینهسازی شده است. شخصیت خورهفناوری تنها ۲.۵٪ از کل پاسخهای ChatGPT را تشکیل میداد، اما ۶۶.۷٪ از تمام اشارهها به «گابلین» در پاسخهای ChatGPT مربوط به آن بود.
این رفتار عمدتاً محدود به شخصیت «خورهفناوری» بود.
از آنجا که به نظر میرسید حضور پررنگ «گابلین» در طول انتشار نسخههای مدل ما افزایش مییابد، حدس زدیم چیزی در آموزش پیروی از دستورالعملهای شخصیتها در حال تقویت این رفتار است.
Codex به ما کمک کرد خروجیهای مدل را که در جریان آموزش RL (یادگیری تقویتی) تولید شده و حاوی واژههای گابلین یا گرملین بودند، با خروجیهای همان وظیفه که این واژهها را نداشتند مقایسه کنیم. یک سیگنال پاداش بلافاصله برجسته شد: همان سیگنالی که در ابتدا برای تشویق شخصیت خورهفناوری طراحی شده بود، بهطور مداوم نسبت به خروجیهای دارای واژههای مربوط به موجودات، امتیاز مطلوبتری میداد. در تمام مجموعهدادههای بررسیشده در حسابرسی، پاداش شخصیت خورهفناوری گرایش آشکاری نشان داد که به خروجیهای مربوط به یک مسئلهٔ یکسان که شامل «گابلین» یا «گرملین» بودند، نسبت به خروجیهای فاقد آنها امتیاز بالاتری بدهد؛ بهطوریکه در ۷۶٫۲٪ از مجموعهدادهها افزایش مثبت مشاهده شد.
این توضیح میداد که چرا این رفتار با اعلان شخصیت خورهفناوری تقویت میشود، اما نه اینکه چرا بدون آن اعلان هم ظاهر میشود. برای بررسی اینکه آیا این سبک در حال انتقال است یا نه، نرخ اشاره به این واژهها را در طول آموزش، هم با اعلان خورهفناوری و هم بدون آن، ردیابی کردیم.
همزمان با افزایش اشاره به گابلین و گرملین در شخصیت خورهفناوری، این اشارهها در نمونههای بدون آن هم تقریباً با همان نسبت نسبی بیشتر شدند. در مجموع، شواهد نشان میدهد که این رفتار گستردهتر از طریق انتقال از آموزش شخصیت خورهفناوری پدید آمده است.
پاداشها فقط در حالتِ شخصیت خورهفناوری اعمال میشدند، اما یادگیری تقویتی تضمین نمیکند که رفتارهای آموختهشده دقیقاً در همان محدودهای که ایجاد شدهاند باقی بمانند. وقتی یک تکیهکلام یا عادت سبکی پاداش میگیرد، آموزشهای بعدی میتوانند آن را به بخشهای دیگر گسترش دهند یا تقویت کنند؛ بهویژه اگر آن خروجیها دوباره در بهبود تحت نظارتشده یا دادههای ترجیحی استفاده شوند.
این موضوع یک حلقه بازخورد ایجاد میکند:
- به سبک بازیگوش پاداش داده میشود
- برخی از نمونههای پاداشگرفته حاوی یک تکیهکلام واژگانی متمایز هستند.
- این تکیهکلام در رولاوتها بیشتر ظاهر میشود.
- رولاوتهای تولیدشده توسط مدل برای بهبود تحت نظارت (SFT) استفاده میشوند.
- مدل در تولید این تکیهکلام حتی راحتتر هم میشود.
جستوجویی در دادههای GPT‑5.5 در دادههای SFT، نقاط داده بسیاری یافت شدند که حاوی «گابلین» و «گرملین» بودند. بررسیهای بیشتر نشان داد یک خانوادهٔ کامل از موجودات عجیب دیگر هم وجود دارد: «راکون»، «ترول»، «اوگر» و «کبوتر» بهعنوان تیکواژههای دیگر شناسایی شدند، در حالی که معلوم شد بیشتر کاربردهای «قورباغه» کاربردِ واقعی و موجه بوده است.
میانگین یکهفتهای میزان حضور پررنگ گابلینها و گرملینها در محیط تولید. افت در GPT‑5.4 «تفکر» نتیجهٔ کنار گذاشتن شخصیت «خورهفناوری» در اواسط مارس بود. GPT‑5.5 هرگز با شخصیت «خورهفناوری» عرضه نشد و افزایش دیگری نسبت به GPT‑5.4 نشان داد (حتی بدون شخصیت «خورهفناوری»).
پس از عرضه GPT‑5.4 در ماه مارس، شخصیت «خورهفناوری» را بازنشسته کردیم. در مرحله آموزش، سیگنال پاداش گابلینگرا را حذف کردیم و دادههای آموزشی حاوی واژههای مربوط به موجودات را فیلتر کردیم؛ این کار باعث شد احتمال اینکه گابلینها بیشازحد ظاهر شوند یا در زمینههای نامناسب نمایش داده شوند، کمتر شود. متأسفانه، آموزش GPT‑5.5 پیش از آنکه علت ریشهای گابلینها را پیدا کنیم، آغاز شد. وقتی آزمایش GPT‑5.5 را در Codex آغاز کردیم، کارکنان OpenAI بلافاصله متوجه علاقهٔ عجیب آن به گابلینها شدند و ما برای کاهش این موضوع، یک دستورالعمل اعلان توسعهدهنده(در یک پنجره جدید باز میشود) اضافه کردیم. Codex، به هر حال، بسیار تخصصی و فنی است.
اگر میخواهید در Codex اجازه دهید این موجودات آزادانه ظاهر شوند، میتوانید این دستور را اجرا کنید تا Codex بدون دستورالعملهای مهارکنندهی گابلینها اجرا شود:
بسته به اینکه از چه کسی بپرسید، گابلینها یا از ویژگیهای دلنشین مدلاند یا از عادتهای آزاردهنده آن. اما آنها همچنین نمونهای نیرومند از این هستند که سیگنالهای پاداش چگونه میتوانند رفتار مدل را به شکلهایی غیرمنتظره شکل دهند، و اینکه مدلها چگونه میتوانند یاد بگیرند پاداشهای مربوط به بعضی موقعیتها را به موقعیتهای نامرتبط تعمیم دهند. وقت گذاشتن برای درک اینکه چرا یک مدل به شکلی عجیب رفتار میکند، و ساختن راههایی برای بررسی سریع این الگوها، یک قابلیت مهم برای تیم پژوهشی ماست. این بررسی به ابزارهای جدیدی برای تیم پژوهشی منجر شد تا رفتار مدل را ممیزی کنند و مشکلات رفتاری را از ریشه برطرف کنند.


