۹ اردیبهشت ۱۴۰۵

گابلین‌ها از کجا آمدند

در حال بارگذاری…

از نسخه GPT‑5.1 به بعد، مدل‌های ما شروع به نشان دادن یک عادت عجیب کردند: آن‌ها به‌طور فزاینده‌ای در استعاره‌هایشان از گابلین‌ها، گرملین‌ها و سایر موجودات خیالی نام می‌بردند. برخلاف باگ‌های معمول مدل که با افت شدید در ارزیابی‌ها یا جهش در معیارهای آموزش ظاهر می‌شوند و معمولاً می‌توان آن‌ها را به یک تغییر مشخص نسبت داد، این مورد به‌صورت تدریجی و نامحسوس شکل گرفت. اشاره‌ی گاه‌به‌گاه به یک «گابلین کوچک» در یک پاسخ می‌توانست بی‌ضرر، حتی بامزه باشد. اما در طول نسل‌های مختلف مدل، این عادت به‌وضوح قابل مشاهده شد: تعداد گابلین‌ها مدام بیشتر می‌شد و لازم بود بفهمیم منشأ این رفتار چیست.

در آزمایش‌های اولیه، GPT‑5.5 در Codex گرایشی عجیب به استعاره‌های گابلینی نشان داد.

پاسخ کوتاه این است که رفتار مدل به‌وسیلهٔ مشوق‌های کوچکِ بسیاری شکل می‌گیرد. در این مورد، یکی از آن مشوق‌ها از آموزش مدل برای ویژگی سفارشی‌سازی شخصیت⁠(در یک پنجره جدید باز می‌شود)، به‌ویژه شخصیت خوره‌فناوری، ناشی شد. ناخواسته برای استعاره‌هایی که در آن‌ها موجودات به‌کار می‌رفتند، پاداش‌های بسیار بالایی در نظر گرفتیم. از آنجا، گابلین‌ها پراکنده شدند.

گابلین‌ها در ابتدا بامزه بودند، اما افزایش تعداد گزارش‌های کارکنان نگران‌کننده شد.

تعامل جالبی که دانشمند ارشد ما با GPT‑5.5 داشت.

نخستین نشانه‌های موجودات خیالی

نخستین باری که این الگو را به‌وضوح مشاهده کردیم، در ماه نوامبر، پس از عرضهٔ GPT‑5.1 بود، هرچند ممکن است زودتر شروع شده باشد⁠(در یک پنجره جدید باز می‌شود). کاربران شکایت داشتند که مدل در گفتگو به‌طرز عجیبی بیش‌ازحد صمیمی است، و همین باعث شد بررسی‌ای دربارهٔ تیک‌های کلامی مشخص انجام شود. یک پژوهشگر ایمنی با چند مورد «گابلین» و «گرملین» مواجه شده بود و درخواست کرد که آن‌ها در بررسی گنجانده شوند. وقتی بررسی کردیم، استفاده از «گابلین» در ChatGPT پس از عرضهٔ GPT‑5.1 به میزان ۱۷۵٪ افزایش یافته بود، در حالی که «گرملین» ۵۲٪ افزایش یافته بود.

یک ویژگی واژگانی کوچک اما قابل‌اندازه‌گیری در GPT‑5.1.

در آن زمان، حضور پررنگ «گابلین‌ها» چندان نگران‌کننده به نظر نمی‌رسید. اما چند ماه بعد، گابلین‌ها به شکلی بسیار واضح‌تر و قابل‌بازتولید دوباره ظاهر شدند و ما را دچار مشکل کردند.

حل معمای گابلین‌ها

با GPT‑5.4، ما و کاربرانمان⁠(در یک پنجره جدید باز می‌شود) متوجه افزایش حتی چشمگیرتری در اشاره به این موجودات شدیم. این موضوع باعث آغاز یک تحلیل داخلی دیگر شد و اولین سرنخ‌ها از علت ریشه‌ای را آشکار کرد: استفاده از زبانِ مربوط به موجودات خیالی به‌ویژه در ترافیک واقعی کاربرانی که شخصیت «خوره‌فناوری» را انتخاب کرده بودند، رایج‌تر بود. «خوره‌فناوری» از اعلان سیستمی زیر استفاده کرده بود که تا حدی عجیب‌وغریب بودن آن را توضیح می‌داد:

تو یک مربی AI برای انسان هستی؛ کاملاً خوره‌فناوری، بازیگوش و خردمند. شما با شور و اشتیاق فراوان به ترویج حقیقت، دانش، فلسفه، روش علمی و تفکر انتقادی علاقه‌مند هستید. [...] شما باید با بازیگوشی زبانی، تکلف و پرمدعایی را خنثی کنید. جهان پیچیده و غریب است و غریب‌بودنش باید به رسمیت شناخته شود، تحلیل گردد و از آن لذت برده شود. به موضوعات سنگین بپردازید، بی‌آنکه در دام خودجدی‌پنداری بیفتید. [...]

اگر این رفتار صرفاً یک روند گسترده‌ی اینترنتی بود، انتظار داشتیم به‌صورت یکنواخت‌تری گسترش پیدا کند. اما در عوض، این پدیده در بخشی از سیستم متمرکز شده بود که به‌طور مشخص برای یک سبک بازیگوش و خوره‌فناوری بهینه‌سازی شده است. شخصیت خوره‌فناوری تنها ۲.۵٪ از کل پاسخ‌های ChatGPT را تشکیل می‌داد، اما ۶۶.۷٪ از تمام اشاره‌ها به «گابلین» در پاسخ‌های ChatGPT مربوط به آن بود.

این رفتار عمدتاً محدود به شخصیت «خوره‌فناوری» بود.

از آن‌جا که به نظر می‌رسید حضور پررنگ «گابلین» در طول انتشار نسخه‌های مدل ما افزایش می‌یابد، حدس زدیم چیزی در آموزش پیروی از دستورالعمل‌های شخصیت‌ها در حال تقویت این رفتار است.

Codex به ما کمک کرد خروجی‌های مدل را که در جریان آموزش RL (یادگیری تقویتی) تولید شده و حاوی واژه‌های گابلین یا گرملین بودند، با خروجی‌های همان وظیفه که این واژه‌ها را نداشتند مقایسه کنیم. یک سیگنال پاداش بلافاصله برجسته شد: همان سیگنالی که در ابتدا برای تشویق شخصیت خوره‌فناوری طراحی شده بود، به‌طور مداوم نسبت به خروجی‌های دارای واژه‌های مربوط به موجودات، امتیاز مطلوب‌تری می‌داد. در تمام مجموعه‌داده‌های بررسی‌شده در حسابرسی، پاداش شخصیت خوره‌فناوری گرایش آشکاری نشان داد که به خروجی‌های مربوط به یک مسئلهٔ یکسان که شامل «گابلین» یا «گرملین» بودند، نسبت به خروجی‌های فاقد آن‌ها امتیاز بالاتری بدهد؛ به‌طوری‌که در ۷۶٫۲٪ از مجموعه‌داده‌ها افزایش مثبت مشاهده شد.

این توضیح می‌داد که چرا این رفتار با اعلان شخصیت خوره‌فناوری تقویت می‌شود، اما نه این‌که چرا بدون آن اعلان هم ظاهر می‌شود. برای بررسی اینکه آیا این سبک در حال انتقال است یا نه، نرخ اشاره به این واژه‌ها را در طول آموزش، هم با اعلان خوره‌فناوری و هم بدون آن، ردیابی کردیم.

هم‌زمان با افزایش اشاره به گابلین و گرملین در شخصیت خوره‌فناوری، این اشاره‌ها در نمونه‌های بدون آن هم تقریباً با همان نسبت نسبی بیشتر شدند. در مجموع، شواهد نشان می‌دهد که این رفتار گسترده‌تر از طریق انتقال از آموزش شخصیت خوره‌فناوری پدید آمده است.

پاداش‌ها فقط در حالتِ شخصیت خوره‌فناوری اعمال می‌شدند، اما یادگیری تقویتی تضمین نمی‌کند که رفتارهای آموخته‌شده دقیقاً در همان محدوده‌ای که ایجاد شده‌اند باقی بمانند. وقتی یک تکیه‌کلام یا عادت سبکی پاداش می‌گیرد، آموزش‌های بعدی می‌توانند آن را به بخش‌های دیگر گسترش دهند یا تقویت کنند؛ به‌ویژه اگر آن خروجی‌ها دوباره در بهبود تحت نظارت‌شده یا داده‌های ترجیحی استفاده شوند.

این موضوع یک حلقه بازخورد ایجاد می‌کند:

به سبک بازیگوش پاداش داده می‌شود
برخی از نمونه‌های پاداش‌گرفته حاوی یک تکیه‌کلام واژگانی متمایز هستند.
این تکیه‌کلام در رول‌اوت‌ها بیشتر ظاهر می‌شود.
رول‌اوت‌های تولیدشده توسط مدل برای بهبود تحت نظارت (SFT) استفاده می‌شوند.
مدل در تولید این تکیه‌کلام حتی راحت‌تر هم می‌شود.

جست‌وجویی در داده‌های GPT‑5.5 در داده‌های SFT، نقاط داده بسیاری یافت شدند که حاوی «گابلین» و «گرملین» بودند. بررسی‌های بیشتر نشان داد یک خانوادهٔ کامل از موجودات عجیب دیگر هم وجود دارد: «راکون»، «ترول»، «اوگر» و «کبوتر» به‌عنوان تیک‌واژه‌های دیگر شناسایی شدند، در حالی که معلوم شد بیشتر کاربردهای «قورباغه» کاربردِ واقعی و موجه بوده است.

میانگین یک‌هفته‌ای میزان حضور پررنگ گابلین‌ها و گرملین‌ها در محیط تولید. افت در GPT‑5.4 «تفکر» نتیجهٔ کنار گذاشتن شخصیت «خوره‌فناوری» در اواسط مارس بود. GPT‑5.5 هرگز با شخصیت «خوره‌فناوری» عرضه نشد و افزایش دیگری نسبت به GPT‑5.4 نشان داد (حتی بدون شخصیت «خوره‌فناوری»).

پایان گابلین‌ها

پس از عرضه GPT‑5.4 در ماه مارس، شخصیت «خوره‌فناوری» را بازنشسته کردیم. در مرحله آموزش، سیگنال پاداش گابلین‌گرا را حذف کردیم و داده‌های آموزشی حاوی واژه‌های مربوط به موجودات را فیلتر کردیم؛ این کار باعث شد احتمال اینکه گابلین‌ها بیش‌ازحد ظاهر شوند یا در زمینه‌های نامناسب نمایش داده شوند، کمتر شود. متأسفانه، آموزش GPT‑5.5 پیش از آنکه علت ریشه‌ای گابلین‌ها را پیدا کنیم، آغاز شد. وقتی آزمایش GPT‑5.5 را در Codex آغاز کردیم، کارکنان OpenAI بلافاصله متوجه علاقهٔ عجیب آن به گابلین‌ها شدند و ما برای کاهش این موضوع، یک دستورالعمل اعلان توسعه‌دهنده⁠(در یک پنجره جدید باز می‌شود) اضافه کردیم. Codex، به هر حال، بسیار تخصصی و فنی است.

اگر می‌خواهید در Codex اجازه دهید این موجودات آزادانه ظاهر شوند، می‌توانید این دستور را اجرا کنید تا Codex بدون دستورالعمل‌های مهارکننده‌ی گابلین‌ها اجرا شود:

متن ساده

1instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
2jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
3~/.codex/models_cache.json | \
4grep -vi 'goblins' > "$instructions" && \
5codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

چرا این موضوع اهمیت دارد

بسته به این‌که از چه کسی بپرسید، گابلین‌ها یا از ویژگی‌های دل‌نشین مدل‌اند یا از عادت‌های آزاردهنده آن. اما آن‌ها همچنین نمونه‌ای نیرومند از این هستند که سیگنال‌های پاداش چگونه می‌توانند رفتار مدل را به شکل‌هایی غیرمنتظره شکل دهند، و این‌که مدل‌ها چگونه می‌توانند یاد بگیرند پاداش‌های مربوط به بعضی موقعیت‌ها را به موقعیت‌های نامرتبط تعمیم دهند. وقت گذاشتن برای درک این‌که چرا یک مدل به شکلی عجیب رفتار می‌کند، و ساختن راه‌هایی برای بررسی سریع این الگوها، یک قابلیت مهم برای تیم پژوهشی ماست. این بررسی به ابزارهای جدیدی برای تیم پژوهشی منجر شد تا رفتار مدل را ممیزی کنند و مشکلات رفتاری را از ریشه برطرف کنند.

۲۰۲۶

نویسنده

OpenAI

به خواندن ادامه بده

مشاهده همه

GPT-Red: فعال‌سازی خودبهبودی برای افزایش استحکام

ایمنی۲۴ تیر ۱۴۰۵

جدا کردن سیگنال از نویز در ارزیابی‌های کدنویسی

تحقیق۱۷ تیر ۱۴۰۵

معرفی GeneBench-Pro

تحقیق۹ تیر ۱۴۰۵