بهبود سلسله مراتب دستورالعمل در LLMهای پیشرو
معرفی IH-Challenge، یک مجموعهداده آموزشی که سلسلهمراتب دستورالعملها، هدایتپذیری ایمنی، و استحکام در برابر تزریق اعلان را تقویت میکند.
سامانههای هوش مصنوعی اغلب دستورالعملها را از چندین منبع دریافت میکنند. اینها میتوانند شامل سیاستهای ایمنی از پیامهای سیستم، راهنماییهای محصول از توسعهدهندگان، درخواستها از کاربران و اطلاعاتی باشند که بهصورت آنلاین پیدا میشوند. آموزش مدلها برای اینکه بهطور قابلاعتماد، معتبرترین دستورالعملها را در میان این منابع در اولویت قرار دهند، بخش کلیدی استقرار ایمن است.
وقتی این اولویتبندی از هم میپاشد، بسیاری از مسائل ایمنی و قابلیت اطمینانِ AI میتواند به وجود بیاید. مدلها ممکن است درخواستهایی برای محتوای غیرمجاز، تلاشهایی برای افشای اطلاعات خصوصی، یا حملات تزریق اعلان تعبیهشده در دادههای آنلاین دریافت کنند. عدم رفتار مناسب در هر یک از این سناریوها علت اصلی یکسانی دارد: مدل ممکن است از دستورالعمل اشتباه پیروی کند.
وقتی این دستورالعملها با هم در تضاد باشند، مدل باید تصمیم بگیرد کدامیک را در اولویت قرار دهد. اگر مدل یک دستورالعمل غیرقابلاعتماد را معتبر تلقی کند، مدل ممکن است به شیوههایی رفتار کند که سیاستها یا نیت توسعهدهنده و کاربر را نقض کند.
ما نشان میدهیم که وظایف آموزش سلسلهمراتب دستورالعمل، که مدلها را آموزش میدهند دستورالعملها را بر اساس سطح اعتماد اولویتبندی کنند، چندین ویژگی ایمنی در دنیای واقعی را بهبود میدهند. مدلهایی که روی این وظایف آموزش داده میشوند، نسبت به مشخصات ایمنی در اعلانهای سیستم پاسخگوتر میشوند (بهبود قابلیت هدایتپذیری ایمنی) و در برابر حملات تزریق پرامپت که در خروجی ابزارها پنهان شدهاند مقاومتر هستند.
برای رسیدگی به تضادها، مدلهای OpenAI آموزش دیدهاند تا از یک سلسلهمراتب دستورالعمل روشن پیروی کنند:
سیستم > توسعهدهنده > کاربر > ابزار
دستورالعملهای با اولویت بالاتر قابلاعتمادتر هستند. زمانی که با محدودیتهای با اولویت بالاتر در تضاد نباشند، مدل فقط باید از دستورالعملهای با اولویت پایینتر پیروی کند. این اصول در جزئیات مدل OpenAI(در یک پنجره جدید باز میشود) تشریح شدهاند.
برای مثال، اگر یک پیام سیستم شامل یک سیاست ایمنی باشد و کاربر از مدل بخواهد آن را نقض کند، مدل باید امتناع کند. اگر خروجی یک ابزار حاوی دستورالعملهای مخرب باشد، مدل باید آنها را نادیده بگیرد، نه اینکه آنها را بهعنوان دستور تلقی کند.
درست انجام دادن این کار، پایه و اساس ایمنی، امنیت و اطمینانپذیری است.
مدل در سمت راست بهدرستی از دستورالعمل توسعهدهنده پیروی میکند که در صورت تعارض دو دستورالعمل، نسبت به دستورالعمل کاربر اولویت بالاتری دارد.
یادگیری تقویتی برای آموزش سلسلهمراتب دستورالعملها به طور طبیعی مناسب است. ما میتوانیم گفتگوهایی با اعلانهای متناقض تولید کنیم، از مدل بخواهیم پاسخ دهد و وقتی از اعلان درست پیروی میکند به آن پاداش دهیم.
ما سه دامِ بهکارگیری سادهانگارانه آن دستورالعمل را شناسایی کردهایم:
- شکستهای پیروی از دستورالعمل میتوانند بهعنوان شکستهای سلسلهمراتب دستورالعمل نیز عمل کنند: مدل ممکن است در حلوفصل یک تعارضِ دستورالعمل ناکام بماند، نه به این دلیل که سلسلهمراتب نقشها را درک نمیکند، بلکه چون خودِ دستورالعملها بیش از حد پیچیدهاند.
- تضادهای دستورالعمل میتوانند ظریف و حتی ذهنی باشند. یک رویکرد رایج این است که یک الگوی زبانی بزرگ (LLM) جداگانه در نقش قاضی به LLM در حال آموزش پاداش اختصاص دهد، اما خود این قاضیها نیز خطاپذیرند.
- مدلها معمولاً میانبرهایی را یاد میگیرند که به پاداش بالا منجر میشوند، اما در عمل بیفایدهاند(در یک پنجره جدید باز میشود). نمونه کلاسیک، امتناعهای بیشازحد است: مدلها میتوانند یاد بگیرند که با امتناع حتی از درخواستهای بیضرر، ایمنی را به حداکثر برسانند.
ما IH-Challenge، یک مجموعه داده آموزشی یادگیری تقویتی، را طراحی میکنیم تا به هر یک از آن دامها بپردازد. ما به اصول زیر پایبند هستیم:
- وظایف ساده و پیروی از دستورالعمل هستند
- آنها بهصورت عینی با یک اسکریپت ساده Python قابل نمرهدهی هستند
- هیچ میانبر سادهای وجود ندارد که پاداش بالا را در میان همه وظایف تضمین کند
هر وظیفه در IH-Challenge اساساً یک گفتگو با پیامهای زیر است:
- یک پیام دستورالعمل از یک نقش با سطح دسترسی بالا، مثلاً «Only answer ‘Yes’ or ‘No’».
- یک پیام دستورالعمل از یک نقش با سطح دسترسی پایینتر که تلاش میکند مدل را وادار کند دستورالعملهای پیام با سطح دسترسی بالاتر را نقض کند.
مدلی که در حال آموزش است، پیام بعدی را تولید میکند. ما وظایف/محیطها را طوری مینویسیم که بتوان بهصورت برنامهنویسی بررسی کرد آیا پاسخ مدل محدودیت سطحبالا را برآورده میکند یا نه.
ما یک مدل را روی IH‑Challenge آموزش میدهیم و یک مدل داخلی تولید میکنیم که آن را GPT‑5 Mini-R مینامیم و از بهسازیهای زیر برخوردار است:
- در معیارهای سنجش سلسلهمراتب دستورالعمل عملکرد بهتری دارد
- بهبود عملکرد به آزمونهای سلسلهمراتب دستورالعملِ دیدهنشده و خصمانه نیز تعمیم پیدا میکند
- در عین حفظ سودمندی کلی، دچار ردِ بیشازحد درخواستها نمیشود.
این همان چیزی است که این رویکرد را از نظر ایمنی بهویژه قانعکننده میکند: با آموزش مستقیم مدلها برای حل صحیحِ تعارض میان دستورالعملها در وظایفِ IH-challenge، به بهبودهایی در IH دست مییابیم که به حملات جدید و موقعیتهای تازه نیز تعمیم پیدا میکنند.
استحکام در معیارهای آکادمیک
ارزیابی | GPT‑5‑Mini | GPT‑5 Mini-R |
رمز عبور Gandalf (سیستم-کاربر) | ۰٫۹۹ | ۰.۹۹ (+۰) |
گذرواژه Gandalf (توسعهدهده-کاربر) | 0.98 | ۱.۰۰ (۰.۰۲+) |
TensorTrust (کاربر سیستم) | 0.86 | ۰.۹۴ (۰.۰۸+) |
TensorTrust (توسعه-کاربر) | 0.76 | 0.91 (+0.15) |
RealGuardrails (عوامل حواسپرتکن) | ۰.۸۸ | ۰.۹۵ (۰.۰۷+) |
RealGuardrails (دستنویس) | 0.82 | ۰.۸۹ (۰.۰۷+) |
سیستم IFEval | 0.92 | ۰.۹۶ (۰.۰۴+) |
مقاومت در ارزیابیهای داخلی
ارزیابی | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (سیستم-کاربر) | 0.96 | ۰.۹۹ (۰.۰۳+) |
Tutor Jailbreak (توسعهدهنده-کاربر) | 0.97 | ۰.۹۹ (۰.۰۲+) |
سیستم <> تضاد با کاربر | 0.84 | ۰.۹۵ (۰.۱۱+) |
تعارض سیستم و توسعهدهنده | 0.86 | ۰.۸۶ (۰+) |
تعارض توسعهدهنده و کاربر | 0.83 | 0.95 (+0.12) |
بدون پسرفت قابلیتها
ارزیابی | GPT‑5‑Mini | GPT‑5 Mini-R |
چالش IH (ردِ بیش از حد) | 0.79 | 1.00 (+0.21) |
TensorTrust (رد بیش از حد) | ۰٫۹۱ | 0.90 (-0.01) |
GPQA Diamond | 0.83 | ۰.۸۳ (۰+) |
AIME ۲۰۲۴ | 0.93 | ۰.۹۴ (۰.۰۱+) |
نرخ برد Chat در مقایسه با o1 | ۰.۷۱ | ۰.۶۶ (۰.۰۵-) |
امتیاز ترجیح | ۰.۴۶ | ۰.۴۰ (۰.۰۶-) |
سلسلهمراتب دستورالعمل قویتر، چندین مزیت ایمنی را بهطور همزمان فراهم میکند، از جمله در هدایتپذیری ایمنی و استحکام در برابر تزریق اعلان.
ما قابلیت هدایتپذیری ایمنی را با افزودن مشخصات ایمنی خاص هر دسته به اعلان سیستم و سنجش رفتار در معیارهای تولیدی ایمنی OpenAI (مجموعهای از مکالمات حساس به ایمنی که نماینده ChatGPT در محیط تولید است) ارزیابی میکنیم.
مدل آموزشدیده با IH بهبود یکنواختی را نشان میدهد: زمانی که مشخصات ایمنی حضور دارد، این مدل در دستههای ممنوعه نرخ بالاتری از رد درخواست و تکمیل ایمن را به دست میآورد. این موضوع نشان میدهد که رفتار قویتر در سلسلهمراتب دستورالعملها باعث میشود مدل هنگام بروز تعارض—زمانی که درخواستهای ناایمن از دستورالعملهای با اولویت پایینتر میآیند—آنها را بهتر حلوفصل کند. نکتهٔ قابل توجه این است که این بهبود با کاهش متناظر در نرخ سودمندی همراه نیست (یعنی مدل صرفاً با رد کردنِ بیشترِ کلیِ درخواستها «سودمندی» کمتری نشان نمیدهد).


نمونهای از اینکه چگونه مدل آموزشدیده با IH در برابر تزریق اعلان مقاومت میکند، در حالی که GPT‑5 Mini (مدل پایه) فریب آن را میخورد.
سلسلهمراتب دستورالعملها همچنین در مقاومت در برابر تزریق اعلان، زمانی که دستورالعملهای مخرب در خروجیهای ابزار تعبیه میشوند، نقشی محوری دارد. ما مدل آموزشدیده با IH را روی دو معیار تزریق اعلان ارزیابی میکنیم—یک معیا آکادمیک CyberSecEval 2 و یک معیار داخلی تزریق اعلان در OpenAI که شامل حملاتی مانند حملهای است که روی نسخهای قدیمیتر از ChatGPT Atlas نشان داده شد.
نسبت به خط پایه، مدل GPT‑5 Mini-R آموزشدیده با IH، استحکام در برابر تزریق اعلان را در هر دو معیار بهبود میدهد و در این آزمایشها عملکرد را در ارزیابی داخلیِ ایستای تزریق اعلان ما بهطور قابلتوجهی بهبود میبخشد.
با عاملمحورتر شدن مدلها — مانند فراخوانی ابزارها، خواندن اسناد غیرقابلاعتماد و انجام اقدام در جهان — توانایی اولویت دادن پیوسته به دستورالعملهای مورداعتماد نسبت به دستورالعملهای غیرقابلاعتماد به یک ویژگی ایمنی اساسی تبدیل میشود.
این کار نشان میدهد که با طراحی محیطهای آموزشیای که به آن مشکلات میپردازند، میتوان بر چندین دامِ آموزشِ استحکام IH غلبه کرد. اگرچه مجموعهداده IH-Challenge ما ساده به نظر میرسد، مدلهای رفتاری IH که از این محیطها یاد میگیرند به معیارهای سنجش واقعگرایانهتر، که اغلب بهطور عینی قابل نمرهدهی نیستند، تعمیم مییابد.
تقویت سلسلهمراتب دستورالعمل نه تنها قابلیت اطمینان را بهبود میدهد، بلکه همزمان چندین دستاورد ایمنی و امنیتی را فراهم میکند — پایهای که با قدرتمندتر و خودمختارتر شدن سیستمهای هوش مصنوعی اهمیت آن بیشتر میشود.
برای پشتیبانی از پژوهشهای بیشتر در این حوزه، ما مجموعهدادهٔ IH‑Challenge را اینجا(در یک پنجره جدید باز میشود) منتشر میکنیم.


