फ्रंटियर LLMs में इंस्ट्रक्शन हायरार्की को बेहतर बनाना
पेश है IH-Challenge, एक ट्रेनिंग डेटासेट जो इंस्ट्रक्शन हायरार्की, सेफ्टी स्टीयरबिलिटी और प्रॉम्प्ट इंजेक्शन रोबस्टनेस को मज़बूत बनाता है.
AI सिस्टम्स अक्सर कई स्रोतों से निर्देश प्राप्त करते हैं. इनमें सिस्टम मैसेज से सेफ्टी पॉलिसीज़, डेवलपर्स से प्रॉडक्ट गाइडेंस, यूज़र्स से रिक्वेस्ट्स और ऑनलाइन मिली जानकारी शामिल हो सकती है. इन स्रोतों में सबसे विश्वसनीय निर्देशों को भरोसेमंद तरीके से प्राथमिकता देने के लिए मॉडल्स को ट्रेन करना सुरक्षित डिप्लॉयमेंट का एक महत्वपूर्ण हिस्सा है.
जब यह प्राथमिकता तय करने की प्रक्रिया टूट जाती है, तब कई AI सेफ्टी और रिलायबिलिटी से जुड़ी समस्याएँ पैदा हो सकती हैं. मॉडल्स को प्रतिबंधित कंटेंट के लिए रिक्वेस्ट्स, निजी जानकारी उजागर करने की कोशिशें, या ऑनलाइन डेटा में एम्बेडेड प्रॉम्प्ट इंजेक्शन अटैक्स मिल सकते हैं. इन सभी स्थितियों में सही तरीके से व्यवहार न करने का मूल कारण एक ही हो सकता है: मॉडल गलत निर्देश का पालन कर सकता है.
जब ये निर्देश आपस में टकराते हैं, तब मॉडल को तय करना पड़ता है कि किसे प्राथमिकता देनी है. अगर मॉडल किसी अविश्वसनीय निर्देश को आधिकारिक मान लेता है, तो वह ऐसे तरीके से व्यवहार कर सकता है जो पॉलिसीज़ या डेवलपर और यूज़र की मंशा का उल्लंघन करता है.
हम दिखाते हैं कि सही तरीके से डिज़ाइन किए गए इंस्ट्रक्शन हायरार्की टास्क, जो मॉडल्स को भरोसे के स्तर के अनुसार निर्देशों को प्राथमिकता देना सिखाते हैं, कई वास्तविक दुनिया की सेफ्टी विशेषताओं को बेहतर बनाते हैं. इन टास्क पर ट्रेन किए गए मॉडल सिस्टम प्रॉम्प्ट्स में दी गई सेफ्टी स्पेसिफिकेशन्स के प्रति अधिक रिस्पॉन्सिव हो जाते हैं (जिससे सेफ्टी स्टीयरबिलिटी बेहतर होती है) और टूल आउटपुट्स में एम्बेडेड प्रॉम्प्ट इंजेक्शन अटैक्स के प्रति अधिक रोबस्ट बनते हैं.
टकराव को संभालने के लिए, OpenAI के मॉडल्स को एक स्पष्ट इंस्ट्रक्शन हायरार्की का पालन करने के लिए ट्रेन किया जाता है:
सिस्टम > डेवलपर > यूज़र > टूल
हायर-प्रायोरिटी इंस्ट्रक्शंस पर ज़्यादा भरोसा किया जाता है. मॉडल को लोअर-प्रायोरिटी इंस्ट्रक्शंस को तभी फॉलो करना चाहिए जब वे हायर-प्रायोरिटी कंस्ट्रेंट्स से कॉन्फ्लिक्ट न करें. ये सिद्धांत OpenAI मॉडल स्पेक(एक नई विंडो में खुलेगा) में उल्लिखित हैं.
उदाहरण के लिए, अगर किसी सिस्टम मैसेज में कोई सेफ़्टी पॉलिसी शामिल है और कोई यूज़र मॉडल से उसका उल्लंघन करने के लिए कहता है, तो मॉडल को इनकार करना चाहिए. अगर किसी टूल आउटपुट में मैलिशस इंस्ट्रक्शंस हों, तो मॉडल को उन्हें कमांड की तरह ट्रीट करने के बजाय इग्नोर करना चाहिए.
इसे सही करना सेफ्टी, सिक्योरिटी और रिलायबिलिटी के लिए फाउंडेशनल है.
दाईं ओर का मॉडल यूज़र के निर्देशों के बजाय डेवलपर के निर्देशों का सही तरीके से पालन करता है, क्योंकि जब दोनों निर्देशों में टकराव होता है तो डेवलपर के निर्देश की प्राथमिकता ज़्यादा होती है.
रीइन्फोर्समेंट लर्निंग इंस्ट्रक्शन हायार्की सिखाने के लिए एक नैचुरल फिट है. हम कॉन्फ्लिक्टिंग इंस्ट्रक्शंस वाले कन्वर्सेशंस जनरेट कर सकते हैं, मॉडल को रिस्पॉन्ड करने के लिए प्रॉम्प्ट कर सकते हैं, और जब वह सही इंस्ट्रक्शन फॉलो करता है तो उसे रिवॉर्ड दे सकते हैं.
हमने उस रेसिपी को सीधे तौर पर अप्लाई करने के तीन पिटफॉल्स पहचाने हैं:
- इंस्ट्रक्शन-फॉलोइंग फेल्यर्स इंस्ट्रक्शन हायार्की फेल्यर्स के रूप में भी हो सकते हैं: मॉडल किसी इंस्ट्रक्शन कॉन्फ्लिक्ट को रिज़ॉल्व करने में फेल हो सकता है, न कि इसलिए कि उसे रोल्स की हायार्की समझ नहीं आती, बल्कि इसलिए कि इंस्ट्रक्शंस खुद बहुत कॉम्प्लिकेटेड होते हैं.
- इंस्ट्रक्शन कॉन्फ्लिक्ट्स न्यूआन्स्ड और यहाँ तक कि सब्जेक्टिव भी हो सकते हैं. एक कॉमन अप्रोच यह है कि एक अलग LLM जज को ट्रेन किए जा रहे LLM को रिवॉर्ड असाइन करने दिया जाए, लेकिन जज खुद भी फॉलिबल होते हैं.
- मॉडल अक्सर ऐसे शॉर्टकट्स सीख लेते हैं जो हाई रिवॉर्ड देते हैं, लेकिन प्रैक्टिस में बेकार होते हैं(एक नई विंडो में खुलेगा). क्लासिक उदाहरण ओवररिफ्यूजल्स का है: मॉडल सेफ्टी को मैक्सिमाइज़ करने के लिए यहाँ तक कि बेनाइन रिक्वेस्ट्स को भी रिफ्यूज करना सीख सकते हैं.
हम IH-Challenge नाम का एक रीइन्फोर्समेंट लर्निंग ट्रेनिंग डेटासेट डिज़ाइन करते हैं, जो इन सभी पिटफॉल्स को एड्रेस करने के लिए बनाया गया है. हम निम्नलिखित सिद्धांतों का पालन करते हैं:
- टास्क्स इंस्ट्रक्शन-फॉलोइंग-सिंपल हैं
- इन्हें एक सिंपल Python स्क्रिप्ट से ऑब्जेक्टिवली-ग्रेडेबल बनाया गया है
- ऐसे कोई ट्रिवियल शॉर्टकट्स नहीं हैं जो सभी टास्क्स में हाई रिवॉर्ड की गारंटी दें
IH-Challenge में हर टास्क मूल रूप से एक कन्वर्सेशन होता है जिसमें निम्नलिखित मैसेज होते हैं:
- एक हाई-प्रिविलेज रोल से आया इंस्ट्रक्शन मैसेज, जैसे - “केवल ‘हाँ’ या ‘नहीं’ में उत्तर दें”.
- एक लोअर-प्रिविलेज रोल से आया इंस्ट्रक्शन मैसेज, जो मॉडल को हायर-प्रिविलेज मैसेज में दिए गए इंस्ट्रक्शंस का उल्लंघन करने के लिए प्रेरित करने की कोशिश करता है.
ट्रेन किया जा रहा मॉडल अगला मैसेज जनरेट करता है. हम टास्क्स/एनवायरनमेंट्स को इस तरह लिखते हैं कि प्रोग्रामैटिक तरीके से यह चेक करना संभव हो कि मॉडल का रिस्पॉन्स हायर-लेवल कंस्ट्रेंट को संतुष्ट करता है या नहीं.
हम IH-Challenge पर एक मॉडल को ट्रेन करते हैं और एक इंटरनल मॉडल बनाते हैं, जिसे हम GPT‑5 Mini-R कहते हैं, जिसमें निम्नलिखित इम्प्रूवमेंट्स हैं:
- इंस्ट्रक्शन-हायार्की बेंचमार्क्स पर बेहतर परफॉर्म करता है
- इम्प्रूव्ड परफॉर्मेंस हेल्ड-आउट और एडवर्सेरियल इंस्ट्रक्शन हायार्की टेस्ट्स पर भी जनरलाइज़ होती है
- ओवर-रिफ्यूजल में कोलैप्स हुए बिना ओवरऑल यूज़फुलनेस बनाए रखता है
यही वजह है कि यह अप्रोच सेफ्टी के लिए खास तौर पर कम्पेलिंग बनती है: IH-Challenge टास्क्स पर इंस्ट्रक्शन कॉन्फ्लिक्ट्स को सही तरीके से रिज़ॉल्व करना मॉडल्स को सीधे ट्रेन करके, हमें IH इम्प्रूवमेंट्स मिलते हैं जो नए अटैक्स और नई सिचुएशंस पर भी जनरलाइज़ होते हैं.
अकादमिक बेंचमार्क पर मजबूती
इवैल | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf पासवर्ड (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (डिस्ट्रैक्टर्स) | 0.88 | 0.95 (+0.07) |
RealGuardrails (हैंडरिटन) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
आंतरिक बेंचमार्क्स पर मजबूती
इवैल | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
सिस्टम <> यूज़र कॉन्फ़्लिक्ट | 0.84 | 0.95 (+0.11) |
सिस्टम <> डेवलपर कॉन्फ़्लिक्ट | 0.86 | 0.86 (+0) |
डेवलपर <> यूज़र कॉन्फ़्लिक्ट | 0.83 | 0.95 (+0.12) |
कोई क्षमता ह्रास नहीं
इवैल | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (ओवररिफ्यूज़ल) | 0.79 | 1.00 (+0.21) |
TensorTrust (ओवररिफ्यूजल) | 0.91 | 0.90 (-0.01) |
GPQA डायमंड | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Chat WinRate vs. o1 | 0.71 | 0.66 (-0.05) |
प्राथमिकता स्कोर | 0.46 | 0.40 (-0.06) |
स्ट्रॉन्गर इंस्ट्रक्शन हायार्की एक साथ कई सेफ्टी बेनिफिट्स देती है, जिसमें सेफ्टी स्टीयरेबिलिटी और प्रॉम्प्ट इंजेक्शन रोबस्टनेस भी शामिल हैं.
हम सिस्टम प्रॉम्प्ट में कैटेगरी-स्पेसिफिक सेफ्टी स्पेसिफिकेशंस जोड़कर और OpenAI के सेफ्टी प्रोडक्शन बेंचमार्क्स (प्रोडक्शन में ChatGPT का प्रतिनिधित्व करने वाले सेफ्टी-सेंसिटिव कन्वर्सेशंस का एक सेट) पर बिहेवियर को मापकर सेफ्टी स्टीयरेबिलिटी का इवैल्यूएशन करते हैं.
IH-ट्रेंड मॉडल कंसिस्टेंट इम्प्रूवमेंट दिखाता है: सेफ्टी स्पेक मौजूद होने पर यह डिसअलाउड कैटेगरीज़ में हाईयर रिफ्यूजल और सेफ कंप्लीशन रेट्स हासिल करता है, जो यह दर्शाता है कि स्ट्रॉन्गर इंस्ट्रक्शन हायार्की बिहेवियर तब कॉन्फ्लिक्ट्स को बेहतर तरीके से रिज़ॉल्व करता है जब अनसेफ रिक्वेस्ट्स लोअर-प्रायोरिटी इंस्ट्रक्शंस से आती हैं. खास बात यह है कि इस इम्प्रूवमेंट के साथ हेल्पफुलनेस रेट में कोई समान कमी नहीं आती (यानी यह सिर्फ ज़्यादा ओवरऑल रिफ्यूज करके कम “helpful” नहीं बन रहा है).


उदाहरण कि IH-ट्रेंड मॉडल उन प्रॉम्प्ट इंजेक्शन्स का कैसे विरोध करता है जिनके जाल में GPT‑5 Mini (Baseline) फँस जाता है.
इंस्ट्रक्शन हायार्की प्रॉम्प्ट इंजेक्शन का रेज़िस्ट करने में भी सेंट्रल है, जब मैलिशस इंस्ट्रक्शंस टूल आउटपुट्स में एम्बेडेड होते हैं. हम IH-ट्रेंड मॉडल का इवैल्यूएशन दो प्रॉम्प्ट इंजेक्शन बेंचमार्क्स पर करते हैं—एक अकैडमिक बेंचमार्क CyberSecEval 2 और एक OpenAI इंटरनल प्रॉम्प्ट इंजेक्शन बेंचमार्क, जिसमें ChatGPT Atlas के एक पुराने वर्ज़न पर डेमोंस्ट्रेट किए गए जैसे अटैक्स शामिल हैं.
बेसलाइन की तुलना में, IH-ट्रेंड GPT‑5 Mini-R मॉडल दोनों बेंचमार्क्स पर प्रॉम्प्ट इंजेक्शन रोबस्टनेस में सुधार करता है और इन एक्सपेरिमेंट्स में हमारे इंटरनल स्टैटिक प्रॉम्प्ट इंजेक्शन इवैल्यूएशन पर परफॉर्मेंस को काफी बेहतर बनाता है.
जैसे-जैसे मॉडल अधिक एजेंटिक बनते हैं—टूल्स को कॉल करते हुए, अनट्रस्टेड डॉक्यूमेंट्स पढ़ते हुए, और दुनिया में एक्शंस लेते हुए—ट्रस्टेड इंस्ट्रक्शंस को अनट्रस्टेड इंस्ट्रक्शंस से लगातार ऊपर प्रायोरिटाइज़ करने की क्षमता एक कोर सेफ्टी प्रॉपर्टी बन जाती है.
यह काम दिखाता है कि IH रोबस्टनेस ट्रेनिंग के कई पिटफॉल्स को ऐसे ट्रेनिंग एनवायरनमेंट्स डिज़ाइन करके दूर किया जा सकता है जो उन पिटफॉल्स को एड्रेस करते हैं. हालाँकि हमारा IH-Challenge डेटासेट सिंपल लगता है, लेकिन इन एनवायरनमेंट्स से मॉडल जो IH बिहेवियर सीखते हैं वह अधिक रियलिस्टिक, अक्सर नॉट-ऑब्जेक्टिवली-ग्रेडेबल बेंचमार्क्स पर भी जनरलाइज़ होता है.
इंस्ट्रक्शन हायार्की को स्ट्रॉन्ग बनाना सिर्फ रिलायबिलिटी को बेहतर नहीं बनाता, बल्कि एक साथ कई सेफ्टी और सिक्योरिटी गेंस भी अनलॉक करता है—एक ऐसा फाउंडेशन जो AI सिस्टम्स के अधिक कैपेबल और ऑटोनॉमस होने के साथ और भी महत्वपूर्ण बन जाता है.
इस क्षेत्र में आगे के रिसर्च को सपोर्ट करने के लिए, हम IH-Challenge डेटासेट यहाँ(एक नई विंडो में खुलेगा) रिलीज़ कर रहे हैं.


