अत्याधुनिक LLMs मधील सूचना पदानुक्रम सुधारणे
IH-Challenge सादर करत आहोत, हा एक प्रशिक्षण डेटासेट आहे जो सूचना पदानुक्रम, सुरक्षा स्टीअरबिलिटी आणि प्रॉम्प्ट इंजेक्शन मजबुती बळकट करतो.
AI प्रणालींना अनेक स्रोतांकडून अनेकदा सूचना मिळतात. यामध्ये सिस्टम संदेशांमधील सुरक्षितता धोरणे, विकसकांकडून उत्पादन मार्गदर्शन, वापरकर्त्यांकडून विनंत्या आणि ऑनलाइन आढळलेली माहिती यांचा समावेश असू शकतो. या स्रोतांमधील सर्वात विश्वासार्ह सूचनांना विश्वसनीयपणे प्राधान्य देण्यासाठी मॉडेल्सना प्रशिक्षण देणे हे सुरक्षित उपयोजनाचा एक महत्त्वाचा भाग आहे.
ही प्राधान्यक्रम व्यवस्था विघटन होते तेव्हा अनेक AI सुरक्षितता आणि विश्वसनीयतेच्या समस्या उद्भवू शकतात. मॉडेल्सना अनुमती नसलेल्या सामग्रीसाठी विनंत्या, खाजगी माहिती उघड करण्याचे प्रयत्न किंवा ऑनलाइन डेटामध्ये एम्बेड केलेले प्रॉम्प्ट‑इंजेक्शन हल्ले प्राप्त होऊ शकतात. या प्रत्येक परिस्थितीत योग्य प्रकारे वागण्यात अपयशी ठरण्यामागे तेच मूळ कारण आहे: मॉडेल चुकीच्या निर्देशांचे पालन करू शकते.
जेव्हा या सूचनांमध्ये विरोध होतो, तेव्हा मॉडेलला कोणत्या सूचनांना प्राधान्य द्यायचे ते ठरवावे लागते. जर ते अविश्वासार्ह सूचनेला अधिकृत मानत असेल, तर मॉडेल अशा प्रकारे वागू शकते ज्यामुळे धोरणांचे उल्लंघन होईल किंवा विकसक आणि वापरकर्त्याच्या हेतूच्या विरुद्ध जाईल.
आम्ही दाखवून देतो की योग्यरीत्या डिझाइन केलेली सूचना पदानुक्रम कार्ये, जी मॉडेल्सना त्यांच्या विश्वास पातळीनुसार सूचनांना प्राधान्य देण्यासाठी प्रशिक्षित करतात, अनेक वास्तविक जगातील सुरक्षा गुणधर्म सुधारतात. या कार्यांवर प्रशिक्षित केलेली मॉडेल सिस्टम प्रॉम्प्ट्समधील सुरक्षा तपशीलांप्रती अधिक प्रतिसादक्षम बनतात (सुरक्षा steerability सुधारतात) आणि टूल आउटपुट्समध्ये एम्बेड केलेल्या प्रॉम्प्ट इंजेक्शन हल्ल्यांप्रती अधिक मजबूत बनतात.
संघर्ष हाताळण्यासाठी, OpenAI चे मॉडेल्स स्पष्ट सूचना पदानुक्रमाचे पालन करण्यासाठी प्रशिक्षित केलेले आहेत:
सिस्टम > विकसक > वापरकर्ता > साधन
उच्च‑प्राधान्याच्या सूचना अधिक विश्वासार्ह मानल्या जातात. मॉडेलने फक्त तेव्हाच कमी‑प्राधान्याच्या सूचनांचे पालन करावे जेव्हा त्या उच्च‑प्राधान्याच्या बंधनांशी संघर्ष करत नाहीत. ही तत्त्वे OpenAI मॉडेल स्पेक(नवीन विंडोमध्ये उघडेल) मध्ये नमूद केली आहेत.
उदाहरणार्थ, जर एखाद्या सिस्टम मेसेजमध्ये सुरक्षा धोरण समाविष्ट असेल आणि वापरकर्ता मॉडेलला त्याचे उल्लंघन करण्यास सांगत असेल, तर मॉडेलने नकार द्यावा. जर एखाद्या टूल आउटपुटमध्ये दुर्भावनायुक्त सूचना असतील, तर मॉडेलने त्यांना कमांड्स म्हणून न मानता दुर्लक्ष केले पाहिजे.
हे योग्य करणे सुरक्षितता, सुरक्षा आणि विश्वासार्हतेसाठी मूलभूत आहे.
उजवीकडील मॉडेल दोन सूचनांमध्ये संघर्ष झाल्यास, वापरकर्त्याच्या सूचनेपेक्षा उच्च-प्राधान्य असलेल्या डेव्हलपरच्या सूचनेचे योग्यरित्या पालन करते.
सूचना पदानुक्रम शिकवण्यासाठी रीइन्फोर्समेंट लर्निंग हा एक नैसर्गिक पर्याय आहे. आम्ही परस्परविरोधी सूचनांसह संभाषणे तयार करू शकतो, मॉडेलला प्रतिसाद देण्यासाठी प्रॉम्प्ट करू शकतो, आणि ते योग्य सूचनेचे पालन करते तेव्हा त्याला बक्षीस देऊ शकतो.
आम्ही त्या रेसिपीचा भोळेपणाने अवलंब केल्यास उद्भवणाऱ्या तीन अडचणी ओळखल्या आहेत:
- सूचनांचे पालन करण्यात होणारी अपयशे ही सूचना पदानुक्रमातील अपयशेही ठरू शकतात: मॉडेल सूचना संघर्ष सोडवण्यात अपयशी ठरू शकते, कारण त्याला भूमिकांच्या पदानुक्रमाची समज नाही म्हणून नाही, तर कारण सूचनाच खूप गुंतागुंतीच्या आहेत.
- सूचनांमधील परस्परविरोध सूक्ष्म असू शकतात आणि अगदी व्यक्तिनिष्ठही असू शकतात. एक सामान्य पद्धत म्हणजे प्रशिक्षित होत असलेल्या LLM ला बक्षिसे देण्यासाठी स्वतंत्र LLM न्यायाधीशाला नेमणे, पण न्यायाधीश स्वतःही चुकू शकतात.
- मॉडेल्स सहसा उच्च बक्षीस मिळवून देणारे, पण प्रत्यक्षात निरुपयोगी ठरणारे शॉर्टकट्स(नवीन विंडोमध्ये उघडेल) शिकतात. क्लासिक उदाहरण म्हणजे overrefusals: मॉडेल्स सुरक्षितता जास्तीत जास्त करण्यासाठी निरुपद्रवी विनंत्यांनाही नकार देणे शिकू शकतात.
आम्ही IH-Challenge, एक रीइन्फोर्समेंट लर्निंग प्रशिक्षण डेटासेट, त्या प्रत्येक त्रुटीला संबोधित करण्यासाठी डिझाइन करतो. आम्ही खालील तत्त्वांचे पालन करतो:
- कार्ये निर्देशांचे पालन-सोपे आहेत
- ते एका साध्या Python स्क्रिप्टसह वस्तुनिष्ठपणे मूल्यांकन करता येण्याजोगे आहेत
- सर्व कामांमध्ये उच्च बक्षीसाची हमी देणारे कोणतेही क्षुल्लक शॉर्टकट्स नाहीत
IH-Challenge मधील प्रत्येक कार्य मूलतः खालील संदेशांसह एक संभाषण आहे:
- उच्च-विशेषाधिकार भूमिकेकडून आलेला सूचना संदेश, उदा. “फक्त ‘Yes’ किंवा ‘No’ असेच उत्तर द्या”.
- कमी-विशेषाधिकार असलेल्या भूमिकेकडून आलेला सूचना संदेश, जो मॉडेलला उच्च-विशेषाधिकार संदेशातील सूचनांचे उल्लंघन करण्यास प्रवृत्त करण्याचा प्रयत्न करतो.
प्रशिक्षित केले जात असलेले मॉडेल पुढील संदेश तयार करते. आम्ही टास्क/पर्यावरण अशा प्रकारे लिहितो की मॉडेलच्या प्रतिसादाने उच्च-स्तरीय बंधन पूर्ण केले आहे की नाही हे प्रोग्रामद्वारे तपासणे शक्य होते.
आम्ही IH‑Challenge वर एका मॉडेलचे प्रशिक्षण देतो आणि एक अंतर्गत मॉडेल तयार करतो, ज्याला आम्ही GPT‑5 Mini-R म्हणतो, खालील सुधारणाांसह:
- निर्देश-श्रेणीक्रम बेंचमार्कवर चांगली कामगिरी करते
- सुधारित कार्यक्षमता होल्ड‑आउट आणि प्रतिस्पर्धात्मक निर्देशात्मक पदानुक्रम चाचण्यांवर सामान्यीकृत होते
- अति‑नकारात न पडता एकूण उपयुक्तता कायम ठेवते
सुरक्षेसाठी हा दृष्टिकोन विशेषतः आकर्षक ठरण्याचं कारण हे आहे: IH-challenge कार्यांवर सूचना-संघर्ष योग्यरीत्या सोडवण्यासाठी मॉडेल्सना थेट प्रशिक्षण देऊन, आम्हाला अशा IH सुधारणा मिळतात ज्या नवीन हल्ले आणि नवीन परिस्थितींमध्येही सामान्यीकरण करतात.
शैक्षणिक बेंचमार्कवरील मजबूती
मुल्यांकन | GPT‑5‑मिनी | GPT‑5 मिनी-R |
Gandalf पासवर्ड (sys-user) | 0.99 | 0.99 (+0) |
Gandalf पासवर्ड (डेव्ह-युजर) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (विचलित करणारे घटक) | 0.88 | 0.95 (+0.07) |
RealGuardrails (हस्तलिखित) | 0.82 | 0.89 (+0.07) |
सिस्टम IFEval | 0.92 | 0.96 (+0.04) |
आंतररिक बेंचमार्क्सवर मजबुती
मुल्यांकन | GPT‑5‑मिनी | GPT‑5 मिनी-R |
TutorJailbreak (sys-वापरकर्ता) | 0.96 | 0.99 (+0.03) |
ट्यूटर जेलब्रेक (dev-user) | 0.97 | 0.99 (+0.02) |
सिस्टम <> वापरकर्ता संघर्ष | 0.84 | 0.95 (+0.11) |
सिस्टम <> विकसक संघर्ष | 0.86 | 0.86 (+0) |
विकसक <> वापरकर्ता संघर्ष | 0.83 | 0.95 (+0.12) |
क्षमतांमध्ये कोणतेही रिग्रेशन नाही
मुल्यांकन | GPT‑5‑मिनी | GPT‑5 मिनी-R |
IH-Challenge (जास्त नकार) | 0.79 | 1.00 (+0.21) |
TensorTrust (जास्त नकार) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
चॅट विजय दर vs. o1 | 0.71 | 0.66 (-0.05) |
प्राधान्य स्कोअर | 0.46 | 0.40 (-0.06) |
अधिक मजबूत सूचना पदानुक्रम एकाच वेळी अनेक सुरक्षा फायदे प्रदान करतो, ज्यामध्ये सुरक्षा सुस्पष्टता आणि प्रॉम्प्ट इंजेक्शन मजबुती यांचा समावेश आहे.
आम्ही सिस्टम प्रॉम्प्टमध्ये श्रेणी-विशिष्ट सुरक्षा तपशील जोडून आणि OpenAI च्या सुरक्षा उत्पादन बेंचमार्क्स (उत्पादनातील ChatGPT चे प्रतिनिधित्व करणाऱ्या सुरक्षा-संवेदनशील संभाषणांचा एक संच) वर वर्तन मोजून सुरक्षा स्टीरेबिलिटीचे मूल्यमापन करतो.
IH-प्रशिक्षित मॉडेल सातत्यपूर्ण सुधारणा दाखवते: सेफ्टी स्पेक उपस्थित असताना, ते डिसअलाऊड श्रेणींमध्ये उच्च नकार आणि सुरक्षित पूर्णता दर साध्य करते, यावरून असे सूचित होते की अधिक मजबूत सूचना पदानुक्रम वर्तनामुळे असुरक्षित विनंत्या कमी-प्राधान्य सूचनांकडून आल्यावर संघर्ष सोडवण्यात ते अधिक चांगले ठरते. लक्षवेधी म्हणजे, या सुधारणेसोबत उपयुक्तता दरात तदनुरूप घट होत नाही (म्हणजेच, एकूणच अधिक नकार देऊन ते फक्त कमी “उपयुक्त” होत नाही).


IH-प्रशिक्षित मॉडेल GPT‑5 Mini (Baseline) ज्या प्रॉम्प्ट इंजेक्शनना बळी पडते त्यांना कसा विरोध करते याचे उदाहरण.
टूल आउटपुटमध्ये दुर्भावनापूर्ण सूचना समाविष्ट केल्या जातात तेव्हा, प्रॉम्प्ट इंजेक्शनला प्रतिकार करण्यासाठी सूचना पदानुक्रम महत्त्वाचा ठरतो. आम्ही IH-प्रशिक्षित मॉडेलचे मूल्यांकन दोन प्रॉम्प्ट इंजेक्शन बेंचमार्क्सवर करतो—एक अकादमिक बेंचमार्क CyberSecEval 2 आणि OpenAI अंतर्गत प्रॉम्प्ट इंजेक्शन बेंचमार्क, ज्यामध्ये ChatGPT Atlas च्या जुन्या आवृत्तीवर दाखवलेल्या हल्ल्यासारखे हल्ले समाविष्ट आहेत.
बेसलाइनच्या तुलनेत, IH-trained GPT‑5 Mini-R मॉडेल दोन्ही बेंचमार्क्सवर प्रॉम्प्ट इंजेक्शनविरुद्धची मजबुती सुधारते आणि या प्रयोगांमध्ये आमच्या अंतर्गत स्थिर प्रॉम्प्ट इंजेक्शन मूल्यांकनात कार्यक्षमता लक्षणीयरीत्या सुधारते.
जसे मॉडेल अधिक एजंटिक होत जातात—टूल्स कॉल करणे, अविश्वसनीय दस्तऐवज वाचणे आणि जगात कृती करणे—तसे अविश्वसनीय सूचनांपेक्षा विश्वासार्ह सूचनांना सातत्याने प्राधान्य देण्याची क्षमता ही एक मुख्य सुरक्षा वैशिष्ट्य बनते.
या कामातून असे दिसून येते की त्या अडचणींना संबोधित करणारी प्रशिक्षण वातावरणे डिझाइन करून IH robustness training मधील अनेक अडचणी दूर करता येतात. आमचा IH-Challenge dataset साधा वाटत असला तरी, या वातावरणांमधून IH behavior मॉडेल्स जे शिकतात ते अधिक वास्तववादी, अनेकदा वस्तुनिष्ठरीत्या ग्रेड न करता येणाऱ्या benchmarks वर सामान्यीकरण करते.
सूचना श्रेणीक्रम बळकट केल्याने केवळ विश्वासार्हता सुधारत नाही, तर एकाच वेळी अनेक सुरक्षा आणि संरक्षक लाभही मिळतात—AI प्रणाली अधिक सक्षम आणि स्वायत्त होत गेल्यामुळे अधिकाधिक महत्त्वाचा ठरणारा एक पाया.
या क्षेत्रातील पुढील संशोधनाला पाठिंबा देण्यासाठी, आम्ही IH‑Challenge डेटासेट येथे(नवीन विंडोमध्ये उघडेल) प्रकाशित करत आहोत.


