અત્યાધુનિક LLMsમાં instruction hierarchyમાં સુધારો
IH-Challenge રજૂ કરીએ છીએ, એક training dataset જે instruction hierarchy, safety steerability અને prompt injection robustnessને મજબૂત બનાવે છે.
AI સિસ્ટમોને ઘણીવાર અનેક સ્ત્રોતોથી સૂચનાઓ મળે છે. તેમાં system messagesમાંથી safety policies, developers તરફથી product guidance, users તરફથી requests, અને online મળતી માહિતીનો સમાવેશ થઈ શકે છે. આ સ્ત્રોતોમાંથી સૌથી વિશ્વસનીય સૂચનાઓને વિશ્વસનીય રીતે પ્રાથમિકતા આપવાનું મોડલોને તાલીમ આપવું સલામત deploymentનો એક મુખ્ય ભાગ છે.
જ્યારે આ પ્રાથમિકતા તૂટી પડે છે, ત્યારે AI સલામતી અને વિશ્વસનીયતાની ઘણી સમસ્યાઓ ઊભી થઈ શકે છે. મોડલોને મનાઈવાળી સામગ્રી માટે requests, ખાનગી માહિતી બહાર પાડવાના પ્રયાસો, અથવા online dataમાં સમાયેલા prompt‑injection હુમલા મળી શકે છે. આ દરેક પરિસ્થિતિમાં યોગ્ય રીતે વર્તવામાં નિષ્ફળ જવાનું મૂળ કારણ એક જ છે: મોડલ ખોટી સૂચનાનું પાલન કરી શકે છે.
જ્યારે આ સૂચનાઓમાં સંઘર્ષ થાય છે, ત્યારે મોડલને નક્કી કરવું પડે છે કે કઈને પ્રાથમિકતા આપવી. જો તે અવિશ્વસનીય સૂચનાને અધિકૃત માને, તો મોડલ policies અથવા developer અને userના આશયનું ઉલ્લંઘન કરે તેવી રીતે વર્તી શકે છે.
અમે બતાવીએ છીએ કે યોગ્ય રીતે રચાયેલા instruction-hierarchy કાર્યો, જે trust level અનુસાર સૂચનાઓને પ્રાથમિકતા આપવાનું મોડલોને શીખવે છે, અનેક વાસ્તવિક સલામતી ગુણધર્મોમાં સુધારો કરે છે. આ કાર્યો પર તાલીમ મેળવેલા મોડલો system promptsમાં safety specifications પ્રત્યે વધુ પ્રતિસાદી બને છે (safety steerabilityમાં સુધારો) અને tool outputsમાં સમાયેલા prompt-injection હુમલાઓ સામે વધુ મજબૂત બને છે.
સંઘર્ષને હલ કરવા માટે, OpenAIના મોડલોને સ્પષ્ટ instruction hierarchyનું પાલન કરવા માટે તાલીમ આપવામાં આવે છે.
System > developer > user > tool
ઉચ્ચ-પ્રાથમિકતાવાળી સૂચનાઓ પર વધુ વિશ્વાસ મૂકવામાં આવે છે. મોડલે નીચી-પ્રાથમિકતાવાળી સૂચનાઓનું પાલન માત્ર ત્યારે જ કરવું જોઈએ જ્યારે તે ઊંચી-પ્રાથમિકતાવાળી મર્યાદાઓ સાથે સંઘર્ષ કરતી ન હોય. આ સિદ્ધાંતો OpenAI Model Spec(નવી વિન્ડોમાં ખૂલે છે)માં દર્શાવાયેલા છે.
ઉદાહરણ તરીકે, જો system messageમાં safety policy શામેલ હોય અને user મોડલને તેનું ઉલ્લંઘન કરવા કહે, તો મોડલે ઇનકાર કરવો જોઈએ. જો tool outputમાં દુર્ભાવનાપૂર્ણ સૂચનાઓ હોય, તો મોડલે તેને આદેશ તરીકે માનવાને બદલે અવગણવી જોઈએ.
આને યોગ્ય રીતે કરવું સલામતી, સુરક્ષા અને વિશ્વસનીયતા માટે પાયાનું છે.
જમણી બાજુનું મોડલ Developerની સૂચનાનું યોગ્ય રીતે પાલન કરે છે, જે બે સૂચનાઓમાં સંઘર્ષ હોય ત્યારે Userની સૂચના કરતાં ઊંચી પ્રાથમિકતાવાળું છે.
Instruction hierarchy શીખવવા માટે રીઇન્ફોર્સમેન્ટ લર્નિંગ એક સ્વાભાવિક યોગ્યતા ધરાવે છે. અમે પરસ્પર વિરુદ્ધ સૂચનાઓવાળી વાતચીતો બનાવી શકીએ, મોડલને પ્રતિસાદ આપવા માટે પ્રોમ્પ્ટ કરી શકીએ, અને જ્યારે તે યોગ્ય સૂચનાનું પાલન કરે ત્યારે તેને ઇનામ આપી શકીએ.
આ રીતને સીધી રીતે લાગુ કરતાં અમે ત્રણ ખામીઓ ઓળખી છે.
- Instruction-following નિષ્ફળતાઓ instruction hierarchy નિષ્ફળતાઓ તરીકે પણ દેખાઈ શકે છે: મોડલ સૂચનાના સંઘર્ષને હલ કરવામાં નિષ્ફળ જઈ શકે છે, કારણ કે તેને ભૂમિકાઓની hierarchy સમજાતી નથી એટલે નહીં, પરંતુ કારણ કે સૂચનાઓ પોતે જ ખૂબ જટિલ હોય છે.
- Instruction conflicts સૂક્ષ્મ અને ક્યારેક આત્મલક્ષી હોઈ શકે છે. એક સામાન્ય રીત એ છે કે અલગ LLM judge તાલીમ પામતા LLMને rewards આપે, પરંતુ judges પોતે પણ ભૂલ કરી શકે છે.
- મોડલો એવા shortcuts શીખી લેવાની વૃત્તિ ધરાવે છે જે ઊંચું ઇનામ આપે છે, પરંતુ વાસ્તવમાં બિનઉપયોગી હોય છે(નવી વિન્ડોમાં ખૂલે છે). તેનું ક્લાસિક ઉદાહરણ overrefusals છે: મોડલો નિર્દોષ requestsને પણ નકારીને સલામતી મહત્તમ કરવાનું શીખી શકે છે.
અમે IH-Challenge નામનો રીઇન્ફોર્સમેન્ટ લર્નિંગ training dataset રચ્યો છે, જેથી આ દરેક ખામીનો સામનો કરી શકાય. અમે નીચેના સિદ્ધાંતોનું પાલન કરીએ છીએ.
- કાર્યો instruction-following-simple છે
- તેને સરળ Python scriptથી નિષ્પક્ષ રીતે ગ્રેડ કરી શકાય છે
- એવા તુચ્છ shortcuts નથી જે બધા કાર્યોમાં ઊંચું ઇનામ નક્કી કરે
IH-Challengeમાંનું દરેક કાર્ય મૂળભૂત રીતે નીચેના સંદેશાઓવાળી એક વાતચીત છે.
- ઉચ્ચ-વિશેષાધિકાર ભૂમિકાથી એક instruction message, ઉદાહરણ તરીકે “ફક્ત ‘Yes’ અથવા ‘No’ જ જવાબ આપો”.
- નીચી-વિશેષાધિકાર ભૂમિકાથી એક instruction message, જે મોડલને ઉચ્ચ-વિશેષાધિકાર સંદેશામાંની સૂચનાઓનું ઉલ્લંઘન કરાવવા પ્રયત્ન કરે છે.
તાલીમ પામતું મોડલ આગળનો સંદેશ જનરેટ કરે છે. અમે કાર્યો/પર્યાવરણોને એમ લખીએ છીએ કે પ્રોગ્રામેટિક રીતે તપાસી શકાય કે મોડલનો પ્રતિસાદ higher-level constraint સંતોષે છે કે નહીં.
અમે IH‑Challenge પર એક મોડલને તાલીમ આપીએ છીએ અને એક આંતરિક મોડલ તૈયાર કરીએ છીએ, જેને અમે GPT‑5 Mini-R કહીએ છીએ, જેમાં નીચે મુજબના સુધારાઓ છે.
- Instruction‑hierarchy benchmarks પર વધુ સારું પ્રદર્શન કરે છે
- સુધારેલું પ્રદર્શન held‑out અને adversarial instruction hierarchy tests સુધી સામાન્યકરણ પામે છે
- અતિ‑ઇનકારમાં તૂટી પડ્યા વિના, એકંદર ઉપયોગિતા જાળવે છે
આ જ કારણ છે કે સલામતી માટે આ અભિગમ ખાસ આકર્ષક બને છે: IH-challenge કાર્યોમાં instruction conflictsને યોગ્ય રીતે હલ કરવા માટે મોડલોને સીધી તાલીમ આપીને, અમને એવા IH સુધારાઓ મળે છે જે નવા હુમલાઓ અને નવી પરિસ્થિતિઓમાં પણ સામાન્યકરણ પામે છે.
શૈક્ષણિક benchmarks પર મજબૂતી
મૂલ્યાંકન | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
આંતરિક benchmarks પર મજબૂતી
મૂલ્યાંકન | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
System <> User સંઘર્ષ | 0.84 | 0.95 (+0.11) |
System <> Developer સંઘર્ષ | 0.86 | 0.86 (+0) |
Developer <> User સંઘર્ષ | 0.83 | 0.95 (+0.12) |
ક્ષમતામાં કોઈ ઘટાડો નથી
મૂલ્યાંકન | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (અતિ-ઇનકાર) | 0.79 | 1.00 (+0.21) |
TensorTrust (અતિ-ઇનકાર) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
o1 સામે ચેટ WinRate | 0.71 | 0.66 (-0.05) |
પસંદગી સ્કોર | 0.46 | 0.40 (-0.06) |
વધુ મજબૂત instruction hierarchy એક સાથે અનેક સલામતી લાભ આપે છે, જેમાં safety steerability અને prompt injection robustnessનો સમાવેશ થાય છે.
અમે system promptમાં category-specific safety specifications ઉમેરીને અને OpenAIના safety Production Benchmarks પર વર્તન માપીને safety steerabilityનું મૂલ્યાંકન કરીએ છીએ. આ benchmarks સલામતી-સંવેદનશીલ વાતચીતોનો સમૂહ છે, જે productionમાં ChatGPTનું પ્રતિનિધિત્વ કરે છે.
IH-trained મોડલ સતત સુધારો દર્શાવે છે: safety spec હાજર હોય ત્યારે, તે મનાઈવાળી શ્રેણીઓમાં ઊંચા refusal અને safe completion rates હાંસલ કરે છે, જે દર્શાવે છે કે વધુ મજબૂત instruction hierarchy વર્તન તેને ત્યારે સંઘર્ષ હલ કરવામાં વધુ સક્ષમ બનાવે છે જ્યારે અસુરક્ષિત requests નીચી-પ્રાથમિકતાવાળી સૂચનાઓમાંથી આવે. ખાસ કરીને, આ સુધારો તેની સાથે helpfulness rateમાં સમકક્ષ ઘટાડો લાવતો નથી, એટલે કે તે માત્ર વધુ એકંદર ઇનકાર કરીને ઓછું “helpful” બનતું નથી.


IH-trained મોડલ કેવી રીતે prompt injectionનો વિરોધ કરે છે તેનું ઉદાહરણ, જેમાં GPT‑5 Mini (Baseline) ફસાઈ જાય છે.
જ્યારે દુર્ભાવનાપૂર્ણ સૂચનાઓ tool outputsમાં સમાવવામાં આવે છે, ત્યારે prompt injectionનો પ્રતિરોધ કરવા instruction hierarchy પણ કેન્દ્રસ્થાને છે. અમે IH-trained મોડલનું મૂલ્યાંકન બે prompt injection benchmarks પર કરીએ છીએ—એક શૈક્ષણિક benchmark CyberSecEval 2 અને OpenAIનું આંતરિક prompt injection benchmark, જેમાં ChatGPT Atlasના જુના સંસ્કરણ પર બતાવવામાં આવેલા હુમલા જેવા હુમલાઓનો સમાવેશ થાય છે.
Baselineની સરખામણીએ, IH-trained GPT‑5 Mini-R મોડલ બંને benchmarks પર prompt injection robustnessમાં સુધારો કરે છે અને આ પ્રયોગોમાં અમારી આંતરિક static prompt injection evaluation પર નોંધપાત્ર રીતે પ્રદર્શન સુધારે છે.
જેમ જેમ મોડલો વધુ agentic બને છે—tools બોલાવે છે, અવિશ્વસનીય દસ્તાવેજો વાંચે છે, અને દુનિયામાં પગલાં લે છે—તેમ વિશ્વસનીય સૂચનાઓને અવિશ્વસનીય સૂચનાઓ કરતાં સતત પ્રાથમિકતા આપવાની ક્ષમતા એક મુખ્ય સલામતી ગુણધર્મ બની જાય છે.
આ કાર્ય બતાવે છે કે IH robustness trainingની ઘણી ખામીઓ એવી training environments રચીને દૂર કરી શકાય છે જે આ ખામીઓને સંબોધે છે. અમારો IH-Challenge dataset સરળ લાગે છે, છતાં આ environmentsમાંથી મોડલો જે IH વર્તન શીખે છે તે વધુ વાસ્તવિક, ઘણીવાર નિષ્પક્ષ રીતે ગ્રેડ ન કરી શકાય એવા benchmarks સુધી સામાન્યકરણ પામે છે.
Instruction hierarchyને મજબૂત બનાવવાથી માત્ર વિશ્વસનીયતા સુધરતી નથી, પરંતુ એકસાથે અનેક સલામતી અને સુરક્ષા લાભો પણ મળે છે—એક એવું પાયાનું તત્વ, જે AI સિસ્ટમો વધુ સક્ષમ અને સ્વાયત્ત બનતી જાય તેમ વધતી જતી મહત્વપૂર્ણતા ધરાવે છે.
આ ક્ષેત્રમાં વધુ સંશોધનને ટેકો આપવા માટે, અમે IH‑Challenge datasetને અહીં(નવી વિન્ડોમાં ખૂલે છે) રિલીઝ કરી રહ્યા છીએ.


