అత్యాధునిక LLMలలో సూచన క్రమాన్ని మెరుగుపరచడం
ఇన్స్ట్రక్షన్ హైరార్కీ, భద్రతా స్టీరబిలిటీ, మరియు ప్రాంప్ట్ ఇంజెక్షన్ స్థిరత్వంను బలోపేతం చేసే ట్రైనింగ్ డేటాసెట్ IH-Challengeను పరిచయం చేస్తున్నాం.
AI సిస్టమ్లు తరచుగా అనేక మూలాల నుండి ఇన్స్ట్రక్షన్లను స్వీకరిస్తాయి. వీటిలో సిస్టమ్ మెసేజ్లలోని సేఫ్టీ పాలసీలు, డెవలపర్ల నుంచి వచ్చే ప్రొడక్ట్ గైడెన్స్, యూజర్ల రిక్వెస్ట్లు, మరియు ఆన్లైన్లో లభించే సమాచారం ఉండవచ్చు. ఈ సోర్సులలో అత్యంత నమ్మదగిన ఇన్స్ట్రక్షన్లకు విశ్వసనీయంగా ప్రాధాన్యత ఇవ్వేలా మోడళ్లను ట్రైన్ చేయడం సేఫ్ డిప్లాయ్మెంట్లో కీలక భాగం.
ఈ ప్రాధాన్యత క్రమం భంగం చెందినప్పుడు అనేక AI భద్రత మరియు విశ్వసనీయత సమస్యలు తలెత్తవచ్చు. మోడల్లు అనుమతించని కంటెంట్ కోసం అభ్యర్థనలు, ప్రైవేట్ సమాచారాన్ని వెల్లడించడానికి ప్రయత్నాలు, లేదా ఆన్లైన్ డేటాలో ఎంబెడెడ్గా ఉన్న ప్రాంప్ట్ ఇంజెక్షన్ దాడులను స్వీకరించవచ్చు. ఈ ప్రతి సందర్భంలోనూ తగిన విధంగా ప్రవర్తించడంలో విఫలమవడం ఒకే మూల కారణాన్ని పంచుకుంటుంది: మోడల్ తప్పు సూచనను అనుసరించవచ్చు.
ఈ సూచనలు విరుద్ధంగా ఉన్నప్పుడు, ఏవాటికి ప్రాధాన్యం ఇవ్వాలో మోడల్ నిర్ణయించాలి. అది నమ్మదగని సూచనను అధికారికమైనదిగా పరిగణిస్తే, మోడల్ విధానాలు లేదా డెవలపర్ మరియు యూజర్ ఉద్దేశ్యాన్ని ఉల్లంఘించే విధాలుగా ప్రవర్తించవచ్చు.
సరైన విధంగా రూపొందించిన ఇన్స్ట్రక్షన్-హైరార్కీ టాస్క్లు, నమ్మక స్థాయి ప్రకారం సూచనలకు ప్రాధాన్యత ఇవ్వడానికి మోడల్స్కు శిక్షణ ఇస్తాయి, మరియు ఇవి వాస్తవ ప్రపంచంలోని అనేక భద్రతా లక్షణాలను మెరుగుపరుస్తాయని మేము చూపిస్తున్నాము. ఈ టాస్క్లపై ట్రైన్ చేసిన మోడల్లు సిస్టమ్ ప్రాంప్ట్లలోని సేఫ్టీ స్పెసిఫికేషన్లకు మరింత స్పందనాత్మకంగా మారుతాయి (సేఫ్టీ స్టీరబిలిటీని మెరుగుపరుస్తూ) మరియు టూల్ అవుట్పుట్లలో ఎంబెడ్ చేసిన ప్రాంప్ట్ ఇంజెక్షన్ దాడుల పట్ల మరింత రాబస్టుగా ఉంటాయి.
విభేదాలను నిర్వహించడానికి, OpenAI యొక్క మోడల్లు స్పష్టమైన ఇన్స్ట్రక్షన్ హైరార్కీని అనుసరించేలా శిక్షణ పొందాయి.
సిస్టమ్ > డెవలపర్ > యూజర్ > సాధనం
అధిక-ప్రాధాన్యత సూచనలు మరింత నమ్మదగినవిగా పరిగణించబడతాయి. మోడల్ హయ్యర్‑ప్రాధాన్యత పరిమితులకు విరుద్ధంగా లేనప్పుడు మాత్రమే లోయర్‑ప్రాధాన్యత సూచనలను అనుసరించాలి. ఈ సూత్రాలు OpenAI మోడల్ స్పెక్(కొత్త విండోలో తెరుచుకుంటుంది)లో వివరించబడ్డాయి.
ఉదాహరణకు, ఒక సిస్టమ్ సందేశంలో భద్రతా పాలసీ ఉంటే మరియు ఒక యూజర్ దాన్ని ఉల్లంఘించమని మోడల్ను అడిగితే, మోడల్ తిరస్కరించాలి. ఒక టూల్ అవుట్పుట్లో దుష్ట సూచనలు ఉంటే, మోడల్ వాటిని కమాండ్లుగా పరిగణించకుండా నిర్లక్ష్యం చేయాలి.
ఇది సరిగ్గా చేయడం సేఫ్టీ, సెక్యూరిటీ, మరియు నమ్మకమైన పనితీరుకు ప్రాథమికం.
కుడి వైపున ఉన్న మోడల్, రెండు సూచనలు విరుద్ధంగా ఉన్నప్పుడు, వినియోగదారి సూచన కంటే అధిక ప్రాధాన్యత కలిగిన డెవలపర్ సూచనను సరిగ్గా అనుసరిస్తుంది.
ఇన్స్ట్రక్షన్ హైరార్కీని బోధించడానికి రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ సహజమైన ఎంపిక. మేము విరుద్ధమైన సూచనలతో సంభాషణలను రూపొందించగలం, మోడల్ను స్పందించమని ప్రాంప్ట్ చేయగలం, మరియు అది సరైన సూచనను అనుసరించినప్పుడు దానికి బహుమతి ఇవ్వగలం.
మేము ఆ రెసిపీని అమాయకంగా వర్తింపజేసినప్పుడు తలెత్తే మూడు లోపాలను గుర్తించాము:
- సూచనలను అనుసరించడంలో విఫలమవడం, సూచనల హైరార్కీ విఫలమవడంగా కూడా కనిపించవచ్చు: మోడల్ ఒక సూచన ఘర్షణను పరిష్కరించడంలో విఫలమవచ్చు, అది పాత్రల హైరార్కీని అర్థం చేసుకోకపోవడం వల్ల కాదు, కానీ సూచనలే చాలా క్లిష్టంగా ఉండడం వల్ల.
- ఇన్స్ట్రక్షన్ల మధ్య విరుద్ధతలు సూక్ష్మమైనవి, ఇంకా వ్యక్తిగత అభిప్రాయంపై ఆధారపడేవి కూడా కావచ్చు. ఒక సాధారణ విధానం ఏమిటంటే, శిక్షణ పొందుతున్న LLMకు బహుమతులను కేటాయించడానికి ఒక వేరే LLM న్యాయనిర్ణేతను ఉపయోగించడం, కానీ న్యాయనిర్ణేతలే తప్పులు చేయగలవారు.
- మోడల్లు అధిక రివార్డ్కు దారితీసే, కానీ ప్రాక్టీస్లో పనికిరాని షార్ట్కట్స్ను(కొత్త విండోలో తెరుచుకుంటుంది) నేర్చుకునే అవకాశం ఉంటుంది. క్లాసిక్ ఉదాహరణ అతిగా తిరస్కరించడం: మోడల్లు హానికరంకాని అభ్యర్థనలను కూడా తిరస్కరించడం ద్వారా భద్రతను గరిష్టం చేయడం నేర్చుకోవచ్చు.
మేము IH-Challenge అనే రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ శిక్షణ డేటాసెట్ను ఆ లోపాలను పరిష్కరించడానికి రూపొందించాము. మేము క్రింది సూత్రాలను అనుసరిస్తాము:
- టాస్క్లు సూచనలను అనుసరించడం సరళమైనవి.
- వాటిని ఒక సింపుల్ Python స్క్రిప్ట్తో ఆబ్జెక్టివ్గా గ్రేడ్ చేయవచ్చు
- అన్ని టాస్క్లలో అధిక రివార్డ్ను హామీ ఇచ్చే సులభమైన షార్ట్కట్లు లేవు.
IH-Challenge లో ప్రతి టాస్క్ అనేది కింది సందేశాలతో కూడిన సంభాషణ:
- అధిక-ప్రివిలేజ్ పాత్ర నుండి వచ్చిన ఒక సూచన సందేశం, e.g. “‘Yes’ లేదా ‘No’ మాత్రమే సమాధానం ఇవ్వండి”.
- తక్కువ-ప్రివిలేజ్ పాత్ర నుండి వచ్చిన సూచన సందేశం, ఇది మోడల్ను ఉన్నత-ప్రివిలేజ్ సందేశంలోని సూచనలను ఉల్లంఘించేలా చేయడానికి ప్రయత్నిస్తుంది.
శిక్షణ పొందుతున్న మోడల్ తదుపరి సందేశాన్ని రూపొందిస్తుంది. మేము టాస్క్స్/ఎన్విరాన్మెంట్స్ను ఇలా రాస్తాము, తద్వారా మోడల్ యొక్క ప్రతిస్పందన ఉన్నత-స్థాయి పరిమితిని తీరుస్తుందో లేదో ప్రోగ్రామాటిక్గా తనిఖీ చేయడం సాధ్యమవుతుంది.
మేము IH‑Challenge పై ఒక మోడల్కు శిక్షణ ఇచ్చి, మేము GPT‑5 Mini-R అని పిలిచే ఒక అంతర్గత మోడల్ను రూపొందిస్తాము. ఇందులో కింది మెరుగుదలలు ఉన్నాయి.
- సూచనా శ్రేణి ప్రమాణాలపై మెరుగైన పనితీరు చూపిస్తుంది
- మెరుగైన పనితీరు held-out మరియు adversarial ఇన్స్ట్రక్షన్ హైరార్కీ టెస్టులకు కూడా సాధారణీకరించబడుతుంది.
- అతిగా తిరస్కరించడం లోకి కూలిపోకుండా, మొత్తం ఉపయోగకరతను నిలుపుతుంది.
సేఫ్టీ కోసం ఈ అప్రోచ్ను ప్రత్యేకంగా ఆకర్షణీయంగా చేసే విషయం ఇదే: IH-challenge టాస్క్స్పై ఇన్స్ట్రక్షన్ కాంక్లిక్ట్లను సరిగ్గా పరిష్కరించేలా మోడల్స్ను నేరుగా ట్రైన్ చేయడం ద్వారా, కొత్త అటాక్స్కీ కొత్త పరిస్థితులకీ జనరలైజ్ అయ్యే IH ఇంప్రూవ్మెంట్స్ను మేము పొందుతాం.
అకాడెమిక్ బెంచ్మార్క్లపై స్థిరత్వం
ఇవాల్ | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf పాస్వర్డ్ (sys-user) | 0.99 | 0.99 (+0) |
Gandalf పాస్వర్డ్ (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (సిస్టమ్-యూజర్) | 0.86 | 0.94 (+0.08) |
TensorTrust (డెవ్-యూజర్) | 0.76 | 0.91 (+0.15) |
RealGuardrails (దృష్టి మరల్చేవి) | 0.88 | 0.95 (+0.07) |
RealGuardrails (హ్యాండ్రిటెన్) | 0.82 | 0.89 (+0.07) |
సిస్టమ్ IFEval | 0.92 | 0.96 (+0.04) |
ఇంటర్నల్ బెంచ్మార్క్లపై రోబస్ట్నెస్
ఇవాల్ | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (సిస్టమ్-యూజర్) | 0.96 | 0.99 (+0.03) |
Tutor జైల్బ్రేక్ (dev-user) | 0.97 | 0.99 (+0.02) |
సిస్టమ్ <> వినియోగదారుని ఘర్షణ | 0.84 | 0.95 (+0.11) |
సిస్టమ్ <> డెవలపర్ ఘర్షణ | 0.86 | 0.86 (+0) |
డెవలపర్ మరియు యూజర్ మధ్య ఘర్షణ | 0.83 | 0.95 (+0.12) |
సామర్థ్య తగ్గింపులు లేవు
ఇవాల్ | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (అతిగా తిరస్కరణ) | 0.79 | 1.00 (+0.21) |
TensorTrust (అధిక తిరస్కరణ) | 0.91 | 0.90 (-0.01) |
"GPQA డైమండ్" | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
చాట్ విజయ రేటు vs. o1 | 0.71 | 0.66 (-0.05) |
ప్రాధాన్యత స్కోరు | 0.46 | 0.40 (-0.06) |
బలమైన ఇన్స్ట్రక్షన్ హైరార్కీ ఒకేసారి అనేక సేఫ్టీ ప్రయోజనాలను అందిస్తుంది, అందులో సేఫ్టీ స్టీరబిలిటీ మరియు ప్రాంప్ట్ ఇంజెక్షన్ స్థిరత్వం కూడా ఉన్నాయి.
సిస్టమ్ ప్రాంప్ట్కు కేటగిరీ-నిర్దిష్ట భద్రతా స్పెసిఫికేషన్లను జోడించి, OpenAI యొక్క సేఫ్టీ Production Benchmarks (ప్రొడక్షన్లో ఉన్న ChatGPTను ప్రతినిధ్యం వహించే భద్రతా-సున్నిత సంభాషణల సమూహం) పై ప్రవర్తనను కొలిచి మేము భద్రతా స్టీరబిలిటీని మూల్యాంకనం చేస్తాము.
IH-trained మోడల్ స్థిరమైన మెరుగుదలని చూపిస్తుంది: సేఫ్టీ స్పెక్ ఉన్నప్పుడు, అది అనుమతించని కేటగిరీల అంతటా అధిక తిరస్కరణ మరియు సురక్షిత పూర్తి రేట్లను సాధిస్తుంది, అంటే బలమైన ఇన్స్ట్రక్షన్ హైరార్కీ ప్రవర్తన వల్ల తక్కువ-ప్రాధాన్యత సూచనల నుంచి అసురక్షిత అభ్యర్థనలు వచ్చినప్పుడు విభేదాలను పరిష్కరించడంలో అది మరింత మెరుగ్గా ఉంటుంది. గమనించదగ్గ విషయం ఏమిటంటే, ఈ మెరుగుదలతో పాటు సహాయకత రేటులో అనుసంధానమైన తగ్గుదల రావడం లేదు (i.e., మొత్తం మీద మరింతగా నిరాకరించడం ద్వారా ఇది కేవలం తక్కువ “helpful”గా మారడం లేదు).


GPT‑5 Mini (Baseline) మోడల్ IH-trained ప్రాంప్ట్ ఇంజెక్షన్లను ఎలా ప్రతిఘటిస్తుందో చూపించే ఉదాహరణ.
టూల్ అవుట్పుట్లలో హానికరమైన సూచనలు చొప్పించబడినప్పుడు, ప్రాంప్ట్ ఇంజెక్షన్ను నిరోధించడంలో సూచనల హైరార్కీ కూడా కీలకంగా ఉంటుంది. మేము IH-ట్రెయిన్ చేసిన మోడల్ను రెండు ప్రాంప్ట్ ఇంజెక్షన్ బెంచ్మార్క్లపై అంచనా వేస్తాము—ఒక అకాడెమిక్ బెంచ్మార్క్ CyberSecEval 2 మరియు OpenAI అంతర్గత ప్రాంప్ట్ ఇంజెక్షన్ బెంచ్మార్క్, ఇందులో పాత వెర్షన్లో ప్రదర్శించిన దాడులు ఉంటాయి ChatGPT Atlas.
బేస్లైన్తో పోలిస్తే, IH-trained GPT‑5 Mini-R మోడల్ రెండు బెంచ్మార్క్లపై ప్రాంప్ట్ ఇంజెక్షన్ స్థిరత్వంను మెరుగుపరుస్తుంది మరియు ఈ ప్రయోగాల్లో మా అంతర్గత స్టాటిక్ ప్రాంప్ట్ ఇంజెక్షన్ మూల్యాంకనంలో పనితీరును గణనీయంగా మెరుగుపరుస్తుంది.
మోడల్స్ మరింత ఏజెంటిక్గా మారుతున్న కొద్దీ—టూల్స్ను కాల్ చేయడం, నమ్మదగని డాక్యుమెంట్లను చదవడం, మరియు ప్రపంచంలో చర్యలు తీసుకోవడం—నమ్మదగని సూచనల కంటే నమ్మదగిన సూచనలకు స్థిరంగా ప్రాధాన్యత ఇవ్వగల సామర్థ్యం ఒక ప్రధాన సేఫ్టీ లక్షణంగా మారుతుంది.
ఈ పని చూపిస్తోంది कि IH స్థిరత్వం శిక్షణలోని అనేక సాధారణ తప్పిదాలను, ఆ తప్పిదాలను పరిష్కరించేలా శిక్షణ వాతావరణాలను రూపకల్పన చేయడం ద్వారా అధిగమించవచ్చు. మా IH-Challenge డేటాసెట్ సింపుల్గా కనిపించినప్పటికీ, ఈ ఎన్విరాన్మెంట్స్ నుంచి నేర్చుకునే IH బిహేవియర్ మోడల్స్ మరింత రియలిస్టిక్గా ఉండే, తరచుగా ఆబ్జెక్టివ్గా గ్రేడ్ చేయలేని బెంచ్మార్క్స్కు జనరలైజ్ అవుతాయి.
ఇన్స్ట్రక్షన్ హైరార్కీని బలోపేతం చేయడం నమ్మకదగినతను మెరుగుపరచడమే కాకుండా, ఒకేసారి అనేక భద్రతా మరియు సెక్యూరిటీ ప్రయోజనాలను కూడా అందిస్తుంది—AI సిస్టమ్లు మరింత సామర్థ్యవంతంగా మరియు స్వయంప్రతిపత్తిగా మారుతున్న కొద్దీ మరింత ముఖ్యమయ్యే ఒక పునాది.
ఈ ప్రాంతంలో మరింత పరిశోధనకు మద్దతు ఇవ్వడానికి, మేము IH‑Challenge డేటాసెట్ను ఇక్కడ(కొత్త విండోలో తెరుచుకుంటుంది) విడుదల చేస్తున్నాము.


