ਅਤਿ-ਆਧੁਨਿਕ LLM ਵਿੱਚ instruction hierarchy ਨੂੰ ਸੁਧਾਰਨਾ
IH-Challenge ਪੇਸ਼ ਕਰਦੇ ਹੋਏ, ਇੱਕ training dataset ਜੋ instruction hierarchy, safety steerability ਅਤੇ prompt injection robustness ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ.
AI ਸਿਸਟਮਾਂ ਨੂੰ ਅਕਸਰ ਕਈ ਸਰੋਤਾਂ ਤੋਂ ਹਦਾਇਤਾਂ ਮਿਲਦੀਆਂ ਹਨ. ਇਨ੍ਹਾਂ ਵਿੱਚ system messages ਤੋਂ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ, developers ਤੋਂ product guidance, users ਤੋਂ ਬੇਨਤੀਆਂ ਅਤੇ online ਮਿਲਣ ਵਾਲੀ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀ ਹੈ. ਇਨ੍ਹਾਂ ਸਰੋਤਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਭਰੋਸੇਯੋਗ ਹਦਾਇਤਾਂ ਨੂੰ ਭਰੋਸੇਮੰਦ ਢੰਗ ਨਾਲ ਤਰਜੀਹ ਦੇਣ ਲਈ ਮਾਡਲਾਂ ਨੂੰ train ਕਰਨਾ ਸੁਰੱਖਿਅਤ deployment ਦਾ ਇੱਕ ਮੁੱਖ ਹਿੱਸਾ ਹੈ.
ਜਦੋਂ ਇਹ ਤਰਜੀਹ-ਨਿਰਧਾਰਣ ਟੁੱਟ ਜਾਂਦਾ ਹੈ, ਤਾਂ AI ਸੁਰੱਖਿਆ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਜੁੜੀਆਂ ਬਹੁਤ ਸਾਰੀਆਂ ਸਮੱਸਿਆਵਾਂ ਪੈਦਾ ਹੋ ਸਕਦੀਆਂ ਹਨ. ਮਾਡਲਾਂ ਨੂੰ ਮਨਾਹੀਸ਼ੁਦਾ ਸਮੱਗਰੀ ਲਈ ਬੇਨਤੀਆਂ, ਨਿੱਜੀ ਜਾਣਕਾਰੀ ਖੋਲ੍ਹਣ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਜਾਂ online data ਵਿੱਚ ਸਮਾਈਆਂ prompt‑injection ਹਮਲੇ ਮਿਲ ਸਕਦੇ ਹਨ. ਇਨ੍ਹਾਂ ਹਰ ਇਕ ਸਥਿਤੀ ਵਿੱਚ ਢੰਗ ਨਾਲ ਵਰਤਾਅ ਨਾ ਕਰਨ ਦੀ ਜੜ੍ਹ ਇੱਕੋ ਹੈ: ਮਾਡਲ ਗਲਤ ਹਦਾਇਤ ਦੀ ਪਾਲਣਾ ਕਰ ਸਕਦਾ ਹੈ.
ਜਦੋਂ ਇਹ ਹਦਾਇਤਾਂ ਆਪਸ ਵਿੱਚ ਟਕਰਾਉਂਦੀਆਂ ਹਨ, ਮਾਡਲ ਨੂੰ ਫੈਸਲਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ ਕਿ ਕਿਹੜੀਆਂ ਨੂੰ ਤਰਜੀਹ ਦੇਣੀ ਹੈ. ਜੇਕਰ ਉਹ ਕਿਸੇ ਗੈਰ-ਭਰੋਸੇਯੋਗ ਹਦਾਇਤ ਨੂੰ ਅਧਿਕਾਰਤ ਮੰਨ ਲੈਂਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ ਐਸੇ ਤਰੀਕਿਆਂ ਨਾਲ ਵਰਤਾਅ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਨੀਤੀਆਂ ਜਾਂ developer ਅਤੇ user ਦੀ ਮਨਸ਼ਾ ਦਾ ਉਲੰਘਨ ਕਰਦੇ ਹਨ.
ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਢੰਗ ਨਾਲ ਬਣਾਏ ਗਏ instruction-hierarchy ਕੰਮ, ਜੋ ਮਾਡਲਾਂ ਨੂੰ ਹਦਾਇਤਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ trust level ਅਨੁਸਾਰ ਤਰਜੀਹ ਦੇਣ ਲਈ train ਕਰਦੇ ਹਨ, ਕਈ ਹਕੀਕਤੀ ਸੁਰੱਖਿਆ ਗੁਣਾਂ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ. ਇਨ੍ਹਾਂ ਕੰਮਾਂ ਉੱਤੇ train ਕੀਤੇ ਮਾਡਲ system prompts ਵਿੱਚ safety specifications ਲਈ ਹੋਰ ਸੰਵੇਦਨਸ਼ੀਲ ਬਣ ਜਾਂਦੇ ਹਨ (safety steerability ਨੂੰ ਸੁਧਾਰਦੇ ਹੋਏ) ਅਤੇ tool outputs ਵਿੱਚ ਸਮਾਈਆਂ prompt-injection ਹਮਲਿਆਂ ਵਿਰੁੱਧ ਹੋਰ ਮਜ਼ਬੂਤ ਹੋ ਜਾਂਦੇ ਹਨ.
ਟਕਰਾਵਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ, OpenAI ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਸਪਸ਼ਟ instruction hierarchy ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ train ਕੀਤਾ ਜਾਂਦਾ ਹੈ:
System > developer > user > tool
ਉੱਚ-ਤਰਜੀਹ ਵਾਲੀਆਂ ਹਦਾਇਤਾਂ ਹੋਰ ਭਰੋਸੇਯੋਗ ਹੁੰਦੀਆਂ ਹਨ. ਮਾਡਲ ਨੂੰ ਘੱਟ-ਤਰਜੀਹ ਵਾਲੀਆਂ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਸਿਰਫ਼ ਤਦੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ ਜਦੋਂ ਉਹ ਉੱਚ-ਤਰਜੀਹ ਵਾਲੀਆਂ ਪਾਬੰਦੀਆਂ ਨਾਲ ਟਕਰਾਉਂਦੀਆਂ ਨਾ ਹੋਣ. ਇਹ ਅਸੂਲ OpenAI Model Spec(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਦਰਸਾਏ ਗਏ ਹਨ.
ਉਦਾਹਰਨ ਵਜੋਂ, ਜੇਕਰ ਕਿਸੇ system message ਵਿੱਚ safety policy ਸ਼ਾਮਲ ਹੈ ਅਤੇ user ਮਾਡਲ ਨੂੰ ਉਸ ਦਾ ਉਲੰਘਨ ਕਰਨ ਲਈ ਕਹਿੰਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ ਨੂੰ ਇਨਕਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ. ਜੇਕਰ ਕਿਸੇ tool output ਵਿੱਚ ਖ਼ਤਰਨਾਕ ਹਦਾਇਤਾਂ ਹਨ, ਤਾਂ ਮਾਡਲ ਨੂੰ ਉਨ੍ਹਾਂ ਨੂੰ commands ਵਜੋਂ ਮੰਨਣ ਦੀ ਬਜਾਇ ਅਣਡਿੱਠਾ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ.
ਇਸਨੂੰ ਸਹੀ ਕਰਨਾ ਸੁਰੱਖਿਆ, ਸਿਕਿਊਰਟੀ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਲਈ ਬੁਨਿਆਦੀ ਹੈ.
ਸੱਜੇ ਪਾਸੇ ਵਾਲਾ ਮਾਡਲ Developer ਦੀ ਹਦਾਇਤ ਨੂੰ, ਜੋ ਉੱਚ-ਤਰਜੀਹ ਵਾਲੀ ਹੈ, User ਦੀ ਹਦਾਇਤ ਤੋਂ ਉੱਪਰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਮੰਨਦਾ ਹੈ ਜਦੋਂ ਦੋਵੇਂ ਹਦਾਇਤਾਂ ਟਕਰਾਉਂਦੀਆਂ ਹਨ.
ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ instruction hierarchy ਸਿਖਾਉਣ ਲਈ ਇੱਕ ਕੁਦਰਤੀ ਚੋਣ ਹੈ. ਅਸੀਂ ਟਕਰਾਉਂਦੀਆਂ ਹਦਾਇਤਾਂ ਵਾਲੀਆਂ ਗੱਲਬਾਤਾਂ ਤਿਆਰ ਕਰ ਸਕਦੇ ਹਾਂ, ਮਾਡਲ ਨੂੰ ਜਵਾਬ ਦੇਣ ਲਈ ਪ੍ਰੌੰਪਟ ਕਰ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਜਦੋਂ ਉਹ ਸਹੀ ਹਦਾਇਤ ਦੀ ਪਾਲਣਾ ਕਰੇ ਤਾਂ ਉਸ ਨੂੰ ਇਨਾਮ ਦੇ ਸਕਦੇ ਹਾਂ.
ਅਸੀਂ ਇਸ recipe ਨੂੰ ਸਿੱਧੇ ਤੌਰ ਉੱਤੇ ਲਾਗੂ ਕਰਨ ਦੀਆਂ ਤਿੰਨ ਖਾਮੀਆਂ ਪਛਾਣੀਆਂ ਹਨ:
- Instruction-following ਅਸਫਲਤਾਵਾਂ instruction hierarchy ਅਸਫਲਤਾਵਾਂ ਵੀ ਹੋ ਸਕਦੀਆਂ ਹਨ: ਮਾਡਲ ਕਿਸੇ instruction conflict ਨੂੰ ਇਸ ਲਈ ਹੱਲ ਨਾ ਕਰ ਸਕੇ ਕਿ ਉਹ roles ਦੀ hierarchy ਨਹੀਂ ਸਮਝਦਾ, ਇਹ ਲਾਜ਼ਮੀ ਨਹੀਂ; ਹੋ ਸਕਦਾ ਹੈ ਹਦਾਇਤਾਂ ਆਪ ਹੀ ਬਹੁਤ ਜਟਿਲ ਹੋਣ.
- Instruction conflicts ਸੁਖਣੇ ਅਤੇ ਕਈ ਵਾਰ ਵਿਅਕਤੀਗਤ ਹੋ ਸਕਦੇ ਹਨ. ਇੱਕ ਆਮ ਤਰੀਕਾ ਇਹ ਹੈ ਕਿ ਇੱਕ ਵੱਖਰਾ LLM train ਕੀਤੇ ਜਾ ਰਹੇ LLM ਲਈ rewards ਨਿਰਧਾਰਤ ਕਰੇ, ਪਰ judges ਆਪ ਵੀ ਗਲਤੀ ਕਰ ਸਕਦੇ ਹਨ.
- ਮਾਡਲ ਅਕਸਰ ਅਜੇਹੇ shortcuts ਸਿੱਖ ਲੈਂਦੇ ਹਨ ਜੋ ਉੱਚ reward ਦਿੰਦੇ ਹਨ, ਪਰ ਅਮਲ ਵਿੱਚ ਬੇਕਾਰ ਹੁੰਦੇ ਹਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ). ਇਸ ਦੀ ਕਲਾਸਿਕ ਉਦਾਹਰਨ overrefusals ਹੈ: ਮਾਡਲ safety ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ ਨਿਰਦੋਸ਼ ਬੇਨਤੀਆਂ ਨੂੰ ਵੀ ਠੁਕਰਾਉਣਾ ਸਿੱਖ ਸਕਦੇ ਹਨ.
ਅਸੀਂ IH-Challenge, ਇੱਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ training dataset, ਇਸ ਤਰ੍ਹਾਂ ਤਿਆਰ ਕਰਦੇ ਹਾਂ ਕਿ ਉਪਰੋਕਤ ਹਰ ਖਾਮੀ ਦਾ ਹੱਲ ਹੋ ਸਕੇ. ਅਸੀਂ ਹੇਠਾਂ ਦਿੱਤੇ ਅਸੂਲਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਹਾਂ:
- ਕੰਮ instruction-following ਦੇ ਹਿਸਾਬ ਨਾਲ ਸਧਾਰਣ ਹਨ
- ਇਨ੍ਹਾਂ ਦੀ objectivity ਨਾਲ grading ਇੱਕ ਸਧਾਰਣ Python script ਨਾਲ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ
- ਕੋਈ ਵੀ ਅਜੇਹੇ ਆਸਾਨ shortcuts ਨਹੀਂ ਹਨ ਜੋ ਸਾਰੇ ਕੰਮਾਂ ਵਿੱਚ ਉੱਚ reward ਦੀ ਗਾਰੰਟੀ ਦੇਣ
IH-Challenge ਵਿੱਚ ਹਰ ਕੰਮ ਅਸਲ ਵਿੱਚ ਹੇਠ ਲਿਖੇ messages ਵਾਲੀ ਇੱਕ ਗੱਲਬਾਤ ਹੈ:
- ਇੱਕ ਉੱਚ-ਅਧਿਕਾਰ ਵਾਲੀ ਭੂਮਿਕਾ ਤੋਂ ਹਦਾਇਤ ਵਾਲਾ message, ਜਿਵੇਂ ਕਿ “ਸਿਰਫ਼ ‘Yes’ ਜਾਂ ‘No’ ਵਿੱਚ ਜਵਾਬ ਦਿਓ”.
- ਇੱਕ ਘੱਟ-ਅਧਿਕਾਰ ਵਾਲੀ ਭੂਮਿਕਾ ਤੋਂ ਹਦਾਇਤ ਵਾਲਾ message, ਜੋ ਮਾਡਲ ਤੋਂ ਉੱਚ-ਅਧਿਕਾਰ ਵਾਲੇ message ਦੀਆਂ ਹਦਾਇਤਾਂ ਦਾ ਉਲੰਘਨ ਕਰਵਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ.
Train ਕੀਤਾ ਜਾ ਰਿਹਾ ਮਾਡਲ ਅਗਲਾ message ਬਣਾਉਂਦਾ ਹੈ. ਅਸੀਂ ਕੰਮ/ਵਾਤਾਵਰਣ ਇਸ ਤਰ੍ਹਾਂ ਲਿਖਦੇ ਹਾਂ ਕਿ ਪ੍ਰੋਗਰਾਮਿੰਗ ਰਾਹੀਂ ਜਾਂਚਿਆ ਜਾ ਸਕੇ ਕਿ ਮਾਡਲ ਦਾ ਜਵਾਬ ਉੱਚ-ਪੱਧਰੀ ਪਾਬੰਦੀ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ ਜਾਂ ਨਹੀਂ.
ਅਸੀਂ ਇੱਕ ਮਾਡਲ ਨੂੰ IH‑Challenge ਉੱਤੇ train ਕਰਦੇ ਹਾਂ ਅਤੇ ਇੱਕ ਅੰਦਰੂਨੀ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹਾਂ, ਜਿਸਨੂੰ ਅਸੀਂ GPT‑5 Mini-R ਕਹਿੰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਹੇਠ ਲਿਖੇ ਸੁਧਾਰ ਹਨ:
- Instruction‑hierarchy ਬੈਂਚਮਾਰਕਾਂ ਉੱਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ
- ਸੁਧਾਰਿਆ ਹੋਇਆ ਪ੍ਰਦਰਸ਼ਨ held‑out ਅਤੇ adversarial instruction hierarchy ਟੈਸਟਾਂ ਉੱਤੇ ਵੀ generalize ਕਰਦਾ ਹੈ
- ਅਤਿ‑ਇਨਕਾਰ ਵਿੱਚ ਡਿੱਗਣ ਤੋਂ ਬਿਨਾਂ, ਕੁੱਲ ਉਪਯੋਗਤਾ ਕਾਇਮ ਰੱਖਦਾ ਹੈ
ਇਹੀ ਗੱਲ ਇਸ ਪਹੁੰਚ ਨੂੰ safety ਲਈ ਖ਼ਾਸ ਤੌਰ ਉੱਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਬਣਾਉਂਦੀ ਹੈ: IH-challenge ਕੰਮਾਂ ਉੱਤੇ instruction conflicts ਨੂੰ ਸਹੀ ਤਰੀਕੇ ਨਾਲ ਹੱਲ ਕਰਨ ਲਈ ਮਾਡਲਾਂ ਨੂੰ ਸਿੱਧਾ train ਕਰਕੇ, ਸਾਨੂੰ ਅਜੇਹੇ IH ਸੁਧਾਰ ਮਿਲਦੇ ਹਨ ਜੋ ਨਵੇਂ ਹਮਲਿਆਂ ਅਤੇ ਨਵੀਆਂ ਸਥਿਤੀਆਂ ਉੱਤੇ ਵੀ generalize ਕਰਦੇ ਹਨ.
ਅਕਾਦਮਿਕ ਬੈਂਚਮਾਰਕਾਂ ਉੱਤੇ ਮਜ਼ਬੂਤੀ
ਮੁਲਾਂਕਣ | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0.98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
ਅੰਦਰੂਨੀ ਬੈਂਚਮਾਰਕਾਂ ਉੱਤੇ ਮਜ਼ਬੂਤੀ
ਮੁਲਾਂਕਣ | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
System <> User ਟਕਰਾਅ | 0.84 | 0.95 (+0.11) |
System <> Developer ਟਕਰਾਅ | 0.86 | 0.86 (+0) |
Developer <> User ਟਕਰਾਅ | 0.83 | 0.95 (+0.12) |
ਸਮਰੱਥਾ ਵਿੱਚ ਕੋਈ ਘਟਾਅ ਨਹੀਂ
ਮੁਲਾਂਕਣ | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (ਅਤਿ-ਇਨਕਾਰ) | 0.79 | 1.00 (+0.21) |
TensorTrust (ਅਤਿ-ਇਨਕਾਰ) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
o1 ਦੇ ਮੁਕਾਬਲੇ Chat WinRate | 0.71 | 0.66 (-0.05) |
ਪਸੰਦ ਸਕੋਰ | 0.46 | 0.40 (-0.06) |
ਹੋਰ ਮਜ਼ਬੂਤ instruction hierarchy ਇਕੱਠੇ ਕਈ ਸੁਰੱਖਿਆ ਫਾਇਦੇ ਦਿੰਦੀ ਹੈ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ safety steerability ਅਤੇ prompt injection robustness ਸ਼ਾਮਲ ਹਨ.
ਅਸੀਂ safety steerability ਦਾ ਮੁਲਾਂਕਣ ਇਸ ਤਰ੍ਹਾਂ ਕਰਦੇ ਹਾਂ ਕਿ system prompt ਵਿੱਚ category-specific safety specifications ਸ਼ਾਮਲ ਕਰਦੇ ਹਾਂ ਅਤੇ OpenAI ਦੇ safety Production Benchmarks ਉੱਤੇ ਵਰਤਾਅ ਮਾਪਦੇ ਹਾਂ, ਜੋ safety-sensitive ਗੱਲਬਾਤਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਹੈ ਅਤੇ ਉਤਪਾਦਨ ਵਿੱਚ ChatGPT ਦਾ ਪ੍ਰਤੀਨਿਧਿਤਵ ਕਰਦਾ ਹੈ.
IH-trained ਮਾਡਲ ਇੱਕ ਸਥਿਰ ਸੁਧਾਰ ਦਿਖਾਉਂਦਾ ਹੈ: safety spec ਮੌਜੂਦ ਹੋਣ ਉੱਤੇ, ਇਹ ਮਨਾਹੀਸ਼ੁਦਾ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਉੱਚੇ refusal ਅਤੇ safe completion rates ਹਾਸਲ ਕਰਦਾ ਹੈ, ਜੋ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਹੋਰ ਮਜ਼ਬੂਤ instruction hierarchy ਵਰਤਾਅ ਇਸਨੂੰ ਉਹਨਾਂ ਟਕਰਾਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ ਜਦੋਂ unsafe requests ਘੱਟ-ਤਰਜੀਹ ਵਾਲੀਆਂ ਹਦਾਇਤਾਂ ਤੋਂ ਆਉਂਦੀਆਂ ਹਨ. ਖ਼ਾਸ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਸੁਧਾਰ helpfulness rate ਵਿੱਚ ਸਮਾਂਤਰ ਘਟਾਅ ਨਾਲ ਨਹੀਂ ਆਉਂਦਾ, ਅਰਥਾਤ ਇਹ ਕੁੱਲ ਮਿਲਾ ਕੇ ਵੱਧ ਇਨਕਾਰ ਕਰਕੇ ਸਿਰਫ਼ ਘੱਟ “helpful” ਨਹੀਂ ਬਣ ਰਿਹਾ.


ਇਹ ਉਦਾਹਰਨ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ IH-trained ਮਾਡਲ ਉਹਨਾਂ prompt injections ਦਾ ਵਿਰੋਧ ਕਿਵੇਂ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ GPT‑5 Mini (Baseline) ਫਸ ਜਾਂਦਾ ਹੈ.
ਜਦੋਂ ਖ਼ਤਰਨਾਕ ਹਦਾਇਤਾਂ tool outputs ਵਿੱਚ ਸਮਾਈਆਂ ਹੋਣ, prompt injection ਦਾ ਵਿਰੋਧ ਕਰਨ ਵਿੱਚ instruction hierarchy ਵੀ ਕੇਂਦਰੀ ਹੈ. ਅਸੀਂ IH-trained ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਦੋ prompt injection benchmarks ਉੱਤੇ ਕਰਦੇ ਹਾਂ—ਇੱਕ ਅਕਾਦਮਿਕ benchmark CyberSecEval 2 ਅਤੇ ਇੱਕ OpenAI ਅੰਦਰੂਨੀ prompt injection benchmark, ਜਿਸ ਵਿੱਚ ChatGPT Atlas ਦੇ ਪੁਰਾਣੇ ਵਰਜਨ ਉੱਤੇ ਦਿਖਾਏ ਗਏ ਹਮਲੇ ਵਰਗੇ ਹਮਲੇ ਸ਼ਾਮਲ ਹਨ.
ਬੇਸਲਾਈਨ ਦੇ ਮੁਕਾਬਲੇ, IH-trained GPT‑5 Mini-R ਮਾਡਲ ਦੋਵਾਂ benchmarks ਉੱਤੇ prompt injection robustness ਨੂੰ ਸੁਧਾਰਦਾ ਹੈ ਅਤੇ ਇਨ੍ਹਾਂ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਸਾਡੇ ਅੰਦਰੂਨੀ static prompt injection evaluation ਉੱਤੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ਉੱਤੇ ਬਿਹਤਰ ਬਣਾਉਂਦਾ ਹੈ.
ਜਿਵੇਂ ਜਿਵੇਂ ਮਾਡਲ ਹੋਰ agentic ਬਣਦੇ ਜਾ ਰਹੇ ਹਨ—tools ਨੂੰ call ਕਰਨਾ, ਗੈਰ-ਭਰੋਸੇਯੋਗ ਦਸਤਾਵੇਜ਼ ਪੜ੍ਹਨਾ ਅਤੇ ਦੁਨੀਆ ਵਿੱਚ ਕਾਰਵਾਈਆਂ ਕਰਨਾ—ਭਰੋਸੇਯੋਗ ਹਦਾਇਤਾਂ ਨੂੰ ਗੈਰ-ਭਰੋਸੇਯੋਗ ਹਦਾਇਤਾਂ ਤੋਂ ਉੱਪਰ ਲਗਾਤਾਰ ਤਰਜੀਹ ਦੇਣ ਦੀ ਸਮਰੱਥਾ ਇੱਕ ਮੁੱਖ ਸੁਰੱਖਿਆ ਗੁਣ ਬਣ ਜਾਂਦੀ ਹੈ.
ਇਹ ਕੰਮ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ IH robustness training ਦੀਆਂ ਕਈ ਖਾਮੀਆਂ ਨੂੰ ਅਜੇਹੇ training environments ਤਿਆਰ ਕਰਕੇ ਦੂਰ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਉਨ੍ਹਾਂ ਖਾਮੀਆਂ ਦਾ ਹੱਲ ਕਰਦੇ ਹਨ. ਭਾਵੇਂ ਸਾਡਾ IH-Challenge dataset ਸਧਾਰਣ ਲੱਗਦਾ ਹੈ, ਪਰ ਇਨ੍ਹਾਂ environments ਤੋਂ ਮਾਡਲ ਜੋ IH ਵਰਤਾਅ ਸਿੱਖਦੇ ਹਨ, ਉਹ ਹੋਰ ਯਥਾਰਥਵਾਦੀ ਅਤੇ ਅਕਸਰ objectivity ਨਾਲ grade ਨਾ ਕੀਤੇ ਜਾ ਸਕਣ ਵਾਲੇ benchmarks ਤੱਕ generalize ਕਰਦੇ ਹਨ.
Instruction hierarchy ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ ਨਾ ਕੇਵਲ ਭਰੋਸੇਯੋਗਤਾ ਸੁਧਾਰਦਾ ਹੈ, ਸਗੋਂ ਇਕੱਠੇ ਕਈ safety ਅਤੇ security ਲਾਭ ਵੀ ਖੋਲ੍ਹਦਾ ਹੈ—ਇੱਕ ਅਜਿਹੀ ਨੀਂਹ ਜੋ AI ਸਿਸਟਮ ਹੋਰ ਸਮਰੱਥ ਅਤੇ autonomous ਹੋਣ ਨਾਲ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਬਣਦੀ ਜਾਂਦੀ ਹੈ.
ਇਸ ਖੇਤਰ ਵਿੱਚ ਹੋਰ ਖੋਜ ਦੇ ਸਮਰਥਨ ਲਈ, ਅਸੀਂ IH‑Challenge dataset ਨੂੰ ਇੱਥੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ.


