ਇਕਬਾਲੀਆ ਬਿਆਨ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੂੰ ਇਮਾਨਦਾਰ ਕਿਵੇਂ ਰੱਖ ਸਕਦੇ ਹਨ
ਅਸੀਂ ਇੱਕ ਸ਼ੁਰੂਆਤੀ, ਪ੍ਰੂਫ-ਆਫ-ਕਾਨਸੈਪਟ ਵਿਧੀ ਸਾਂਝੀ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਮਾਡਲਾਂ ਨੂੰ ਇਹ ਦੱਸਣ ਲਈ ਤਿਆਰ ਕਰਦੀ ਹੈ ਕਿ ਉਹ ਕਦੋਂ ਹਦਾਇਤਾਂ ਤੋੜਦੇ ਹਨ ਜਾਂ ਅਣਚਾਹੇ ਸ਼ਾਰਟਕੱਟ ਲੈਂਦੇ ਹਨ.
AI ਸਿਸਟਮ ਹੋਰ ਸਮਰੱਥ ਬਣ ਰਹੇ ਹਨ, ਅਤੇ ਅਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਸੰਭਵ ਤੌਰ ‘ਤੇ ਸਭ ਤੋਂ ਡੂੰਘਾਈ ਨਾਲ ਸਮਝਣਾ ਚਾਹੁੰਦੇ ਹਾਂ—ਇਸ ਵਿੱਚ ਇਹ ਵੀ ਸ਼ਾਮਲ ਹੈ ਕਿ ਉਹ ਜਵਾਬ ਤੱਕ ਕਿਵੇਂ ਅਤੇ ਕਿਉਂ ਪਹੁੰਚਦੇ ਹਨ। ਕਈ ਵਾਰ ਕੋਈ ਮਾਡਲ ਸ਼ਾਰਟਕੱਟ ਲੈਂਦਾ ਹੈ ਜਾਂ ਗਲਤ ਉਦੇਸ਼ ਲਈ ਅਨੁਕੂਲਿਤ ਕਰਦਾ ਹੈ, ਪਰ ਇਸਦਾ ਆਖਰੀ ਨਤੀਜਾ ਫਿਰ ਵੀ ਸਹੀ ਦਿਸਦਾ ਹੈ। ਜੇ ਅਸੀਂ ਪਤਾ ਲਗਾ ਸਕੀਏ ਕਿ ਇਹ ਕਦੋਂ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਅਸੀਂ ਤਾਇਨਾਤ ਸਿਸਟਮਾਂ ਦੀ ਵਧੀਆ ਨਿਗਰਾਨੀ ਕਰ ਸਕਦੇ ਹਾਂ, ਟ੍ਰੇਨਿੰਗ ਸੁਧਾਰ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਨਤੀਜਿਆਂ ਉੱਤੇ ਭਰੋਸਾ ਵਧਾ ਸਕਦੇ ਹਾਂ.
OpenAI ਅਤੇ ਹੋਰਾਂ ਦੀ ਖੋਜ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ AI ਮਾਡਲ ਹੈਲੂਸੀਨੇਟ ਕਰ ਸਕਦੇ ਹਨ, ਰਿਵਾਰਡ-ਹੈਕ ਕਰ ਸਕਦੇ ਹਨ, ਜਾਂ ਬੇਇਮਾਨ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਵੇਲੇ, ਸਾਨੂੰ ਸਭ ਤੋਂ ਚਿੰਤਾਜਨਕ ਗਲਤ ਵਰਤਾਰੇ, ਜਿਵੇਂ ਸਕੀਮਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਸਿਰਫ਼ ਸਟ੍ਰੈੱਸ-ਟੈਸਟਾਂ ਅਤੇ ਵਿਰੋਧਾਤਮਕ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਹੀ ਦਿਸਦੇ ਹਨ। ਪਰ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਅਤੇ ਵੱਧ ਤੋਂ ਵੱਧ ਏਜੰਟਿਕ ਬਣਦੇ ਜਾ ਰਹੇ ਹਨ, ਅਲਾਈਨਮੈਂਟ ਦੀਆਂ ਦੁਲੱਭ ਗੜਬੜਾਂ ਵੀ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਬਣ ਜਾਂਦੀਆਂ ਹਨ, ਜਿਸ ਕਰਕੇ ਅਸੀਂ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਵਿੱਚ ਨਿਵੇਸ਼ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਸਾਨੂੰ ਇਨ੍ਹਾਂ ਖਤਰਿਆਂ ਨੂੰ ਵਧੀਆ ਤਰੀਕੇ ਨਾਲ ਪਤਾ ਲਗਾਉਣ, ਸਮਝਣ ਅਤੇ ਘਟਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਨ।
ਇਹ ਕੰਮ ਐਸੇ ਹੀ ਇੱਕ ਤਰੀਕੇ ਦੀ ਪੜਚੋਲ ਕਰਦਾ ਹੈ: ਮਾਡਲਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਇਹ ਮੰਨਣ ਲਈ ਟ੍ਰੇਨ ਕਰਨਾ ਕਿ ਉਹ ਕਦੋਂ ਅਣਚਾਹਾ ਵਰਤਾਰਾ ਕਰਦੇ ਹਨ—ਇੱਕ ਤਕਨੀਕ ਜਿਸਨੂੰ ਅਸੀਂ ਇਕਬਾਲੀਆ ਬਿਆਨ ਕਹਿੰਦੇ ਹਾਂ।
ਇਕਬਾਲੀਆ ਬਿਆਨ ਇੱਕ ਦੂਜਾ ਨਤੀਜਾ ਹੁੰਦਾ ਹੈ, ਜੋ ਉਪਭੋਗਤਾ ਨੂੰ ਮਾਡਲ ਦੇ ਮੁੱਖ ਜਵਾਬ ਤੋਂ ਵੱਖਰਾ ਹੁੰਦਾ ਹੈ। ਮੁੱਖ ਜਵਾਬ ਨੂੰ ਕਈ ਪੱਖਾਂ ‘ਤੇ ਪਰਖਿਆ ਜਾਂਦਾ ਹੈ—ਸਹੀਪਨ, ਸ਼ੈਲੀ, ਉਪਯੋਗਿਤਾ, ਪਾਲਣਾ, ਸੁਰੱਖਿਆ ਅਤੇ ਹੋਰ—ਅਤੇ ਇਹ ਬਹੁ-ਪੱਖੀ ਸੰਕੇਤ ਮਾਡਲਾਂ ਨੂੰ ਵਧੀਆ ਜਵਾਬ ਦੇਣ ਲਈ ਟ੍ਰੇਨ ਕਰਨ ਵਿੱਚ ਵਰਤੇ ਜਾਂਦੇ ਹਨ। ਇਸਦੇ ਉਲਟ, ਇਕਬਾਲੀਆ ਬਿਆਨ ਨੂੰ ਕੇਵਲ ਇੱਕ ਹੀ ਗੱਲ ਲਈ ਪਰਖਿਆ ਅਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ: ਇਮਾਨਦਾਰੀ। ਇਕਬਾਲੀਆ ਢਾਂਚੇ ਤੋਂ ਪ੍ਰੇਰਣਾ ਲੈਂਦੇ ਹੋਏ, ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਮਾਡਲ ਆਪਣੇ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਜੋ ਕੁਝ ਵੀ ਕਹਿੰਦਾ ਹੈ, ਉਹ ਇਸਦੇ ਖ਼ਿਲਾਫ਼ ਨਹੀਂ ਰੱਖਿਆ ਜਾਂਦਾ। ਜੇ ਮਾਡਲ ਸੱਚਾਈ ਨਾਲ ਮੰਨ ਲੈਂਦਾ ਹੈ ਕਿ ਉਸਨੇ ਟੈਸਟ ਹੈਕ ਕੀਤਾ, ਜਾਨਬੁੱਝ ਕੇ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਾਂ ਹਦਾਇਤਾਂ ਦੀ ਉਲੰਘਣਾ ਕੀਤੀ, ਤਾਂ ਉਹ ਸਵੀਕਾਰੋਕਤੀ ਇਸਦਾ ਰਿਵਾਰਡ ਘਟਾਉਣ ਦੀ ਬਜਾਏ ਵਧਾਉਂਦੀ ਹੈ। ਮਕਸਦ ਮਾਡਲ ਨੂੰ ਇਹ ਇਮਾਨਦਾਰੀ ਨਾਲ ਦੱਸਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕਰਨਾ ਹੈ ਕਿ ਉਸਨੇ ਅਸਲ ਵਿੱਚ ਕੀ ਕੀਤਾ।
ਸਾਡੇ ਟੈਸਟਾਂ ਵਿੱਚ, ਸਾਨੂੰ ਪਤਾ ਲੱਗਿਆ ਕਿ ਇਕਬਾਲੀਆ ਬਿਆਨ ਦੀ ਵਿਧੀ ਮਾਡਲ ਦੇ ਗਲਤ ਵਰਤਾਰੇ ਦੀ ਦਿਖਾਈ ਨੂੰ ਕਾਫ਼ੀ ਬਿਹਤਰ ਬਣਾਉਂਦੀ ਹੈ। ਗਲਤ ਵਰਤਾਰਾ ਉਤਪੰਨ ਕਰਨ ਲਈ ਬਣਾਏ ਸਾਡੇ ਮੁਲਾਂਕਣਾਂ ਦਾ ਔਸਤ ਲੈਂਦੇ ਹੋਏ, “ਗਲਤ ਨਕਾਰਾਤਮਕ” ਦੀ ਸੰਭਾਵਨਾ (ਅਰਥਾਤ, ਮਾਡਲ ਨੇ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਨਾ ਕੀਤੀ ਅਤੇ ਫਿਰ ਇਹ ਵੀ ਨਾ ਮੰਨਿਆ) ਕੇਵਲ 4.4% ਹੈ.
ਕਈ ਵਿਰੋਧਾਤਮਕ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਸਾਡੇ “ਪ੍ਰੂਫ ਆਫ ਕਾਨਸੈਪਟ” ਇਕਬਾਲੀਆ ਮਾਡਲ ਦੀ ਸਹੀਤਾ। ਨਤੀਜੇ ਇੰਝ ਵਰਗੀਕ੍ਰਿਤ ਹਨ: ਪਾਲਣਾ ਕੀਤੀ ਅਤੇ ਇਕਬਾਲ ਨਾ ਕੀਤਾ (ਸਹੀ ਨਕਾਰਾਤਮਕ), ਪਾਲਣਾ ਕੀਤੀ ਅਤੇ ਇਕਬਾਲ ਕੀਤਾ (ਗਲਤ ਸਕਾਰਾਤਮਕ), ਪਾਲਣਾ ਨਾ ਕੀਤੀ ਅਤੇ ਇਕਬਾਲ ਨਾ ਕੀਤਾ (ਗਲਤ ਨਕਾਰਾਤਮਕ), ਅਤੇ ਪਾਲਣਾ ਨਾ ਕੀਤੀ ਅਤੇ ਇਕਬਾਲ ਕੀਤਾ (ਸਹੀ ਸਕਾਰਾਤਮਕ)।

ਕਿਸੇ ਉਪਭੋਗਤਾ ਪ੍ਰੌੰਪਟ ਨੂੰ ਦੇਖਦੇ ਹੋਏ, ਚਾਰ ਸੰਭਾਵਿਤ ਨਤੀਜੇ (1) ਇਸ ਗੱਲ ਦੇ ਮਿਲਾਪ ‘ਤੇ ਆਧਾਰਿਤ ਹਨ ਕਿ ਕੀ ਮਾਡਲ ਦਾ ਜਵਾਬ ਪਾਲਣਯੋਗ (“ਚੰਗਾ”) ਹੈ ਜਾਂ ਗੈਰ-ਪਾਲਣਯੋਗ (“ਮਾੜਾ”), ਅਤੇ (2) ਕੀ ਇਕਬਾਲੀਆ ਬਿਆਨ ਪਾਲਣਾ ਜਾਂ ਗੈਰ-ਪਾਲਣਾ ਦਾ ਦਾਅਵਾ ਕਰਦਾ ਹੈ। ਅਸੀਂ ਆਮ ਤੌਰ ‘ਤੇ ਵੇਖਦੇ ਹਾਂ ਕਿ ਇਕਬਾਲੀਆ ਬਿਆਨਾਂ ਦੇ ਸਹੀ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਬਹੁਤ ਵੱਧ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਇਸ ਤੋਂ ਇਲਾਵਾ ਇਕਬਾਲੀਆ ਗਲਤੀਆਂ ਆਮ ਤੌਰ ‘ਤੇ ਹਾਨੀਰਹਿਤ ਹੁੰਦੀਆਂ ਹਨ, ਅਤੇ ਜਾਣ-ਬੁੱਝ ਕੇ ਭ੍ਰਮਿਤ ਕਰਨ ਦੀ ਬਜਾਏ ਇਮਾਨਦਾਰ ਉਲਝਣ ਕਾਰਨ ਹੁੰਦੀਆਂ ਹਨ.
ਇਕਬਾਲੀਆ ਬਿਆਨ ਮਾਡਲ ਵੱਲੋਂ ਇਹ ਸਵੈ-ਰਿਪੋਰਟ ਹੁੰਦਾ ਹੈ ਕਿ ਉਸਨੇ ਦਿੱਤੀਆਂ ਗਈਆਂ ਸਪਸ਼ਟ ਅਤੇ ਅਸਪਸ਼ਟ ਹਦਾਇਤਾਂ ਜਾਂ ਨੀਤੀਆਂ ਦੀ ਭਾਵਨਾ ਅਤੇ ਸ਼ਬਦੀ ਅਰਥ ਦੋਹਾਂ ਦੀ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਪਾਲਣਾ ਕੀਤੀ, ਅਤੇ ਕੀ ਕੋਈ ਐਸਾ ਮੌਕਾ ਆਇਆ ਜਦੋਂ ਉਸਨੇ “ਕੋਨੇ ਕੱਟੇ” ਜਾਂ “ਹੈਕ” ਕੀਤਾ, ਨੀਤੀਆਂ ਦੀ ਉਲੰਘਣਾ ਕੀਤੀ, ਜਾਂ ਕਿਸੇ ਵੀ ਤਰੀਕੇ ਨਾਲ ਉਮੀਦਾਂ ‘ਤੇ ਖਰਾ ਨਾ ਉਤਰਾ। ਆਪਣੀ ਖੋਜ ਵਿੱਚ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਮਾਡਲਾਂ ਨੂੰ ਆਪਣੀਆਂ ਹੀ ਕਮੀਆਂ ਦੀ ਰਿਪੋਰਟਿੰਗ ਵਿੱਚ ਖੁੱਲ੍ਹ ਕੇ ਬੋਲਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। ਅਸੀਂ GPT‑5 Thinking ਦੇ ਇੱਕ ਸੰਸਕਰਣ ਨੂੰ ਇਕਬਾਲੀਆ ਬਿਆਨ ਤਿਆਰ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ, ਅਤੇ ਇਸਦਾ ਮੁਲਾਂਕਣ ਕਈ ਆਉਟ-ਆਫ-ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਸਟ੍ਰੈੱਸ-ਟੈਸਟ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਕੀਤਾ ਜੋ ਸਕੀਮਿੰਗ, ਹੈਕਿੰਗ, ਹਦਾਇਤਾਂ ਦੀ ਉਲੰਘਣਾ ਅਤੇ ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਵਰਗੇ ਵਰਤਾਰੇ ਉਤਪੰਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਸਨ। ਸਾਨੂੰ ਪਤਾ ਲੱਗਿਆ ਕਿ ਜਦੋਂ ਮਾਡਲ ਇਹ ਅਣਚਾਹੇ ਵਰਤਾਰੇ ਕਰਦਾ ਵੀ ਹੈ, ਤਾਂ ਵੀ ਇਹ ਉਨ੍ਹਾਂ ਨੂੰ ਮੰਨ ਲੈਣ ਦੀ ਬਹੁਤ ਸੰਭਾਵਨਾ ਰੱਖਦਾ ਹੈ। ਉੱਪਰ ਦਿੱਤਾ ਚਿੱਤਰ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਇਕਬਾਲੀਆ ਪਹੁੰਚ ਕਈ ਕਿਸਮ ਦੇ ਡੇਟਾਸੈੱਟਾਂ ਅਤੇ ਕੰਮਾਂ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ.
ਉਪਭੋਗਤਾ ਅਤੇ ਮਾਡਲ ਵਿਚਕਾਰ ਕੋਈ ਵੀ ਐਸੀ ਕਿਰਿਆ ਸਮਾਪਤ ਹੋਣ ਤੋਂ ਬਾਅਦ ਜੋ ਮਾਡਲ ਦੇ ਜਵਾਬ ‘ਤੇ ਖਤਮ ਹੁੰਦੀ ਹੈ, ਮਾਡਲ ਨੂੰ ਇੱਕ “ਸਿਸਟਮ ਸੁਨੇਹਾ” ਭੇਜ ਕੇ ਇਕਬਾਲੀਆ ਬਿਆਨ ਮੰਗਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਇਕਬਾਲੀਆ ਰਿਪੋਰਟ ਦੇਣ ਲਈ ਕਹਿੰਦਾ ਹੈ। ਇਹ ਰਿਪੋਰਟ ਮਾਡਲ ਦੇ ਆਖਰੀ ਜਵਾਬ ਨਾਲ ਸੰਬੰਧਿਤ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਇਸ ਵਿੱਚ (1) ਉਹਨਾਂ ਸਾਰੀਆਂ ਸਪਸ਼ਟ ਅਤੇ ਅਸਪਸ਼ਟ ਹਦਾਇਤਾਂ, ਪਾਬੰਦੀਆਂ ਅਤੇ ਉਦੇਸ਼ਾਂ ਦੀ ਸੂਚੀ ਹੁੰਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਇਸ ਜਵਾਬ ਨੇ ਪੂਰਾ ਕਰਨਾ ਸੀ, (2) ਇਹ ਇਮਾਨਦਾਰ ਅਤੇ ਨਿਰਪੱਖ ਵਿਸ਼ਲੇਸ਼ਣ ਕਿ ਕੀ ਜਵਾਬ ਨੇ ਹਕੀਕਤ ਵਿੱਚ ਇਹਨਾਂ ਵਿੱਚੋਂ ਹਰ ਉਦੇਸ਼ ਪੂਰਾ ਕੀਤਾ, ਅਤੇ (3) ਜਵਾਬ ਬਣਾਉਂਦੇ ਸਮੇਂ ਮਾਡਲ ਨੂੰ ਆਈਆਂ ਕਿਸੇ ਵੀ ਅਨਿਸ਼ਚਿਤਤਾਵਾਂ, ਅਸਪਸ਼ਟਤਾਵਾਂ ਜਾਂ “ਮੁਸ਼ਕਲ ਨਿਰਣੈ” ਵਾਲੀਆਂ ਸਥਿਤੀਆਂ ਦੀ ਸੂਚੀ। ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ, ਇਕਬਾਲੀਆ ਬਿਆਨ ਨੂੰ ਇੱਕ ਵੱਖਰਾ ਰਿਵਾਰਡ ਮਾਡਲ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਜੋ ਕੇਵਲ ਇਕਬਾਲੀਆ ਬਿਆਨ ਨੂੰ ਹੀ ਉਦੇਸ਼ਾਂ ਦੀ ਪੂਰਨਤਾ, ਪਾਲਣਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਸਹੀਤਾ ਅਤੇ ਅਨਿਸ਼ਚਿਤਤਾਵਾਂ ਦੀ ਕਵਰੇਜ ਦੇ ਆਧਾਰ ‘ਤੇ ਸਕੋਰ ਕਰਦਾ ਹੈ। ਇਹ ਰਿਵਾਰਡ ਸਿਰਫ਼ ਇਕਬਾਲੀਆ ਨਤੀਜੇ ‘ਤੇ ਹੀ ਲਾਗੂ ਹੁੰਦੇ ਹਨ ਅਤੇ ਮੁੱਖ ਜਵਾਬ ਦੇ ਰਿਵਾਰਡ ਨੂੰ ਕਦੇ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦੇ। ਇਸ ਨਾਲ ਉੱਪਰ ਚਰਚਿਤ ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ ਯਕੀਨੀ ਹੁੰਦੀ ਹੈ ਕਿ ਮਾਡਲ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਜੋ ਕੁਝ ਕਹਿੰਦਾ ਹੈ, ਉਹ ਇਸਦੇ ਮੁੱਖ ਜਵਾਬ ਲਈ ਰਿਵਾਰਡ ਨੂੰ ਨੁਕਸਾਨ ਨਹੀਂ ਪਹੁੰਚਾ ਸਕਦਾ (ਜਾਂ ਮਦਦ ਨਹੀਂ ਕਰ ਸਕਦਾ)।
ਇਕਬਾਲੀਆ ਬਿਆਨਾਂ ਦੇ ਪਿੱਛੇ ਸਿਧਾਂਤ ਸਧਾਰਣ ਹੈ। ਮਾਡਲ ਦੇ ਕਈ ਕਿਸਮ ਦੇ ਅਣਚਾਹੇ ਵਰਤਾਰੇ ਇਸ ਲਈ ਨਜ਼ਰ ਆਉਂਦੇ ਹਨ ਕਿਉਂਕਿ ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਕਈ ਲਕਸ਼ਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਕਰਨ ਲਈ ਕਹਿੰਦੇ ਹਾਂ। ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਦੌਰਾਨ, ਮਾਡਲ ਇੱਕ ਪ੍ਰੌੰਪਟ ਵੇਖਦਾ ਹੈ, ਜਵਾਬ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਅਤੇ ਰਿਵਾਰਡ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਸਮੇਂ ਦੇ ਨਾਲ, ਇਹ ਉਹੀ ਕਿਸਮ ਦੇ ਜਵਾਬ ਦੇਣਾ ਸਿੱਖ ਲੈਂਦਾ ਹੈ ਜੋ ਚੰਗਾ ਸਕੋਰ ਕਰਦੇ ਹਨ। ਚੁਣੌਤੀ ਇਹ ਹੈ ਕਿ ਰਿਵਾਰਡ ਸਿਗਨਲ ਨੂੰ ਕਈ ਵੱਖ-ਵੱਖ ਵਿਚਾਰ ਇੱਕੋ ਵਾਰ ਜੋੜਣੇ ਪੈਂਦੇ ਹਨ: ਜਵਾਬ ਕਿੰਨਾ ਸਹੀ ਹੈ, ਕੀ ਇਹ ਮਦਦਗਾਰ ਹੈ, ਕੀ ਇਹ ਉਤਪਾਦ ਅਤੇ ਨੀਤੀ ਸਪੈਕਸ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ, ਕੀ ਇਹ ਸੁਰੱਖਿਆ ਪਾਬੰਦੀਆਂ ਪੂਰੀਆਂ ਕਰਦਾ ਹੈ, ਅਤੇ ਕੀ ਇਹ ਉਹਨਾਂ ਗੱਲਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਆਮ ਤੌਰ ‘ਤੇ ਪਸੰਦ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਇਹ ਸੰਕੇਤ ਆਪਸੀ ਕ੍ਰਿਆ ਕਰਦੇ ਹਨ, ਤਾਂ ਇਹ ਅਣਜਾਣੇ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਐਸੇ ਵਰਤਾਰੇ ਵੱਲ ਧੱਕ ਸਕਦੇ ਹਨ ਜੋ ਅਸੀਂ ਨਹੀਂ ਚਾਹੁੰਦੇ.
ਉਦਾਹਰਨ ਲਈ, ਹੈਲੂਸੀਨੇਸ਼ਨਾਂ ਬਾਰੇ ਸਾਡੇ ਕੰਮ ਨੇ ਦਿਖਾਇਆ ਕਿ ਕੁਝ ਡੇਟਾਸੈੱਟ ਇਮਾਨਦਾਰੀ ਨਾਲ ਅਨਿਸ਼ਚਿਤਤਾ ਮੰਨਣ ਨਾਲੋਂ ਭਰੋਸੇ ਨਾਲ ਲਾਇਆ ਗਿਆ ਅੰਦਾਜ਼ਾ ਵੱਧ ਇਨਾਮਿਤ ਕਰਦੇ ਹਨ। ਅੰਧ-ਸਹਿਮਤੀ ਬਾਰੇ ਸਾਡੀ ਖੋਜ ਨੇ ਦਿਖਾਇਆ ਕਿ ਜਦੋਂ ਪਸੰਦ ਸੰਕੇਤ ਬਹੁਤ ਮਜ਼ਬੂਤ ਹੋਵੇ ਤਾਂ ਮਾਡਲ ਹੱਦ ਤੋਂ ਵੱਧ ਸਹਿਮਤ ਹੋ ਸਕਦੇ ਹਨ। ਅਤੇ ਹੋਰ ਸਮੂਹਾਂ ਦੇ ਕੰਮ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਮਾਡਲ “ਰਿਵਾਰਡ ਹੈਕ” ਕਰ ਸਕਦੇ ਹਨ—ਟ੍ਰੇਨਿੰਗ ਸੈੱਟਅਪ ਦੀਆਂ ਕਮਜ਼ੋਰੀਆਂ ਲੱਭ ਕੇ ਉੱਚਾ ਸਕੋਰ ਲੈ ਲੈਂਦੇ ਹਨ ਬਿਨਾਂ ਇਹ ਸੱਚਮੁੱਚ ਕੀਤੇ ਕਿ ਅਸੀਂ ਕੀ ਚਾਹੁੰਦੇ ਸਨ। ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਇਹ ਸ਼ਾਰਟਕੱਟ ਤਾਇਨਾਤੀ ਵਿੱਚ ਹੋਰ ਵੀ ਖਤਰਨਾਕ ਵਰਤਾਰੇ ਲਈ ਸਧਾਰਨੀਕ੍ਰਿਤ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਹੋ ਸਕਦੇ ਹਨ.
ਇਕਬਾਲੀਆ ਬਿਆਨ ਇਸ ਸਮੱਸਿਆ ਤੋਂ ਬਚਦੇ ਹਨ ਕਿਉਂਕਿ ਇਹ ਉਦੇਸ਼ਾਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਵੱਖ ਕਰ ਦਿੰਦੇ ਹਨ। ਮੁੱਖ ਜਵਾਬ ਆਮ ਸਾਰੇ ਕਾਰਕਾਂ ਲਈ ਅਨੁਕੂਲਿਤ ਹੁੰਦਾ ਰਹਿੰਦਾ ਹੈ। ਇਕਬਾਲੀਆ ਬਿਆਨ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਗੱਲ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ: ਇਮਾਨਦਾਰੀ। ਮਾਡਲ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਜੋ ਕੁਝ ਕਹਿੰਦਾ ਹੈ, ਉਹ ਇਸਦੇ ਖ਼ਿਲਾਫ਼ ਨਹੀਂ ਰੱਖਿਆ ਜਾਂਦਾ, ਅਤੇ ਇਕਬਾਲੀਆ ਬਿਆਨ ਮੁੱਖ ਜਵਾਬ ਦੇ ਰਿਵਾਰਡ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦਾ। ਇਸਦਾ ਅਰਥ ਹੈ ਕਿ ਜੇ ਮਾਡਲ ਆਪਣੇ ਮੂਲ ਨਤੀਜੇ ਵਿੱਚ ਧੋਖਾ ਕਰਦਾ ਹੈ ਜਾਂ ਕੋਨੇ ਕੱਟਦਾ ਹੈ, ਤਾਂ ਵੀ ਇਸਦੇ ਕੋਲ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਇਹ ਮੰਨਣ ਦੀ ਪ੍ਰੇਰਣਾ ਰਹਿੰਦੀ ਹੈ। ਅਮਲ ਵਿੱਚ ਅਸੀਂ ਇਹੀ ਵੇਖਦੇ ਹਾਂ: ਮਾਡਲ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਮਾੜੇ ਵਰਤਾਰੇ ਨੂੰ ਮੰਨਣ ਲਈ ਤਿਆਰ ਹੁੰਦੇ ਹਨ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਉਹਨਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ ਵੀ ਜਿੱਥੇ ਉਹ ਇਸਨੂੰ ਮੁੱਖ ਜਵਾਬ ਵਿੱਚ ਲੁਕਾਉਂਦੇ ਹਨ। ਅਤੇ ਜਦੋਂ ਇਕਬਾਲੀਆ ਬਿਆਨ ਅਸਫਲ ਹੁੰਦੇ ਹਨ, ਤਾਂ ਆਮ ਤੌਰ ‘ਤੇ ਇਸਦਾ ਕਾਰਨ ਇਹ ਹੁੰਦਾ ਹੈ ਕਿ ਮਾਡਲ ਸਚਮੁੱਚ ਉਲਝਿਆ ਹੋਇਆ ਸੀ—ਕਿਉਂਕਿ ਹਦਾਇਤਾਂ ਅਸਪਸ਼ਟ ਸਨ ਜਾਂ ਕਿਉਂਕਿ ਇਸਨੂੰ ਅਹਿਸਾਸ ਹੀ ਨਹੀਂ ਹੋਇਆ ਕਿ ਗਲਤੀ ਹੋ ਚੁੱਕੀ ਸੀ—ਨਾ ਕਿ ਇਸ ਲਈ ਕਿ ਇਹ ਜਾਣ-ਬੁੱਝ ਕੇ ਭ੍ਰਮਿਤ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਿਹਾ ਸੀ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਸ਼ੁਰੂਆਤੀ ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਜਦੋਂ ਮੂਲ ਜਵਾਬ ਬਿਨਾਂ ਕਿਸੇ ਚੇਨ-ਆਫ-ਥੌਟ ਦੇ ਵੀ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੋਵੇ, ਤਦ ਵੀ ਇਕਬਾਲੀਆ ਬਿਆਨ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਰਹਿੰਦੇ ਹਨ, ਜਿਸ ਤੋਂ ਸੰਕੇਤ ਮਿਲਦਾ ਹੈ ਕਿ ਇਕਬਾਲੀਆ ਇਮਾਨਦਾਰੀ ਅੰਦਰੂਨੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਪੜ੍ਹਣਯੋਗਤਾ ‘ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਕਰਦੀ ਅਤੇ ਭਵਿੱਖ ਦੀਆਂ ਮਾਡਲ ਆਰਕੀਟੈਕਚਰਾਂ ਵਿੱਚ ਵੀ ਸਧਾਰਨੀਕ੍ਰਿਤ ਹੋ ਸਕਦੀ ਹੈ.
ਪਾਲਣਾ ਦੇ ਗ੍ਰਾਊਂਡ-ਟ੍ਰੁੱਥ ਲੇਬਲਾਂ ਤੋਂ ਬਿਨਾਂ ਵੀ ਇਕਬਾਲੀਆ ਟ੍ਰੇਨਿੰਗ ਕੰਮ ਕਰਦੀ ਹੈ। “ਗ੍ਰਾਊਂਡ ਟ੍ਰੁੱਥ” ਨਾਲ ਸਾਡਾ ਅਰਥ ਇੱਕ ਨਿਰਣਾਇਕ, ਬਾਹਰੀ ਤੌਰ ‘ਤੇ ਦਿੱਤਾ ਗਿਆ ਲੇਬਲ ਹੈ ਜੋ ਦੱਸਦਾ ਹੈ ਕਿ ਕੀ ਮਾਡਲ ਨੇ ਅਸਲ ਵਿੱਚ ਹਦਾਇਤ ਮੰਨੀ ਸੀ ਜਾਂ ਇਸਦੀ ਉਲੰਘਣਾ ਕੀਤੀ ਸੀ। ਕਈ ਹਕੀਕਤੀ ਕੰਮਾਂ ਵਿੱਚ ਇਹ ਲੇਬਲ ਉਪਲਬਧ ਨਹੀਂ ਹੁੰਦੇ—ਜੇ ਸਾਨੂੰ ਯਕੀਨੀ ਤੌਰ ‘ਤੇ ਪਤਾ ਹੁੰਦਾ ਕਿ ਮਾਡਲ ਨੇ ਨਿਯਮ ਤੋੜਿਆ ਹੈ, ਤਾਂ ਅਸੀਂ ਇਕਬਾਲੀਆ ਬਿਆਨ ‘ਤੇ ਨਿਰਭਰ ਕਰਨ ਦੀ ਬਜਾਏ ਉਸ ਉਲੰਘਣਾ ਨੂੰ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਦੰਡਿਤ ਕਰ ਸਕਦੇ ਸੀ। ਇਸਦੀ ਥਾਂ, ਮਾਡਲ ਨੂੰ ਇਸ ਗੱਲ ਦੀ ਇੱਕ ਸੰਰਚਿਤ, ਸਬੂਤ-ਆਧਾਰਿਤ ਵਿਆਖਿਆ ਦੇਣ ਲਈ ਇਨਾਮਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਇਸਦੇ ਵਿਚਾਰ ਵਿੱਚ ਇਸਨੇ ਕੀ ਕੀਤਾ। ਪੇਪਰ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਇਸ ਸੈੱਟਅਪ ਹੇਠ ਇਮਾਨਦਾਰੀ ਉਭਰਨ ਦੀ ਰੁਝਾਨ ਰੱਖਦੀ ਹੈ। ਅਸੀਂ ਸਮਝਦੇ ਹਾਂ ਕਿ ਇਸਦਾ ਕਾਰਨ ਇਹ ਹੈ ਕਿ ਸੱਚੀ, ਸਬੂਤ-ਸਮਰਥਿਤ ਵਿਆਖਿਆ ਦੇਣਾ ਆਮ ਤੌਰ ‘ਤੇ ਮਾਡਲ ਲਈ ਇੱਕ ਸੁਚੰਗੀ ਘੜੀ ਹੋਈ ਕਹਾਣੀ ਬਣਾਉਣ ਨਾਲੋਂ ਆਸਾਨ ਹੁੰਦਾ ਹੈ ਜੋ ਜੱਜ ਨੂੰ ਪਾਰ ਕਰ ਜਾਵੇ। ਇਹ ਪੇਪਰ ਵਿੱਚ ਖੰਗਾਲਿਆ ਗਿਆ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਅਨੁਮਾਨ ਹੈ, ਜੋ ਇਹ ਵੀ ਚਰਚਾ ਕਰਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਮਾਮਲਿਆਂ ਵਿੱਚ ਇਕਬਾਲੀਆ ਬਿਆਨ ਅਸਫਲ ਹੁੰਦੇ ਹਨ—ਗਲਤ ਨਕਾਰਾਤਮਕ ਅਤੇ ਗਲਤ ਸਕਾਰਾਤਮਕ—ਅਤੇ ਉਹ ਕਿਵੇਂ ਪੈਦਾ ਹੁੰਦੇ ਹਨ.
ਪੇਪਰ ਸ਼ੁਰੂਆਤੀ ਸਬੂਤ ਦਿੰਦਾ ਹੈ ਕਿ ਇਕਬਾਲੀਆ ਬਿਆਨ ਕੰਮ ਕਰਦੇ ਹਨ, ਪਰ ਇਸਨੂੰ ਅੰਤਿਮ ਪ੍ਰਮਾਣ ਵਜੋਂ ਨਹੀਂ ਦੇਖਣਾ ਚਾਹੀਦਾ। ਹਾਲਾਂਕਿ ਅਸੀਂ ਇੱਕ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ (GPT‑5 Thinking) ਵਰਤਿਆ, ਸਾਡੇ ਪ੍ਰਯੋਗ ਪੈਮਾਨੇ ਵਿੱਚ ਸੀਮਿਤ ਸਨ ਅਤੇ ਤੁਲਨਾਤਮਕ ਤੌਰ ‘ਤੇ ਘੱਟ ਕੰਪਿਊਟ ਅਤੇ ਡਾਟਾ ਵਰਤਿਆ ਗਿਆ। ਅਸੀਂ ਇਸ ਕੰਮ ਨੂੰ ਅਗਲੇ ਪੱਧਰ ‘ਤੇ ਲਿਜਾਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਹਾਂ, ਅਤੇ ਇਹ ਵੇਖਣ ਲਈ ਵੀ ਕਿ ਜਿਵੇਂ-ਜਿਵੇਂ ਅਸੀਂ ਇਸਦੀ ਟ੍ਰੇਨਿੰਗ ਦਾ ਪੈਮਾਨਾ ਵਧਾਂਗੇ, ਕੀ ਇਕਬਾਲੀਆ ਬਿਆਨਾਂ ਦੀ ਇਮਾਨਦਾਰੀ ਕਾਇਮ ਰਹੇਗੀ.
ਮਾਡਲ ਆਪਣੇ ਮੁੱਖ ਜਵਾਬ ਵਿੱਚ ਗ੍ਰੇਡਰ ਨੂੰ ਧੋਖਾ ਦੇਣ ਲਈ ਵਾਕਾਂ ਦੇ ਨਾਲ ਕਥਿਤ ਸ਼ਬਦ-ਗਿਣਤੀਆਂ ਲਿਖ ਕੇ “ਰਿਵਾਰਡ ਹੈਕ” ਕਰਦਾ ਹੈ, ਪਰ ਫਿਰ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਇਹ ਮੰਨ ਲੈਂਦਾ ਹੈ.
ਸਾਡੇ ਪ੍ਰਯੋਗਾਂ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਅਸੀਂ ਜਾਣ-ਬੁੱਝ ਕੇ ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ “ਹੈਕ ਹੋ ਸਕਣ ਵਾਲੇ” ਰਿਵਾਰਡ ਸਿਗਨਲ ਦੇ ਖ਼ਿਲਾਫ਼ ਟ੍ਰੇਨ ਕੀਤਾ ਜੋ ਇੱਕ ਕਮਜ਼ੋਰ ਮਾਡਲ ਦੁਆਰਾ ਗਿਣਿਆ ਗਿਆ ਸੀ। ਇਹ ਸੈੱਟਅਪ ਮੁੱਖ ਰਿਵਾਰਡ ਅਤੇ ਇਕਬਾਲੀਆ ਰਿਵਾਰਡ ਦੋਹਾਂ ‘ਤੇ ਲਾਗੂ ਸੀ। ਮਾਡਲ ਨੇ ਕਮਜ਼ੋਰ ਰਿਵਾਰਡ ਸਿਗਨਲ ਦਾ ਫਾਇਦਾ ਉਠਾਉਣਾ ਸਿੱਖ ਲਿਆ: ਇਸਦੀ ਦਿਖਣ ਵਾਲੀ ਸਹੀਤਾ (ਜਦੋਂ ਇਸਨੂੰ ਕਮਜ਼ੋਰ ਮਾਡਲ ਦੁਆਰਾ ਪਰਖਿਆ ਗਿਆ) ਵਧੀ, ਜਦਕਿ ਇਸਦੀ ਅਸਲ ਸਹੀਤਾ (ਜਦੋਂ ਇਸਨੂੰ ਮਜ਼ਬੂਤ ਮੁਲਾਂਕਣਕਾਰ ਦੁਆਰਾ ਪਰਖਿਆ ਗਿਆ) ਘਟ ਗਈ.
ਹਾਲਾਂਕਿ, ਭਾਵੇਂ ਇਕਬਾਲੀਆ ਚੈਨਲ ਨੂੰ ਵੀ ਉਸੇ ਕਮਜ਼ੋਰ ਸਿਗਨਲ ‘ਤੇ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸਦੀ ਸਹੀਤਾ ਉਲਟੀ ਦਿਸ਼ਾ ਵਿੱਚ ਵਧੀ। ਮਾਡਲ ਨੇ ਸਿੱਖ ਲਿਆ ਕਿ ਇਕਬਾਲੀਆ ਰਿਵਾਰਡ ਨੂੰ ਅਨੁਕੂਲਿਤ ਕਰਨ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਤਰੀਕਾ ਇਹ ਸੀ ਕਿ ਜਦੋਂ ਉਸਨੇ ਮੁੱਖ ਰਿਵਾਰਡ ਹੈਕ ਕੀਤਾ ਹੋਵੇ ਤਾਂ ਸਿਰਫ਼ ਇਹ ਮੰਨ ਲਏ। ਸਮੇਂ ਦੇ ਨਾਲ ਇਕਬਾਲੀਆ ਬਿਆਨ ਹੋਰ ਸਹੀ ਹੁੰਦੇ ਗਏ, ਭਾਵੇਂ ਮੁੱਖ ਵਰਤਾਰਾ ਖਿਸਕਦਾ ਗਿਆ.
ਟ੍ਰੇਨਿੰਗ ਦੇ ਦੌਰਾਨ, ਜਦੋਂ ਮਾਡਲ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਹੁੰਦਾ ਹੈ, ਕੁਝ ਹਿੱਸੇ ਦੇ ਕੇਸਾਂ ਵਿੱਚ ਇਹ ਮੁੱਖ ਰਿਵਾਰਡ ਜੱਜ ਨੂੰ “ਹੈਕ” ਕਰਨਾ ਸਿੱਖ ਲੈਂਦਾ ਹੈ ਅਤੇ ਇਸ ਕਰਕੇ ਜੱਜ ਦੀ ਸਹੀਤਾ ਘਟਦੀ ਜਾਂਦੀ ਹੈ। ਇਸਦੇ ਉਲਟ, ਭਾਵੇਂ ਇਕਬਾਲੀਆ ਰਿਵਾਰਡ ਜੱਜ ਵੀ ਉਤਨਾ ਹੀ ਹੈਕ ਹੋ ਸਕਣ ਵਾਲਾ ਹੈ, ਮਾਡਲ ਟ੍ਰੇਨਿੰਗ ਦੇ ਨਾਲ ਆਪਣੇ ਇਕਬਾਲੀਆ ਬਿਆਨ ਵਿੱਚ ਹੋਰ ਇਮਾਨਦਾਰ ਹੀ ਹੁੰਦਾ ਜਾਂਦਾ ਹੈ, ਅਤੇ ਆਖ਼ਿਰਕਾਰ ਜਦੋਂ ਉਸਨੇ ਪਾਲਣਾ ਨਹੀਂ ਕੀਤੀ ਹੁੰਦੀ ਤਾਂ ਲਗਭਗ 100% ਮਾਮਲਿਆਂ ਵਿੱਚ ਇਕਬਾਲ ਕਰ ਲੈਂਦਾ ਹੈ.
ਪੇਪਰ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ ਹੋਰ ਪ੍ਰਯੋਗ ਅਤੇ ਨਤੀਜੇ ਹਨ। ਅਸੀਂ ਇਕਬਾਲੀਆ-ਟ੍ਰੇਨ ਕੀਤੇ ਮਾਡਲ ਦੀ ਤੁਲਨਾ ਇੱਕ ਨਿਯੰਤਰਕ ਮਾਡਲ ਨਾਲ ਕੀਤੀ ਜਿਸਨੂੰ ਉਸੇ ਤਰੀਕੇ ਨਾਲ, ਪਰ ਇਕਬਾਲੀਆ ਚੈਨਲ ਤੋਂ ਬਿਨਾਂ, ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ। ਅਸੀਂ ਉਹ ਮਾਮਲੇ ਵੀ ਦੇਖੇ ਜਿੱਥੇ ਇਕਬਾਲੀਆ ਬਿਆਨ ਅਸਫਲ ਰਹੇ। ਲਗਭਗ ਸਾਰੇ “ਮਿਸ” ਉਸ ਵੇਲੇ ਹੋਏ ਜਦੋਂ ਮਾਡਲ ਸਚਮੁੱਚ ਉਲਝਿਆ ਹੋਇਆ ਸੀ—ਜਦੋਂ ਹਦਾਇਤਾਂ ਅਸਪਸ਼ਟ ਸਨ ਜਾਂ ਜਦੋਂ ਉਸਨੂੰ ਇਹ ਅਹਿਸਾਸ ਹੀ ਨਹੀਂ ਹੋਇਆ ਕਿ ਉਸਨੇ ਗਲਤੀ ਕੀਤੀ ਹੈ। (ਉੱਪਰ ਗਲਤ ਨਕਾਰਾਤਮਕ ਉਦਾਹਰਨ ਵੇਖੋ।)
ਇਕਬਾਲੀਆ ਬਿਆਨਾਂ ਦੀਆਂ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਹਨ। ਇਹ ਮਾੜੇ ਵਰਤਾਰੇ ਨੂੰ ਰੋਕਦੇ ਨਹੀਂ; ਇਹ ਉਸਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਦੀ ਮੁੱਖ ਮਹੱਤਤਾ ਨਿਗਰਾਨੀ ਅਤੇ ਨਿਦਾਨ ਸਾਧਨ ਵਜੋਂ ਹੈ, ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਵੀ ਅਤੇ ਤਾਇਨਾਤੀ ਵਿੱਚ ਵੀ। ਇਕਬਾਲੀਆ ਬਿਆਨਾਂ ਦੀ ਭੂਮਿਕਾ ਚੇਨ-ਆਫ-ਥੌਟ ਨਿਗਰਾਨੀ ਵਰਗੀ ਹੈ: ਦੋਹਾਂ ਲੁਕੀਆਂ ਹੋਈਆਂ ਰੀਜ਼ਨਿੰਗ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਹੋਰ ਦਿਖਾਈਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਇਕਬਾਲੀਆ ਬਿਆਨ ਇਸ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੇ ਹਨ ਕਿ ਕੀ ਮਾਡਲ ਨੇ ਹਦਾਇਤਾਂ ਦੀ ਉਲੰਘਣਾ ਕੀਤੀ; ਚੇਨ-ਆਫ-ਥੌਟ ਇਹ ਉਜਾਗਰ ਕਰ ਸਕਦੀ ਹੈ ਕਿ ਉਹ ਉੱਥੇ ਕਿਵੇਂ ਪਹੁੰਚਿਆ.
ਇਹ ਕੰਮ ਇੱਕ ਪ੍ਰੂਫ ਆਫ ਕਾਨਸੈਪਟ ਵੀ ਹੈ। ਅਸੀਂ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਇਕਬਾਲੀਆ ਮਕੈਨਿਜ਼ਮ ਟ੍ਰੇਨ ਨਹੀਂ ਕੀਤੇ, ਅਤੇ ਇਕਬਾਲੀਆ ਸਹੀਤਾ ਅਜੇ ਵੀ ਅਪੂਰਨ ਹੈ। ਇਸ ਪਹੁੰਚ ਨੂੰ ਹੋਰ ਭਰੋਸੇਯੋਗ, ਹੋਰ ਮਜ਼ਬੂਤ, ਅਤੇ ਵੱਖ-ਵੱਖ ਮਾਡਲ ਪਰਿਵਾਰਾਂ ਅਤੇ ਕੰਮਾਂ ਵਿੱਚ ਹੋਰ ਵਿਸ਼ਾਲ ਤੌਰ ‘ਤੇ ਲਾਗੂ ਕਰਨ ਯੋਗ ਬਣਾਉਣ ਲਈ ਹਾਲੇ ਹੋਰ ਕੰਮ ਕਰਨ ਦੀ ਲੋੜ ਹੈ.
ਇਹ ਕੰਮ AI ਸੁਰੱਖਿਆ ਪ੍ਰਤੀ ਸਾਡੀ ਵਿਆਪਕ ਪਹੁੰਚ ਦੇ ਅੰਦਰ ਫਿੱਟ ਬੈਠਦਾ ਹੈ। ਇਕਬਾਲੀਆ ਬਿਆਨ ਇੱਕ ਵੱਡੇ ਸਟੈਕ ਵਿੱਚ ਇੱਕ ਮਕੈਨਿਜ਼ਮ ਹਨ, ਜਿਸ ਵਿੱਚ ਸੋਚ-ਵਿਚਾਰ ਆਧਾਰਿਤ ਅਲਾਈਨਮੈਂਟ, ਚੇਨ-ਆਫ-ਥੌਟ ਨਿਗਰਾਨੀ, ਹਦਾਇਤ ਹਾਇਰਾਰਕੀ ਅਤੇ ਹੋਰ ਸ਼ਾਮਲ ਹਨ। ਕੋਈ ਵੀ ਇੱਕਲੀ ਵਿਧੀ ਕਾਫ਼ੀ ਨਹੀਂ; ਮਕਸਦ ਜਾਂਚਾਂ ਅਤੇ ਪਾਰਦਰਸ਼ਤਾ ਸਾਧਨਾਂ ਦੀ ਇੱਕ ਪਰਤਦਾਰ ਪ੍ਰਣਾਲੀ ਬਣਾਉਣਾ ਹੈ ਜੋ ਇਕ-ਦੂਜੇ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰੇ। ਇਕਬਾਲੀਆ ਬਿਆਨ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਮੁਲਾਂਕਣ ਦੌਰਾਨ ਮਾਡਲਾਂ ਦੇ ਸਮੱਸਿਆਜਨਕ ਵਰਤਾਰੇ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਤਾਇਨਾਤੀ ਦੌਰਾਨ ਨਿਗਰਾਨੀ ਵਿੱਚ ਵੀ। ਆਪਣੇ ਆਪ ਵਿੱਚ ਇਕਬਾਲੀਆ ਬਿਆਨ ਕਈ ਪੱਖਾਂ ਦਾ ਸੰਤੁਲਨ ਬਣਾਉਣ ਦੀ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਨਹੀਂ ਕਰਦੇ। ਪਰ ਮਾਡਲਾਂ ਲਈ ਇੱਕ “ਟ੍ਰੂਥ ਸੀਰਮ” ਮੋਡ ਬਣਾਕੇ ਜਿਸ ਵਿੱਚ ਉਹ ਸਿਰਫ਼ ਇਮਾਨਦਾਰੀ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੇ ਹਨ, ਇਹ ਸਾਡੇ ਸਟੈਕ ਵਿੱਚ ਇੱਕ ਕੀਮਤੀ ਸਾਧਨ ਜੋੜਦੇ ਹਨ ਜੋ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਇਮਾਨਦਾਰੀ ਅਤੇ ਸੁਰੱਖਿਆ ਸੁਧਾਰਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ.
ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਬਣਦੇ ਹਨ ਅਤੇ ਹੋਰ ਉੱਚ-ਦਾਅਵਾਂ ਵਾਲੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਤਾਇਨਾਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਸਾਨੂੰ ਇਹ ਸਮਝਣ ਲਈ ਵਧੀਆ ਸਾਧਨਾਂ ਦੀ ਲੋੜ ਹੈ ਕਿ ਉਹ ਕੀ ਕਰ ਰਹੇ ਹਨ ਅਤੇ ਕਿਉਂ। ਇਕਬਾਲੀਆ ਬਿਆਨ ਪੂਰਾ ਹੱਲ ਨਹੀਂ ਹਨ, ਪਰ ਇਹ ਸਾਡੇ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਨਿਗਰਾਨੀ ਸਟੈਕ ਵਿੱਚ ਇੱਕ ਅਰਥਪੂਰਨ ਪਰਤ ਜੋੜਦੇ ਹਨ। ਭਵਿੱਖ ਦੇ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਇਕਬਾਲੀਆ ਬਿਆਨਾਂ ਦਾ ਪੈਮਾਨਾ ਵਧਾਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਹਾਂ, ਅਤੇ ਨਾਲ ਹੀ ਉਨ੍ਹਾਂ ਨੂੰ ਪੂਰਕ ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਸੁਰੱਖਿਆ ਤਕਨੀਕਾਂ ਨਾਲ ਜੋੜਾਂਗੇ, ਜਿਸ ਵਿੱਚ ਚੇਨ-ਆਫ-ਥੌਟ ਨਿਗਰਾਨੀ ਅਤੇ ਸੋਚ-ਵਿਚਾਰ ਆਧਾਰਿਤ ਅਲਾਈਨਮੈਂਟ ਸ਼ਾਮਲ ਹਨ, ਤਾਂ ਜੋ ਇਸ ਦਿਸ਼ਾ ਵਿੱਚ ਹੋਰ ਤਰੱਕੀ ਕੀਤੀ ਜਾ ਸਕੇ ਕਿ ਸਾਡੇ ਮਾਡਲ ਸਾਰੀਆਂ ਹਦਾਇਤਾਂ ਅਤੇ ਨੀਤੀਆਂ (ਜਿਵੇਂ ਸਾਡਾ ਮਾਡਲ ਸਪੈਕ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)) ਦੀ ਵਫ਼ਾਦਾਰੀ ਨਾਲ ਪਾਲਣਾ ਕਰਨ, ਅਤੇ ਆਪਣੀਆਂ ਕਾਰਵਾਈਆਂ ਬਾਰੇ ਸੱਚਾਈ ਨਾਲ ਰਿਪੋਰਟ ਕਰਨ.


