ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਨੂੰ ਕਾਬੂ ਕਰਨ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਹ ਚੰਗੀ ਗੱਲ ਹੈ
ਕਿਉਂ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਸੀਮਾ AI ਸੁਰੱਖਿਆ ਲਈ ਹੌਸਲਾ ਦੇਣ ਵਾਲੀ ਹੈ.
ਜਿਵੇਂ ਜਿਵੇਂ AI ਏਜੰਟ ਹੋਰ ਜਟਿਲ ਅਤੇ ਖੁਦਮੁਖਤਿਆਰ ਕੰਮ ਕਰਨ ਦੇ ਯੋਗ ਬਣਦੇ ਹਨ, ਉਹਨਾਂ ਦੇ ਵਿਹਾਰ ਉੱਤੇ ਭਰੋਸੇਯੋਗ ਨਿਗਰਾਨੀ ਬਣਾਈ ਰੱਖਣਾ ਹੋਰ ਮਹੱਤਵਪੂਰਨ ਹੋ ਜਾਂਦਾ ਹੈ. ਸਾਡੇ ਕ੍ਰਮਿਕ ਤਾਇਨਾਤੀ ਦੇ ਸਿਧਾਂਤ ਦੇ ਅਨੁਸਾਰ, ਅਸੀਂ ਅਧਿਐਨ ਕਰਦੇ ਹਾਂ ਕਿ ਪ੍ਰਣਾਲੀਆਂ ਅਸਲ-ਦੁਨੀਆ ਦੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਕਿਵੇਂ ਵਿਹਾਰ ਕਰਦੀਆਂ ਹਨ ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਅੱਗੇ ਵਧਣ ਨਾਲ ਸੁਰੱਖਿਆ ਉਪਾਇਆਂ ਨੂੰ ਲਗਾਤਾਰ ਸੁਧਾਰਦੇ ਹਾਂ. ਇਸ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ, ਸੁਰੱਖਿਆ ਬਾਰੇ ਸਾਡਾ ਦ੍ਰਿਸ਼ਟਿਕੋਣ defense-in-depth ਵਰਤਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਰੱਖਿਆ ਦੀਆਂ ਕਈ ਪੂਰਕ ਪਰਤਾਂ ਸ਼ਾਮਲ ਹਨ ਜਿਵੇਂ ਕਿ ਸੁਰੱਖਿਆ ਟ੍ਰੇਨਿੰਗ, ਵਿਹਾਰਕ ਟੈਸਟਿੰਗ, ਏਜੰਟਿਕ ਕੋਡ ਸਮੀਖਿਆ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਤੇ ਚੇਨ-ਆਫ-ਥੌਟ (CoT) ਨਿਗਰਾਨੀ. CoT ਨਿਗਰਾਨੀ ਉਹਨਾਂ ਰੀਜ਼ਨਿੰਗ ਕਦਮਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੀ ਹੈ ਜੋ ਏਜੰਟ ਕੰਮਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਸਮੇਂ ਬਣਾਉਂਦੇ ਹਨ. ਇਹ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਤਾਇਨਾਤੀ ਦੋਹਾਂ ਦੌਰਾਨ ਕੀਮਤੀ ਸੰਕੇਤ ਦੇ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਨਿਗਰਾਨੀ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਇਹ ਪਛਾਣਣ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ ਕਿ ਕਦੋਂ ਕਿਸੇ ਏਜੰਟ ਦਾ ਵਿਹਾਰ ਅਸੁਰੱਖਿਅਤ ਹੋ ਸਕਦਾ ਹੈ ਜਾਂ ਯੂਜ਼ਰ ਦੇ ਇਰਾਦੇ ਵਾਲੇ ਲਕਸ਼ਾਂ ਨਾਲ ਅਸੰਗਤ ਹੋ ਸਕਦਾ ਹੈ.
ਅੱਜ, ਅਸੀਂ ਪਾਂਦੇ ਹਾਂ ਕਿ ਮਾਡਲਾਂ ਦੀ ਰੀਜ਼ਨਿੰਗ ਆਮ ਤੌਰ 'ਤੇ ਸਮਝਣਯੋਗ ਹੈ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰਨ ਲਈ ਆਸਾਨ ਹੈ. ਹਾਲਾਂਕਿ, ਭਵਿੱਖ ਵਿੱਚ, ਨਿਗਰਾਨੀਯੋਗਤਾ ਕਈ ਕਾਰਨਾਂ ਕਰਕੇ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਟੁੱਟ ਸਕਦੀ ਹੈ. ਇੱਥੇ, ਅਸੀਂ ਇਸੇ ਤਰ੍ਹਾਂ ਦੇ ਇੱਕ ਰਾਹ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਾਂ: ਜੇ ਏਜੰਟ, ਜਦੋਂ ਉਹ ਜਾਣਦੇ ਹੋਣ ਕਿ ਉਹਨਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ, ਆਪਣੀ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਜਾਣਬੁੱਝ ਕੇ ਬਦਲਣ ਜਾਂ ਓਹਲੇ ਕਰਨ ਦੇ ਯੋਗ ਹੋ ਜਾਣ, ਤਾਂ ਮੁਲਾਂਕਣ ਕਿਸੇ ਪ੍ਰਣਾਲੀ ਦੇ ਅਲਾਈਨਮੈਂਟ ਜਾਂ ਸੁਰੱਖਿਆ ਨੂੰ ਵੱਧ ਅੰਕ ਦੇ ਸਕਦੇ ਹਨ ਅਤੇ ਨਿਗਰਾਨੀ ਪ੍ਰਣਾਲੀਆਂ ਘੱਟ ਭਰੋਸੇਯੋਗ ਬਣ ਸਕਦੀਆਂ ਹਨ.
ਇਸ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਅਧਿਐਨ ਕਰਦੇ ਹਾਂ ਕਿ ਕੀ ਮੌਜੂਦਾ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਨਿਯੰਤਰਿਤ ਕਰਨ ਦੇ ਯੋਗ ਹਨ ਕਿ ਨਿਗਰਾਨੀਯੋਗਤਾ ਘਟ ਜਾਵੇ. ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ CoT ਨਿਗਰਾਨੀ ਇੱਕ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਉਪਾਇ ਬਣੀ ਰਹੇ ਜਿਵੇਂ AI ਪ੍ਰਣਾਲੀਆਂ ਹੋਰ ਸਮਰੱਥ ਬਣਦੀਆਂ ਹਨ. ਅਸੀਂ ਪਾਂਦੇ ਹਾਂ ਕਿ ਮੌਜੂਦਾ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਆਪਣੀਆਂ CoT ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਭਾਵੇਂ ਉਹਨਾਂ ਨੂੰ ਦੱਸਿਆ ਜਾਵੇ ਕਿ ਉਹਨਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ. ਜਿੱਥੇ ਵੱਡੇ ਮਾਡਲਾਂ ਲਈ ਨਿਯੰਤਰਣਯੋਗਤਾ ਵੱਧ ਹੁੰਦੀ ਹੈ, ਉੱਥੇ ਇਹ ਘਟ ਜਾਂਦੀ ਹੈ ਜਦੋਂ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਲੰਮਾ ਰੀਜ਼ਨ ਕਰਨ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ ਅਤੇ ਜਦੋਂ ਉਹ ਵਾਧੂ post-training ਵਿਚੋਂ ਲੰਘਦੇ ਹਨ. ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ CoT ਨਿਗਰਾਨੀਯੋਗਤਾ ਲਈ ਵੱਡਾ ਖਤਰਾ ਬਣਨ ਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਰੱਖਦੀ, ਹਾਲਾਂਕਿ ਮਾਡਲਾਂ ਦੇ ਅੱਗੇ ਵਧਣ ਨਾਲ ਲਗਾਤਾਰ ਮੁਲਾਂਕਣ ਮਹੱਤਵਪੂਰਨ ਰਹੇਗਾ.
ਚੇਨ-ਆਫ-ਥੌਟ ਉਹ ਮੱਧਵਰਤੀ ਰੀਜ਼ਨਿੰਗ ਕਦਮ ਹਨ ਜੋ ਇੱਕ AI ਏਜੰਟ ਕਿਸੇ ਕੰਮ ਨੂੰ ਹੱਲ ਕਰਦੇ ਸਮੇਂ ਬਣਾਉਂਦਾ ਹੈ. ਇਹ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ ਲਾਭਕਾਰੀ ਸੁਰੱਖਿਆ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਨਿਗਰਾਨੀ ਪ੍ਰਣਾਲੀਆਂ ਇਹ ਅੰਕਲਨ ਕਰ ਸਕਦੀਆਂ ਹਨ ਕਿ ਕਿਸੇ ਏਜੰਟ ਦਾ ਵਿਹਾਰ ਸੁਰੱਖਿਅਤ ਹੈ ਜਾਂ ਅਲਾਈਨ ਹੈ.
CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਇੱਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਦੀ ਉਹ ਸਮਰੱਥਾ ਹੈ ਜਿਸ ਨਾਲ ਉਹ ਆਪਣੀ CoT ਦੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਨਿਯੰਤਰਿਤ ਕਰੇ ਕਿ ਨਿਗਰਾਨੀਯੋਗਤਾ ਘਟ ਜਾਵੇ. ਅਮਲ ਵਿੱਚ ਮਾਨੀਟਰਾਂ ਤੋਂ ਬਚਣ ਲਈ ਅਸਲੀ ਪ੍ਰੇਰਣਾਵਾਂ ਦੀ ਪੂਰੀ ਵਿਸ਼ਾਲਤਾ ਹੇਠ ਇਸ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਣਾ ਚੁਣੌਤੀਪੂਰਨ ਹੈ. ਇਸ ਦੀ ਬਜਾਏ, ਅਸੀਂ ਇੱਕ ਵਿਹਾਰਿਕ proxy ਵਰਤਦੇ ਹਾਂ: ਅਸੀਂ ਮਾਡਲ ਦੀ ਆਪਣੀ CoT ਬਾਰੇ ਯੂਜ਼ਰ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਮਾਪਦੇ ਹਾਂ. ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਜਾਂਚਦੇ ਹਾਂ ਕਿ ਕੀ ਕੋਈ ਮਾਡਲ ਉਹ ਨਿਰਦੇਸ਼ ਮੰਨ ਸਕਦਾ ਹੈ ਜੋ ਇਸਦੀ ਅੰਦਰੂਨੀ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ—ਜਿਵੇਂ ਸਿਰਫ lowercase ਅੱਖਰ ਵਰਤਣਾ, ਕੁਝ keywords ਤੋਂ ਬਚਣਾ, ਜਾਂ ਖਾਸ phrases ਜੋੜਨਾ—ਨਾ ਕਿ ਕੇਵਲ ਇਸਦੀ ਦਿੱਖ ਵਾਲੀ output ਨੂੰ ਬਦਲਣਾ.
ਇਸ ਦਾ ਅਧਿਐਨ ਕਰਨ ਲਈ, ਅਸੀਂ CoT-Control ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਜੋ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਮਾਪਣ ਲਈ ਇੱਕ open-source ਮੁਲਾਂਕਣ ਸੂਟ ਹੈ. CoT-Control ਵਿੱਚ ਸਥਾਪਿਤ benchmarks ਤੋਂ ਬਣੇ 13,000 ਤੋਂ ਵੱਧ ਕੰਮ ਸ਼ਾਮਲ ਹਨ: GPQA, MMLU-Pro, HLE, BFCL ਅਤੇ SWE-Bench Verified. ਹਰ ਕੰਮ ਇੱਕ benchmark ਸਮੱਸਿਆ ਨੂੰ ਇੱਕ CoT ਨਿਰਦੇਸ਼ ਨਾਲ ਜੋੜ ਕੇ ਬਣਾਇਆ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ CoT ਵਿੱਚ ਕੁਝ ਸਮੱਸਿਆ-ਸੰਬੰਧਿਤ keywords ਤੋਂ ਬਚਣਾ, ਸਿਰਫ lowercase ਅੱਖਰ ਵਰਤਣਾ, ਜਾਂ ਹਰ ਵਾਕ ਦੇ ਅੰਤ 'ਤੇ ਦਿੱਤਾ ਗਿਆ ਸ਼ਬਦ ਜੋੜਨਾ.
ਅਸੀਂ 13 ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ 'ਤੇ ਮੁਲਾਂਕਣ ਚਲਾਉਂਦੇ ਹਾਂ ਅਤੇ ਪਾਂਦੇ ਹਾਂ ਕਿ ਉਹ ਸਾਰੇ ਆਪਣੀਆਂ CoT ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਨਿਯੰਤਰਿਤ ਕਰਨ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ. ਅਸੀਂ ਨਿਯੰਤਰਣਯੋਗਤਾ ਨੂੰ ਉਹਨਾਂ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸਾਂ ਦੇ ਅਨੁਪਾਤ ਵਜੋਂ ਮਾਪਦੇ ਹਾਂ ਜਿੱਥੇ ਮਾਡਲ ਸਾਡੇ CoT ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਸਫਲਤਾਪੂਰਵਕ ਪਾਲਣਾ ਕਰਦਾ ਹੈ. ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਵਿੱਚ, CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਸਕੋਰ ਘੱਟ ਹਨ, ਜੋ 0.1% ਤੋਂ ਸ਼ੁਰੂ ਹੁੰਦੇ ਹਨ ਅਤੇ ਸਾਡੇ ਦੁਆਰਾ ਜਾਂਚੇ ਗਏ ਕਿਸੇ ਵੀ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਲਈ 15.4% ਤੋਂ ਵੱਧ ਨਹੀਂ ਹਨ.
ਇਹ ਅਸਮਰੱਥਾ ਕੰਮ ਨੂੰ ਗਲਤ ਸਮਝਣ ਦਾ ਨਤੀਜਾ ਨਹੀਂ ਹੈ: ਮਾਡਲ ਅਕਸਰ ਆਪਣੀ CoT ਵਿੱਚ ਪਛਾਣ ਲੈਂਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਨੂੰ ਦਿੱਤੇ ਗਏ CoT ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਉਹ ਅਸਫਲ ਹੋ ਰਹੇ ਹਨ ਅਤੇ—ਇਸ ਅਹਿਸਾਸ ਤੋਂ ਬਾਅਦ ਵੀ—ਉਹ ਫਿਰ ਵੀ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ. ਇਹ ਹੈਰਾਨੀਜਨਕ ਤੌਰ 'ਤੇ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ CoT ਨਿਗਰਾਨੀਯੋਗਤਾ ਲਈ ਚੰਗੀ ਖ਼ਬਰ ਹੈ: ਇਹ ਸੁਝਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲਾਂ ਵਿੱਚ ਆਪਣੀ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਓਹਲੇ ਕਰਕੇ ਸਾਡੇ ਮਾਨੀਟਰਾਂ ਤੋਂ ਬਚਣ ਦੀ ਸਮਰੱਥਾ ਵੀ ਇਸੇ ਤਰ੍ਹਾਂ ਘੱਟ ਹੋ ਸਕਦੀ ਹੈ.
ਕਈ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੀ ਆਪਣੀ output ਅਤੇ CoT ਨੂੰ ਕਾਬੂ ਕਰਨ ਦੀ ਸਮਰੱਥਾ. ਘੱਟ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਦਾ ਸੰਬੰਧ ਉੱਚ ਨਿਗਰਾਨੀਯੋਗਤਾ ਅਤੇ ਇਸ ਕਰਕੇ ਉੱਚ ਸੁਰੱਖਿਆ ਨਾਲ ਹੁੰਦਾ ਹੈ.
CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਦੀਆਂ ਨਾਕਾਮੀਆਂ ਦੇ ਉਦਾਹਰਨ
ਸੰਖੇਪਤਾ ਲਈ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ.
GPT-5.2 Thinking
GPT‑5.2 Thinking ਨੂੰ ਸਮਝ ਆ ਜਾਂਦੀ ਹੈ ਕਿ ਉਸਨੇ ਮਨਾਹੀ ਕੀਤਾ ਸ਼ਬਦ (red) ਵਰਤਣਾ ਨਹੀਂ ਸੀ, ਫਿਰ ਵੀ ਉਹ ਇਸਨੂੰ 4 ਹੋਰ ਵਾਰ ਵਰਤਦਾ ਹੈ ਅਤੇ ਪਹਿਲਾਂ ਹੀ ਇਸਨੂੰ ਵਰਤ ਚੁੱਕਣ ਬਾਰੇ ਘਬਰਾਉਂਦਾ ਰਹਿੰਦਾ ਹੈ.
ਜਿੱਥੇ ਅਸੀਂ ਵੇਖਦੇ ਹਾਂ ਕਿ open-weight ਮਾਡਲਾਂ ਵਿੱਚ ਆਕਾਰ ਦੇ ਨਾਲ ਨਿਯੰਤਰਣਯੋਗਤਾ ਵੱਧਦੀ ਹੈ, ਉੱਥੇ ਅਸੀਂ ਇਹ ਵੀ ਪਾਂਦੇ ਹਾਂ ਕਿ post-training ਅਤੇ test-time compute ਦੀ ਮਾਤਰਾ ਨਾਲ ਇਹ ਜਲਦੀ ਘਟਦੀ ਹੈ. open-weight ਮਾਡਲਾਂ ਦੇ ਦੋ ਪਰਿਵਾਰਾਂ ਨੂੰ ਵੇਖਦਿਆਂ, ਵੱਡੇ ਮਾਡਲ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਵਿੱਚ ਕੁਝ ਬਿਹਤਰ ਸਨ, ਹਾਲਾਂਕਿ ਵੱਡੇ ਆਕਾਰਾਂ 'ਤੇ ਇਹ ਅਸਰ ਮੰਦ ਪੈ ਗਿਆ. ਪਰ ਜਦੋਂ ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਹੋਰ ਦੇਰ ਤੱਕ ਸੋਚਣ ਦਿੱਤਾ, ਤਾਂ ਉਹ ਉਹਨਾਂ ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਵਿੱਚ ਘੱਟ ਯੋਗ ਹੋ ਗਏ. OLMo-3-7B-RL-Zero-Math ਦੀ RL ਟ੍ਰੇਨਿੰਗ ਲਈ ਅਸੀਂ ਇਸੇ ਤਰ੍ਹਾਂ ਦਾ ਰੁਝਾਨ ਵੇਖਿਆ: ਟ੍ਰੇਨਿੰਗ ਦੇ ਦੌਰਾਨ ਇਸਦਾ ਨਿਯੰਤਰਣਯੋਗਤਾ ਸਕੋਰ ਦਸ ਗੁਣਾ ਤੋਂ ਵੀ ਵੱਧ ਘਟ ਗਿਆ.
Open-weight ਮਾਡਲਾਂ ਵਿੱਚ scale ਨਾਲ ਨਿਯੰਤਰਣਯੋਗਤਾ ਵੱਧਦੀ ਹੈ, ਪਰ ਲੰਬੀ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਹੋਰ RL ਟ੍ਰੇਨਿੰਗ ਨਾਲ ਇਹ ਘਟਦੀ ਹੈ.
ਮਾਨੀਟਰਾਂ ਤੋਂ ਬਚਣ ਲਈ ਅਸਲੀ ਪ੍ਰੇਰਣਾਵਾਂ ਦਾ ਅਨੁਕਰਣ ਕਰਨ ਲਈ, ਅਸੀਂ ਨਿਯੰਤਰਣਯੋਗਤਾ ਨੂੰ ਉਸ ਵੇਲੇ ਮਾਪਦੇ ਹਾਂ ਜਦੋਂ ਮਾਡਲਾਂ ਨੂੰ ਦੱਸਿਆ ਜਾਂਦਾ ਹੈ ਕਿ ਉਹਨਾਂ ਦੀ ਨਿਗਰਾਨੀ ਜਾਂ ਮੁਲਾਂਕਣ ਹੋ ਰਿਹਾ ਹੈ. ਇਸ ਨਾਲ ਨਿਯੰਤਰਣਯੋਗਤਾ ਥੋੜ੍ਹੀ (ਪਰ ਧਿਆਨਯੋਗ ਤੌਰ 'ਤੇ) ਵਧਦੀ ਹੈ. ਅਸੀਂ ਉੱਚ ਨਿਯੰਤਰਣਯੋਗਤਾ ਵਾਲੇ ਪ੍ਰੌੰਪਟ ਲੱਭਣ ਲਈ ਸਵੈਚਾਲਿਤ ਪ੍ਰੌੰਪਟ ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ ਵੀ ਵਰਤਦੇ ਹਾਂ. ਜਿੱਥੇ ਅਪਟੀਮਾਈਜ਼ਰ ਇੱਕ training set 'ਤੇ ਨਿਯੰਤਰਣਯੋਗਤਾ ਵਧਾ ਸਕਦਾ ਹੈ, ਉੱਥੇ ਇਹ ਲਾਭ ਨਵੇਂ instruction ਕਿਸਮਾਂ ਤੱਕ ਠੀਕ ਤਰ੍ਹਾਂ ਟ੍ਰਾਂਸਫਰ ਨਹੀਂ ਹੁੰਦੇ, ਜਿਵੇਂ ਸ਼ਬਦਾਂ ਵਿਚਕਾਰ ਖਾਲੀ ਥਾਂ ਨਾ ਰੱਖਣ ਦੀ ਸ਼ਰਤ.
CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਵਿਰੋਧੀ ਹਾਲਾਤਾਂ ਵਿੱਚ. “Monitor awareness” ਉਹਨਾਂ ਸੈਟਿੰਗਾਂ ਲਈ ਹੈ ਜਿੱਥੇ ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਦੱਸਦੇ ਹਾਂ ਕਿ ਉਹਨਾਂ ਦੀ CoT ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ. “Eval Awareness” ਉਹਨਾਂ ਸੈਟਿੰਗਾਂ ਲਈ ਹੈ ਜਿੱਥੇ ਅਸੀਂ ਮਾਡਲਾਂ ਨੂੰ ਦੱਸਦੇ ਹਾਂ ਕਿ ਉਹਨਾਂ ਦੀ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਲਈ ਜਾਂਚ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ.
CoT-Control ਦੇ ਕੰਮ ਵਿਹਾਰਿਕ proxy ਹਨ: ਇੱਕ ਆਦਰਸ਼ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਮੁਲਾਂਕਣ ਵਿੱਚ ਇਹ ਜਾਂਚਣਾ ਸ਼ਾਮਲ ਹੋਵੇਗਾ ਕਿ ਕੀ ਉਹ ਮਾਡਲ ਜੋ ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ misaligned ਲਕਸ਼ਾਂ ਦਾ ਪਿੱਛਾ ਕਰਦੇ ਹਨ, ਨਿਗਰਾਨੀ ਤੋਂ ਬਚਣ ਲਈ ਆਪਣੀ CoT ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰ ਸਕਦੇ ਹਨ. ਇਸ ਦੀ ਬਜਾਏ, ਅਸੀਂ ਏਜੰਟਾਂ ਦੀ ਆਪਣੀਆਂ CoT ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਦਾ ਅੰਦਾਜ਼ਾ ਉਹਨਾਂ ਦੀ ਆਪਣੀ CoT ਬਾਰੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਮਾਪ ਕੇ ਲਗਾਉਂਦੇ ਹਾਂ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮਾਡਲ ਆਪਣੀ CoT ਦੀਆਂ ਕੁਝ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਹੋਰਨਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਨਿਯੰਤਰਿਤ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ CoT-Control ਸਿਰਫ ਨਿਯੰਤਰਣਯੋਗਤਾ ਦੀਆਂ ਇਕ ਸੰਕੀਰਨ ਕਿਸਮਾਂ ਨੂੰ ਮਾਪਣ ਕਰਕੇ ਇਸਦਾ ਵੱਧ ਜਾਂ ਘੱਟ ਅੰਦਾਜ਼ਾ ਲਗਾ ਸਕਦਾ ਹੈ.
ਘੱਟ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਇੱਕ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ, ਖ਼ਾਮੀ ਨਹੀਂ. ਮੌਜੂਦਾ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਘੱਟ ਨਿਯੰਤਰਣਯੋਗਤਾ CoT ਨਿਗਰਾਨੀ ਨੂੰ ਇੱਕ ਸੁਰੱਖਿਆ ਉਪਾਇ ਵਜੋਂ ਹੋਰ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦੀ ਹੈ. ਇਸੇ ਨਾਲ, ਅਸੀਂ ਅਜੇ ਤੱਕ ਇਹ ਨਹੀਂ ਸਮਝਦੇ ਕਿ ਮੌਜੂਦਾ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀ ਨਿਯੰਤਰਣਯੋਗਤਾ ਘੱਟ ਕਿਉਂ ਹੈ—ਜਾਂ ਕੀ ਇਹ ਗੁਣ ਉਸ ਵੇਲੇ ਵੀ ਬਣਿਆ ਰਹੇਗਾ ਜਦੋਂ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਬਣਣਗੇ. ਇਸ ਲਈ, CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਮੁਲਾਂਕਣਾਂ ਨੂੰ canary eval ਵਜੋਂ ਵੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ: ਇਸ ਗੱਲ ਦਾ ਸ਼ੁਰੂਆਤੀ ਚੇਤਾਵਨੀ ਸੰਕੇਤ ਕਿ ਕੀ ਮਾਡਲ ਆਪਣੀ ਰੀਜ਼ਨਿੰਗ ਨੂੰ ਆਕਾਰ ਦੇਣ ਜਾਂ ਓਹਲੇ ਕਰਨ ਵਿੱਚ ਬਿਹਤਰ ਹੋ ਰਹੇ ਹਨ.
ਸਾਡੇ ਨਤੀਜੇ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ CoT ਨਿਗਰਾਨੀਯੋਗਤਾ ਲਈ ਵੱਡਾ ਖਤਰਾ ਬਣਨ ਦੀ ਸੰਭਾਵਨਾ ਨਹੀਂ ਰੱਖਦੀ. ਹਾਲਾਂਕਿ, ਸਿਰਫ ਘੱਟ ਨਿਯੰਤਰਣਯੋਗਤਾ ਆਪਣੇ ਆਪ ਵਿੱਚ ਉੱਚ ਨਿਗਰਾਨੀਯੋਗਤਾ ਦੀ ਗਾਰੰਟੀ ਦੇਣ ਲਈ ਕਾਫੀ ਨਹੀਂ ਹੈ, ਕਿਉਂਕਿ ਨਿਗਰਾਨੀਯੋਗਤਾ ਹੋਰ ਮਕੈਨਿਜ਼ਮਾਂ ਕਰਕੇ ਵੀ ਘਟ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ CoT ਉੱਤੇ ਸਿੱਧਾ optimization pressure.
ਸਮੇਂ ਦੇ ਨਾਲ ਇਹ ਗਤੀਵਿਧੀਆਂ ਟ੍ਰੈਕ ਕਰਨ ਵਿੱਚ ਮਦਦ ਲਈ, ਅਸੀਂ ਭਵਿੱਖ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਲਈ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ CoT ਨਿਗਰਾਨੀਯੋਗਤਾ ਦੇ ਨਾਲ CoT ਨਿਯੰਤਰਣਯੋਗਤਾ ਦੀ ਰਿਪੋਰਟਿੰਗ ਸ਼ੁਰੂ ਕਰਨ ਜਾ ਰਹੇ ਹਾਂ, GPT‑5.4 Thinking ਤੋਂ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ, ਅਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀਆਂ CoT ਉੱਤੇ ਸਿੱਧਾ optimization pressure ਨਾ ਲਗਾਉਣ ਦੀ ਸਾਡੀ ਜਾਰੀ ਵਚਨਬੱਧਤਾ 'ਤੇ ਆਧਾਰਿਤ.
ਲੇਖਕ
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


