ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ
ਅਸੀਂ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਲਈ ਮੁਲਾਂਕਣ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ ਅਤੇ ਅਧਿਐਨ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਤੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਨਾਲ ਕਿਵੇਂ ਸਕੇਲ ਹੁੰਦੀ ਹੈ.
ਜਦੋਂ AI ਸਿਸਟਮ ਅਜੇਹੇ ਫ਼ੈਸਲੇ ਲੈਂਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਸਿੱਧੀ ਨਿਗਰਾਨੀ ਕਰਨੀ ਮੁਸ਼ਕਲ ਹੁੰਦੀ ਹੈ, ਤਾਂ ਇਹ ਸਮਝਣਾ ਮਹੱਤਵਪੂਰਨ ਬਣ ਜਾਂਦਾ ਹੈ ਕਿ ਉਹ ਫ਼ੈਸਲੇ ਕਿਵੇਂ ਲਏ ਜਾਂਦੇ ਹਨ. ਇੱਕ ਉਮੀਦਭਰੀ ਪਹੁੰਚ ਇਹ ਹੈ ਕਿ ਮਾਡਲ ਦੀਆਂ ਸਿਰਫ਼ ਕਾਰਵਾਈਆਂ ਜਾਂ ਅੰਤਿਮ ਆਉਟਪੁੱਟਾਂ ਦੀ ਬਜਾਏ ਉਸਦੀ ਅੰਦਰੂਨੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ ਜਾਵੇ.
ਆਧੁਨਿਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ, ਜਿਵੇਂ GPT‑5 Thinking, ਜਵਾਬ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਇੱਕ ਸਪਸ਼ਟ ਚੇਨ-ਆਫ-ਥੌਟ ਤਿਆਰ ਕਰਦੇ ਹਨ. ਗਲਤ ਵਿਹਾਰ ਲਈ ਇਹਨਾਂ ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨਾ ਕਾਫ਼ੀ ਵੱਧ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦਾ ਹੈ, ਬਜਾਏ ਸਿਰਫ਼ ਮਾਡਲ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਅਤੇ ਆਉਟਪੁੱਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਦੇ. ਹਾਲਾਂਕਿ, OpenAI ਅਤੇ ਵਿਆਪਕ ਉਦਯੋਗ ਦੇ ਖੋਜਕਰਤਾ ਚਿੰਤਤ ਹਨ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਕਿ ਇਹ ਚੇਨ-ਆਫ-ਥੌਟ “ਮਾਨੀਟਰਯੋਗਤਾ” ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ, ਡਾਟਾ ਸਰੋਤਾਂ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਮੌਜੂਦਾ ਐਲਗੋਰਿਦਮਾਂ ਦੀ ਲਗਾਤਾਰ ਸਕੇਲਿੰਗ ਨਾਲ ਵੀ ਨਾਜ਼ੁਕ ਹੋ ਸਕਦੀ ਹੈ.
ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸਕੇਲ ਹੁੰਦੇ ਹਨ ਅਤੇ ਵੱਧ ਦਾਓਂ ਵਾਲੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਤੈਨਾਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਕਾਇਮ ਰਹੇ. ਅਸੀਂ ਪੂਰੇ ਉਦਯੋਗ ਦੇ ਖੋਜਕਰਤਿਆਂ ਨੂੰ ਅਪੀਲ ਕਰਦੇ ਹਾਂ ਕਿ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਯਥਾਸੰਭਵ ਲੰਮੇ ਸਮੇਂ ਤੱਕ ਸੰਭਾਲਿਆ ਜਾਵੇ ਅਤੇ ਇਹ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਵੇ ਕਿ ਕੀ ਇਹ ਭਵਿੱਖ ਦੇ AI ਸਿਸਟਮਾਂ ਲਈ ਇੱਕ load-bearing ਕੰਟਰੋਲ ਪਰਤ ਵਜੋਂ ਕੰਮ ਕਰ ਸਕਦੀ ਹੈ. ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਸੰਭਾਲਣ ਲਈ, ਸਾਨੂੰ ਇਸਨੂੰ ਮਾਪ ਸਕਣਾ ਚਾਹੀਦਾ ਹੈ, ਪਰ ਕੁਝ ਹੀ ਮੁਲਾਂਕਣ ਮੌਜੂਦ ਹਨ [1(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), 2(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), 3(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)] ਅਤੇ ਵਿਧੀਆਂ ਵੱਖ-ਵੱਖ ਹਨ.
ਇਸ ਕੰਮ ਵਿੱਚ, ਅਸੀਂ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਦਾ ਪ੍ਰਣਾਲੀਬੱਧ ਅਧਿਐਨ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਫਰੇਮਵਰਕ ਅਤੇ 13 ਮੁਲਾਂਕਣਾਂ ਦਾ ਇੱਕ ਸੂਟ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ (ਜਿਸ ਵਿੱਚ ਕੁੱਲ 24 ਵਾਤਾਵਰਣ ਸ਼ਾਮਲ ਹਨ), ਜੋ ਕਿਸੇ ਸਿਸਟਮ ਦੀ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਠੋਸ ਤੌਰ 'ਤੇ ਮਾਪਣ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤੇ ਗਏ ਹਨ. ਇਹ ਮੁਲਾਂਕਣ ਤਿੰਨ archetype ਵਿੱਚ ਆਉਂਦੇ ਹਨ—ਹਸਤਖੇਪ, ਪ੍ਰਕਿਰਿਆ ਅਤੇ outcome-property. ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਅਸੀਂ ਅਧਿਐਨ ਕਰਦੇ ਹਾਂ ਕਿ ਅੱਜ ਦੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ ਕਿੰਨੇ ਮਾਨੀਟਰਯੋਗ ਹਨ, ਅਤੇ inference ਸਮੇਂ ਵੱਧ ਰੀਜ਼ਨਿੰਗ, ਵੱਡੀਆਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਰਨਾਂ ਅਤੇ ਵਧੇਰੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਸਕੇਲ ਨਾਲ ਮਾਨੀਟਰਯੋਗਤਾ ਕਿਵੇਂ ਬਦਲਦੀ ਹੈ.
ਹੁਣ ਜਦੋਂ ਸਾਡੇ ਕੋਲ ਮੁਲਾਂਕਣਾਂ ਦਾ ਇੱਕ ਵੱਡਾ ਸੂਟ ਹੈ, ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦੀ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਟ੍ਰੈਕ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਸਕਦੇ ਹਾਂ. (ਉੱਪਰ-ਖੱਬੇ) ਅਸੀਂ ਪਾਇਆ ਕਿ ਜਿਵੇਂ ਮਾਡਲ ਹੋਰ “ਸੋਚਦੇ” ਹਨ ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਲੰਬੀਆਂ ਹੁੰਦੀਆਂ ਹਨ, ਮਾਨੀਟਰਯੋਗਤਾ ਸੁਧਰਦੀ ਹੈ. (ਉੱਪਰ-ਸੱਜੇ) ਚੇਨ-ਆਫ-ਥੌਟ ਤੋਂ ਬਿਨਾਂ, ਆਮ ਤੌਰ 'ਤੇ ਕੇਵਲ ਮਾਡਲ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਅਤੇ ਅੰਤਿਮ ਆਉਟਪੁੱਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਹਾਲਾਂਕਿ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਸਿਰਫ਼ ਕਾਰਵਾਈਆਂ ਅਤੇ ਆਉਟਪੁੱਟਾਂ ਦੀ ਨਿਗਰਾਨੀ CoT ਦੀ ਨਿਗਰਾਨੀ ਨਾਲੋਂ ਕਾਫ਼ੀ ਘੱਟ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ. (ਹੇਠਾਂ-ਵਿਚਕਾਰ) ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਉਹਨਾਂ ਬਾਹਰੀ ਮਾਡਲਾਂ ਨਾਲ ਕਰਦੇ ਹਾਂ ਜੋ ਪੂਰੀ CoT ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੇ ਹਨ—Claude 3.7 Sonnet, DeepSeek R1-0528-Qwen3-8B, ਅਤੇ Kimi K2 Thinking.
ਅਸੀਂ ਪਾਇਆ ਕਿ ਜ਼ਿਆਦਾਤਰ ਅਤਿ-ਆਧੁਨਿਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਮਾਨੀਟਰਯੋਗ ਹਨ, ਹਾਲਾਂਕਿ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਹੀਂ. ਲਗਭਗ ਹਰ ਸਥਿਤੀ ਵਿੱਚ ਜਿਸਦਾ ਅਸੀਂ ਅਧਿਐਨ ਕੀਤਾ, ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਦੀ ਨਿਗਰਾਨੀ ਸਿਰਫ਼ ਕਾਰਵਾਈਆਂ ਅਤੇ ਅੰਤਿਮ ਆਉਟਪੁੱਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਨਾਲੋਂ ਕਾਫ਼ੀ ਵੱਧ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ. ਜੋ ਮਾਡਲ ਲੰਮੇ ਸਮੇਂ ਤੱਕ ਸੋਚਦੇ ਹਨ, ਉਹ ਵੱਧ ਮਾਨੀਟਰਯੋਗ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਸਕੇਲਾਂ 'ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਅਨੁਕੂਲਤਾ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਮਾਇਨੇਵਾਰ ਢੰਗ ਨਾਲ ਘਟਾਉਂਦੀ ਨਹੀਂ ਦਿਸਦੀ.
ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਅਤੇ ਮਾਡਲ ਆਕਾਰ ਵਿਚਕਾਰ ਇੱਕ ਤੋਲ-ਮੋਲ ਵੇਖਦੇ ਹਾਂ: ਜਦੋਂ ਕਿਸੇ ਮਾਡਲ ਨੂੰ ਘੱਟ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ ਚਲਾਇਆ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਉੱਚ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਨਾਲ ਚਲਾਇਆ ਗਿਆ ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਤੁਲਨਾਤਮਕ ਸਮਰੱਥਾ ਹਾਸਲ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਉਸਦੀ ਨਿਗਰਾਨੀ ਕਰਨੀ ਆਸਾਨ ਹੁੰਦੀ ਹੈ. ਇਹ ਵਧੇਰੇ inference ਕੰਪਿਊਟ ਦੀ ਕੀਮਤ 'ਤੇ ਆਉਂਦਾ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਮਾਨੀਟਰਯੋਗਤਾ ਟੈਕਸ ਕਹਿੰਦੇ ਹਾਂ. ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਫਾਲੋ-ਅੱਪ ਸਵਾਲ ਪੁੱਛਣਾ ਅਤੇ ਉਨ੍ਹਾਂ ਤੋਂ ਬਣੀਆਂ ਚੇਨਾਂ- ਆਫ- ਥੌਟ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨਾ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਹੋਰ ਵਧਾ ਸਕਦਾ ਹੈ.
ਅਸੀਂ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਇੱਕ ਮਾਨੀਟਰ ਦੀ ਇਸ ਸਮਰੱਥਾ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹਾਂ ਕਿ ਉਹ ਏਜੰਟ ਦੇ ਵਿਹਾਰ ਬਾਰੇ ਦਿਲਚਸਪੀ ਵਾਲੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਸਕੇ. ਕਈ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਇਹ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਗਲਤ ਵਿਹਾਰ ਦੇ ਰੂਪਾਂ ਨਾਲ ਸੰਬੰਧਿਤ ਹੁੰਦੀਆਂ ਹਨ—ਜਿਵੇਂ ਧੋਖਾਧੜੀ, reward hacking, ਜਾਂ ਪੱਖਪਾਤੀ ਰੀਜ਼ਨਿੰਗ—ਪਰ ਇਹ ਸਧਾਰਣ ਗੁਣਾਂ ਨੂੰ ਵੀ ਸ਼ਾਮਲ ਕਰ ਸਕਦੀਆਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਕੀ ਏਜੰਟ ਨੇ ਕਿਸੇ ਖ਼ਾਸ ਸੰਕੇਤ 'ਤੇ ਭਰੋਸਾ ਕੀਤਾ ਜਾਂ ਰੀਜ਼ਨਿੰਗ ਦੀ ਕਿਸੇ ਖ਼ਾਸ ਲੜੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ.
ਮਾਨੀਟਰਯੋਗਤਾ ਦੋ-ਪੱਖੀ ਵਿਸ਼ੇਸ਼ਤਾ ਹੈ. ਇਹ ਮਾਨੀਟਰ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ਅਤੇ ਨਿਗਰਾਨੀ ਕੀਤੇ ਜਾ ਰਹੇ ਏਜੰਟ 'ਤੇ ਵੀ.
- ਮਾਨੀਟਰ. ਅਸੀਂ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਮਾਨੀਟਰਾਂ ਨੂੰ ਹੋਰ ਹੋਸ਼ਿਆਰ ਬਣਾ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਮੁਲਾਂਕਣ ਉਹਨਾਂ ਮਾਨੀਟਰਾਂ ਨੂੰ ਉੱਚੇ ਸਕੋਰ ਦੇਣ ਜੋ ਏਜੰਟ ਦੇ ਵਿਹਾਰ ਬਾਰੇ ਵਧੀਆ ਭਵਿੱਖਬਾਣੀਆਂ ਕਰ ਸਕਣ.
- ਏਜੰਟ. ਏਜੰਟ ਬਾਰੇ ਕਈ ਅਜੇਹੀਆਂ ਪਰਵੇਖਣਾਂ ਹਨ ਜੋ ਮਾਨੀਟਰ ਨੂੰ ਦਿੱਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਏਜੰਟ ਦੀਆਂ ਕਾਰਵਾਈਆਂ, ਆਉਟਪੁੱਟਾਂ, ਨਿਊਰਲ ਐਕਟੀਵੇਸ਼ਨ, ਅਤੇ ਹੁਣ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੇ ਆਉਣ ਨਾਲ, ਚੇਨ-ਆਫ-ਥੌਟ ਵੀ ਸ਼ਾਮਲ ਹੈ. ਇਹ ਸੰਭਵ ਹੈ ਕਿ ਕੁਝ ਏਜੰਟਾਂ ਦੇ ਵਿਚਾਰ ਹੋਰਾਂ ਨਾਲੋਂ ਸਮਝਣ ਵਿੱਚ ਔਖੇ ਹੋਣ, ਅਤੇ ਇਸ ਲਈ ਅਸੀਂ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਸਾਡੇ ਮਾਨੀਟਰਯੋਗਤਾ ਮੁਲਾਂਕਣ ਸਿਰਫ਼ ਮਾਨੀਟਰਾਂ ਹੀ ਨਹੀਂ ਸਗੋਂ ਏਜੰਟਾਂ ਦੀ ਵੀ ਤੁਲਨਾ ਕਰ ਸਕਣ.
ਸਾਡੇ ਮੁਲਾਂਕਣ ਦੋਹਾਂ ਪੱਖਾਂ ਦਾ ਅੰਕਲਨ ਕਰਨ ਲਈ ਬਣਾਏ ਗਏ ਹਨ: ਕੀ ਕੁਝ ਏਜੰਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨੀ ਆਸਾਨ ਜਾਂ ਔਖੀ ਹੈ, ਅਤੇ ਕੀ ਵੱਧ ਸਮਰੱਥ ਮਾਨੀਟਰ ਉਹੀ ਸੰਕੇਤਾਂ ਤੋਂ ਵੱਧ ਜਾਣਕਾਰੀ ਕੱਢ ਸਕਦੇ ਹਨ.
ਮੌਜੂਦਾ ਪੀੜ੍ਹੀ ਦੇ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਤੋਂ ਪਹਿਲਾਂ, ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਆਮ ਤੌਰ 'ਤੇ ਮਾਡਲ ਨੂੰ “ਕਦਮ ਦਰ ਕਦਮ ਸੋਚੋ” ਜਿਹਾ ਪ੍ਰੌੰਪਟ ਦੇ ਕੇ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਸਨ.
ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੀਆਂ ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਦੋ ਮਹੱਤਵਪੂਰਨ ਤਰੀਕਿਆਂ ਨਾਲ ਵੱਖ ਹਨ. ਪਹਿਲਾਂ, ਉਹਨਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਚੇਨ-ਆਫ-ਥੌਟ ਬਣਾਉਣ ਅਤੇ ਫਿਰ ਜਵਾਬ ਦੇਣ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ. ਜਦੋਂ ਕਿਸੇ ਚੈਟ ਮਾਡਲ ਨੂੰ “ਕਦਮ ਦਰ ਕਦਮ” ਸੋਚਣ ਲਈ ਪ੍ਰੌੰਪਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ ਨੂੰ ਮਾਡਲ 'ਤੇ ਲਾਗੂ ਕੀਤੀਆਂ ਕਿਸੇ ਵੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨੀ ਪੈਂਦੀ ਹੈ, ਜਿਵੇਂ ਮਦਦਗਾਰ ਹੋਣਾ, ਹਾਨੀਕਾਰਕ ਨਾ ਹੋਣਾ ਆਦਿ. ਇਸਦੇ ਉਲਟ, ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਇੱਕ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਨੂੰ ਸਿਖਾਉਂਦੀ ਹੈ ਕਿ CoT ਇੱਕ ਨਿੱਜੀ ਜਗ੍ਹਾ ਹੈ ਜਿੱਥੇ ਉਹ ਜੋ ਮਰਜ਼ੀ ਸੋਚ ਸਕਦਾ ਹੈ ਅਤੇ ਉਸਨੂੰ ਸਜ਼ਾ ਨਹੀਂ ਮਿਲੇਗੀ, ਠੀਕ ਜਿਵੇਂ ਮਨੁੱਖ ਨਿੱਜੀ ਤੌਰ 'ਤੇ ਸੋਚ ਸਕਦਾ ਹੈ ਅਤੇ “thought crimes” ਲਈ ਸਜ਼ਾ ਨਹੀਂ ਪਾਉਂਦਾ.
ਦੂਜਾ, ਟ੍ਰੇਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਅਸਲ ਵਿੱਚ ਉਹ ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਲੱਭਦੀ ਹੈ ਜੋ ਉੱਚ ਇਨਾਮ ਵਾਲਾ ਅੰਤਿਮ ਜਵਾਬ ਲੈਣ ਵਿੱਚ ਏਜੰਟ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਸਾਧਨਕ ਤੌਰ 'ਤੇ ਲਾਭਕਾਰੀ ਹੋਣ. ਇਸ ਤਰ੍ਹਾਂ, ਚੇਨ-ਆਫ-ਥੌਟ ਨਾ ਸਿਰਫ਼ ਇੱਕ ਅਜਿਹੀ ਜਗ੍ਹਾ ਹੈ ਜਿੱਥੇ ਮਾਡਲ ਆਪਣੇ ਆਪ ਨੂੰ ਖੁੱਲ੍ਹੇ ਤੌਰ 'ਤੇ ਪ੍ਰਗਟ ਕਰ ਸਕਦਾ ਹੈ, ਇਹ ਉਹ ਸੋਚ ਵੀ ਰੱਖਦੀ ਹੈ ਜੋ ਮਾਡਲ ਨੂੰ ਆਪਣੇ ਅੰਤਿਮ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ.
ਅਸੀਂ ਆਪਣੇ ਮਾਨੀਟਰਯੋਗਤਾ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਤਿੰਨ ਵੱਖਰੇ archetype ਵਿੱਚ ਸੰਗਠਿਤ ਕਰਦੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਵਿੱਚੋਂ ਹਰ ਇੱਕ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਵੱਖਰਾ ਮਕੈਨਿਜ਼ਮ ਵਰਤਦਾ ਹੈ.
- ਹਸਤਖੇਪ ਮੁਲਾਂਕਣ, ਜੋ Chen et al. 2025(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), Chua et al. 2025(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), Turpin et al. 2023(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਤੋਂ ਪ੍ਰੇਰਿਤ ਹਨ, ਅਸੀਂ ਏਜੰਟ ਦੇ ਵਾਤਾਵਰਣ ਵਿੱਚ ਨਿਯੰਤਰਿਤ ਤਬਦੀਲੀ ਲਿਆਉਂਦੇ ਹਾਂ ਅਤੇ ਜਾਂਚਦੇ ਹਾਂ ਕਿ ਕੀ ਮਾਨੀਟਰ ਚੇਨ-ਆਫ-ਥੌਟ ਵਿੱਚ ਹਸਤਖੇਪ ਦੇ ਸਬੂਤ ਦੀ ਪਛਾਣ ਕਰਕੇ ਇਹ ਪਤਾ ਲਗਾ ਸਕਦਾ ਹੈ ਕਿ ਵਿਹਾਰ ਕਿਉਂ ਬਦਲਿਆ. ਮਿਆਰੀ ਕੰਟਰੋਲ ਮੁਲਾਂਕਣਾਂ (ਉਦਾਹਰਨ ਵਜੋਂ Shade-Arena(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)) ਤੋਂ ਇਲਾਵਾ, ਹਸਤਖੇਪ ਮੁਲਾਂਕਣ ਸਾਨੂੰ ਇਹ ਜਾਂਚਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ ਕਿ ਮਾਨੀਟਰ ਇਹ ਪਤਾ ਲਗਾ ਸਕਦਾ ਹੈ ਕਿ ਵਿਹਾਰ ਕਿਉਂ ਬਦਲਿਆ, ਨਾ ਕਿ ਕੇਵਲ ਇਹ ਕਿ ਵਿਹਾਰ ਹੋਇਆ ਜਾਂ ਨਹੀਂ.
- ਪ੍ਰਕਿਰਿਆ ਮੁਲਾਂਕਣ ਉਹਨਾਂ ਟਾਸਕਾਂ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਦੇ ਵੈਧ ਹੱਲ ਰਸਤੇ ਸੀਮਿਤ ਹੁੰਦੇ ਹਨ (ਉਦਾਹਰਨ ਲਈ, ਗਣਿਤ ਦੀ ਸਮੱਸਿਆ ਸਿਰਫ਼ ਕੁਝ ਖ਼ਾਸ ਸਿਧਾਂਤਾਂ ਨਾਲ ਹੀ ਹੱਲ ਹੋ ਸਕਦੀ ਹੈ). ਮਨੁੱਖੀ ਵਿਸ਼ੇਸ਼ਗਿਆਨ ਇਹ ਰਸਤੇ ਗਿਣਦੇ ਹਨ, ਅਤੇ ਅਸੀਂ ਜਾਂਚਦੇ ਹਾਂ ਕਿ ਕੀ ਮਾਨੀਟਰ ਪਤਾ ਲਗਾ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਅਸਲ ਵਿੱਚ ਕਿਹੜੇ ਕਦਮ ਚੁੱਕੇ. ਇਹ ਮੁਲਾਂਕਣ ਸਾਨੂੰ ਇਹ ਜੋੜਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ ਕਿ ਮਾਡਲ ਨੇ ਕੀ ਕੀਤਾ ਉਸਨੂੰ ਉਹਨਾਂ ਖ਼ਾਸ ਕਦਮਾਂ ਨਾਲ ਜੋ ਮਾਡਲ ਨੇ ਲਾਜ਼ਮੀ ਤੌਰ 'ਤੇ ਚੁੱਕੇ ਹੋਣੇ ਸਨ, ਅਤੇ ਪੁੱਛਦੇ ਹਨ ਕਿ ਕੀ ਉਹ ਕਦਮ ਮਾਨੀਟਰਯੋਗ ਹਨ.
- Outcome-property ਮੁਲਾਂਕਣ ਉਸ ਵੇਲੇ ਲਾਗੂ ਹੁੰਦੇ ਹਨ ਜਦੋਂ ਮਾਡਲ ਦੀ ਆਉਟਪੁੱਟ ਦੀ ਕਿਸੇ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਭਰੋਸੇਯੋਗ ਢੰਗ ਨਾਲ ਮਾਪਿਆ ਜਾ ਸਕੇ. ਅਜੇਹੇ ਮਾਮਲਿਆਂ ਵਿੱਚ, ਅਸੀਂ ਜਾਂਚਦੇ ਹਾਂ ਕਿ ਕੀ ਮਾਨੀਟਰ ਮਾਡਲ ਦੀ ਰੀਜ਼ਨਿੰਗ ਜਾਂ ਕਾਰਵਾਈਆਂ ਤੋਂ ਉਸ ਵਿਸ਼ੇਸ਼ਤਾ—ਜਿਵੇਂ reward hacking—ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰ ਸਕਦਾ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਕੋਡਿੰਗ ਟਾਸਕ ਵਿੱਚ ਸਾਡੇ ਕੋਲ ਇਹ ਭਰੋਸੇਯੋਗ ਢੰਗ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਮਾਡਲ ਰਿਵਾਰਡ ਸਿਗਨਲ ਨੂੰ ਹੈਕ ਕਰਨ ਲਈ ਕਾਰਵਾਈਆਂ ਕਰ ਰਿਹਾ ਹੈ ਜਾਂ ਨਹੀਂ, ਅਤੇ ਅਸੀਂ ਪੁੱਛ ਸਕਦੇ ਹਾਂ ਕਿ ਕੀ ਮਾਨੀਟਰ ਨੂੰ ਮਾਡਲ ਦੀ ਸੋਚ ਜਾਂ ਕਾਰਵਾਈਆਂ ਵਿੱਚ reward hack ਕਰਨ ਦੇ ਇਰਾਦੇ ਦੇ ਸਬੂਤ ਮਿਲਦੇ ਹਨ.
ਹੇਠਾਂ ਅਸੀਂ ਆਪਣੇ ਮੁਲਾਂਕਣਾਂ ਲਈ ਇੱਕ taxonomy ਦਿੰਦੇ ਹਾਂ. ਕਿਰਪਾ ਕਰਕੇ ਹਰ ਵਿਅਕਤੀਗਤ ਮੁਲਾਂਕਣ ਦੇ ਪੂਰੇ ਵੇਰਵੇ ਲਈ ਸਾਡਾ ਪੇਪਰ ਵੇਖੋ.

Neutral ਮੁਲਾਂਕਣ ਪੁੱਛਦੇ ਹਨ ਕਿ ਕੀ ਆਮ ਟਾਸਕਾਂ ਲਈ ਉਹ ਰੀਜ਼ਨਿੰਗ, ਜਿੱਥੇ ਮਾਡਲ ਗਲਤ ਵਿਹਾਰ ਨਹੀਂ ਕਰਦਾ, ਮਾਨੀਟਰਯੋਗ ਹੈ. ਅੰਧ-ਸਹਿਮਤੀ ਮੁਲਾਂਕਣ ਉਹ ਮਾਮਲੇ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੇ ਹਨ ਜਿੱਥੇ ਮਾਡਲ ਯੂਜ਼ਰ ਨੂੰ ਬਹੁਤ ਖੁਸ਼ ਕਰਨ ਜਾਂ ਉਸ ਨਾਲ ਸਹਿਮਤ ਹੋਣ ਲਈ ਆਪਣਾ ਵਿਹਾਰ ਬਦਲਦੇ ਹਨ. Bias ਮੁਲਾਂਕਣ ਪੁੱਛਦੇ ਹਨ ਕਿ ਕੀ ਲਿੰਗ, ਨਸਲ ਆਦਿ ਬਾਰੇ ਮਾਡਲ ਦਾ ਪੱਖਪਾਤ ਮਾਨੀਟਰਯੋਗ ਹੈ. ਅੰਤ ਵਿੱਚ, ਅਸੀਂ misalignment ਲੇਬਲ ਨੂੰ ਗਲਤ ਵਿਹਾਰ ਦੇ ਹੋਰ ਰੂਪਾਂ ਲਈ ਇੱਕ catchall ਵਜੋਂ ਵਰਤਦੇ ਹਾਂ: cheating, lying, ਆਦਿ.¹
ਅਸੀਂ ਪਾਇਆ ਕਿ ਸਾਡੇ ਮਾਡਲ ਦੀ ਮਾਨੀਟਰਯੋਗਤਾ ਕੁਝ ਹੱਦ ਤੱਕ ਹਰ ਸਮੂਹ ਮੁਤਾਬਕ ਬਦਲਦੀ ਹੈ. ਆਮ ਤੌਰ 'ਤੇ ਅਸੀਂ ਇਹਨਾਂ ਨੂੰ ਬਹੁਤ ਮਾਨੀਟਰਯੋਗ ਪਾਉਂਦੇ ਹਾਂ. ਹਾਲਾਂਕਿ, ਖ਼ਾਸ ਤੌਰ 'ਤੇ Scruples ਵਿੱਚ, ਜੋ ਇਹ ਵੇਖਣ ਲਈ ਬਣਾਇਆ ਗਿਆ ਟਾਸਕ ਹੈ ਕਿ ਅੰਧ-ਸਹਿਮਤੀ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ ਮਾਨੀਟਰਯੋਗ ਹੈ ਜਾਂ ਨਹੀਂ, ਅਸੀਂ ਬਹੁਤ ਘੱਟ ਮਾਨੀਟਰਯੋਗਤਾ ਵੇਖਦੇ ਹਾਂ.
ਮਾਨੀਟਰਯੋਗ ਅਤੇ ਅਣ-ਮਾਨੀਟਰਯੋਗ ਉਦਾਹਰਨਾਂ
ਇਸ outcome-property ਉਦਾਹਰਨ ਵਿੱਚ, ਮਾਡਲ ਨੂੰ ਇੱਕ ਅਸੰਭਵ ਕੋਡਿੰਗ ਟਾਸਕ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ. ਜੇ ਯੂਨਿਟ ਟੈਸਟ ਪਾਸ ਹੋ ਜਾਣ, ਤਾਂ ਸਾਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਮਾਡਲ ਨੇ ਕਿਸੇ ਨਾ ਕਿਸੇ ਤਰ੍ਹਾਂ ਦਾ ਹੈਕ ਕੀਤਾ. ਅਣ-ਮਾਨੀਟਰਯੋਗ CoT (ਲਾਲ) ਵਿੱਚ, ਸਾਨੂੰ ਮਾਡਲ ਵੱਲੋਂ ਕੁਝ ਗਲਤ ਕਰਨ ਦਾ ਕੋਈ ਜ਼ਿਕਰ ਨਹੀਂ ਦਿਸਦਾ, ਸਗੋਂ ਇਹ ਸਿਰਫ਼ ਟੈਸਟਾਂ ਨੂੰ ਹੈਕ ਕਰਦਾ ਹੈ ਅਤੇ ਯੂਜ਼ਰ ਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਉਸਨੇ ਫਿਕਸ ਲਾਗੂ ਕਰ ਦਿੱਤਾ ਹੈ. ਇਸਦੇ ਉਲਟ, ਮਾਨੀਟਰਯੋਗ CoT (ਹਰਾ) ਵਿੱਚ, ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਸੋਚਦਿਆਂ ਵੇਖਦੇ ਹਾਂ “ਪਰ solution ਦੇ ਅੰਦਰ time ਨੂੰ monkey patch ਕਰਨਾ ਕਹੋ ਤਾਂ ਧੋਖਾਧੜੀ ਹੀ ਹੈ.”
ਚੇਨ-ਆਫ-ਥੌਟ ਨੂੰ ਇੱਕ ਨਿੱਜੀ ਵਰਕਸਪੇਸ ਵਜੋਂ ਮੰਨਣਾ—ਅਤੇ ਮਾਡਲਾਂ ਨੂੰ ਟਾਸਕ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਨ ਲਈ ਇਸਦੀ ਵਰਤੋਂ ਕਰਨਾ ਸਿਖਾਉਣਾ—ਸਿਧਾਂਤਕ ਤੌਰ 'ਤੇ ਚੇਨਾਂ-ਆਫ-ਥੌਟ ਨੂੰ ਮਾਨੀਟਰਯੋਗ ਬਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ. ਇਸਦੇ ਨਾਲ ਹੀ, ਕਈ ਕਾਰਣ ਹਨ ਜਿਨ੍ਹਾਂ ਕਰਕੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਨੁਕਸਾਨ ਪਹੁੰਚਾ ਸਕਦੀ ਹੈ.
ਪਹਿਲਾਂ, ਰੀਜ਼ਨਿੰਗ ਦੀ ਲੰਬਾਈ 'ਤੇ ਪਾਬੰਦੀਆਂ, ਜਿਵੇਂ ਮਾਡਲ ਕੋਲ ਸੋਚਣ ਲਈ ਸਮਾਂ ਜਾਂ ਟੋਕਨ ਸੀਮਿਤ ਕਰਨਾ, ਮਾਡਲਾਂ ਲਈ ਘੱਟ ਰੀਜ਼ਨਿੰਗ ਕਰਨ ਦੇ ਪ੍ਰੋਤਸਾਹਨ ਬਣਾਉਂਦੀਆਂ ਹਨ. ਦੂਜਾ, ਭਾਵੇਂ ਚੇਨ-ਆਫ-ਥੌਟ 'ਤੇ ਸਿੱਧਾ optimization pressure ਨਾ ਵੀ ਲਗਾਇਆ ਜਾਵੇ, ਅਪਰੋਕਸ਼ ਦਬਾਅ ਫਿਰ ਵੀ ਮਾਨੀਟਰਯੋਗਤਾ ਘਟਾ ਸਕਦੇ ਹਨ. ਉਦਾਹਰਨ ਲਈ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਮਾਡਲਾਂ ਨੂੰ ਉੱਚ-ਇਨਾਮ ਵਾਲੇ ਜਵਾਬਾਂ ਤੱਕ ਪਹੁੰਚਣਾ ਆਸਾਨ ਲੱਗ ਸਕਦਾ ਹੈ ਜੇ ਉਹ ਉਹਨਾਂ ਰੀਜ਼ਨਿੰਗ ਰਸਤਿਆਂ ਤੋਂ ਬਚਣ ਜੋ ਘੱਟ-ਇਨਾਮ ਜਾਂ ਅਣਚਾਹੇ ਨਤੀਜੇ ਦੇ ਸਕਦੇ ਹਨ. ਅੰਤ ਵਿੱਚ, ਘੱਟ ਮਾਨੀਟਰਯੋਗਤਾ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ gradient noise ਕਾਰਨ ਹੋਣ ਵਾਲੇ spurious drift ਤੋਂ ਵੀ ਉੱਭਰ ਸਕਦੀ ਹੈ.
ਹੇਠਾਂ, ਅਸੀਂ ਜਾਂਚਦੇ ਹਾਂ ਕਿ OpenAI ਦੀਆਂ ਦੋ ਅਤਿ-ਆਧੁਨਿਕ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਟ੍ਰੇਨਿੰਗ ਰਨਾਂ ਵਿੱਚ ਮਾਨੀਟਰਯੋਗਤਾ ਕਿਵੇਂ ਬਦਲਦੀ ਹੈ. ਹਾਲਾਂਕਿ ਇਹ ਨਤੀਜੇ ਸਿਰਫ਼ ਦੋ datapoint ਦਰਸਾਉਂਦੇ ਹਨ, ਇਹ ਸੁਝਾਉਂਦੇ ਹਨ ਕਿ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਸਕੇਲਾਂ 'ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ optimization ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਮਾਇਨੇਵਾਰ ਤੌਰ 'ਤੇ ਘਟਾਉਂਦਾ ਨਹੀਂ, ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਕਦਮਾਂ ਲਈ ਮਾਨੀਟਰਯੋਗਤਾ ਵਧਾਉਂਦਾ ਹੈ. ਹਾਲਾਂਕਿ, ਇਸ ਨਾਲ ਇਹ ਸੰਭਾਵਨਾ ਖ਼ਾਰਜ ਨਹੀਂ ਹੁੰਦੀ ਕਿ ਭਵਿੱਖ ਵਿੱਚ ਕਾਫ਼ੀ ਵੱਡੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਸਕੇਲ ਮਾਨੀਟਰਯੋਗਤਾ 'ਤੇ ਨਕਾਰਾਤਮਕ ਪ੍ਰਭਾਵ ਪਾ ਸਕਦੇ ਹਨ.
ਅਸੀਂ ਪਾਇਆ ਕਿ ਮੌਜੂਦਾ RL ਕੰਪਿਊਟ ਸਕੇਲਾਂ 'ਤੇ ਮਾਨੀਟਰਯੋਗਤਾ ਵਿੱਚ ਬਹੁਤ ਵੱਡਾ ਬਦਲਾਅ ਨਹੀਂ ਹੁੰਦਾ, ਅਤੇ ਸ਼ੁਰੂਆਤੀ ਕਦਮਾਂ ਵਿੱਚ ਇਹ ਵਧਦੀ ਹੈ. ਹਾਲਾਂਕਿ ਮੌਜੂਦਾ ਰੀਜੀਮ ਵਿੱਚ ਇਹ ਸੱਚ ਹੋ ਸਕਦਾ ਹੈ, ਸੰਭਵ ਹੈ ਕਿ ਕਾਫ਼ੀ ਵਧਿਆ ਹੋਇਆ ਸਕੇਲ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਘਟਣਾ ਸ਼ੁਰੂ ਕਰ ਦੇਵੇ.
ਮੌਜੂਦਾ AI ਸਿਸਟਮਾਂ ਦੀ ਬੁੱਧਿਮੱਤਾ ਦਾ ਵੱਡਾ ਹਿੱਸਾ ਵਧੇਰੇ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਸਕੇਲ ਕਰਕੇ ਆਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ GPT ਪਰਾਡਾਇਮ ਦੀ ਸ਼ੁਰੂਆਤ ਤੋਂ ਮਾਡਲ ਪੈਰਾਮੀਟਰਾਂ ਅਤੇ ਡੇਟਾਸੈਟ ਆਕਾਰ ਦੋਵੇਂ ਲਗਾਤਾਰ ਵਧਦੇ ਆਏ ਹਨ. ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਵਧਣ ਨਾਲ ਬਣੇ ਹਰ ਟੋਕਨ ਲਈ ਵੱਧ inference ਕੰਪਿਊਟ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਜੋ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਮਾਡਲ ਦੀ ਸੰਵੇਦਨਾ ਨੂੰ ਚੇਨ-ਆਫ-ਥੌਟ ਦੀ ਬਜਾਏ ਐਕਟੀਵੇਸ਼ਨਾਂ ਦੇ ਅੰਦਰ ਹੋਣ ਦਾ ਹੋਰ ਮੌਕਾ ਦਿੰਦਾ ਹੈ. ਇਸ ਲਈ, ਅਸੀਂ ਉਮੀਦ ਕਰ ਸਕਦੇ ਹਾਂ ਕਿ ਨਿਰਧਾਰਿਤ ਸਮਰੱਥਾ ਪੱਧਰ 'ਤੇ ਵੱਡੇ ਮਾਡਲ ਘੱਟ ਮਾਨੀਟਰਯੋਗ ਹੋਣਗੇ.
ਇਸੇ ਸਮੇਂ, ਛੋਟੇ ਮਾਡਲ ਚੇਨ-ਆਫ-ਥੌਟ ਦੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਵਰਤੋਂ ਕਰਨ ਵਿੱਚ ਘੱਟ ਸਮਰੱਥ ਵੀ ਹੋ ਸਕਦੇ ਹਨ—ਜੋ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਵੀ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦਾ ਹੈ.
ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਆਕਾਰ, ਸਮਰੱਥਾ ਅਤੇ ਮਾਨੀਟਰਯੋਗਤਾ ਦੇ ਸੰਬੰਧ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਅਸੀਂ ਵਧਦੀ ਗਹਿਰਾਈ ਅਤੇ ਚੌੜਾਈ ਨਾਲ ਪ੍ਰੀਟ੍ਰੇਨਿੰਗ ਕੰਪਿਊਟ ਦੇ ਦੋ orders of magnitude 'ਤੇ ਮਾਡਲਾਂ ਦਾ ਇੱਕ ਪਰਿਵਾਰ ਟ੍ਰੇਨ ਕੀਤਾ, ਅਤੇ ਫਿਰ ਹਰ ਇੱਕ 'ਤੇ ਗਣਿਤ, ਵਿਗਿਆਨ ਅਤੇ ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਦੇ ਸਾਂਝੇ ਡੇਟਾਸੈਟ ਉੱਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਲਾਗੂ ਕੀਤੀ. ਅਸੀਂ ਹਰ ਮਾਡਲ ਦਾ ਰੀਜ਼ਨਿੰਗ ਯਤਨਾਂ ਦੀ ਇੱਕ ਸੀਮਾ ਵਿੱਚ ਮੁਲਾਂਕਣ ਕੀਤਾ ਅਤੇ ਮਿਲਦੇ-ਜੁਲਦੇ ਸਮਰੱਥਾ ਪੱਧਰਾਂ 'ਤੇ ਮਾਨੀਟਰਯੋਗਤਾ ਦੀ ਤੁਲਨਾ ਕੀਤੀ.

ਅਸੀਂ ਆਪਣੇ ਮੁਲਾਂਕਣ ਸੂਟ 'ਤੇ ਹਰ ਮਾਡਲ ਦੀ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਮਿਆਰੀ ਸਮਰੱਥਾ ਮੁਲਾਂਕਣਾਂ (GPQA-Diamond, AIME 2025, ਅਤੇ CodeForces) ਦੇ ਇੱਕ ਸੈੱਟ ਉੱਤੇ ਔਸਤ pass rate ਦੇ ਮੁਕਾਬਲੇ ਪਲਾਟ ਕਰਦੇ ਹਾਂ. ਹਰ ਮਾਡਲ ਦਾ ਕਈ ਰੀਜ਼ਨਿੰਗ ਯਤਨਾਂ 'ਤੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਜਾਂਦਾ ਹੈ (ਧਿਆਨ ਦਿਓ ਕਿ ਇਸ ਚਿੱਤਰ ਦਾ ਹਰ ਬਿੰਦੂ ਅਸਲ ਵਿੱਚ ਮਾਪੇ ਗਏ ਰੀਜ਼ਨਿੰਗ ਯਤਨਾਂ ਵਿਚਕਾਰ ਰੇਖੀਅ ਇੰਟਰਪੋਲੇਸ਼ਨ ਦਾ ਨਤੀਜਾ ਹੈ). ਗੋਲ ਚਿੰਨ੍ਹ ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਉਸ ਖ਼ਾਸ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ ਮਾਡਲ ਉਸ ਸਮਰੱਥਾ ਪੱਧਰ 'ਤੇ ਮਾਨੀਟਰਯੋਗਤਾ ਵਿੱਚ ਹਾਵੀ ਹੈ, ਅਤੇ ਪਾਰਦਰਸ਼ੀ X ਦਰਸਾਉਂਦੇ ਹਨ ਕਿ ਉਸ ਖ਼ਾਸ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ ਮਾਡਲ ਉਸ ਸਮਰੱਥਾ ਪੱਧਰ ਲਈ ਕਿਸੇ ਹੋਰ ਮਾਡਲ ਦੁਆਰਾ ਮਾਨੀਟਰਯੋਗਤਾ ਵਿੱਚ ਪਿੱਛੇ ਛੱਡਿਆ ਗਿਆ ਹੈ. ਕਾਲੇ ਤੀਰਾਂ ਵਿੱਚ ਅਸੀਂ ਵਧੇਰੇ inference ਕੰਪਿਊਟ ਖਰਚਣ ਦੇ ਦੋ ਤਰੀਕਿਆਂ ਦੇ ਉਦਾਹਰਨ ਦਿਖਾਉਂਦੇ ਹਾਂ, ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਨਾਲ ਕਾਫ਼ੀ ਵੱਧ ਟੋਕਨ ਸੈਂਪਲ ਕਰਕੇ ਜਾਂ ਉਸੇ ਮਾਡਲ ਨਾਲ ਤੁਲਨਾਤਮਕ ਤੌਰ 'ਤੇ ਘੱਟ ਵਾਧੂ ਟੋਕਨ ਲੈ ਕੇ. ਲਾਲ ਤੀਰਾਂ ਵਿੱਚ ਅਸੀਂ ਉਹ ਮਾਨੀਟਰਯੋਗਤਾ ਟੈਕਸ ਦਿਖਾਉਂਦੇ ਹਾਂ ਜੋ ਭਰਨਾ ਪੈਂਦਾ ਹੈ, ਅਰਥਾਤ ਥੋੜ੍ਹੀ ਘੱਟ ਸਮਰੱਥਾ ਦੇ ਬਦਲੇ ਕਾਫ਼ੀ ਵੱਧ ਮਾਨੀਟਰਯੋਗਤਾ.
ਆਮ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਜੇ ਅਸੀਂ ਕਿਸੇ ਨਿਰਧਾਰਿਤ ਮਾਡਲ ਨੂੰ ਘੱਟ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ ਤੈਨਾਤ ਕਰੀਏ, ਤਾਂ ਅਸੀਂ ਇਸਦੀ ਥਾਂ ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਨੂੰ ਉੱਚ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ ਤੈਨਾਤ ਕਰ ਸਕਦੇ ਹਾਂ. ਮੂਲ ਵੱਡੇ ਮਾਡਲ ਤੋਂ ਹੋਰ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਲਈ ਵਾਧੂ ਕੰਪਿਊਟ ਖਰਚਣ ਨਾਲ ਤੁਲਨਾ ਕਰਨ 'ਤੇ, ਅਸੀਂ ਥੋੜ੍ਹੀ ਸਮਰੱਥਾ ਲਾਗਤ 'ਤੇ ਵੱਧ ਮਾਨੀਟਰਯੋਗਤਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਾਂ, ਜਾਂ ਮਾਨੀਟਰਯੋਗਤਾ ਟੈਕਸ; ਹਾਲਾਂਕਿ, completion ਪੂਰਾ ਕਰਨ ਲਈ ਲੱਗਣ ਵਾਲਾ wallclock ਸਮਾਂ ਕੁਝ ਤੈਨਾਤੀ ਫ਼ੈਸਲਿਆਂ ਵਿੱਚ ਇੱਕ ਕਾਰਕ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਸਨੂੰ ਅਸੀਂ ਇੱਥੇ ਵਿਚਾਰ ਵਿੱਚ ਨਹੀਂ ਲੈਂਦੇ. ਜਿਵੇਂ-ਜਿਵੇਂ ਸਾਡੇ ਮਾਡਲ ਸੁਧਰਦੇ ਹਨ ਅਤੇ ਵੱਧ ਦਾਓਂ ਵਾਲੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਤੈਨਾਤ ਹੁੰਦੇ ਹਨ, ਉਹਨਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਤੈਨਾਤ ਕਰਨ ਲਈ ਅਜਿਹਾ ਟੈਕਸ ਚੁਕਾਉਣਾ ਲਾਜ਼ਮੀ ਹੋ ਸਕਦਾ ਹੈ.
ਇਹ ਨਤੀਜੇ ਹੇਠਾਂ ਦਿੱਤੀਆਂ ਸੀਮਾਵਾਂ ਰੱਖਦੇ ਹਨ: (1) ਅਸੀਂ ਹਰ ਮਾਡਲ ਨੂੰ ਕੇਵਲ ਇੱਕ ਵਾਰ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ, ਇਸ ਲਈ ਟ੍ਰੇਨਿੰਗ ਰਨਾਂ ਵਿਚਕਾਰ variance ਦਾ ਹਿਸਾਬ ਨਹੀਂ ਕਰਦੇ. ਉਦਾਹਰਨ ਲਈ, “medium” ਮਾਡਲ ਸੀਰੀਜ਼ ਦੇ ਹੋਰ ਮਾਡਲਾਂ ਨਾਲੋਂ ਮਾਨੀਟਰਯੋਗਤਾ ਵਿੱਚ ਕੁਝ ਹੱਦ ਤੱਕ off-trend ਲੱਗਦਾ ਹੈ, ਜੋ ਇਸ ਕਾਰਨ ਹੋ ਸਕਦਾ ਹੈ. (2) ਅਸੀਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਤੁਲਨਾਤਮਕ ਤੌਰ 'ਤੇ in-distribution ਸਥਿਤੀਆਂ (ਗਣਿਤ, ਵਿਗਿਆਨ ਅਤੇ ਕੋਡਿੰਗ) ਵਿੱਚ ਕਰਦੇ ਹਾਂ, ਅਤੇ out-of-distribution robustness ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ 'ਤੇ ਇਹ tradeoff ਬਦਲ ਸਕਦੇ ਹਨ.
ਜਿਵੇਂ AI ਸਿਸਟਮ ਮਨੁੱਖੀ-ਪੱਧਰ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਤੋਂ ਉੱਪਰ ਸਕੇਲ ਕਰਦੇ ਹਨ, ਸਿੱਧੀ ਮਨੁੱਖੀ ਨਿਗਰਾਨੀ ਹੋਰ ਮੁਸ਼ਕਲ ਬਣ ਜਾਂਦੀ ਹੈ. ਆਦਰਸ਼ ਤੌਰ 'ਤੇ, ਸਾਡੇ ਕੋਲ ਸਕੇਲ ਕਰਨਯੋਗ ਕੰਟਰੋਲ ਪ੍ਰਕਿਰਿਆਵਾਂ ਹੋਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ ਜੋ ਭਰੋਸੇਯੋਗ ਪਰ ਕਮਜ਼ੋਰ ਮਾਨੀਟਰਾਂ ਨੂੰ ਵੱਧ ਤਾਕਤਵਰ, ਸੰਭਾਵਤ ਤੌਰ 'ਤੇ ਅਭਰੋਸੇਯੋਗ ਏਜੰਟਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਦੀ ਆਗਿਆ ਦੇਣ. ਅਜੇਹੀਆਂ ਪ੍ਰਕਿਰਿਆਵਾਂ ਨੂੰ ਵਾਧੂ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ ਨੂੰ ਵੀ ਅਪਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਵੱਧ ਸਹੀ ਭਵਿੱਖਬਾਣੀਆਂ ਪੈਦਾ ਕਰਣੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ.
(ਖੱਬੇ) ਅਸੀਂ ਕਈ ਵੱਖ-ਵੱਖ ਮਾਨੀਟਰਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ ਅਤੇ ਹਰ ਇੱਕ ਦਾ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਬਦਲਦੇ ਹਾਂ. ਹਰ ਮਾਨੀਟਰ ਇੱਕੋ GPT‑5 Thinking ਮਾਡਲ ਦੀ ਨਿਗਰਾਨੀ ਕਰ ਰਿਹਾ ਹੈ. ਜਿਵੇਂ ਉਮੀਦ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਆਮ ਤੌਰ 'ਤੇ ਵੱਡੇ ਅਤੇ ਵੱਧ ਸਮਰੱਥ ਮਾਡਲ ਵਧੀਆ ਮਾਨੀਟਰ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ, ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਉੱਚ ਰੀਜ਼ਨਿੰਗ ਯਤਨ (ਅਤੇ ਇਸ ਲਈ ਟੈਸਟ-ਟਾਈਮ ਕੰਪਿਊਟ) ਨਾਲ ਮਾਨੀਟਰਿੰਗ ਟਾਸਕ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ.
(ਸੱਜੇ) ਅਸੀਂ OpenAI o4-mini ਲਈ ਵੱਖ-ਵੱਖ ਮਾਨੀਟਰਿੰਗ ਪਰਵੇਖਣ ਦਾਇਰਿਆਂ ਦੀ ਤੁਲਨਾ ਕਰਦੇ ਹਾਂ, ਅਰਥਾਤ ਕੀ ਮਾਨੀਟਰ ਕੇਵਲ CoT, ਕੇਵਲ ਕਾਰਵਾਈਆਂ ਅਤੇ ਜਵਾਬ, ਜਾਂ ਜਿਸ ਮਾਡਲ ਦੀ ਇਹ ਨਿਗਰਾਨੀ ਕਰ ਰਿਹਾ ਹੈ ਉਸਦੇ ਸਾਰੇ ਸੁਨੇਹੇ ਵੇਖ ਸਕਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਅਸੀਂ ਪਾਇਆ ਕਿ ਵਧੇਰੇ ਟੈਸਟ-ਟਾਈਮ ਮਾਨੀਟਰਿੰਗ ਕੰਪਿਊਟ (ਉੱਚ ਮਾਨੀਟਰਿੰਗ ਰੀਜ਼ਨਿੰਗ ਯਤਨ) ਨਾਲ ਮਾਨੀਟਰਯੋਗਤਾ ਉਸ ਵੇਲੇ ਤੇਜ਼ ਦਰ ਨਾਲ ਸੁਧਰਦੀ ਹੈ ਜਦੋਂ ਮਾਨੀਟਰ ਨੂੰ CoT ਤੱਕ ਪਹੁੰਚ ਦਿੱਤੀ ਜਾਵੇ. ਇਸ ਲਈ, CoT ਮਾਨੀਟਰਿੰਗ ਸਧਾਰਣ ਮਾਨੀਟਰਿੰਗ ਨਾਲੋਂ ਕੰਟਰੋਲ ਲਈ ਇੱਕ ਹੋਰ ਸਕੇਲ ਕਰਨਯੋਗ ਰਸਤਾ ਦੇ ਸਕਦੀ ਹੈ.
ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਅਕਸਰ ਇੱਕ ਸਥਿਰ ਮਾਤਰਾ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ: ਇੱਕ ਵਾਰ ਮਾਡਲ ਕਿਸੇ ਨਿਰਧਾਰਿਤ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ ਜਵਾਬ ਤਿਆਰ ਕਰ ਦੇਵੇ, ਫਿਰ ਉਪਜੀ ਚੇਨ-ਆਫ-ਥੌਟ ਦੀ ਜਿੰਨਾ ਸੰਭਵ ਹੋ ਸਕੇ ਨਿਗਰਾਨੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ. ਕਿਉਂਕਿ ਅਸੀਂ ਲਗਾਤਾਰ ਇਹ ਪਾਇਆ ਹੈ ਕਿ ਜਿਵੇਂ ਅਸੀਂ ਆਪਣੇ ਏਜੰਟਾਂ ਦਾ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਵਧਾਉਂਦੇ ਹਾਂ, ਮਾਨੀਟਰਯੋਗਤਾ ਵੀ ਸੁਧਰਦੀ ਹੈ, ਇਸ ਲਈ ਅਸੀਂ ਇਹ ਪੁੱਛਣ ਲਈ ਪ੍ਰੇਰਿਤ ਹੋਏ ਕਿ ਕੀ ਅਸੀਂ ਕਿਸੇ ਤਰੀਕੇ ਨਾਲ ਮਾਨੀਟਰ ਕਰਨ ਲਈ ਹੋਰ ਟੋਕਨ ਹਾਸਲ ਕਰ ਸਕਦੇ ਹਾਂ.
ਇਸ ਦੀ ਜਾਂਚ ਲਈ, ਅਸੀਂ ਮਾਡਲ ਦੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਬਾਅਦ ਫਾਲੋ-ਅੱਪ ਸਵਾਲ ਪੁੱਛਣ ਦੇ ਪ੍ਰਯੋਗ ਕੀਤੇ, ਜਦੋਂਕਿ ਅਸਲ ਪ੍ਰੌੰਪਟ, ਚੇਨ-ਆਫ-ਥੌਟ ਅਤੇ ਜਵਾਬ ਨੂੰ ਸੰਦਰਭ ਵਿੱਚ ਰੱਖਿਆ ਗਿਆ. ਇਹ ਫਾਲੋ-ਅੱਪ ਉਸ ਵਿਸ਼ੇਸ਼ਤਾ 'ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੁੰਦੇ ਹਨ ਜਿਸਦੀ ਨਿਗਰਾਨੀ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ—ਉਦਾਹਰਨ ਵਜੋਂ, “ਕੀ ਤੁਸੀਂ ਆਪਣਾ ਜਵਾਬ ਚੁਣਣ ਲਈ ਸੰਕੇਤ ਨੂੰ ਅਰਥਪੂਰਨ ਢੰਗ ਨਾਲ ਵਰਤਿਆ?” ਜਾਂ “ਕੀ ਤੁਸੀਂ ਕੁਝ ਸ਼ੱਕੀ ਕੀਤਾ?” ਸਿਧਾਂਤਕ ਤੌਰ 'ਤੇ, ਕਿਉਂਕਿ ਮਾਡਲ ਕੋਲ ਆਪਣੀ ਪਹਿਲਾਂ ਦੀ ਰੀਜ਼ਨਿੰਗ ਤੱਕ ਪਹੁੰਚ ਰਹਿੰਦੀ ਹੈ, ਇਹ ਫਾਲੋ-ਅੱਪ ਚੇਨ-ਆਫ-ਥੌਟ ਜਾਂ ਜਵਾਬ ਵਿੱਚ ਪਹਿਲਾਂ ਨਾ ਕਹੇ ਗਏ ਵਿਚਾਰ ਸਾਹਮਣੇ ਲਿਆ ਸਕਦਾ ਹੈ.
ਇਹ ਨਤੀਜੇ ਪ੍ਰਾਰੰਭਿਕ ਹਨ. ਅਸੀਂ ਫਾਲੋ-ਅੱਪ ਸਵਾਲ ਫਾਰਮੈਟਾਂ ਦੀ ਸਿਰਫ਼ ਇੱਕ ਛੋਟੀ ਗਿਣਤੀ ਦੀ ਜਾਂਚ ਕੀਤੀ ਹੈ ਅਤੇ ਸਾਨੂੰ ਵਿਸ਼ਵਾਸ ਹੈ ਕਿ ਵਿਧੀ ਵਿੱਚ ਕਾਫ਼ੀ ਸੁਧਾਰ ਦੀ ਗੁੰਜਾਇਸ਼ ਹੈ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਤਰੀਕਾ ਮਾਡਲ confessions ਨਾਲ ਆਤਮਿਕ ਤੌਰ 'ਤੇ ਮਿਲਦਾ-ਜੁਲਦਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਸਰਗਰਮੀ ਨਾਲ ਇਹਨਾਂ ਪਹੁੰਚਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨ 'ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ.
ਅਸੀਂ ਆਪਣੀ ਮੁਲਾਂਕਣ ਸੂਟ ਅਤੇ ਆਪਣੇ ਸਾਰੇ ਹਾਲੀਆ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਵਿੱਚ ਔਸਤ ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਾਂ: OpenAI o3‑mini, OpenAI o3, OpenAI o4-mini, ਅਤੇ GPT‑5‑thinking. ਅਸੀਂ ਪਾਇਆ ਕਿ ਆਮ ਤੌਰ 'ਤੇ, ਫਾਲੋ-ਅੱਪ ਸਵਾਲ ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਸੁਧਾਰਦੇ ਹਨ, ਖ਼ਾਸ ਕਰਕੇ ਘੱਟ ਰੀਜ਼ਨਿੰਗ ਯਤਨਾਂ 'ਤੇ. ਜੇ ਅਸੀਂ ਵਾਰ-ਵਾਰ ਫਾਲੋ-ਅੱਪ ਸਵਾਲ ਪੁੱਛੀਏ ਅਤੇ ਮਾਨੀਟਰ ਨੂੰ ਸਾਰੇ ਫਾਲੋ-ਅੱਪ CoT ਦੇਈਏ, ਤਾਂ ਮਾਨੀਟਰਯੋਗਤਾ ਹੋਰ ਵੀ ਸੁਧਰਦੀ ਹੈ. ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਜਦੋਂ ਅਸੀਂ ਮਾਨੀਟਰ ਨੂੰ ਕੇਵਲ ਫਾਲੋ-ਅੱਪ ਜਵਾਬ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੇ ਹਾਂ ਅਤੇ ਫਾਲੋ-ਅੱਪ CoT ਨਹੀਂ ਦਿੰਦੇ, ਤਾਂ ਸਾਨੂੰ ਬੇਸਲਾਈਨ ਨਾਲੋਂ ਘੱਟ ਸੁਧਾਰ ਦਿਸਦਾ ਹੈ. ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਯੂਜ਼ਰ ਨੂੰ ਆਪਣੇ ਜਵਾਬਾਂ ਵਿੱਚ ਖੁੱਲ੍ਹ ਕੇ ਨਹੀਂ ਦੱਸਦੇ, ਪਰ ਆਪਣੇ CoT ਵਿੱਚ ਹੋਰ ਜਾਣਕਾਰੀ ਦੇ ਜਾਂਦੇ ਹਨ.
ਮਾਨੀਟਰਯੋਗਤਾ ਸੁਧਾਰਨ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਪਹੁੰਚ ਇਸ ਲਈ ਆਕਰਸ਼ਕ ਹੈ ਕਿਉਂਕਿ ਇਸਨੂੰ post hoc ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਵਾਧੂ ਕੰਪਿਊਟ ਲਾਗਤ ਸਿਰਫ਼ ਉਸ ਵੇਲੇ ਆਉਂਦੀ ਹੈ ਜਦੋਂ ਹੋਰ ਡੂੰਘੀ ਜਾਂਚ ਦੀ ਲੋੜ ਹੋਵੇ. ਅੱਗੇ ਵੇਖਦੇ ਹੋਏ, ਜੇ ਮਾਡਲਾਂ ਨੂੰ ਗੱਲਬਾਤ ਦੇ ਵਿਚਕਾਰ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਦੀ ਉਮੀਦ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਉੱਚ ਰੀਜ਼ਨਿੰਗ ਯਤਨ 'ਤੇ post-hoc follow-up ਮਾਨੀਟਰਯੋਗਤਾ ਨੂੰ ਹੋਰ ਵਧਾ ਸਕਦੇ ਹਨ, ਭਾਵੇਂ ਸ਼ੁਰੂਆਤੀ ਰੀਜ਼ਨਿੰਗ ਯਤਨ ਘੱਟ ਹੋਵੇ ਜਾਂ ਨਾ ਹੋਵੇ.
ਸਾਡੇ ਸੂਟ ਦਾ ਹਰ ਮੁਲਾਂਕਣ ਇਹ ਮਾਪਦਾ ਹੈ ਕਿ ਰੀਜ਼ਨਿੰਗ ਪ੍ਰਕਿਰਿਆ ਦਾ ਕੋਈ ਇੱਕ ਪੱਖ ਮਾਨੀਟਰਯੋਗ ਹੈ ਜਾਂ ਨਹੀਂ. ਹਾਲਾਂਕਿ ਅਸੀਂ ਵਿਹਾਰਾਂ ਦੀ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਨੂੰ ਕਵਰ ਕਰਨ ਦਾ ਲਕਸ਼ ਰੱਖਦੇ ਹਾਂ—ਜਿਸ ਵਿੱਚ ਅੰਧ-ਸਹਿਮਤੀ, sandbagging, bias, scheming, ਅਤੇ reward hacking ਸ਼ਾਮਲ ਹਨ—ਫਿਰ ਵੀ ਬਹੁਤ ਸਾਰੀਆਂ ਹੋਰ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਹਨ ਜਿਨ੍ਹਾਂ ਦੀ ਅਜੇ ਜਾਂਚ ਨਹੀਂ ਹੋਈ.
ਕਿਸੇ ਵੀ benchmark ਦੀ ਤਰ੍ਹਾਂ, ਸਾਡੇ ਮੁਲਾਂਕਣ ਸੀਮਿਤ ਯਥਾਰਥਤਾ ਜਾਂ ਵਧਦੀ ਮੁਲਾਂਕਣ-ਸਚੇਤਤਾ ਤੋਂ ਪ੍ਰਭਾਵਿਤ ਹੋ ਸਕਦੇ ਹਨ, ਅਤੇ ਨਤੀਜੇ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਗਲਤ ਵਿਹਾਰ ਦੀ ਪਛਾਣ 'ਤੇ ਲਾਜ਼ਮੀ ਤੌਰ 'ਤੇ ਲਾਗੂ ਨਹੀਂ ਹੋ ਸਕਦੇ.
ਅੰਤ ਵਿੱਚ, ਜਿਵੇਂ alignment ਸੁਧਰਦੀ ਹੈ, ਨਿਯੰਤਰਿਤ ਮੁਲਾਂਕਣ ਸਥਿਤੀਆਂ ਵਿੱਚ ਮਾਡਲ ਘੱਟ ਵਾਰ ਗਲਤ ਵਿਹਾਰ ਕਰ ਸਕਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਮਾਨੀਟਰਯੋਗਤਾ ਅਤੇ ਕੰਟਰੋਲ ਮੁਲਾਂਕਣਾਂ ਲਈ ਉਪਲਬਧ signal ਘੱਟ ਹੋ ਜਾਂਦਾ ਹੈ ਜੋ ਗਲਤ ਵਿਹਾਰ ਦੀ ਪਛਾਣ 'ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ. ਅਜੇਹੇ ਮਾਮਲਿਆਂ ਵਿੱਚ, “neutral” ਮਾਨੀਟਰਯੋਗਤਾ ਮੁਲਾਂਕਣ ਅਜੇ ਵੀ ਲਾਗੂ ਰਹਿੰਦੇ ਹਨ, ਹਾਲਾਂਕਿ ਇਹ ਖੁੱਲ੍ਹਾ ਸਵਾਲ ਹੈ ਕਿ ਉਹ ਅਸਲ ਦੁਨੀਆ ਦੀਆਂ ਨਾਕਾਮੀਆਂ ਦੀ ਕਿੰਨੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦੇ ਹਨ.
ਜੇ alignment ਸਮੱਸਿਆ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹੱਲ ਨਹੀਂ ਕੀਤਾ ਜਾ ਸਕਦਾ, ਤਾਂ ਸਕੇਲ ਕਰਨਯੋਗ ਕੰਟਰੋਲ ਤਰੀਕੇ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੋਣਗੇ ਤਾਂ ਜੋ ਅਸੀਂ ਬਹੁਤ ਸਮਰੱਥ ਮਾਡਲਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਤੈਨਾਤ ਕਰ ਸਕੀਏ. ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਿੰਗ ਅਤੇ ਸੰਬੰਧਿਤ ਤਰੀਕੇ ਸਾਡੇ ਕੋਲ ਮੌਜੂਦ ਕੁਝ ਗਿਣਤੀ ਦੇ ਕੰਟਰੋਲ ਮਕੈਨਿਜ਼ਮਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੋ ਸਕਦੇ ਹਨ. ਚੇਨ-ਆਫ-ਥੌਟ ਸਾਡੇ ਮਾਡਲਾਂ ਬਾਰੇ ਹੋਰ ਸਮਝ ਪ੍ਰਾਪਤ ਕਰਨ ਵਿੱਚ ਵੀ ਵੱਡੇ ਲਾਭ ਦੇ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਕੀ ਉਹ ਜਾਣਦੇ ਹਨ ਕਿ ਉਹ ਮੁਲਾਂਕਣ ਵਿੱਚ ਹਨ ਅਤੇ ਤੈਨਾਤੀ ਨਾਲੋਂ ਵੱਖਰਾ ਵਿਹਾਰ ਕਰ ਰਹੇ ਹਨ, ਕੀ ਕਿਸੇ ਅਜਿਹੇ ਨਕਾਰਾਤਮਕ ਲਕਸ਼ ਦੇ ਸਬੂਤ ਹਨ ਜੋ ਅਜੇ ਤੱਕ ਸਾਡੇ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਸਾਹਮਣੇ ਨਹੀਂ ਆਏ, ਆਦਿ. ਇਸ ਲਈ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਇਹ ਸਮਝਣਾ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਅਸੀਂ ਮਾਨੀਟਰਯੋਗਤਾ ਕਿਵੇਂ ਅਤੇ ਕਦੋਂ ਗੁਆ ਸਕਦੇ ਹਾਂ.
ਅਸੀਂ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਿੰਗ ਨੂੰ ਮਕੈਨਿਸਟਿਕ interpretability ਦਾ ਪੂਰਕ ਮੰਨਦੇ ਹਾਂ, ਉਸਦਾ ਬਦਲ ਨਹੀਂ. ਸਾਰੇ ਜਾਣੇ-ਪਛਾਣੇ ਕੰਟਰੋਲ ਅਤੇ interpretability ਤਰੀਕਿਆਂ ਦੀ ਤਰ੍ਹਾਂ, ਹਰ ਇੱਕ ਦੀਆਂ ਆਪਣੀਆਂ ਸੀਮਾਵਾਂ ਅਤੇ blind spot ਹਨ. ਸਾਡੀ ਉਮੀਦ ਹੈ ਕਿ ਕਈ ਪਹੁੰਚਾਂ ਨੂੰ ਜੋੜਨਾ—ਇੱਕ defense-in-depth strategy—ਉਹ ਖਾਲੀਆਂ ਥਾਵਾਂ ਨੂੰ ਭਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਕੋਈ ਇੱਕ ਤਰੀਕਾ ਖੁੱਲ੍ਹੀਆਂ ਛੱਡ ਜਾਂਦਾ ਹੈ. ਖ਼ਾਸ ਤੌਰ 'ਤੇ, ਇਸ ਕੰਮ ਵਿੱਚ ਪੇਸ਼ ਕੀਤੇ ਮੁਲਾਂਕਣ ਮਕੈਨਿਸਟਿਕ interpretability-ਅਧਾਰਿਤ ਮਾਨੀਟਰਿੰਗ ਤਕਨੀਕਾਂ ਦਾ ਅੰਕਲਨ ਕਰਨ ਅਤੇ ਉਹਨਾਂ ਦੀ ਤੁਲਨਾ ਕਰਨ ਲਈ ਵੀ ਲਾਗੂ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ.
ਕਿਉਂਕਿ ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰਿੰਗ ਸਕੇਲ ਕਰਨਯੋਗ ਕੰਟਰੋਲ ਸਕੀਮ ਵਿੱਚ ਇੱਕ load-bearing ਪਰਤ ਹੋ ਸਕਦੀ ਹੈ, ਅਸੀਂ ਇਹਨਾਂ ਮੁਲਾਂਕਣਾਂ ਦਾ ਹੋਰ ਵਿਸਥਾਰ ਕਰਨ ਅਤੇ ਭਵਿੱਖ ਦੇ ਮਾਡਲਿੰਗ ਅਤੇ ਡਾਟਾ ਫ਼ੈਸਲਿਆਂ ਨੂੰ ਜਾਣਕਾਰੀ ਦੇਣ ਲਈ ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਉਂਦੇ ਹਾਂ.
ਲੇਖਕ
ਹਵਾਲੇ
1. ਸਾਡੇ ਮਾਡਲ ਤਬੀਬੀ ਨਿਦਾਨ ਦੇਣ ਲਈ ਨਹੀਂ ਬਣਾਏ ਗਏ, ਅਤੇ ਇਸ ਲਈ ਸਾਡਾ health queries dataset ਉਸ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਨਹੀਂ ਬਣਾਇਆ ਗਿਆ.


