ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਡਿਪਲਾਇਮੈਂਟ ਦਾ ਨਕਲੀ ਅਭਿਆਸ ਕਰਕੇ ਮਾਡਲ ਦੇ ਵਿਵਹਾਰ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ
ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਮਾਡਲ ਦੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਦਾ ਬਿਹਤਰ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਅਸਲ ਗੱਲਬਾਤ ਦੇ ਸੰਦਰਭਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ।
ਇੱਕ ਨਵੇਂ ਮਾਡਲ ਨੂੰ ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ, ਲੈਬਾਂ ਲਈ ਨਾ ਸਿਰਫ਼ ਇਹ ਸਮਝਣਾ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਇਹ ਕੀ ਕਰ ਸਕਦਾ ਹੈ, ਬਲਕਿ ਇਹ ਵੀ ਕਿ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਵਰਤੋਂ ਦੌਰਾਨ ਇਸਦਾ ਵਿਵਹਾਰ ਕਿਹੋ ਜਿਹਾ ਰਹਿਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਇਹ ਵੀ ਸ਼ਾਮਲ ਹੈ ਕਿ ਇਹ ਕਿੱਥੇ ਨਵੇਂ ਜੋਖਮ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵਧਣ ਦੇ ਨਾਲ-ਨਾਲ ਇਹ ਗੱਲ ਹੋਰ ਵੀ ਮਹੱਤਵਪੂਰਨ ਹੋ ਜਾਂਦੀ ਹੈ। ਸਾਡੀ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਦੀ ਸੁਰੱਖਿਆ ਸਮੀਖਿਆ ਦੇ ਇੱਕ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਮਾਡਲ ਦੇ ਵਿਵਹਾਰ ਨੂੰ ਸਮਝਣ ਲਈ ਨਿਸ਼ਾਨਾ-ਬੱਧ ਮੁਲਾਂਕਣਾਂ, ਰੈਡ-ਟੀਮਿੰਗ ਅਤੇ ਹੋਰ ਜਾਂਚਾਂ ਦਾ ਸਹਾਰਾ ਲੈਂਦੇ ਹਾਂ। ਅਸੀਂ ਹੁਣ ਮਾਡਲ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਅਸਲ ਵਿੱਚ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ, ਉਸਦਾ ਨਕਲੀ ਅਭਿਆਸ ਕਰਨ ਦਾ ਤਰੀਕਾ ਵਰਤਣਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ ਹੈ, ਜੋ ਇੱਕ ਵਾਧੂ ਸੰਕੇਤ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ: ਯਾਨੀ ਅਜਿਹਾ ਡਿਪਲਾਇਮੈਂਟ ਵਰਗਾ ਪੂਰਵ-ਦਰਸ਼ਨ ਜੋ ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਪ੍ਰਸਤਾਵਿਤ ਮਾਡਲ ਉਪਭੋਗਤਾਵਾਂ ਤੱਕ ਪਹੁੰਚਣ ਤੋਂ ਪਹਿਲਾਂ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰ ਸਕਦਾ ਹੈ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਭਵਿੱਖ ਵਿੱਚ ਹੋਣ ਵਾਲੀ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਅਸਲ ਵਿੱਚ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਉਸਦਾ ਨਕਲੀ ਅਭਿਆਸ ਕਰਨ ਦਾ ਇੱਕ ਤਰੀਕਾ ਹੈ। ਅਸੀਂ ਨਿੱਜਤਾ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸੁਰੱਖਿਅਤ ਰੱਖਦੇ ਹੋਏ ਪੁਰਾਣੀਆਂ ਗੱਲਬਾਤਾਂ ਨੂੰ ਨਵੇਂ ਪ੍ਰਸਤਾਵਿਤ ਮਾਡਲ ਨਾਲ ਦੁਹਰਾ ਕੇ ਅਜਿਹਾ ਕਰਦੇ ਹਾਂ। ਇਹ ਸਾਨੂੰ ਮਾਡਲ ਨੂੰ ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ, ਅਸਲ ਹਾਲਾਤਾਂ ਵਿੱਚ ਇਹ ਅਧਿਐਨ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਨਵਾਂ ਮਾਡਲ ਕਿਵੇਂ ਪ੍ਰਤੀਕਿਰਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਇਹ ਦੇਖਣਾ ਵੀ ਸ਼ਾਮਲ ਹੈ ਕਿ ਕੀ ਕੋਈ ਨਵਾਂ ਅਣਚਾਹਿਆ ਵਿਵਹਾਰ ਸਾਹਮਣੇ ਆਉਂਦਾ ਹੈ ਅਤੇ ਉਹ ਕਿੰਨੀ ਵਾਰ ਦਿਖਾਈ ਦੇ ਸਕਦਾ ਹੈ।
ਕਈ GPT‑5‑ਸੀਰੀਜ਼ ਥਿੰਕਿੰਗ ਡਿਪਲਾਇਮੈਂਟਾਂ ਵਿੱਚ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਨੇ ਮਾਡਲ ਦੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਦੀ ਦਰ ਦੇ ਸਾਡੇ ਅੰਦਾਜ਼ਿਆਂ ਨੂੰ ਹੋਰ ਬਿਹਤਰ ਬਣਾਇਆ, ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਗਲਤ-ਤਾਲਮੇਲ ਦੇ ਨਵੇਂ ਰੂਪਾਂ ਨੂੰ ਸਾਹਮਣੇ ਲਿਆਉਣ ਵਿੱਚ ਮਦਦ ਕੀਤੀ, ਅਤੇ ਇਸ ਜੋਖਮ ਨੂੰ ਘੱਟ ਕਰਨ ਵਿੱਚ ਵੀ ਮਦਦ ਕੀਤੀ ਕਿ ਮਾਡਲ ਇਹ ਪਛਾਣ ਸਕਣ ਕਿ ਉਹਨਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ। ਅਸੀਂ ਇਸ ਤਰੀਕੇ ਨੂੰ ਚੁਣੌਤੀਪੂਰਨ ਏਜੰਟਿਕ ਰੋਲਆਊਟਸ 'ਤੇ ਵੀ ਲਾਗੂ ਕੀਤਾ, ਜਿਸ ਤੋਂ ਇਹ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਇਹ ਸਟੈਂਡਰਡ ਚੈਟ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਵਾਲੇ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਏਜੰਟ ਸੈਟਿੰਗਾਂ ਤੱਕ ਫੈਲ ਸਕਦਾ ਹੈ, ਅਤੇ ਅੰਦਰੂਨੀ ਮਾਡਲ ਡਿਪਲਾਇਮੈਂਟਾਂ ਤੋਂ ਪਹਿਲਾਂ ਜੋਖਮ ਮੁਲਾਂਕਣ ਲਈ ਵੀ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ।
ਅਸੀਂ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਰਹਿ ਗਈਆਂ ਕਮੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਅਤੇ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਫੈਸਲਿਆਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਮਾਡਲ ਦੇ ਵਿਕਾਸ ਦੌਰਾਨ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਤੋਂ ਮਿਲੇ ਨਤੀਜਿਆਂ ਦੀ ਵਰਤੋਂ ਪਹਿਲਾਂ ਹੀ ਕਰ ਚੁੱਕੇ ਹਾਂ। ਜਿਵੇਂ-ਜਿਵੇਂ ਅਸੀਂ ਇਸ ਪਾਈਪਲਾਈਨ ਨੂੰ ਚਲਾਉਣਾ ਹੋਰ ਆਸਾਨ ਬਣਾ ਰਹੇ ਹਾਂ, ਸਾਨੂੰ ਉਮੀਦ ਹੈ ਕਿ ਇਹ ਭਵਿੱਖ ਵਿੱਚ ਮਾਡਲ ਵਿਕਾਸ ਦੀ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਭੂਮਿਕਾ ਨਿਭਾਏਗਾ।
ਪੂਰੇ ਉਦਯੋਗ ਵਿੱਚ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਦੇ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਆਮ ਤੌਰ 'ਤੇ ਨਕਲੀ, ਹੱਥੀਂ ਲਿਖੇ, ਜਾਂ ਉਤਪਾਦਨ ਦੇ ਅਜਿਹੇ ਪ੍ਰੋਂਪਟਾਂ ਦਾ ਮਿਸ਼ਰਣ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਜਾਣਬੁੱਝ ਕੇ ਮੁਸ਼ਕਲ, ਬਹੁਤ ਗੰਭੀਰ ਜਾਂ ਚੁਣੌਤੀਪੂਰਨ ਹੋਣ ਕਰਕੇ ਚੁਣਿਆ ਜਾਂਦਾ ਹੈ। ਇਹਨਾਂ ਮੁਲਾਂਕਣਾਂ ਦੇ ਆਮ ਤੌਰ 'ਤੇ ਦੋ ਆਪਸ ਵਿੱਚ ਜੁੜੇ ਟੀਚੇ ਹੁੰਦੇ ਹਨ: ਪਹਿਲਾ, ਇਹ ਜਾਂਚਣਾ ਕਿ ਮਾਡਲ ਅਜਿਹੇ ਗੰਭੀਰ ਹਾਲਾਤਾਂ ਵਿੱਚ ਕਿਵੇਂ ਪ੍ਰਤੀਕਿਰਿਆ ਦਿੰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੇ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ ਵਿੱਚ ਵਾਪਰਨ ਦੀ ਸੰਭਾਵਨਾ ਬਹੁਤ ਘੱਟ ਹੁੰਦੀ ਹੈ; ਅਤੇ ਦੂਜਾ, ਮਾਡਲ ਦੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਬਾਰੇ ਆਮ ਸਮਝ ਪ੍ਰਾਪਤ ਕਰਨਾ, ਜਿਸ ਵਿੱਚ ਨਵੇਂ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਨੂੰ ਲੱਭਣਾ ਅਤੇ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਮੇਂ ਉਹਨਾਂ ਦੇ ਸਾਹਮਣੇ ਆਉਣ ਦੀ ਦਰ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ ਸ਼ਾਮਲ ਹੈ।
ਹਾਲਾਂਕਿ ਪਹਿਲੇ ਟੀਚੇ ਲਈ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣ ਅਜੇ ਵੀ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹਨ, ਪਰ ਗੈਰ-ਟੇਲ ਜੋਖਮਾਂ ਲਈ ਦੂਜੇ ਟੀਚੇ ਦੇ ਸਬੰਧ ਵਿੱਚ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਇੱਕ ਵੱਡਾ ਕਦਮ ਹੈ (ਸਾਡੇ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ, ਸਾਡੇ ਇਸ ਤਰੀਕੇ ਰਾਹੀਂ ਅਜਿਹੇ ਵਿਵਹਾਰਾਂ ਨੂੰ ਮਾਪਣ ਦੀ ਉਮੀਦ ਨਹੀਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਜੋ 2,0,000 ਸੁਨੇਹਿਆਂ ਵਿੱਚੋਂ 1 ਤੋਂ ਵੀ ਘੱਟ ਵਾਰ ਵਾਪਰਦੇ ਹਨ)। ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਤਾਕਤ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ ਦੀਆਂ ਕੁਝ ਮੁੱਖ ਚੁਣੌਤੀਆਂ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਤੋਂ ਆਉਂਦੀ ਹੈ:
- ਦਾਇਰਾ: ਇਹ ਭਰੋਸਾ ਰੱਖਣਾ ਮੁਸ਼ਕਲ ਹੁੰਦਾ ਹੈ ਕਿ ਮੁਲਾਂਕਣ ਪ੍ਰੋਂਪਟ ਮਾਡਲ ਦੇ ਹਰ ਸੰਭਵ ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਨੂੰ ਕਵਰ ਕਰ ਲੈਣਗੇ। ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਦੀਆਂ ਨਵੀਆਂ ਕਿਸਮਾਂ ਨੂੰ ਮਾਪਣ ਲਈ ਨਵੇਂ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰਨ, ਅਤੇ ਇਹ ਜਾਣਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ ਕਿ ਕਿਹੜੇ ਨੁਕਸਾਨਾਂ ਨੂੰ ਮਾਪਣਾ ਹੈ। ਇਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਸਮਾਂ ਅਤੇ ਮਿਹਨਤ ਲੱਗ ਸਕਦੀ ਹੈ, ਅਤੇ ਸਮੇਂ ਦੇ ਨਾਲ ਇਹ ਮੁਲਾਂਕਣ ਆਪਣੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਗੁਆ ਸਕਦੇ ਹਨ।
- ਚੋਣ ਪੱਖਪਾਤ: ਰਵਾਇਤੀ ਮੁਲਾਂਕਣ ਆਮ ਤੌਰ 'ਤੇ ਮਾਡਲ ਦੇ ਕੁਝ ਖਾਸ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖ ਕੇ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ, ਅਤੇ ਇਹਨਾਂ ਦੀ ਚੋਣ ਅਜਿਹੇ ਤਰੀਕਿਆਂ ਨਾਲ ਕੀਤੀ ਜਾਂਦੀ ਹੈ ਜੋ ਉਹਨਾਂ ਹਾਲਾਤਾਂ ਵੱਲ ਝੁਕਾਅ ਰੱਖਦੇ ਹਨ ਜੋ ਪਹਿਲਾਂ ਵਾਪਰ ਚੁੱਕੇ ਹਨ। ਇਸ ਕਾਰਨ, ਇਹਨਾਂ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਮਿਲੇ ਅਨੁਮਾਨ ਪੂਰੇ ਡਿਪਲਾਇਮੈਂਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਦੇ ਵਿਆਪਕ ਦਾਇਰੇ ਵਿੱਚ ਅਜਿਹੇ ਵਿਵਹਾਰਾਂ ਦੇ ਸਾਹਮਣੇ ਆਉਣ ਦੀ ਦਰ ਬਾਰੇ ਘੱਟ ਜਾਣਕਾਰੀ ਭਰਪੂਰ ਹੋ ਸਕਦੇ ਹਨ।
- ਮਾਡਲਾਂ ਦੁਆਰਾ ਜਾਂਚ ਵਜੋਂ ਪਛਾਣੇ ਜਾਣਾ: ਮਾਡਲ ਇਸ ਗੱਲ ਦਾ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਲਗਾਤਾਰ ਵਧੇਰੇ ਸਮਰੱਥ ਹੁੰਦੇ ਜਾ ਰਹੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ, ਜੋ ਉਨ੍ਹਾਂ ਦੇ ਵਿਵਹਾਰ ਨੂੰ ਵਿਗਾੜ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸ ਨਾਲ ਸੁਰੱਖਿਆ ਨਾਲ ਜੁੜੇ ਸਾਡੇ ਆਖਰੀ ਨਤੀਜਿਆਂ 'ਤੇ ਅਸਰ ਪੈ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ OpenAI ਵਿੱਚ ਸਾਡੇ ਦੁਆਰਾ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਕਈ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣ ਅਸਲ ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਤੋਂ ਹੀ ਲਏ ਜਾਂਦੇ ਹਨ ਅਤੇ ਉਨ੍ਹਾਂ ਵਿੱਚ ਇਹ ਸਮੱਸਿਆ ਨਹੀਂ ਆਉਂਦੀ ਪਰ ਪੂਰੇ ਉਦਯੋਗ ਵਿੱਚ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਕਈ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ ਲਈ ਇਹ ਆਮ ਚਿੰਤਾ ਦਾ ਵਿਸ਼ਾ ਹੈ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੇ ਪਿੱਛੇ ਦੀ ਮੁੱਖ ਤਕਨੀਕ ਬਹੁਤ ਸਰਲ ਹੈ: ਅਸੀਂ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਹਾਲ ਹੀ ਦੀਆਂ ਗੱਲਬਾਤਾਂ ਲੈਂਦੇ ਹਾਂ, ਪੁਰਾਣੇ ਮਾਡਲ ਦੁਆਰਾ ਦਿੱਤੇ ਗਏ ਅਸਲ ਅਸਿਸਟੈਂਟ ਜਵਾਬ ਨੂੰ ਹਟਾ ਦਿੰਦੇ ਹਾਂ, ਅਤੇ ਉਸਨੂੰ ਰਿਲੀਜ਼ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਨਵੇਂ ਚੁਣੇ ਗਏ ਮਾਡਲ ਨਾਲ ਦੁਬਾਰਾ ਤਿਆਰ ਕਰਦੇ ਹਾਂ। ਅਸੀਂ ਨਵੇਂ ਅਸਫਲ ਤਰੀਕਿਆਂ ਦੀ ਖੋਜ ਕਰਕੇ ਇਹਨਾਂ ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਇਸ ਡਿਪਲਾਇਮੈਂਟ ਵਰਗੇ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਵਿੱਚ ਦੇਖੀ ਗਈ ਦਰ ਦੇ ਅਧਾਰ 'ਤੇ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਮੇਂ ਸਾਹਮਣੇ ਆਉਣ ਵਾਲੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਦੀ ਦਰ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦੇ ਹਾਂ। ਅਸੀਂ ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ 'ਤੇ ਵੀ ਇਹੀ ਮਾਪ ਲਾਗੂ ਕਰ ਸਕਦੇ ਹਾਂ, ਜੋ ਸਾਨੂੰ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਲਗਾਏ ਗਏ ਸਾਡੇ ਪੂਰਵ-ਅਨੁਮਾਨਾਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਉੱਪਰ ਦੱਸੀਆਂ ਤਿੰਨੋਂ ਸੀਮਾਵਾਂ ਨੂੰ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਘੱਟ ਕਰਦਾ ਹੈ: ਹਾਲ ਹੀ ਦੀ ਵਰਤੋਂ ਨੂੰ ਦਰਸਾਉਣ ਵਾਲੇ ਮੁਲਾਂਕਣ ਪ੍ਰੋਂਪਟਾਂ ਦੇ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸੈਂਪਲਿੰਗ ਪੱਖਪਾਤ ਦਾ ਹੱਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਅਜਿਹੇ ਪ੍ਰਤੀਨਿਧ ਪ੍ਰੋਂਪਟਾਂ ਦੇ ਨਾਲ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਕਵਰੇਜ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਨੂੰ ਵੀ ਘੱਟ ਕਰ ਸਕਦੀ ਹੈ: ਅਸੀਂ ਸਿਰਫ਼ ਵਧੇਰੇ ਟ੍ਰੈਫਿਕ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰਕੇ ਮਾਡਲ ਦੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਦੀ ਵਧੇਰੇ ਕਵਰੇਜ ਹਾਸਲ ਕਰ ਲੈਂਦੇ ਹਾਂ। ਕੰਪਿਊਟ ਅਤੇ ਕਵਰੇਜ ਵਿਚਕਾਰ ਇਹ ਤਾਲਮੇਲ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿਉਂਕਿ ਇਹ ਜੋਖਮ ਮੁਲਾਂਕਣ ਦੇ ਇਸ ਹਿੱਸੇ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਹੋਰ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰਨ ਲਈ ਲੋੜੀਂਦੀ ਮਨੁੱਖੀ ਮਿਹਨਤ ਦੀ ਬਜਾਏ ਕੰਪਿਊਟ ਪਾਵਰ ਦੇ ਨਾਲ ਵਧਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮਾਡਲ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਰਾਹੀਂ ਹਾਸਲ ਕੀਤੀਆਂ ਗੱਲਬਾਤਾਂ ਅਤੇ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ ਵਿਚਕਾਰ ਫਰਕ ਕਰਨ ਦੇ ਸਮਰੱਥ ਨਹੀਂ ਜਾਪਦੇ।
ਚਿੱਤਰ 1: ਸਾਡੇ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਦੀ ਸੰਖੇਪ ਰੂਪਰੇਖਾ
ਖੇਤਰ | ਰਵਾਇਤੀ ਮੁਲਾਂਕਣ | ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ |
ਕਵਰੇਜ | ਘੱਟ ਪ੍ਰਚਲਿਤ ਪਰ ਉੱਚ ਗੰਭੀਰਤਾ ਵਾਲੇ ਜੋਖਮਾਂ ਲਈ ਬਿਹਤਰ ਜਿਨ੍ਹਾਂ ਦੀ ਕਵਰੇਜ ਅਸੀਂ ਯਕੀਨੀ ਬਣਾਉਣਾ ਚਾਹੁੰਦੇ ਹਾਂ | ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ ਵਿੱਚ ਸਾਹਮਣੇ ਆਉਣ ਵਾਲੇ ਜੋਖਮਾਂ ਦੇ ਵਿਸਤ੍ਰਿਤ ਦਾਇਰੇ ਨੂੰ ਸਮਝਣ ਲਈ ਵਧੇਰੇ ਬਿਹਤਰ |
ਪ੍ਰਤੀਨਿਧਤਾ / ਪੱਖਪਾਤ | ਨਿਸ਼ਾਨਾਬੱਧ ਪਿਛਲੇ ਜਾਂ ਪੂਰਵ-ਅਨੁਮਾਨਿਤ ਜੋਖਮਾਂ ਦੇ ਮੁਲਾਂਕਣ 'ਤੇ ਕੇਂਦ੍ਰਿਤ, ਭਾਵੇਂ ਉਨ੍ਹਾਂ ਵਿਹਾਰਾਂ ਲਈ ਵੀ ਜਿਨ੍ਹਾਂ ਦਾ ਡਿਪਲਾਇਮੈਂਟ ਵਿੱਚ ਪ੍ਰਚਲਨ ਬਹੁਤ ਹੀ ਘੱਟ ਹੋਵੇ | ਮੌਜੂਦਾ ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ ਵਿੱਚ ਇੱਕ ਨਿਸ਼ਚਿਤ ਪ੍ਰਚਲਨ ਤੋਂ ਉੱਪਰ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਜੋਖਮਾਂ ਦੇ ਪ੍ਰਤੀਨਿਧ |
ਮੁਲਾਂਕਣ ਪ੍ਰਤੀ ਜਾਗਰੂਕਤਾ | ਸੰਭਾਵਿਤ ਤੌਰ 'ਤੇ ਸਪੱਸ਼ਟ ਟੈਸਟ ਸੰਕੇਤ (ਜਿਵੇਂ ਕਿ ਸਿੰਥੈਟਿਕ ਡਾਟਾ ਦੇ ਨਾਲ), ਜਦੋਂ ਤੱਕ ਕਿ ਮੁਲਾਂਕਣ ਡਿਪਲਾਇਮੈਂਟ ਡਾਟਾ ਨਾਲ ਤਿਆਰ ਨਾ ਕੀਤੇ ਗਏ ਹੋਣ | ਡਿਪਲਾਇਮੈਂਟ ਵਰਗਾ ਸੰਦਰਭ ਮੁਲਾਂਕਣ ਪ੍ਰਤੀ ਜਾਗਰੂਕਤਾ ਨੂੰ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਘਟਾਉਂਦਾ ਪ੍ਰਤੀਤ ਹੁੰਦਾ ਹੈ |
ਕੋਸ਼ਿਸ਼ | ਕਸਟਮ ਪ੍ਰੋਂਪਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨਾਂ ਅਤੇ ਸੈੱਟਅੱਪਾਂ ਲਈ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਹੱਥੀਂ ਮਿਹਨਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ | ਇਸ ਲਈ ਇੱਕ ਵਾਰ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀ ਲਾਗਤ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਫਿਰ ਇਹ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਪ੍ਰੀਫਿਕਸਾਂ ਅਤੇ ਜਾਣੇ-ਪਛਾਣੇ ਅਣਚਾਹੇ ਵਿਹਾਰਾਂ ਤੋਂ ਗ੍ਰੇਡਰਾਂ ਦੀ ਮੁੜ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। |
ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਵਿਚਕਾਰ ਉੱਚ-ਪੱਧਰੀ ਤੁਲਨਾ
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ, ਅਸੀਂ GPT‑5.4 ਥਿੰਕਿੰਗ ਲਈ 20 ਕਿਸਮਾਂ ਦੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਦੀ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਮੇਂ ਸਾਹਮਣੇ ਆਉਣ ਵਾਲੀ ਦਰ ਦੇ ਅਨੁਮਾਨਾਂ ਨੂੰ ਪਹਿਲਾਂ ਤੋਂ ਰਜਿਸਟਰ ਕੀਤਾ ਸੀ। ਅਸੀਂ GPT‑5‑ਸੀਰੀਜ਼ ਦੇ ਥਿੰਕਿੰਗ ਮਾਡਲਾਂ ਦੇ ਹੋਰ ਡਿਪਲਾਇਮੈਂਟਾਂ ਵਿੱਚ ਪਿਛੋਕੜ ਵਾਲੇ ਅਧਿਐਨ ਵੀ ਕੀਤੇ। ਜਿਨ੍ਹਾਂ ਮਾਡਲ ਵਿਵਹਾਰਾਂ ਦਾ ਅਸੀਂ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੇ ਹਾਂ, ਉਹਨਾਂ ਨੂੰ ਗਲਤ-ਤਾਲਮੇਲ ਅਤੇ ਪਾਬੰਦੀਸ਼ੁਦਾ ਸਮੱਗਰੀ ਦੋਵਾਂ ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਬਾਰੇ ਅਸੀਂ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਰਿਪੋਰਟ ਕਰਦੇ ਰਹੇ ਹਾਂ (ਉਦਾਹਰਨ ਲਈ: ਮਾਡਲ ਦੁਆਰਾ ਟੂਲਸ ਬਾਰੇ ਝੂਠ ਬੋਲਣਾ, ਜਾਂ ਪਾਬੰਦੀਸ਼ੁਦਾ ਜਿਨਸੀ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨਾ)। ਹਾਲਾਂਕਿ ਇਹਨਾਂ ਨਤੀਜਿਆਂ ਲਈ ਅਸੀਂ ਅਣਚਾਹੇ ਮਾਡਲ ਵਿਵਹਾਰ ਦੀਆਂ ਸਿਰਫ਼ 20 ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਹੀ ਟ੍ਰੈਕ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਸਿਰਫ਼ ਨਵੇਂ ਗਲਤ-ਤਾਲਮੇਲ ਵਾਲੇ ਵਿਵਹਾਰਾਂ ਦੀ ਖੋਜ ਕਰਦੇ ਹਾਂ, ਪਰ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਆਮ ਤਕਨੀਕ ਹੈ ਜਿਸ ਨੂੰ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਮੇਂ ਮਾਡਲ ਦੀ ਕਿਸੇ ਵੀ ਵਿਸ਼ੇਸ਼ਤਾ ਨੂੰ ਸਿਮੂਲੇਟ ਕਰਨ ਲਈ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਸਾਡੇ ਦੁਆਰਾ ਵਰਤਿਆ ਗਿਆ ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਵੀ GPT‑5‑ਸੀਰੀਜ਼ ਦੇ ਥਿੰਕਿੰਗ ਮਾਡਲਾਂ ਤੋਂ ਹੀ ਲਿਆ ਗਿਆ ਸੀ। ਆਪਣੇ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਚਲਾਉਣ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਖਾਤੇ ਨਾਲ ਜੁੜੇ ਪਛਾਣਕਰਤਾਵਾਂ ਅਤੇ ਪਛਾਣਨਯੋਗ ਜਾਣਕਾਰੀ ਨੂੰ ਆਟੋਮੈਟਿਕ ਤੌਰ 'ਤੇ ਹਟਾ ਦਿੱਤਾ ਸੀ। ਸਾਡੀ ਨਿੱਜਤਾ ਨੀਤੀ ਦੇ ਅਨੁਸਾਰ, ਅਸੀਂ ਸਿਰਫ਼ ਉਨ੍ਹਾਂ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ChatGPT ਟ੍ਰੈਫਿਕ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਿਹੜੇ ਮਾਡਲ ਦੇ ਸੁਧਾਰਾਂ ਲਈ ਆਪਣੇ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ। ਅਸੀਂ ਇਹਨਾਂ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਸਿਰਫ਼ ਸਮੂਹਿਕ ਨਤੀਜਿਆਂ ਦੀ ਹੀ ਰਿਪੋਰਟ ਦਿੰਦੇ ਹਾਂ। ਕੁੱਲ ਮਿਲਾ ਕੇ, ਅਸੀਂ ਅਗਸਤ 2025 ਤੋਂ ਮਾਰਚ 2026 ਤੱਕ, GPT‑5 ਥਿੰਕਿੰਗ ਤੋਂ ਲੈ ਕੇ GPT‑5.4 ਡਿਪਲਾਇਮੈਂਟਾਂ ਤੱਕ ਲਗਭਗ 1.3 ਮਿਲੀਅਨ ਗੁਪਤ ਰੱਖੀਆਂ ਗੱਲਬਾਤਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ।
ਡਿਪਲਾਏਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਪ੍ਰੀ-ਡਿਪਲਾਏਮੈਂਟ ਜੋਖਮ ਮੁਲਾਂਕਣ ਦੀ ਗੁਣਵੱਤਾ ਨੂੰ ਅਸੀਂ ਮੁੱਖ ਤੌਰ 'ਤੇ ਤਿੰਨ ਤਰੀਕਿਆਂ ਨਾਲ ਪਰਖਦੇ ਹਾਂ:
- ਟੈਕਸੋਨੋਮੀ ਕਵਰੇਜ: ਕੀ ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ ਕੀਤੇ ਗਏ ਆਡਿਟ ਵਿੱਚ ਕੋਈ ਅਜਿਹੇ ਮਹੱਤਵਪੂਰਨ ਗਲਤ ਵਿਵਹਾਰ ਸਾਹਮਣੇ ਆਏ ਹਨ, ਜੋ ਸਾਡੀ ਸ਼ੁਰੂਆਤੀ ਬੁਰੇ ਵਿਵਹਾਰ ਦੀ ਟੈਕਸੋਨੋਮੀ ਵਿੱਚ ਸ਼ਾਮਲ ਨਹੀਂ ਸਨ?
- ਦਿਸ਼ਾਤਮਕ ਸ਼ੁੱਧਤਾ: ਕੀ ਸਿਮੂਲੇਸ਼ਨ ਨੇ ਸਹੀ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ ਸੀ ਕਿ ਜਾਣੇ-ਪਛਾਣੇ ਵਿਵਹਾਰਾਂ ਲਈ ਡਿਪਲਾਏਮੈਂਟ ਪ੍ਰਸਾਰ ਵਧੇਗਾ ਜਾਂ ਘਟੇਗਾ?
- ਰੇਟ ਕੈਲੀਬ੍ਰੇਸ਼ਨ: ਕੀ ਸਾਡੇ ਡਿਪਲਾਏਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਦੇ ਅਨੁਮਾਨ ਉਹਨਾਂ ਦਰਾਂ ਦੇ ਨੇੜੇ ਸਨ ਜੋ ਅਸੀਂ ਬਾਅਦ ਵਿੱਚ ਡਿਪਲਾਏਮੈਂਟ ਦੌਰਾਨ ਦੇਖੀਆਂ? ਸਹੀ ਰੇਟ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਹਾਸਲ ਕਰਨ ਲਈ ਸਿਰਫ਼ ਦਿਸ਼ਾਤਮਕ ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜੋ ਇਸਨੂੰ ਗੁਣਵੱਤਾ ਦਾ ਸਭ ਤੋਂ ਉੱਚਾ ਸੰਭਵ ਮਿਆਰ ਬਣਾਉਂਦੀ ਹੈ।
ਅਸੀਂ ਡਿਪਲਾਏਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੌਰਾਨ ਇਹ ਵੀ ਮਾਪਦੇ ਹਾਂ ਕਿ ਮਾਡਲ ਇਹ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਕਿੰਨੇ ਸਮਰੱਥ ਹਨ ਕਿ ਉਹ ਇੱਕ ਮੁਲਾਂਕਣ ਵਿੱਚ ਹਨ, ਅਤੇ ਇਹ ਵੀ ਟੈਸਟ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਤਰੀਕਾ ਵੱਖ-ਵੱਖ ਤਰ੍ਹਾਂ ਦੇ ਡਿਪਲਾਏਮੈਂਟ ਟ੍ਰੈਫਿਕ ਅਤੇ ਟੂਲ ਦੀ ਵਰਤੋਂ ਵਾਲੀਆਂ ਚੁਣੌਤੀਪੂਰਨ ਸੈਟਿੰਗਾਂ ਲਈ ਕਿੰਨਾ ਮਜ਼ਬੂਤ ਹੈ।
GPT‑5‑ਸੀਰੀਜ਼ ਥਿੰਕਿੰਗ ਦੇ ਸਾਰੇ ਡਿਪਲਾਏਮੈਂਟਸ ਦੇ ਦੌਰਾਨ ਡਿਪਲਾਏਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਨੇ ਅਸਲ ਜੋਖਮ ਦਰ ਦਾ ਪਤਾ ਲਗਾਉਣ ਵਿੱਚ ਚੁਣੌਤੀਪੂਰਨ-ਪ੍ਰੋਂਪਟ ਬੇਸਲਾਈਨਾਂ ਨੂੰ ਪਿੱਛੇ ਛੱਡ ਦਿੱਤਾ, ਇਹ ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਕੈਲਕੁਲੇਟਰ ਹੈਕਿੰਗ ਨੂੰ ਸਾਹਮਣੇ ਲਿਆਉਣ ਵਿੱਚ ਸਫਲ ਰਿਹਾ, ਅਤੇ ਇਹ ਮਾਡਲ ਲਈ ਸੰਭਾਵੀ ਤੌਰ 'ਤੇ ਅਸਲ ਡਿਪਲਾਏਮੈਂਟ ਵਰਗਾ ਹੀ ਪ੍ਰਤੀਤ ਹੋਇਆ।
ਸਾਡੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਦੀ ਝਲਕ। GPT‑5‑ਸੀਰੀਜ਼ ਦੇ ਥਿੰਕਿੰਗ ਮਾਡਲ ਡਿਪਲਾਏਮੈਂਟਸ ਲਈ ਸਾਰੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਦੇ ਵਿਜ਼ੂਅਲ ਰੂਪ ਵਿੱਚ ਦੇਖਣ ਲਈ ਚਿੱਤਰ 2 ਦੇਖੋ। GPT‑5.4 ਥਿੰਕਿੰਗ ਲਈ ਭਵਿੱਖਬਾਣੀਆਂ ਪਹਿਲਾਂ ਤੋਂ ਰਜਿਸਟਰਡ ਸਨ, ਜਦੋਂ ਕਿ ਬਾਕੀ ਪਿਛਲੀਆਂ ਸਥਿਤੀਆਂ 'ਤੇ ਅਧਾਰਤ ਭਵਿੱਖਬਾਣੀਆਂ ਸਨ। ਕੁੱਲ ਮਿਲਾ ਕੇ, ਸਾਡੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਵਿੱਚ 1.5x ਦੀ ਮੱਧਮ ਗੁਣਾਤਮਕ ਗਲਤੀ ਸੀ (ਉਦਾਹਰਨ ਲਈ, ਜੇਕਰ ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਦੀ ਦਰ 100k ਵਿੱਚ 10 ਹੈ, ਤਾਂ ਇਹ 100k ਵਿੱਚ 15 ਜਾਂ 6.67 ਦੀ ਦਰ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੇ ਬਰਾਬਰ ਹੋਵੇਗੀ)। ਹਾਲਾਂਕਿ ਸਾਡੇ ਤਰੀਕੇ ਦੀਆਂ ਅੰਤਿਮ ਗਲਤੀਆਂ ਲਗਭਗ 10 ਗੁਣਾ ਵੱਡੀਆਂ ਹੋ ਸਕਦੀਆਂ ਹਨ, ਸਾਨੂੰ ਉਮੀਦ ਹੈ ਕਿ ਸਾਡੇ ਸਿਮੂਲੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਹੋਰ ਸੁਧਾਰਾਂ ਨਾਲ ਇਹਨਾਂ ਨੂੰ ਕਾਫ਼ੀ ਹੱਦ ਤੱਕ ਘਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਹੇਠਾਂ ਚਰਚਾ ਕੀਤੀ ਗਈ ਹੈ।
ਚਿੱਤਰ 2. ਪਿਛਲੇ ਡਿਪਲਾਇਮੈਂਟ ਡਾਟਾ ਦੇ ਅਧਾਰ 'ਤੇ, ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਮੇਂ ਹੋਣ ਵਾਲੇ ਅਣਚਾਹੇ ਵਿਹਾਰ ਦੀ ਬਾਰੰਬਾਰਤਾ ਦੇ ਅਨੁਮਾਨ, ਜੋ ਕਿ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ। ਸੰਕੇਤ 5.1 → 5 ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਸੀਂ GPT‑5.1 ਨਾਲ GPT‑5 ਦੇ ਪ੍ਰੀਫਿਕਸਿਜ਼ ਨੂੰ ਦੁਬਾਰਾ ਸੈਂਪਲ ਕਰ ਰਹੇ ਹਾਂ, ਯਾਨੀ ਕਿ GPT‑5 ਦੇ ਡਾਟਾ ਦੇ ਅਧਾਰ 'ਤੇ GPT‑5.1 ਦੇ ਡਿਪਲਾਇਮੈਂਟ ਨੂੰ ਸਿਮੂਲੇਟ ਕਰ ਰਹੇ ਹਾਂ। ਗਲਤ-ਸੰਰੇਖਿਤ ਵਿਹਾਰ ਦੀ ਸਭ ਤੋਂ ਉੱਚੀ ਦਰ GPT‑5.1 ਵਿੱਚ "ਕੈਲਕੁਲੇਟਰ ਹੈਕਿੰਗ" ਸੀ, ਜਿਸ ਬਾਰੇ ਅਸੀਂਪਹਿਲਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਚਰਚਾ ਕਰ ਚੁੱਕੇ ਹਾਂ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਦੀ ਤੁਲਨਾ ਬੇਸਲਾਈਨਾਂ ਨਾਲ ਕਰਨਾ। ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਦੇ ਜੋਖਮ-ਮੁਲਾਂਕਣਾਂ ਲਈ ਸਭ ਤੋਂ ਸਹੀ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਾਲੀਆਂ ਮਹੱਤਵਪੂਰਨ ਸ਼੍ਰੇਣੀਆਂ ਉਹ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਮਾਡਲ ਦੇ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਬਾਅਦ ਘਟਨਾਵਾਂ ਦੀ ਦਰ ਵਿੱਚ ਵੱਡੇ ਬਦਲਾਅ (ਜਿਵੇਂ ਕਿ >= 1.5 x) ਹੁੰਦੇ ਹਨ। ਇਸ ਸਬ-ਸੈੱਟ 'ਤੇ, ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੋਵਾਂ ਮਾਮਲਿਆਂ ਵਿੱਚ ਬੇਸਲਾਈਨਾਂ ਨਾਲੋਂ ਕਾਫ਼ੀ ਬਿਹਤਰ ਹੈ: ਪਹਿਲਾ, ਇਹ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਵਿੱਚ ਕਿ ਮਾਡਲ ਦੇ ਡਿਪਲਾਇਮੈਂਟ ਨਾਲ ਕੋਈ ਖਾਸ ਅਣਚਾਹਿਆ ਵਿਵਹਾਰ ਵਧੇਗਾ ਜਾਂ ਘਟੇਗਾ (ਚਿੱਤਰ 3, ਖੱਬੇ), ਅਤੇ ਦੂਜਾ, ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਮੇਂ ਇਸਦੀ ਸਹੀ ਦਰ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਵਿੱਚ (ਚਿੱਤਰ 3, ਸੱਜੇ)। ਅਸੀਂ ਦੋ ਮੁੱਖ ਬੇਸਲਾਈਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ: ਇੱਕ ਚੈਲੇਂਜਿੰਗ ਪ੍ਰੋਂਪਟਸ ਬੇਸਲਾਈਨ ਜਿਸਦੀ ਵਰਤੋਂ ਅਸੀਂ ਵਰਤਮਾਨ ਵਿੱਚ ਸਿਸਟਮ ਕਾਰਡਾਂ ਅਤੇ ਲਾਂਚ ਦੇ ਫੈਸਲਿਆਂ ਲਈ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਇੱਕ ਸਾਧਾਰਨ ਬੇਸਲਾਈਨ ਜਿਸ ਵਿੱਚ ਨਵੇਂ ਮਾਡਲ ਦੇ ਅੰਦਾਜ਼ੇ ਵਜੋਂ ਪਿਛਲੇ ਡਿਪਲਾਇਮੈਂਟ ਦੀਆਂ ਦਰਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
ਚਿੱਤਰ 3. ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਸਟੈਟਿਕ ਮੁਲਾਂਕਣਾਂ ਦੇ ਮੁਕਾਬਲੇ ਘਟਨਾਵਾਂ ਦੇ ਬਦਲਾਅ ਦੀ ਦਿਸ਼ਾ (ਖੱਬੇ) ਅਤੇ ਸਹੀ ਉਤਪਾਦਨ ਦਰਾਂ (ਸੱਜੇ) ਦੋਵਾਂ ਦਾ ਬਿਹਤਰ ਅਨੁਮਾਨ ਲਗਾਉਂਦਾ ਹੈ।
ਸਾਡੀ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਸਿਮੂਲੇਸ਼ਨ ਗਲਤੀ ਦੇ ਸਰੋਤ। ਅਸੀਂ ਆਪਣੀ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਗਲਤੀ ਦੇ ਮੌਜੂਦਾ ਸਰੋਤਾਂ ਦਾ ਵੀ ਅਧਿਐਨ ਕੀਤਾ ਹੈ। ਖਾਸ ਤੌਰ 'ਤੇ, ਵੱਡੀਆਂ ਟੇਲ ਗਲਤੀਆਂ ਪਾਈਪਲਾਈਨ ਨੂੰ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਫੈਸਲਿਆਂ ਲਈ ਘੱਟ ਭਰੋਸੇਯੋਗ ਬਣਾਉਂਦੀਆਂ ਹਨ: ਉਦਾਹਰਣ ਵਜੋਂ, ਜਦੋਂ ਕਿਸੇ ਖਾਸ ਕਿਸਮ ਦੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਅਨੁਮਾਨਿਤ ਵਾਧਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਅਤੇ ਜੇਕਰ ਇਹ ਪਤਾ ਹੋਵੇ ਕਿ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਕਦੇ-ਕਦਾਈਂ ਵੀ ਵੱਡੀਆਂ ਗਲਤੀਆਂ ਹੋ ਜਾਂਦੀਆਂ ਹਨ, ਤਾਂ ਇਹ ਇਸ ਗੱਲ 'ਤੇ ਸ਼ੱਕ ਪੈਦਾ ਕਰਦਾ ਹੈ ਕਿ ਕੀ ਇਹ ਇੱਕ ਭਰੋਸੇਯੋਗ ਅੰਦਾਜ਼ਾ ਹੈ ਜਾਂ ਪਾਈਪਲਾਈਨ ਦੀ ਹੀ ਕੋਈ ਖਾਮੀ ਹੈ। ਸੰਭਾਵਿਤ ਗਲਤੀ ਦੇ ਦੋ ਮੁੱਖ ਸਰੋਤ ਹਨ:
- ਮੁੜ-ਸੈਂਪਲਿੰਗ ਇਨਵਾਇਰਨਮੈਂਟ ਫਿਡੇਲਿਟੀ ਗਲਤੀ:ਪ੍ਰੋਡਕਸ਼ਨ ਦਰਾਂ ਦਾ ਸਹੀ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ, ਸਾਡੀ ਸਿਮੂਲੇਸ਼ਨ ਪਾਈਪਲਾਈਨ ਦਾ ਜਿੰਨਾ ਹੋ ਸਕੇ ਵਾਸਤਵਿਕ ਹੋਣਾ ਜ਼ਰੂਰੀ ਹੈ। ਇਹ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਇੱਕ ਇੰਜਨੀਅਰਿੰਗ ਦੀ ਸਮੱਸਿਆ ਹੈ (ਮਾਡਲ ਤੋਂ ਸੈਂਪਲ ਲੈਣ ਲਈ ਉਸੇ ਪਾਈਪਲਾਈਨ ਦੀ ਵਰਤੋਂ ਕਰਨਾ ਜੋ ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਹੈ), ਅਤੇ ਅੰਸ਼ਕ ਤੌਰ 'ਤੇ ਉਨ੍ਹਾਂ ਟੂਲਜ਼ ਲਈ ਇੱਕ ਦਿਲਚਸਪ ਚੁਣੌਤੀ ਹੈ ਜਿਨ੍ਹਾਂ ਨੂੰ ਲਗਾਤਾਰ ਬਦਲਦੇ ਰਹਿਣ ਵਾਲੇ ਬਾਹਰੀ ਸਰੋਤਾਂ (ਜਿਵੇਂ ਕਿ ਵੈੱਬ ਖੋਜਾਂ ਜਾਂ ਲੋਕਲ ਫਾਈਲਾਂ ਨਾਲ ਗੱਲਬਾਤ) ਤੱਕ ਰੀਡ/ਰਾਈਟ ਪਹੁੰਚ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਅਸੀਂ ਇੱਕ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਅਤੇ ਉਸ ਦੇ ਸਿਮੂਲੇਸ਼ਨ (ਯਾਨੀ ਕਿ ਪਹਿਲਾਂ ਤੋਂ ਡਿਪਲਾਏ ਕੀਤੇ ਜਾ ਚੁੱਕੇ ਮਾਡਲ ਦੇ ਡਿਪਲਾਇਮੈਂਟ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰਕੇ) ਦੀਆਂ ਭਵਿੱਖਬਾਣੀਆਂ ਦੀ ਤੁਲਨਾ ਕਰਕੇ ਸਿਮੂਲੇਸ਼ਨ ਫਿਡੇਲਿਟੀ ਗਲਤੀ ਨੂੰ ਵੱਖਰਾ ਕਰ ਸਕਦੇ ਹਾਂ।
- ਪ੍ਰੌੰਪਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਸ਼ਿਫਟ ਗਲਤੀ: ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਨਾਲ ਇੱਕ ਵੱਡੀ ਚਿੰਤਾ ਇਹ ਹੈ ਕਿ ਕਿਸੇ ਵੀ ਮਾਡਲ ਦਾ ਡਿਪਲਾਇਮੈਂਟ ਇਨਪੁੱਟਾਂ ਵਿੱਚ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨਲ ਸ਼ਿਫਟ ਦਾ ਕਾਰਨ ਬਣੇਗੀ, ਖਾਸ ਕਰਕੇ ਜੇਕਰ ਉਪਭੋਗਤਾ ਮਾਡਲ ਦੀਆਂ ਨਵੀਆਂ ਸਹੂਲਤਾਂ ਦੇ ਅਨੁਕੂਲ ਹੋ ਜਾਂਦੇ ਹਨ। ਅਸੀਂ ਹਾਲੀਆ ਪ੍ਰੋਂਪਟਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤੇ ਗਏ ਸਿਮੂਲੇਸ਼ਨ ਦੇ ਅਨੁਮਾਨਾਂ ਅਤੇ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਮਿਲੇ ਪ੍ਰੌੰਪਟਾਂ ਦੇ ਅਨੁਮਾਨਾਂ ਦੀ ਆਪਸ ਵਿੱਚ ਤੁਲਨਾ ਕਰਕੇ ਪ੍ਰੌੰਪਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਗਲਤੀ ਨੂੰ ਵੱਖਰਾ ਕਰਦੇ ਹਾਂ।
ਜਿਵੇਂ ਕਿ ਚਿੱਤਰ 4 ਵਿੱਚ ਦੇਖਿਆ ਜਾ ਸਕਦਾ ਹੈ, ਅਸੀਂ ਪਾਇਆ ਹੈ ਕਿ ਸਾਡੀ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਗਲਤੀ ਦਾ ਇੱਕ ਵੱਡਾ ਹਿੱਸਾ–ਖਾਸ ਕਰਕੇ ਟੇਲ ਗਲਤੀਆਂ ਘੱਟ ਹੋਣ ਵਾਲੀਆਂ ਪਰ ਗੰਭੀਰ ਗਲਤੀਆਂ ਲਈ–ਫਿਲਹਾਲ ਸਿਮੂਲੇਸ਼ਨ ਫਿਡੇਲਿਟੀ ਦੇ ਕਾਰਨ ਹੈ। ਇਹ ਇੱਕ ਚੰਗੀ ਖ਼ਬਰ ਹੈ ਕਿਉਂਕਿ ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਪ੍ਰੌੰਪਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਸ਼ਿਫਟ ਨੂੰ ਘਟਾਉਣ ਦੇ ਮੁਕਾਬਲੇ ਸਿਮੂਲੇਸ਼ਨ ਫਿਡੇਲਿਟੀ ਵਿੱਚ ਸੁਧਾਰ ਕਰਨਾ ਆਮ ਤੌਰ 'ਤੇ ਜ਼ਿਆਦਾ ਆਸਾਨ ਹੁੰਦਾ ਹੈ। ਅਸੀਂ ਇਹ ਵੀ ਪਾਇਆ ਹੈ ਕਿ ਪਿਛਲੀ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਸਭ ਤੋਂ ਹਾਲੀਆ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਪ੍ਰੌੰਪਟ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ ਸ਼ਿਫਟ ਗਲਤੀ ਨੂੰ ਘਟਾਇਆ ਜਾ ਸਕਦਾ ਹੈ। ਇਸ ਬਾਰੇ ਵਧੇਰੇ ਵਿਸਥਾਰ ਖੋਜ ਪੱਤਰ ਵਿੱਚ ਮਿਲ ਸਕਦਾ ਹੈ।
ਚਿੱਤਰ 4: ਸਾਡੇ ਅਨੁਮਾਨਾਂ ਵਿੱਚ ਮੁੜ-ਸੈਂਪਲਿੰਗ ਇਨਵਾਇਰਨਮੈਂਟ ਫਿਡੇਲਿਟੀ ਗਲਤੀ ਦਾ ਸਭ ਤੋਂ ਵੱਡਾ ਸਰੋਤ ਪ੍ਰਤੀਤ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਸਭ ਤੋਂ ਗੰਭੀਰ ਗਲਤੀਆਂ ਲਈ।
ਸਵੈਚਾਲਿਤ ਆਡਿਟਿੰਗ ਨੇ ਇਨ੍ਹਾਂ ਡਿਪਲਾਇਮੈਂਟਾਂ ਵਿੱਚ ਪੈਦਾ ਹੋਈ ਨਵੀਂ ਗਲਤ-ਅਲਾਈਨਮੈਂਟ ਦਾ ਪਤਾ ਲਗਾਇਆ ਹੈ। ਸਾਡੇ ਦੁਆਰਾ ਅਧਿਐਨ ਕੀਤੇ ਗਏ ਡਿਪਲਾਇਮੈਂਟ ਵਿੰਡੋ ਦੇ ਦੌਰਾਨ ਸਿਮੂਲੇਟਡ ਡਿਪਲਾਇਮੈਂਟਸ 'ਤੇ ਅਧਾਰਤ ਸਾਡੀ ਸਵੈਚਾਲਿਤ ਆਡਿਟਿੰਗ ਪਾਈਪਲਾਈਨ ਨੇ ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ‘ਕੈਲਕੁਲੇਟਰ ਹੈਕਿੰਗ’ ਨੂੰ ਸਾਹਮਣੇ ਲਿਆ ਦਿੱਤਾ ਹੁੰਦਾ, ਜੋ ਕਿ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤੇ ਗਏ ChatGPT ਟ੍ਰੈਫਿਕ ਵਿੱਚ ਸਾਡੇ ਦੁਆਰਾ ਪਛਾਣੀ ਗਈ ਇੱਕਮਾਤਰ ਨਵੀਂ ਗਲਤ-ਅਲਾਈਨਮੈਂਟ ਸੀ। ਕੈਲਕੁਲੇਟਰ ਹੈਕਿੰਗ ਰਿਵਾਰਡ ਹੈਕਿੰਗ ਦਾ ਹੀ ਇੱਕ ਰੂਪ ਹੈ, ਜਿਸ ਵਿੱਚ ਮਾਡਲ ਬ੍ਰਾਊਜ਼ਰ ਟੂਲ ਨੂੰ ਕੈਲਕੁਲੇਟਰ ਵਜੋਂ ਵਰਤਦਾ ਹੈ ਜਦੋਂ ਕਿ ਉਸ ਕਾਰਵਾਈ ਨੂੰ ਖੋਜ ਵਜੋਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਇਹ ਨਹੀਂ ਹੈ ਕਿ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਆਡਿਟਿੰਗ ਹਰ ਨਵੀਂ ਖਾਮੀ ਜਾਂ ਗਲਤੀ ਨੂੰ ਫੜ ਲਵੇਗੀ, ਪਰ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਸਲ ਸੰਦਰਭ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹਨ: ਉਹ ਅਜਿਹੇ ਵਿਵਹਾਰਾਂ ਨੂੰ ਸਾਹਮਣੇ ਲਿਆ ਸਕਦੇ ਹਨ ਜੋ ਸ਼ਾਇਦ ਸੀਮਤ ਇਵੈਲੂਏਸ਼ਨ ਸੈੱਟ ਕਦੇ ਵੀ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਸਾਹਮਣੇ ਨਾ ਲਿਆ ਸਕਣ, ਭਾਵੇਂ ਉਹ ਵਿਵਹਾਰ ਸਿਮੂਲੇਸ਼ਨ ਨੂੰ ਸ਼ੁਰੂ ਕਰਨ ਲਈ ਵਰਤੇ ਗਏ ਅਸਲ ਟ੍ਰੈਫਿਕ ਵਿੱਚ ਮੌਜੂਦ ਨਾ ਵੀ ਹੋਵੇ।
ਡਿਪਲਾਇਮੈਂਟ ਵਰਗੇ ਸੰਦਰਭਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨ ਦਾ ਇੱਕ ਹੋਰ ਲਾਭ ਇਹ ਹੈ ਕਿ ਇਹ ਉਹਨਾਂ ਵਿਗਾੜਾਂ ਨੂੰ ਘਟਾ ਸਕਦੇ ਹਨ ਜੋ ਉਦੋਂ ਪੈਦਾ ਹੁੰਦੇ ਹਨ ਜਦੋਂ ਮਾਡਲ ਇਹ ਪਛਾਣ ਲੈਂਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ। ਪਿਛਲੀ ਖੋਜ ਵਿੱਚ, ਅਸੀਂ ਅਤੇ ਹੋਰਾਂ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੇ ਪਾਇਆ ਹੈ ਕਿ ਮਾਡਲ ਅਕਸਰ ਜਾਣਦੇ ਹੁੰਦੇ ਹਨ ਕਿ ਉਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਕਦੋਂ ਹੋ ਰਹੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਮਾਡਲ ਆਪਣੀ ਚੇਨ-ਆਫ-ਥੌਟ ਵਿੱਚ ਇਸ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਉਨ੍ਹਾਂ ਦੀ ਕਿਸ ਚੀਜ਼ ਤੇ ਜਾਂਚ ਹੋ ਰਹੀ ਹੈ, ਮੁਲਾਂਕਣਕਰਤਾ ਨੂੰ ਕੀ ਪਸੰਦ ਆ ਸਕਦਾ ਹੈ, ਅਤੇ – ਜੇ ਉਹ ਗਲਤ ਵਿਹਾਰ ਕਰ ਰਹੇ ਹਨ – ਕੀ ਉਹ ਫੜੇ ਜਾਣਗੇ। ਇਹ ਅਲਾਈਨਮੈਂਟ ਮੁਲਾਂਕਣਾਂ ਲਈ ਸਮੱਸਿਆ ਪੈਦਾ ਕਰਦਾ ਹੈ: ਜੇਕਰ ਕੋਈ ਮਾਡਲ ਸਿਰਫ਼ ਇਸ ਲਈ ਚੰਗਾ ਵਿਹਾਰ ਕਰਦਾ ਹੈ ਕਿਉਂਕਿ ਉਸਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਉਸਦੀ ਜਾਂਚ ਹੋ ਰਹੀ ਹੈ, ਤਾਂ ਅਸੀਂ ਇਹ ਭਰੋਸਾ ਕਿਵੇਂ ਬਣਾਈਏ ਕਿ ਜਦੋਂ ਉਸਨੂੰ ਪਤਾ ਲੱਗੇਗਾ ਕਿ ਉਹ ਡਿਪਲੋਇ ਹੋ ਗਿਆ ਹੈ ਤਾਂ ਉਹ ਸੁਰੱਖਿਅਤ ਵਿਹਾਰ ਕਰੇਗਾ?
ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਡੇਟਾ 'ਤੇ ਆਧਾਰਿਤ ਨਾ ਹੋਣ ਵਾਲੇ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ ਦੇ ਮੁਕਾਬਲੇ ਮਾਡਲਾਂ ਵੱਲੋਂ ਦਿਖਾਈ ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ ਦੇ ਪੱਧਰਾਂ ਨੂੰ ਕਾਫ਼ੀ ਘਟਾਉਂਦਾ ਹੈ। ਅਸੀਂ ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ ਤਿੰਨ ਤਰੀਕਿਆਂ ਨਾਲ ਮਾਪਦੇ ਹਾਂ: ਮਾਡਲ ਨੂੰ ਇਹ ਵਰਗੀਕ੍ਰਿਤ ਕਰਨ ਲਈ ਕਹਿ ਕੇ ਕਿ ਕੋਈ ਟ੍ਰੈਜੈਕਟਰੀ ਪ੍ਰੋਡਕਸ਼ਨ ਜਾਂ ਮੁਲਾਂਕਣ ਤੋਂ ਆਈ ਸੀ, ਅਲਾਈਨਮੈਂਟ ਲਈ ਮੁਲਾਂਕਣ ਹੋਣ ਬਾਰੇ ਸਪਸ਼ਟ ਬਿਆਨਾਂ ਲਈ ਚੇਨ-ਆਫ-ਥੌਟ ਦੀ ਨਿਗਰਾਨੀ ਕਰਕੇ, ਅਤੇ ਮੇਟਾਗੇਮਿੰਗ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਲਈ: ਨਿਗਰਾਨੀ ਬਾਰੇ ਕੋਈ ਵੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਜਾਂਚ ਕਰਕੇ। ਸਿਮੂਲੇਟਡ ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ ਇਹਨਾਂ ਤਿੰਨਾਂ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਅਸਲ ਡਿਪਲਾਇਮੈਂਟ ਟ੍ਰੈਫਿਕ ਨਾਲ ਬਹੁਤ ਨੇੜਿਓਂ ਮੇਲ ਖਾਂਦਾ ਸੀ। ਉਦਾਹਰਨ ਲਈ, GPT‑5.2 ਨੇ ਅਸਲੀ ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਨੂੰ 5.4% ਵਾਰ ਮੁਲਾਂਕਣ-ਵਰਗਾ ਅਤੇ ਸਿਮੂਲੇਟਡ ਟ੍ਰੈਫਿਕ ਨੂੰ 5.1% ਵਾਰ ਮੁਲਾਂਕਣ-ਵਰਗਾ ਲੇਬਲ ਕੀਤਾ, ਜਦਕਿ ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ (ਜਿਵੇਂ SWE-Bench ਜਾਂ MonorepoBench, ਜੋ ਮੁੱਖ ਤੌਰ ਤੇ ਸਿੰਥੈਟਿਕ ਉਦਾਹਰਨਾਂ ਤੋਂ ਬਣੇ ਹਨ) ਨੂੰ ਲਗਭਗ 100% ਵਾਰ ਮੁਲਾਂਕਣ ਵਜੋਂ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ ਗਿਆ ਸੀ।
ਚਿੱਤਰ 5. ਮੁਲਾਂਕਣ-ਜਾਗਰੂਕਤਾ ਦੀ ਤੁਲਨਾ: ਅਸਲ ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਅਤੇ ਸਿਮੂਲੇਟਡ ਟ੍ਰੈਫਿਕ ਮੁਲਾਂਕਣ ਖੋਜ, ਜ਼ਬਾਨੀ ਪ੍ਰਗਟਾਈ ਗਈ ਅਲਾਈਨਮੈਂਟ ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ, ਅਤੇ ਮੈਟਾਗੇਮਿੰਗ ਲਈ ਇੱਕੋ ਜਿਹੀਆਂ ਦਰਾਂ ਦਿਖਾਉਂਦੇ ਹਨ, ਜਦੋਂ ਕਿ ਰਵਾਇਤੀ ਇਵੈਲੂਏਸ਼ਨ ਡਾਟਾਸੈੱਟ ਬਹੁਤ ਜ਼ਿਆਦਾ ਦਰਾਂ ਦੀ ਰਿਪੋਰਟ ਕਰਦੇ ਹਨ।
ਇਹ ਜਾਂਚਣ ਲਈ ਕਿ ਕੀ ਇਹ ਤਰੀਕਾ ਮਿਆਰੀ ਚੈਟ ਮੋਡਾਂ ਤੋਂ ਅੱਗੇ ਵੀ ਵਧਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਅਸੀਂ ਚੁਣੌਤੀਪੂਰਨ ਏਜੰਟਿਕ ਕੋਡਿੰਗ ਸੈਟਿੰਗਾਂ ਲਈ ਸਿਮੂਲੇਟਿੰਗ ਡਿਪਲਾਇਮੈਂਟਸ ਦਾ ਵੀ ਅਧਿਐਨ ਕੀਤਾ। ਖਾਸ ਤੌਰ ਤੇ, ਅਸੀਂ GPT‑5.5 ਤੇ ਆਧਾਰਿਤ ਕੋਡਿੰਗ ਏਜੰਟਾਂ ਦੇ ਅੰਦਰੂਨੀ ਡਿਪਲਾਇਮੈਂਟ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰਨ ਲਈ GPT‑5.4 ਤੋਂ 120,000 ਅੰਦਰੂਨੀ ਕਰਮਚਾਰੀਆਂ ਦੀਆਂ ਏਜੰਟਿਕ ਟ੍ਰੈਜੈਕਟਰੀਆਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ। ਇਹ ਦੋ ਉਦੇਸ਼ਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ: ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਵਰਤੋਂ ਅੰਦਰੂਨੀ ਡਿਪਲਾਇਮੈਂਟਸ ਲਈ ਜੋਖਮ-ਮੁਲਾਂਕਣ ਵਾਸਤੇ ਵੀ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਟੂਲਸ ਦੇ ਸਾਵਧਾਨੀਪੂਰਵਕ ਸਿਮੂਲੇਸ਼ਨ ਰਾਹੀਂ ਏਜੰਟਿਕ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਵੀ ਸਿਮੂਲੇਸ਼ਨ ਫਿਡੇਲਿਟੀ ਨੂੰ ਉੱਚਾ ਚੁੱਕਣਾ ਸੰਭਵ ਹੈ।
ਉੱਪਰ ਅਸੀਂ ਚਰਚਾ ਕੀਤੀ ਹੈ ਕਿ ਸਿਮੂਲੇਸ਼ਨ ਫਿਡੇਲਿਟੀ ਸਾਡੀ ਮੌਜੂਦਾ ਪਾਈਪਲਾਈਨ ਵਿੱਚ ਗਲਤੀ ਦੇ ਮੁੱਖ ਸਰੋਤਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਡਿਪਲੋਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨਾਂ ਨੂੰ ਅਸਲੀ ਬਣਾਉਣ ਵਿੱਚ ਇੱਕ ਚੁਣੌਤੀ ਇਹ ਹੈ ਕਿ ਇਸ ਲਈ ਟੂਲਸ ਦਾ ਅਸਲ ਤਰੀਕਿਆਂ ਨਾਲ ਕੰਮ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੁੰਦਾ ਹੈ, ਭਾਵੇਂ ਉਹਨਾਂ ਨੂੰ ਲਗਾਤਾਰ ਬਦਲ ਰਹੇ ਬਾਹਰੀ ਸਰੋਤਾਂ (ਜਿਵੇਂ ਕਿ ਵੈੱਬ ਸਰਚ ਜਾਂ ਲੋਕਲ ਫਾਈਲਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨਾ) ਤੱਕ ਰੀਡ/ਰਾਈਟ ਪਹੁੰਚ ਦੀ ਲੋੜ ਹੀ ਕਿਉਂ ਨਾ ਹੋਵੇ।
ਇਹ ਖਾਸ ਤੌਰ 'ਤੇ ਏਜੰਟਿਕ ਡਿਪਲੋਇਮੈਂਟਸ ਵਰਗੀਆਂ ਸੈਟਿੰਗਾਂ ਲਈ ਚੁਣੌਤੀਪੂਰਨ ਹੈ: ਇੱਕ ਸਿੰਗਲ ਏਜੰਟ ਟ੍ਰੈਜੈਕਟਰੀ ਸੈਂਕੜੇ ਟੂਲ ਕਾਲਾਂ, ਰਿਪੋਜ਼ਟਰੀ ਦੀ ਸਥਿਤੀ, ਨੈੱਟਵਰਕ ਪ੍ਰਤੀਕਿਰਿਆਵਾਂ, ਜਾਂ ਅਸਥਾਈ ਖਰਾਬੀਆਂ 'ਤੇ ਨਿਰਭਰ ਕਰ ਸਕਦੀ ਹੈ। ਇਹ ਅਸਲ ਟੂਲ ਪਹੁੰਚ ਨਾਲ ਮੁੜ-ਸੈਂਪਲਿੰਗ ਕਰਨ ਨੂੰ ਚੁਣੌਤੀਪੂਰਨ ਅਤੇ ਸੰਭਾਵਿਤ ਤੌਰ ਤੇ ਖ਼ਤਰਨਾਕ ਦੋਵੇਂ ਬਣਾਉਂਦਾ ਹੈ। ਇਸ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦੇ ਹੋਏ ਟੂਲ ਕਾਲਾਂ ਨੂੰ ਲਾਈਵ ਸਿਸਟਮਾਂ 'ਤੇ ਲਾਗੂ ਕਰਨ ਦੀ ਬਜਾਏ, ਅਸੀਂ ਇੱਕ ਹੋਰ LLM ਨਾਲ ਉਹਨਾਂ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰਦੇ ਹਾਂ। ਅਸੀਂ ਦਿਖਾਉਂਦੇ ਹਾਂ ਕਿ ਇਸ LLM ਨੂੰ ਵਾਧੂ ਸਮਰੱਥਾਵਾਂ ਦੇਣਾ ਅਸਲੀਅਤ ਅਤੇ ਇਸ ਲਈ ਅਨੁਮਾਨ ਦੀ ਗੁਣਵੱਤਾ ਵਾਸਤੇ ਬਹੁਤ ਜ਼ਰੂਰੀ ਹੈ।
ਅਸੀਂ ਟੂਲ-ਸਿਮੂਲੇਟਰ ਮਾਡਲ ਨੂੰ ਅਸਲ ਫਾਈਨਲ-ਟਰਨ ਰੋਲਆਊਟ, ਗੱਲਬਾਤ ਦੇ ਸਮੇਂ ਦੀ ਰਿਪੋਜ਼ਟਰੀ, ਟੂਲ-ਕਾਲ/ਰਿਸਪੌਂਸ ਜੋੜਿਆਂ ਦਾ ਇੱਕ ਡਾਟਾਬੇਸ, ਅਤੇ ਰੀਡ-ਓਨਲੀ ਕਨੈਕਟਰ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ। ਇੱਕ ਟੈਸਟ ਵਿੱਚ, ਜਿੱਥੇ ਇੱਕ ਡਿਸਕ੍ਰਿਮੀਨੇਟਰ ਨੇ ਸਿਮੂਲੇਟ ਕੀਤੇ ਅਤੇ ਅਸਲ ਰੋਲਆਊਟਸ ਵਿਚਕਾਰ ਫਰਕ ਪਛਾਣਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ, ਉੱਥੇ ਅਸਲੀਅਤ ਦੀ ਜਿੱਤ ਦਰ 11.6% ਤੋਂ ਸੁਧਰ ਕੇ 49.5% ਹੋ ਗਈ, ਜੋ ਕਿ ਲਗਭਗ 50% ਦੀ ਆਮ ਸੰਭਾਵਨਾ ਦੇ ਬਰਾਬਰ ਹੈ।
ਚਿੱਤਰ 6: ਟੂਲ-ਕਾਲਾਂ ਨੂੰ ਵਧੀਆਂ ਹੋਈਆਂ ਸਮਰੱਥਾਵਾਂ ਨਾਲ ਸਿਮੂਲੇਟ ਕਰਨ ਵੇਲੇ ਕੋਈ ਵੀ ਵਿਅਕਤੀ ਟੂਲ-ਭਾਰੀ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਵੀ ਰੀਸੈਂਪਲਿੰਗ ਯਥਾਰਥਵਾਦ ਨੂੰ ਅਸਲ ਸੈਂਪਲਿੰਗ ਤੋਂ ਲਗਭਗ ਅਟੁੱਟ ਬਣਾ ਸਕਦਾ ਹੈ।
ਸਿਮੂਲੇਸ਼ਨ ਦੀ ਫਿਡੇਲਿਟੀ ਦੇ ਵਾਧੂ ਸਬੂਤ ਵਜੋਂ, ਜਦੋਂ GPT‑5.4 ਨਾਲ GPT‑5.4 Codex ਥਿੰਕਿੰਗ ਟ੍ਰੈਫਿਕ ਨੂੰ ਸਿਮੂਲੇਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਗਲਤ-ਸੰਰੇਖਣ ਦਰਾਂ ਲਗਭਗ ਐਰਰ ਬਾਰਸ ਦੇ ਅੰਦਰ ਹੀ ਹੁੰਦੀਆਂ ਹਨ। ਇਸਦੇ ਉਲਟ, ਸਾਡੇ ਪ੍ਰੀ-ਡਿਪਲਾਇਮੈਂਟ ਟੈਸਟਿੰਗ ਵਿੱਚ GPT‑5.5 ਜ਼ਿਆਦਾਤਰ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਵਧੇਰੇ ਗਲਤ-ਸੰਰੇਖਿਤ ਸੀ।
ਚਿੱਤਰ 7: ਟੂਲ ਸਿਮੂਲੇਸ਼ਨ ਦੇ ਨਾਲ, GPT‑5.4 ਦੁਆਰਾ ਰੀਸੈਂਪਲ ਕੀਤੀਆਂ ਗਈਆਂ ਗੱਲਬਾਤਾਂ ਅਤੇ ਅਸਲ GPT‑5.4 ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਦੇ ਵਿਵਹਾਰ ਦੀਆਂ ਦਰਾਂ ਕਾਫ਼ੀ ਸਮਾਨ ਹਨ – ਜੋ ਕਿ ਉੱਚ ਮੁੜ-ਸੈਂਪਲਿੰਗ ਇਨਵਾਇਰਨਮੈਂਟ ਫਿਡੇਲਿਟੀ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ। ਸ਼੍ਰੇਣੀਆਂ ਬਾਰੇ ਹੋਰ ਸੰਦਰਭ ਲਈ GPT‑5.5 ਸਿਸਟਮ ਕਾਰਡ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੇਖੋ।
ਇਹ ਨਤੀਜੇ ਸੁਝਾਅ ਦਿੰਦੇ ਹਨ ਕਿ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਨੂੰ ਗੁੰਝਲਦਾਰ ਏਜੰਟ ਸੈਟਿੰਗਾਂ ਤੱਕ ਵਧਾਇਆ ਜਾ ਸਕਦਾ ਹੈ, ਜੇਕਰ ਆਲੇ-ਦੁਆਲੇ ਦੇ ਟੂਲ ਵਾਤਾਵਰਣ ਨੂੰ ਲੋੜੀਂਦੀ ਸ਼ੁੱਧਤਾ ਨਾਲ ਸਿਮੂਲੇਟ ਕੀਤਾ ਜਾਵੇ।
ਇੱਕ ਸੁਭਾਵਿਕ ਸਵਾਲ ਇਹ ਹੈ ਕਿ ਕੀ ਬਾਹਰੀ ਆਡੀਟਰ ਨਿੱਜੀ ਪ੍ਰੋਡਕਸ਼ਨ ਟ੍ਰੈਫਿਕ ਤੱਕ ਪਹੁੰਚ ਤੋਂ ਬਿਨਾਂ ਵੀ ਇਹਨਾਂ ਵਿੱਚੋਂ ਕੁਝ ਸਮਾਨ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ। ਅਸੀਂ 100,000 WildChat ਗੱਲਬਾਤਾਂ ਨੂੰ ਪ੍ਰੀਫਿਕਸ ਵਜੋਂ ਵਰਤ ਕੇ ਇਸਦੀ ਜਾਂਚ ਕੀਤੀ। WildChat ਹਾਲ ਹੀ ਦੇ OpenAI ਪ੍ਰੋਡਕਸ਼ਨ ਡਾਟਾ ਦੇ ਮੁਕਾਬਲੇ ਘੱਟ ਸਹੀ ਸੀ, ਪਰ ਫਿਰ ਵੀ ਜਾਣਕਾਰੀ ਭਰਪੂਰ ਸੀ: ਹਾਲ ਹੀ ਦੇ ਪ੍ਰੋਡਕਸ਼ਨ ਡਾਟਾ ਵਿੱਚ WildChat (1.75× ਬਨਾਮ 2.44×) ਦੇ ਮੁਕਾਬਲੇ ਘੱਟ ਔਸਤ ਗੁਣਾਤਮਕ ਗਲਤੀ ਸੀ, ਜਦੋਂ ਕਿ WildChat ਅਕਸਰ ਪ੍ਰੋਡਕਸ਼ਨ ਦਰਾਂ ਦੇ ਲਗਭਗ 3× ਦੇ ਅੰਦਰ ਰਿਹਾ ਅਤੇ ਇਸਨੇ ਆਮ ਸੰਭਾਵਨਾ ਤੋਂ ਕਿਤੇ ਵੱਧ ਦਰਾਂ 'ਤੇ ਬਿਹਤਰ ਮਾਡਲ ਦੀ ਪਛਾਣ ਕੀਤੀ। ਅਸੀਂ WildChat-ਸ਼ੈਲੀ ਦੇ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਡਿਵੈਲਪਰਾਂ ਦੁਆਰਾ ਚਲਾਏ ਜਾਣ ਵਾਲੇ ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਦੇ ਇੱਕ ਉਮੀਦ ਭਰਪੂਰ ਪੂਰਕ ਵਜੋਂ ਦੇਖਦੇ ਹਾਂ। ਇਸ ਬਿੰਦੂ 'ਤੇ ਹੋਰ ਨਤੀਜਿਆਂ ਲਈ ਇਸ ਨਾਲ ਸੰਬੰਧਿਤ ਅਲਾਈਨਮੈਂਟ ਬਲੌਗਪੋਸਟ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੂੰ ਦੇਖੋ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਐਡਵਰਸੇਰੀਅਲ ਮੁਲਾਂਕਣਾਂ, ਰੈੱਡ-ਟੀਮਿੰਗ, ਅਤੇ ਟਾਰਗੇਟਡ ਟੇਲ-ਰਿਸਕ ਵਿਸ਼ਲੇਸ਼ਣ ਦਾ ਇੱਕ ਪੂਰਕ ਹੈ, ਨਾ ਕਿ ਇਹਨਾਂ ਦਾ ਬਦਲ। ਮਾਡਲ ਦੇ ਕੁਝ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਦੀ ਪਛਾਣ ਚੇਨ-ਆਫ-ਥੌਟ ਮਾਨੀਟਰੇਬਿਲਟੀ 'ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ: ਜੇਕਰ ਭਵਿੱਖ ਦੇ ਮਾਡਲ ਘੱਟ ਸਪਸ਼ਟ ਰੂਪ ਵਿੱਚ ਤਰਕ ਕਰਦੇ ਹਨ, ਮੁੱਖ ਕਦਮਾਂ ਨੂੰ ਛੱਡ ਦਿੰਦੇ ਹਨ, ਜਾਂ ਆਪਣੇ ਇਰਾਦੇ ਨੂੰ ਛੁਪਾਉਣਾ ਸਿੱਖ ਲੈਂਦੇ ਹਨ, ਤਾਂ ਸ਼ਾਇਦ ਅਸੀਂ ਅਜਿਹੇ ਅਣਚਾਹੇ ਵਿਵਹਾਰਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਦੇ ਯੋਗ ਨਾ ਹੋ ਸਕੀਏ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਕਿਉਂਕਿ ਪ੍ਰੋਡਕਸ਼ਨ ਡਾਟਾ ਨਿੱਜੀ ਹੁੰਦਾ ਹੈ, ਇਸ ਲਈ ਮੌਜੂਦਾ ਸਮੇਂ ਵਿੱਚ ਬਾਹਰੀ ਆਡੀਟਰਾਂ ਦੇ ਮੁਕਾਬਲੇ ਡਿਵੈਲਪਰਾਂ ਕੋਲ ਢੁਕਵੇਂ ਸੰਦਰਭਾਂ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਵਧੇਰੇ ਮੌਕੇ ਹਨ। ਬਿਹਤਰ ਪਬਲਿਕ ਡਾਟਾਸੈੱਟਸ ਇਸ ਪਾੜੇ ਨੂੰ ਘਟਾ ਸਕਦੇ ਹਨ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਉਹਨਾਂ ਵਿਵਹਾਰਾਂ ਲਈ ਸਭ ਤੋਂ ਵੱਧ ਉਪਯੋਗੀ ਹੈ ਜੋ ਸੈਂਪਲ ਕੀਤੇ ਗਏ ਪ੍ਰੀਫਿਕਸਾਂ ਵਿੱਚ ਸਾਹਮਣੇ ਆਉਣ ਜਿੰਨੀ ਵਾਰ ਵਾਪਰਦੇ ਹਨ। ਇੱਕ ਕਰੋੜ ਗੱਲਬਾਤਾਂ ਵਿੱਚੋਂ ਇੱਕ ਵਾਰ ਵਾਪਰਨ ਵਾਲੀ ਖ਼ਰਾਬੀ ਦੇ ਦਸ ਲੱਖ ਸੈਂਪਲਾਂ ਦੇ ਰਨ ਵਿੱਚ ਸਾਹਮਣੇ ਆਉਣ ਦੀ ਸੰਭਾਵਨਾ ਬਹੁਤ ਘੱਟ ਹੁੰਦੀ ਹੈ, ਇਸ ਲਈ ਐਡਵਰਸੇਰੀਅਲ ਮੁਲਾਂਕਣ, ਰੈੱਡ-ਟੀਮਿੰਗ, ਅਤੇ ਟਾਰਗੇਟਡ ਟੇਲ-ਰਿਸਕ ਵਿਸ਼ਲੇਸ਼ਣ ਅਜੇ ਵੀ ਜ਼ਰੂਰੀ ਹਨ। ਅਸੀਂ ਵਰਤਮਾਨ ਵਿੱਚ ਇੱਕ ਸਿੰਗਲ ਅਸਿਸਟੈਂਟ ਰਿਸਪਾਂਸ ਨੂੰ ਸਿਮੂਲੇਟ ਕਰਨ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰ ਰਹੇ ਹਾਂ, ਕਿਉਂਕਿ ਸ਼ੁਰੂਆਤੀ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ ਸਾਨੂੰ ਬਹੁ-ਪੜਾਵੀ ਗੱਲਬਾਤ ਨੂੰ ਸਿਮੂਲੇਟ ਕਰਕੇ ਆਪਣੇ ਅਨੁਮਾਨਾਂ ਵਿੱਚ ਕੋਈ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਨਹੀਂ ਮਿਲਿਆ। ਭਵਿੱਖ ਵਿੱਚ ਸਿਮੂਲੇਸ਼ਨ ਫਿਡੇਲਿਟੀ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਖੇਤਰ ਹੋ ਸਕਦਾ ਹੈ।
ਇਹ ਤਰੀਕਾ ਪ੍ਰੀਫਿਕਸ ਡਿਸਟ੍ਰੀਬਿਊਸ਼ਨ—ਯਾਨੀ ਰੀਸੈਂਪਲ ਕੀਤੀਆਂ ਜਾ ਰਹੀਆਂ ਗੱਲਬਾਤਾਂ ਦੇ ਮਿਸ਼ਰਣ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਪੁਰਾਣਾ ਟ੍ਰੈਫਿਕ ਸ਼ਾਇਦ ਇਸ ਗੱਲ ਨਾਲ ਮੇਲ ਨਾ ਖਾਵੇ ਕਿ ਕਿਸੇ ਵੱਡੀ ਉਤਪਾਦ ਤਬਦੀਲੀ, ਨਵੇਂ ਟੂਲ ਦੀ ਰਿਲੀਜ਼, ਵਿਸ਼ਵਵਿਆਪੀ ਘਟਨਾ, ਜਾਂ ਮੌਸਮੀ ਬਦਲਾਅ ਤੋਂ ਬਾਅਦ ਉਪਭੋਗਤਾ ਇੱਕ ਵਧੇਰੇ ਸਮਰੱਥ ਮਾਡਲ ਨਾਲ ਕਿਵੇਂ ਗੱਲਬਾਤ ਕਰਦੇ ਹਨ। ਪੂਰੇ ਪੇਪਰ ਵਿੱਚ ਕੀਤਾ ਗਿਆ ਵਿਸ਼ਲੇਸ਼ਣ ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਸਭ ਤੋਂ ਤਾਜ਼ਾ ਉਪਲਬਧ ਡਾਟਾ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇਸ ਸਮੱਸਿਆ ਨੂੰ ਘੱਟ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਪ੍ਰੀ-ਡਿਪਲਾਇਮੈਂਟ ਜੋਖਮ ਮੁਲਾਂਕਣ ਲਈ ਇੱਕ ਨਵਾਂ ਤਰੀਕਾ ਹੈ, ਜੋ ਅਤਿ-ਆਧੁਨਿਕ ਲੈਬਾਂ ਅਤੇ ਮੁਲਾਂਕਣਕਰਤਾਵਾਂ ਨੂੰ ਇਹ ਅਨੁਮਾਨ ਲਗਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ ਕਿ ਲੈਂਗੂਏਜ ਮਾਡਲ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਡਿਪਲਾਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਉਹਨਾਂ ਦੁਆਰਾ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਜੋਖਮਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਵਧੇਰੇ ਪ੍ਰੋਡਕਸ਼ਨ ਵਰਗੀ ਅਨੁਮਾਨ ਪਰਤ ਨੂੰ ਜੋੜ ਕੇ ਮੌਜੂਦਾ ਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣਾਂ, ਰੈੱਡ-ਟੀਮਿੰਗ, ਅਤੇ ਟਾਰਗੇਟਡ ਵਿਸ਼ਲੇਸ਼ਣ ਨੂੰ ਪੂਰਾ ਕਰਦਾ ਹੈ, ਜੋ ਡਿਪਲਾਇਮੈਂਟ ਵਿਵਹਾਰ ਦੇ ਅਨੁਮਾਨਾਂ ਵਿੱਚ ਸੁਧਾਰ ਕਰ ਸਕਦੀ ਹੈ, ਮੁਲਾਂਕਣ-ਜਾਗਰੂਕਤਾ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਘਟਾ ਸਕਦੀ ਹੈ, ਅਤੇ ਰਿਲੀਜ਼ ਤੋਂ ਬਾਅਦ ਪ੍ਰੀ-ਡਿਪਲਾਇਮੈਂਟ ਅਨੁਮਾਨਾਂ ਨੂੰ ਜਾਂਚਣਯੋਗ ਬਣਾ ਸਕਦੀ ਹੈ। ਰਵਾਇਤੀ ਮੁਲਾਂਕਣਾਂ ਦੇ ਨਾਲ ਵਰਤੇ ਜਾਣ 'ਤੇ, ਡਿਪਲਾਇਮੈਂਟ ਸਿਮੂਲੇਸ਼ਨ ਮਾਡਲ ਦੇ ਜੋਖਮ ਮੁਲਾਂਕਣ ਨੂੰ ਵਧੇਰੇ ਯਥਾਰਥਵਾਦੀ, ਵਧੇਰੇ ਮਾਤਰਾਤਮਕ, ਅਤੇ ਡਿਪਲਾਇਮੈਂਟ ਦੇ ਫੈਸਲਿਆਂ ਲਈ ਵਧੇਰੇ ਉਪਯੋਗੀ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ।


