29 ਮਈ 2026

ਭਰੋਸੇਯੋਗ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਲਈ ਇੱਕ ਸਾਂਝੀ ਪਲੇਬੁੱਕ

ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਲਈ ਸੁਰੱਖਿਆ ਉਪਾਅ ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਦੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਕੀ ਮਹੱਤਵ ਰੱਖਦਾ ਹੈ।

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਸੁਤੰਤਰ, ਭਰੋਸੇਯੋਗ ਤੀਜੇ ਪੱਖ ਦੇ ਮੁਲਾਂਕਣ ਸੁਰੱਖਿਆ ਪਰਿਸਥਿਤਕੀ ਤੰਤਰ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਵਿੱਚ ਨਿਰਣਾਇਕ ਭੂਮਿਕਾ⁠ ਨਿਭਾਉਂਦੇ ਹਨ। ਇਹ ਮੁਲਾਂਕਣ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ 'ਤੇ ਕੀਤੇ ਜਾਂਦੇ ਹਨ ਤਾਂ ਜੋ ਮਹੱਤਵਪੂਰਨ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਘਟਾਓ ਉਪਾਅ ਬਾਰੇ ਦਾਵਿਆਂ ਲਈ ਵਾਧੂ ਸਬੂਤ ਮਿਲ ਸਕਣ। ਇਸ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਹੁਣ ਤੱਕ ਸਿੱਖੇ ਸਬਕ ਸਾਂਝੇ ਕਰਦੇ ਹਾਂ ਅਤੇ ਉਹ ਤਰੀਕੇ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਨਾਲ ਐਸੇ ਮੁਲਾਂਕਣ ਡਿਜ਼ਾਇਨ ਕੀਤੇ ਜਾਣ ਜੋ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦਾ ਵੈਧ ਤੌਰ 'ਤੇ ਅੰਕਲਨ ਕਰ ਸਕਣ, ਅਤੇ ਸਾਨੂੰ ਆਸ ਹੈ ਕਿ ਇਹ ਖੇਤਰ ਵਿੱਚ ਉਭਰ ਰਹੇ ਮਿਆਰਾਂ ਨੂੰ ਜਾਣਕਾਰੀ ਦੇਣ ਵਿੱਚ ਮਦਦ ਕਰਨਗੇ।

ਪਹਿਲਾਂ, ਕਈ ਮੁਲਾਂਕਣ ਮਾਡਲਾਂ ਨੂੰ ਚੈਟਬੌਟ ਵਾਂਗ ਮੰਨਦੇ ਸਨ: ਮੁਲਾਂਕਣ ਵਿੱਚ ਮਾਡਲ ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਪ੍ਰੌਂਪਟ ਕੀਤਾ ਜਾਂਦਾ ਸੀ ਜਿਵੇਂ ਕੋਈ ਵਰਤੋਂਕਾਰ ਸਵਾਲ ਪੁੱਛ ਰਿਹਾ ਹੋਵੇ, ਮਾਡਲ ਜਵਾਬ ਦਿੰਦਾ ਸੀ, ਅਤੇ ਮੁਲਾਂਕਣਕਰਤਾ ਆਉਟਪੁੱਟ ਦਾ ਅੰਕਲਨ ਕਰਦਾ ਸੀ। ਅੱਜ ਦੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਇਸ ਤੋਂ ਕਾਫ਼ੀ ਵੱਧ ਕਰ ਸਕਦੇ ਹਨ: ਉਹ ਟੂਲ ਵਰਤ ਸਕਦੇ ਹਨ, ਕਈ ਕਦਮਾਂ ਵਿੱਚ ਜਾਣਕਾਰੀ ਦਾ ਹਿਸਾਬ ਰੱਖ ਸਕਦੇ ਹਨ, ਅਤੇ ਵੱਡੇ ਵਰਕਫ਼ਲੋ ਅੰਦਰ ਕਾਰਵਾਈ ਕਰ ਸਕਦੇ ਹਨ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਪ੍ਰਦਰਸ਼ਨ ਸਿਰਫ਼ ਮਾਡਲ 'ਤੇ ਨਹੀਂ, ਸਗੋਂ ਉਸ ਵਾਤਾਵਰਣ 'ਤੇ ਵੀ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਕੰਮ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਉਸ ਸੈਟਅੱਪ 'ਤੇ ਵੀ ਜੋ ਇਸ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਨੂੰ ਆਸਾਨ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ ਆਲੇ-ਦੁਆਲੇ ਦਾ ਸੈਟਅੱਪ, ਜਿਸਨੂੰ ਅਸੀਂ “ਹਾਰਨੈੱਸ” ਕਹਿੰਦੇ ਹਾਂ, ਸਿਸਟਮ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਮੁੱਖ ਪੱਖ ਬਦਲ ਸਕਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਇਹ ਵੀ ਸ਼ਾਮਲ ਹੈ ਕਿ ਉਹ ਟੂਲ ਕਿਵੇਂ ਵਰਤਦਾ ਹੈ, ਜਾਣਕਾਰੀ ਦਾ ਹਿਸਾਬ ਕਿਵੇਂ ਰੱਖਦਾ ਹੈ, ਜਾਂ ਗਲਤੀਆਂ ਤੋਂ ਕਿਵੇਂ ਸੰਭਲਦਾ ਹੈ।

ਪ੍ਰੌਂਪਟ-ਜਵਾਬ ਵਰਕਫ਼ਲੋ ਅਤੇ ਏਜੰਟਿਕ ਟਾਸਕ ਵਰਕਫ਼ਲੋ ਦੀ ਤੁਲਨਾ ਕਰਦਾ ਡਾਇਗ੍ਰਾਮ, ਜੋ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਕੰਟਰੋਲ ਲੂਪ, ਟੂਲ, ਸੰਦਰਭ, ਬਜਟ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਅ ਕਿਵੇਂ ਸਵੈਚਾਲਿਤ ਟਾਸਕ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਯੋਗ ਬਣਾਉਂਦੇ ਹਨ।

ਇਸ ਨਾਲ ਇਹ ਬਦਲ ਜਾਂਦਾ ਹੈ ਕਿ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤੇ ਜਾਣੇ ਚਾਹੀਦੇ ਹਨ, ਅਤੇ ਪਾਠਕਾਂ ਨੂੰ ਮੁਲਾਂਕਣ ਰਿਪੋਰਟਾਂ ਵਿੱਚ ਕੀ ਦੇਖਣਾ ਚਾਹੀਦਾ ਹੈ। ਸਾਡੇ ਵਿਚਾਰ ਵਿੱਚ, ਸਭ ਤੋਂ ਲਾਭਕਾਰੀ ਰਿਪੋਰਟਾਂ ਨਤੀਜੇ ਤੋਂ ਇਲਾਵਾ ਦੋ ਗੱਲਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦਰਸਾਉਂਦੀਆਂ ਹਨ: ਪਹਿਲਾਂ, ਉਹ ਦੱਸਦੀਆਂ ਹਨ ਕਿ ਮੁਲਾਂਕਣ ਸੈਟਅੱਪ ਕਿਸ ਦਾਅਵੇ ਦੀ ਜਾਂਚ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੀ, ਅਤੇ ਦੂਜਾ, ਉਹ ਉਪਲਬਧ ਸਬੂਤ ਸਾਂਝੇ ਕਰਦੀਆਂ ਹਨ ਕਿ ਮੁਲਾਂਕਣ ਦਾ ਨਤੀਜਾ ਵੈਧ ਹੈ।

ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਜਾਂਚੇ ਜਾਣ ਵਾਲੇ ਦਾਅਵੇ ਆਮ ਤੌਰ 'ਤੇ ਤਿੰਨ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਆਉਂਦੇ ਹਨ¹:

ਸਮਰੱਥਾ ਐਲੀਸੀਟੇਸ਼ਨ: ਕੀ ਕੋਈ ਮਾਡਲ ਵਾਜਬ ਤੌਰ 'ਤੇ ਜਾਂਚੀ ਜਾ ਰਹੀ ਸਮਰੱਥਾ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ?
ਸੁਰੱਖਿਆ ਉਪਾਅ ਪ੍ਰਦਰਸ਼ਨ: ਜਾਂਚੇ ਗਏ ਸੁਰੱਖਿਆ ਉਪਾਅ ਜਾਂਚੇ ਜਾ ਰਹੇ ਵਿਹਾਰ ਜਾਂ ਹਮਲੇ ਦੇ ਵਿਰੁੱਧ ਕਿੰਨੇ ਮਜ਼ਬੂਤ ਹਨ?
ਤੁਲਨਾ: ਸਮਾਨ ਹਾਲਾਤਾਂ ਹੇਠ ਵੱਖ-ਵੱਖ ਮਾਡਲ ਕਿਵੇਂ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ?

ਮੁਲਾਂਕਣ ਰਿਪੋਰਟਾਂ ਨੂੰ ਇਹ ਵੀ ਸਮਝਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੇ ਉਹਨਾਂ ਪ੍ਰਭਾਵਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕੀਤੀ ਜੋ ਨਤੀਜੇ ਦੀ ਵੈਧਤਾ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰ ਸਕਦੇ ਹਨ। ਇਨ੍ਹਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

ਰਿਵਾਰਡ ਹੈਕਿੰਗ: ਟਾਸਕ ਜਾਂ ਸਕੋਰਰ ਵਿੱਚ ਮੌਜੂਦ ਸ਼ਾਰਟਕੱਟਾਂ ਦਾ ਫਾਇਦਾ ਚੁੱਕਣਾ, ਤਾਂ ਜੋ ਸਿਸਟਮ ਨੂੰ ਉਸ ਵਿਹਾਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤੇ ਬਿਨ੍ਹਾਂ ਹੀ ਕ੍ਰੈਡਿਟ ਮਿਲ ਜਾਵੇ ਜਿਸਨੂੰ ਮੁਲਾਂਕਣ ਮਾਪਣਾ ਚਾਹੁੰਦਾ ਹੈ।
ਇਨਕਾਰ: ਅਜਿਹੇ ਢੰਗ ਨਾਲ ਇਨਕਾਰ ਕਰਨਾ ਜੋ ਜਾਂਚੇ ਜਾ ਰਹੇ ਵਿਹਾਰ ਨੂੰ ਓਹਲੇ ਕਰ ਦੇਵੇ।
ਕੰਟੈਮੀਨੇਸ਼ਨ: ਇਸ ਲਈ ਵੱਧ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ ਕਿਉਂਕਿ ਮੁਲਾਂਕਣ ਟਾਸਕ, ਜਵਾਬ ਜਾਂ ਨੇੜਲੇ ਰੂਪ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਵਿੱਚ ਮੌਜੂਦ ਸਨ ਜਾਂ ਮੁਲਾਂਕਣ ਦੌਰਾਨ ਲੱਭੇ ਜਾ ਸਕਦੇ ਸਨ, ਜਿਵੇਂ ਬ੍ਰਾਊਜ਼ਿੰਗ ਰਾਹੀਂ।
ਟੁੱਟੀਆਂ ਸਮੱਸਿਆਵਾਂ: ਇਸ ਲਈ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ ਕਿਉਂਕਿ ਟਾਸਕ ਵੈਧ ਨਹੀਂ ਹਨ। ਕਾਰਨਾਂ ਵਿੱਚ ਗ਼ੈਰ-ਵਾਜਿਬ ਸਕੋਰਿੰਗ ਸ਼ਾਮਲ ਹੋ ਸਕਦੀ ਹੈ, ਜਿਵੇਂ ਸਹੀ ਜਵਾਬ ਲਈ ਨਾ ਦੱਸੇ ਗਏ ਇੰਪਲੀਮੈਂਟੇਸ਼ਨ ਵੇਰਵੇ ਲੋੜੀਂਦੇ ਹੋਣ, ਅਤੇ ਅਣਹੱਲ ਵਾਤਾਵਰਣ, (ਜਿਵੇਂ ਮਹੱਤਵਪੂਰਨ ਫਾਈਲਾਂ ਗਾਇਬ ਹੋਣ ਜਾਂ ਗੈਰ-ਭਰੋਸੇਯੋਗ ਟੂਲ ਹੋਣ)।
ਸੈਂਡਬੈਗਿੰਗ: ਜਦੋਂ ਉਹ ਇਹ ਜਾਗਰੂਕਤਾ ਦਿਖਾਉਣ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਮੁਲਾਂਕਣ ਹੋ ਰਿਹਾ ਹੈ, ਤਾਂ ਜਾਣ-ਬੁੱਝ ਕੇ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ।

ਸਭ ਤੋਂ ਵਧੀਆ ਨਤੀਜਿਆਂ ਲਈ ਮੁਲਾਂਕਣ ਵਾਸਤੇ ਸਹੀ ਹਾਰਨੈੱਸ ਚੁਣਨਾ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਅਸੀਂ ਦੇਖਿਆ ਹੈ ਕਿ ਹਾਰਨੈੱਸ ਦੀ ਭੂਮਿਕਾ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜੋ ਲੰਬੀਆਂ ਟ੍ਰੈਜੈਕਟਰੀਆਂ 'ਤੇ ਕੰਮ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਮਾਡਲ ਟੂਲ ਵਰਤ ਸਕਦੇ ਹਨ, ਸਥਿਤੀ ਕਾਇਮ ਰੱਖ ਸਕਦੇ ਹਨ ਅਤੇ ਕਈ ਕਦਮਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਤੋਂ ਸੰਭਲ ਸਕਦੇ ਹਨ, ਤਾਂ ਹਾਰਨੈੱਸ ਦੇਖੇ ਗਏ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਪੱਧਰ ਨੂੰ ਬਦਲ ਸਕਦਾ ਹੈ, ਅਤੇ ਇਹ ਵੀ ਨਿਰਧਾਰਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿ ਜਾਂਚੀ ਜਾ ਰਹੀ ਸਮਰੱਥਾ ਮੁਲਾਂਕਣ ਵਿੱਚ ਦਿਖਾਈ ਵੀ ਦਿੰਦੀ ਹੈ ਜਾਂ ਨਹੀਂ। ਉਦਾਹਰਨ ਲਈ, ਐਸਾ ਹਾਰਨੈੱਸ ਜੋ ਸਥਿਤੀ ਸੰਭਾਲ ਕੇ ਰੱਖਦਾ ਹੈ ਅਤੇ ਅਸਫਲ ਕਾਰਵਾਈਆਂ ਨੂੰ ਮੁੜ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ, ਮਾਡਲ ਨੂੰ ਬਹੁ-ਕਦਮੀ ਕੰਮ ਪੂਰਾ ਕਰਨ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਉਹੀ ਮਾਡਲ ਇੱਕ ਸਧਾਰਣ ਹਾਰਨੈੱਸ ਵਿੱਚ ਕਦੇ ਪੂਰਾ ਨਹੀਂ ਕਰਦਾ।

ਹੇਠਾਂ ਦਿੱਤੀ ਸਾਰਣੀ ਵਿੱਚ, ਅਸੀਂ ਤਿੰਨ ਕਿਸਮ ਦੇ ਦਾਵਿਆਂ ਨੂੰ ਵੱਖ ਕਰਦੇ ਹਾਂ ਜੋ ਮੁਲਾਂਕਣਕਰਤਾ ਕਰਨਾ ਚਾਹ ਸਕਦੇ ਹਨ ਅਤੇ ਉਹ ਹਾਰਨੈੱਸ ਜੋ ਸਾਡੇ ਵਿਚਾਰ ਵਿੱਚ ਹਰ ਕਿਸਮ ਦੇ ਦਾਅਵੇ ਲਈ ਲੋੜੀਂਦਾ ਹੈ।

ਉਹ ਦਾਅਵਾ ਜਿਸਦਾ ਸਮਰਥਨ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਇਹ ਮੁਲਾਂਕਣ ਕਰ ਰਹੀ ਹੈ।	ਉਚਿਤ ਹਾਰਨੈੱਸ ਚੋਣ	ਰਿਪੋਰਟ ਕਰਨ ਲਈ ਸਬੂਤ
ਮਜ਼ਬੂਤ ਐਲੀਸੀਟੇਸ਼ਨ ਹੇਠ ਸਮਰੱਥਾ: ਸਿਸਟਮ A ਕਿਸਮ X ਦੇ ਟਾਸਕ ਪੂਰੇ ਕਰ ਸਕਦਾ ਹੈ ਜਦੋਂ ਸੈਟਅੱਪ ਇਸਦੇ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਭਰੋਸੇਯੋਗ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਾਹਰ ਲਿਆਉਣ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੋਵੇ।	ਸਿਸਟਮ ਲਈ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਭਰੋਸੇਯੋਗ ਐਲੀਸੀਟੇਸ਼ਨ ਸੈਟਅੱਪ ਵਰਤੋ, ਜਿਸ ਵਿੱਚ ਉਹ ਹਾਰਨੈੱਸ, ਟੂਲ, ਸਹਾਇਕ ਢਾਂਚਾ ਅਤੇ ਬਜਟ ਸ਼ਾਮਲ ਹੋਣ ਜੋ ਕੋਈ ਸਮਰੱਥ ਵਰਤੋਂਕਾਰ ਵਾਜਬ ਤੌਰ 'ਤੇ ਵਰਤੇਗਾ।	ਹਾਰਨੈੱਸ ਅਤੇ ਟੂਲ ਸੈਟਅੱਪ, ਐਲੀਸੀਟੇਸ਼ਨ ਮਾਰਗਦਰਸ਼ਨ, ਮਨਜ਼ੂਰ ਬਜਟ/ਮਿਹਨਤ, ਟੋਕਨ/ਲਾਗਤ/ਸਮਾਂ, ਅਤੇ ਇਹ ਕਿਉਂ ਦਾਅਵਾ ਕੀਤੀ ਸਮਰੱਥਾ ਲਈ ਭਰੋਸੇਯੋਗ ਪ੍ਰੌਕਸੀ ਹੈ। ਜੇਕਰ ਵੱਖ-ਵੱਖ ਅਨੁਕੂਲਿਤ ਸੈਟਅੱਪਾਂ ਹੇਠ ਸਿਸਟਮਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ, ਤਾਂ ਇਸਨੂੰ ਸਿਸਟਮ-ਤੋਂ-ਸਿਸਟਮ ਜਾਂ ਮਜ਼ਬੂਤ-ਐਲੀਸੀਟੇਸ਼ਨ ਤੁਲਨਾ ਵਜੋਂ ਲੇਬਲ ਕਰੋ।
ਨਿਯੰਤਰਿਤ ਤੁਲਨਾ: ਸਿਸਟਮ A ਸਾਂਝੇ ਮੁਲਾਂਕਣ ਸੈਟਅੱਪ ਹੇਠ ਸਿਸਟਮ B ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ।	ਟਾਸਕ, ਸਕੋਰਿੰਗ ਅਤੇ ਬਜਟ ਨਿਸ਼ਚਿਤ ਰੱਖੋ। ਜਾਂ ਤਾਂ ਸਾਂਝਾ ਹਾਰਨੈੱਸ/ਟੂਲ ਸੈਟਅੱਪ ਵਰਤੋ ਜਾਂ ਪਹਿਲਾਂ ਤੋਂ ਚੁਣੇ ਮਿਆਰੀਕ੍ਰਿਤ ਹਾਰਨੈੱਸਾਂ ਦਾ ਨਿਸ਼ਚਿਤ ਸੈੱਟ, ਤਾਂ ਜੋ ਤੁਲਨਾ ਕੀਤੇ ਜਾ ਰਹੇ ਸਿਸਟਮਾਂ ਲਈ ਵਾਜਬ ਅਧਿਕਤਮ ਐਲੀਸੀਟੇਸ਼ਨ ਮਿਲ ਸਕੇ।	ਸਾਂਝਾ ਟਾਸਕ-ਸੈੱਟ, ਟੂਲ, ਸਕੋਰਿੰਗ ਵਿਧੀ, ਹਾਰਨੈੱਸ, ਬਜਟ, ਟੋਕਨ ਕੁਸ਼ਲਤਾ/ਲਾਗਤ, ਅਤੇ ਜਾਣੀਆਂ ਸੀਮਾਵਾਂ। ਕੋਡਿੰਗ-ਏਜੰਟ ਮੁਲਾਂਕਣਾਂ ਲਈ, Codex CLI ਵਰਗਾ ਓਪਨ-ਸੋਰਸ ਹਾਰਨੈੱਸ ਸਿਸਟਮਾਂ ਵਿੱਚ ਇੱਕ ਨਿਸ਼ਚਿਤ ਏਜੰਟ ਲੂਪ ਅਤੇ ਟੂਲ ਇੰਟਰਫੇਸ ਦੇ ਸਕਦਾ ਹੈ। ਅਧਿਕਤਮ ਐਲੀਸੀਟੇਸ਼ਨ ਲਈ ਆਦਰਸ਼ ਤਰੀਕਾ ਇਹ ਹੋਵੇਗਾ ਕਿ ਹਰ ਟਾਸਕ ਅਤੇ ਸਿਸਟਮ ਲਈ ਵੱਖਰਾ ਹਾਰਨੈੱਸ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾਵੇ, ਪਰ ਅਮਲ ਵਿੱਚ ਇਹ ਇਸ ਵੇਲੇ ਅਵਿਵਹਾਰਿਕ ਹੈ।
ਐਲੀਸਿਟ ਕੀਤੇ ਹਮਲੇ ਹੇਠ ਸੁਰੱਖਿਆ ਉਪਾਅ ਦੀ ਮਜ਼ਬੂਤੀ: ਸਿਸਟਮ A ਦੇ ਸੁਰੱਖਿਆ ਉਪਾਅ ਸੰਬੰਧਿਤ ਮਾਡਲ ਵਿਹਾਰ ਜਾਂ ਐਲੀਸਿਟ ਕੀਤੇ ਹਮਲੇ ਲਈ ਕਾਫ਼ੀ ਹਨ।	ਸੰਬੰਧਿਤ ਵਿਰੋਧੀ ਮਾਡਲ ਹੇਠ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਭਰੋਸੇਯੋਗ ਹਮਲੇ ਨੂੰ ਐਲੀਸਿਟ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਸੁਰੱਖਿਆ-ਜਾਂਚ ਸੈਟਅੱਪ ਵਰਤੋ।	ਇਵੈਲੂਏਟਰਾਂ ਨੇ ਸੰਬੰਧਿਤ ਮਾਡਲ ਵਿਹਾਰ ਨੂੰ ਕਿਵੇਂ ਦਰਸਾਇਆ, ਜਾਂਚੀ ਗਈ ਸੁਰੱਖਿਆ ਕੌਂਫਿਗਰੇਸ਼ਨ, ਐਲੀਸੀਟੇਸ਼ਨ ਰਣਨੀਤੀ, ਇਸਨੂੰ ਚਲਾਉਣ ਲਈ ਵਰਤਿਆ ਹਾਰਨੈੱਸ, ਅਤੇ ਮਨਜ਼ੂਰ ਬਜਟ ਜਾਂ ਮਿਹਨਤ।

ਸਮਰੱਥਾ ਬਾਰੇ ਦਾਅਵੇ ਉਨ੍ਹਾਂ ਦੇ ਪਿੱਛੇ ਦੀ ਐਲੀਸੀਟੇਸ਼ਨ ਜਿੰਨੇ ਹੀ ਮਜ਼ਬੂਤ ਹੁੰਦੇ ਹਨ: ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੂੰ ਉਹ ਹਾਰਨੈੱਸ ਚੁਣਨਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਕੰਮ ਅਤੇ ਉਸ ਸਮਰੱਥਾ ਨਾਲ ਸਭ ਤੋਂ ਵਧੀਆ ਮੇਲ ਖਾਂਦਾ ਹੋਵੇ ਜਿਸਨੂੰ ਮੁਲਾਂਕਣ ਮਾਪਣਾ ਚਾਹੁੰਦਾ ਹੈ। ਇੱਕ ਮਿਆਰੀਕ੍ਰਿਤ ਹਾਰਨੈੱਸ ਇੱਕੋ ਜਿਹੀਆਂ ਹਾਲਾਤਾਂ ਹੇਠ ਸਿਸਟਮਾਂ ਦੀ ਤੁਲਨਾ ਲਈ ਠੀਕ ਹੋ ਸਕਦਾ ਹੈ, ਪਰ ਜਦੋਂ ਇਹ ਉਹ ਖਾਸ ਹਾਰਨੈੱਸ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਛੱਡ ਦੇਵੇ ਜੋ ਮਾਡਲ ਨੂੰ ਕੰਮ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ, ਤਾਂ ਇਹ ਸਮਰੱਥਾ ਨੂੰ ਘੱਟ ਦਿਖਾ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, OpenAI ਦੀਆਂ ਸਾਈਬਰ ਰੇਂਜ਼ਾਂ 'ਤੇ GPT‑5.5 ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਹਾਰਨੈੱਸ ਦੀ ਚੋਣ ਉਹਨਾਂ ਕੰਮਾਂ 'ਤੇ ਮਾਪੀ ਗਈ ਸਮਰੱਥਾ ਨੂੰ ਵਾਸਤਵਿਕ ਤੌਰ 'ਤੇ ਬਦਲ ਸਕਦੀ ਹੈ ਜਿਨ੍ਹਾਂ ਲਈ ਲੰਬੇ, ਬਹੁ-ਕਦਮੀ ਟੂਲ ਵਰਤੋਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ: ਜਦੋਂ ਹਾਰਨੈੱਸ ਲੰਬੀ ਹੋ ਰਹੀ ਇੰਟਰੈਕਸ਼ਨ ਦੌਰਾਨ ਕੰਮ-ਸੰਬੰਧੀ ਸੰਦਰਭ ਸੰਭਾਲਣ ਲਈ ਕੰਪੈਕਸ਼ਨ⁠ ਵਰਤਦਾ ਹੈ, ਤਾਂ ਮਾਡਲ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਕੁਝ ਮਾਡਲਾਂ ਲਈ, ਕੰਪੈਕਸ਼ਨ ਤੋਂ ਬਿਨਾਂ ਹਾਰਨੈੱਸ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਐਲੀਸਿਟ ਨਹੀਂ ਕਰੇਗਾ।

ਉੱਚੀਆਂ ਸਫਲਤਾ ਦਰਾਂ ਬਿਹਤਰ ਹਨ

ਹੋਰ ਪ੍ਰਕਾਸ਼ਿਤ ਮੁਲਾਂਕਣ² ਵੀ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਹਾਰਨੈੱਸ ਅਤੇ ਬਜਟ ਦੀਆਂ ਚੋਣਾਂ ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਬਦਲ ਦਿੰਦੀਆਂ ਹਨ। ਟੈਸਟ-ਸਮੇਂ ਦੀ ਕੰਪਿਊਟ ਵਧਾਉਣ ਨਾਲ ਇਹ ਕਾਫ਼ੀ ਬਦਲ ਸਕਦਾ ਹੈ ਕਿ ਮੁਲਾਂਕਣ ਕਿਹੜੀ ਸਮਰੱਥਾ ਐਲੀਸਿਟ ਕਰਦਾ ਹੈ, ਖ਼ਾਸ ਕਰਕੇ ਉਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਜਿੱਥੇ ਸਫਲਤਾ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨੀ ਆਸਾਨ ਹੁੰਦੀ ਹੈ, ਜਿਵੇਂ ਕਈ ਸਾਈਬਰ ਟਾਸਕ। UK AISI ਦੇ ਸਾਈਬਰ ਰੇਂਜ਼ ਮੁਲਾਂਕਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਬਜਟ ਨੂੰ 10M ਤੋਂ 100M ਟੋਕਨ ਕਰਨ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ 59% ਤੱਕ ਸੁਧਾਰ ਆਇਆ, ਅਤੇ ਜਾਂਚੇ ਗਏ ਸਭ ਤੋਂ ਉੱਚੇ ਬਜਟ 'ਤੇ ਵੀ ਪ੍ਰਦਰਸ਼ਨ ਵਧ ਰਿਹਾ ਸੀ। ਇਸਦਾ ਵੇਰਵਾ ਦੇਣ ਨਾਲ ਮੁਲਾਂਕਣ ਨੂੰ ਸਮਝਣਾ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ: ਇਹ ਪਾਠਕਾਂ ਨੂੰ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਨਤੀਜਾ ਜਾਂਚੇ ਗਏ ਐਲੀਸੀਟੇਸ਼ਨ ਸੈਟਅੱਪ 'ਤੇ ਕਿਵੇਂ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਜਦੋਂ ਵਾਧੂ ਬਜਟ ਨਾਲ ਪ੍ਰਦਰਸ਼ਨ ਅਜੇ ਵੀ ਸੁਧਰ ਰਿਹਾ ਹੋਵੇ, ਤਾਂ ਸਕੋਰ ਨੂੰ ਉਸ ਹਾਰਨੈੱਸ ਅਤੇ ਬਜਟ ਹੇਠਲਾ ਪ੍ਰਦਰਸ਼ਨ ਕਿਹਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਨਾ ਕਿ ਮਾਪੀ ਗਈ ਸਮਰੱਥਾ ਦੀ ਉੱਪਰੀ ਸੀਮਾ। ਸਮਰੱਥਾ ਅਕਸਰ ਸਰੋਤਾਂ 'ਤੇ ਨਿਰਭਰ ਹੁੰਦੀ ਹੈ, ਨਾ ਕਿ ਕੋਈ ਨਿਸ਼ਚਿਤ ਮਾਤਰਾ ਜੋ ਇੱਕ ਵਾਰ ਲਈ ਸਾਫ਼-ਸੁਥਰੇ ਢੰਗ ਨਾਲ ਮਾਪੀ ਜਾ ਸਕੇ। ਜਿੱਥੇ ਦੁਹਰਾਈਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਵਿੱਚ ਸਫਲਤਾ ਮਾਪੀ ਜਾ ਸਕਦੀ ਹੈ, ਉੱਥੇ ਰਿਪੋਰਟਾਂ ਨੂੰ ਸਿਰਫ਼ ਨਿਸ਼ਚਿਤ ਟੋਕਨ ਬਜਟ 'ਤੇ ਸਫਲਤਾ ਦਰ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਹਰ ਸਫਲ ਹੱਲ ਲਈ ਉਮੀਦਿਤ ਲਾਗਤ ਵੀ ਵਿਚਾਰ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਇਸ ਨਾਲ ਗੰਭੀਰਤਾ ਨੂੰ ਸਮਝਣਾ ਆਸਾਨ ਹੋ ਸਕਦਾ ਹੈ: ਘੱਟ ਸਫਲਤਾ ਦਰ ਵੀ ਅਮਲੀ ਤੌਰ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਹੋ ਸਕਦੀ ਹੈ ਜੇ ਦੁਹਰਾਈਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਦੀ ਲਾਗਤ ਸੰਬੰਧਿਤ ਖ਼ਤਰਾ ਮਾਡਲ ਦੇ ਅੰਦਰ ਹੋਵੇ। ਸਮਰੱਥਾ-ਸੰਬੰਧੀ ਦਾਵਿਆਂ ਲਈ, ਟਾਲੀ ਜਾ ਸਕਣ ਵਾਲੀ ਘੱਟ ਐਲੀਸੀਟੇਸ਼ਨ ਮਾਪਣ ਦੀ ਅਸਫਲਤਾ ਹੈ: ਜੇਕਰ ਹਾਰਨੈੱਸ ਜਾਂ ਬਜਟ ਸਿਸਟਮ ਨੂੰ ਉਹ ਵਿਹਾਰ ਦਿਖਾਉਣ ਤੋਂ ਰੋਕਦਾ ਹੈ ਜੋ ਉਹ ਹੋਰਥਾਂ ਪੈਦਾ ਕਰ ਸਕਦਾ ਸੀ, ਤਾਂ ਸਕੋਰ ਦਾਅਵਾ ਕੀਤੀ ਜਾ ਰਹੀ ਸਮਰੱਥਾ ਨੂੰ ਨਹੀਂ ਮਾਪਦਾ। ਜਿੱਥੇ ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੇ ਐਲੀਸੀਟੇਸ਼ਨ ਨੂੰ ਸੰਭਵ ਹੱਦ ਤੱਕ ਅੱਗੇ ਧੱਕਿਆ ਹੋਵੇ ਅਤੇ ਪ੍ਰਦਰਸ਼ਨ ਫਿਰ ਵੀ ਸੁਧਰ ਰਿਹਾ ਹੋਵੇ, ਉੱਥੇ ਰਿਪੋਰਟਾਂ ਨੂੰ ਇਹ ਗੱਲ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਕਹਿਣੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਇਹ ਵੀ ਸਪਸ਼ਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਨਤੀਜਾ ਸਿਰਫ਼ ਹੇਠਲੀ-ਸੀਮਾ ਦਾ ਅੰਦਾਜ਼ਾ ਹੈ।

ਸੁਰੱਖਿਆ ਉਪਾਅ ਦੀ ਜਾਂਚ ਇਹ ਘੱਟ ਦਿਖਾ ਸਕਦੀ ਹੈ ਕਿ ਕੋਈ ਹਮਲਾ ਸਫਲ ਹੋ ਸਕਦਾ ਹੈ ਜਾਂ ਉਹ ਕਿੰਨਾ ਗੰਭੀਰ ਹੋ ਸਕਦਾ ਹੈ, ਜੇ ਹਮਲਾਵਰਾਂ ਲਈ ਉਪਲਬਧ ਸਰੋਤਾਂ, ਜਿਸ ਵਿੱਚ ਕਸਟਮ ਹਾਰਨੈੱਸ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਦਾ ਖ਼ਿਆਲ ਨਾ ਰੱਖਿਆ ਜਾਵੇ। UK AISI ਦੇ GPT‑5.5 cyber ਮੁਲਾਂਕਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਿੱਚ, ਉਨ੍ਹਾਂ ਦੀ ਮਾਹਰ ਰੈਡ ਟੀਮਿੰਗ ਨੇ ਇੱਕ ਯੂਨੀਵਰਸਲ ਜੇਲਬ੍ਰੇਕ ਲੱਭਿਆ ਜਿਸ ਨੇ OpenAI ਵੱਲੋਂ ਦਿੱਤੀਆਂ ਦੁਰਭਾਵਨਾਪੂਰਨ ਪੁੱਛਗਿੱਛਾਂ ਵਿੱਚ, ਬਹੁ-ਟਰਨ ਏਜੰਟਿਕ ਸੈਟਿੰਗਾਂ ਸਮੇਤ, ਉਲੰਘਨਕਾਰੀ ਸਾਈਬਰ ਸਮੱਗਰੀ ਇਲਿਸਿਟ ਕੀਤੀ। ਉਨ੍ਹਾਂ ਨੇ ਮਾਡਲ ਦੇ ਹਮਲਾ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਕਸਟਮ ਹਾਰਨੈੱਸ ਬਣਾਉਣ ਵਾਸਤੇ Codex ਵਰਤਿਆ: ਇਸ ਨੇ ਇੰਟਰੈਕਸ਼ਨ ਵਿੱਚ ਦੁਬਾਰਾ ਵਰਤਣਯੋਗ ਸੁਰੱਖਿਆ ਉਪਾਅ-ਬਾਈਪਾਸ ਪੈਟਰਨ ਸ਼ਾਮਲ ਕੀਤਾ, ਉਸ ਪੈਟਰਨ ਨੂੰ ਟਰਨਾਂ ਅਤੇ ਬਲਾਕਾਂ ਵਿੱਚ ਸੰਭਾਲਿਆ, ਅਤੇ OpenAI ਵੱਲੋਂ ਦਿੱਤੀਆਂ ਦੁਰਭਾਵਨਾਪੂਰਨ ਸਾਈਬਰ ਪੁੱਛਗਿੱਛਾਂ 'ਤੇ ਇਸਨੂੰ ਲਾਗੂ ਕੀਤਾ। ਸੁਰੱਖਿਆ ਉਪਾਅ ਦੀ ਜਾਂਚ ਵਿਰੋਧੀ ਨਾਲ ਮੇਲ ਖਾਣੀ ਚਾਹੀਦੀ ਹੈ। ਜੇ ਦਾਅਵਾ ਮਾਹਰ ਦੁਰਵਰਤੋਂ ਦੇ ਵਿਰੁੱਧ ਮਜ਼ਬੂਤੀ ਬਾਰੇ ਹੈ, ਤਾਂ ਟੈਸਟ ਨੂੰ ਨਿਰਧਾਰਤ ਬਜਟ ਹੇਠ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਭਰੋਸੇਯੋਗ ਐਂਡ-ਟੂ-ਐਂਡ ਹਮਲਾ ਰਣਨੀਤੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਉਸ ਰਣਨੀਤੀ ਨੂੰ ਸੰਭਾਲਣ ਅਤੇ ਦੁਬਾਰਾ ਵਰਤਣ ਲਈ ਲੋੜੀਂਦਾ ਕੋਈ ਵੀ ਹਾਰਨੈੱਸ ਸ਼ਾਮਲ ਹੋਵੇ। ਨਹੀਂ ਤਾਂ, ਨਤੀਜਿਆਂ ਵਿੱਚ ਗਲਤ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਦਾ ਜੋਖਿਮ ਹੁੰਦਾ ਹੈ: ਉਹ ਸਿਰਫ਼ ਸਧਾਰਣ ਪ੍ਰੌਂਪਟਿੰਗ ਦੇ ਵਿਰੁੱਧ ਰੋਧ ਬਾਰੇ ਇੱਕ ਸੰਕੁਚਿਤ ਦਾਅਵੇ ਦਾ ਹੀ ਸਮਰਥਨ ਕਰ ਸਕਦੇ ਹਨ, ਇਹ ਵੀ ਛੱਡ ਸਕਦੇ ਹਨ ਕਿ ਜਦੋਂ ਐਲੀਸੀਟੇਸ਼ਨ ਵਿਧੀ ਕਾਰਗਰ ਬਣਾਈ ਜਾਂਦੀ ਹੈ ਤਾਂ ਹਮਲਾ ਕਿੰਨਾ ਗੰਭੀਰ ਬਣਦਾ ਹੈ ਅਤੇ ਇਸਦੀ ਸਫਲਤਾ ਦੀ ਸੰਭਾਵਨਾ ਕੀ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਜੇ ਬਹੁਤ ਵੱਧ ਬਜਟ ਦਿੱਤਾ ਜਾਵੇ ਤਾਂ ਸਮੱਸਿਆ ਦੀ ਸੰਭਾਵਨਾ ਜਾਂ ਗੰਭੀਰਤਾ ਨੂੰ ਵੱਧ ਵੀ ਦਿਖਾ ਸਕਦੇ ਹਨ।

ਮਿਆਰੀਕ੍ਰਿਤ ਹਾਰਨੈੱਸ ਤੁਲਨਾਵਾਂ ਲਈ ਵੀ ਸਮਾਂ ਅਤੇ ਥਾਂ ਹੁੰਦੀ ਹੈ, ਪਰ ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੂੰ ਇਹ ਸਪਸ਼ਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਹਾਰਨੈੱਸਾਂ ਦਾ ਇਕਸਾਰ ਸੈੱਟ ਵਰਤਣਾ ਕਿਉਂ ਉਚਿਤ ਹੈ ਅਤੇ ਇਹ ਕਿਹੜੇ ਦਾਅਵੇ ਦਾ ਸਮਰਥਨ ਕਰ ਸਕਦਾ ਹੈ। METR ਦਾ ਸਮਾਂ-ਦਾਇਰਾ ਮੁਲਾਂਕਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਇੱਕ ਵਿਆਪਕ, ਢੰਗ ਨਾਲ ਨਿਸ਼ਚਿਤ ਮੁਲਾਂਕਣ ਸੈਟਅੱਪ ਦੀ ਉਦਾਹਰਨ ਹੈ: ਇਹ ਉਹਨਾਂ ਸਿਸਟਮਾਂ ਵਿੱਚ ਤੁਲਨਾਯੋਗ ਨਤੀਜੇ ਪੈਦਾ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ ਜਿਨ੍ਹਾਂ ਦਾ ਇਹ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ। METR ਇੱਕ ਸਾਂਝਾ ਨਤੀਜਾ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ, ਮਨੁੱਖੀ ਕੰਮ ਦੀ ਉਹ ਆਮ ਮਿਆਦ ਜਿਸ 'ਤੇ ਕਿਸੇ AI ਏਜੰਟ ਦੇ ਨਿਰਧਾਰਤ ਭਰੋਸੇਯੋਗਤਾ ਪੱਧਰ 'ਤੇ ਸਫਲ ਹੋਣ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਇਕੱਠੇ ਰਿਪੋਰਟ ਕੀਤੇ ਅੰਦਾਜ਼ਿਆਂ ਦੇ ਹਰ ਬੈਚ ਵਿੱਚ ਸਾਂਝਾ ਟਾਸਕ-ਸੂਟ, ਸਕੋਰਿੰਗ ਵਿਧੀ, ਫਿਟਿੰਗ ਵਿਧੀ ਅਤੇ Triframe ਅਤੇ ReAct⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵਰਗੇ ਦੁਬਾਰਾ ਵਰਤਣਯੋਗ ਛੋਟੇ scaffold ਲਾਗੂ ਕਰਦਾ ਹੈ। ਜਦੋਂ METR ਨੇ ਕੰਮ-ਸੂਟ ਦਾ ਵਿਸਤਾਰ ਕੀਤਾ ਅਤੇ ਮੁਲਾਂਕਣ ਢਾਂਚੇ ਨੂੰ Vivaria ਨਾਮਕ ਫ੍ਰੇਮਵਰਕ ਤੋਂ Inspect ਨਾਮਕ ਫ੍ਰੇਮਵਰਕ ਵਿੱਚ ਬਦਲਿਆ, ਤਾਂ ਇਸ ਨੇ ਇਹ ਤਬਦੀਲੀ ਰਿਪੋਰਟ ਕੀਤੀ (Time Horizon 1.1 update⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)) ਅਤੇ ਨਵੇਂ ਮੁਲਾਂਕਣ ਸੈਟਅੱਪ ਹੇਠ ਮਾਡਲਾਂ ਦਾ ਮੁੜ ਮੁਲਾਂਕਣ ਕੀਤਾ। ਇਹੀ ਮਿਆਰੀਕ੍ਰਿਤ ਮੁਲਾਂਕਣ ਸੈਟਅੱਪ ਦੀ ਮਹੱਤਤਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਇਕਸਾਰ ਹਾਰਨੈੱਸ ਸੈੱਟ ਵੀ ਸ਼ਾਮਲ ਹੈ: ਇਹ ਪਾਠਕਾਂ ਨੂੰ ਇਹ ਭਰੋਸਾ ਦੇ ਸਕਦਾ ਹੈ ਕਿ ਸਕੋਰਾਂ ਵਿੱਚ ਫਰਕ ਵਾਸਤਵ ਵਿੱਚ ਤੁਲਨਾ ਕੀਤੇ ਜਾ ਰਹੇ ਸਿਸਟਮਾਂ ਦੇ ਫਰਕ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਨਾ ਕਿ ਮਾਪਣ ਸੈਟਅੱਪ ਵਿੱਚ ਤਬਦੀਲੀ ਨੂੰ।

ਅਸੀਂ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ ਤੀਜੇ ਪੱਖ ਦੀਆਂ ਮੁਲਾਂਕਣ ਰਿਪੋਰਟਾਂ ਇਹ ਦੱਸਣ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਮੁਲਾਂਕਣ ਸੈਟਅੱਪ ਕਿਸ ਕਿਸਮ ਦੇ ਦਾਅਵੇ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਹੈ; ਇਹ ਵਰਣਨ ਕਰਨ ਕਿ ਜੋ ਜਾਂਚਿਆ ਗਿਆ ਉਹ ਉਸ ਵੱਡੇ ਦਾਅਵੇ ਨੂੰ ਕਿੰਨਾ ਦਰਸਾਉਂਦਾ ਹੈ; ਉਹ ਹਾਰਨੈੱਸ ਚੋਣਾਂ ਦਰਸਾਉਣ ਜਿਨ੍ਹਾਂ ਨੇ ਨਤੀਜੇ ਨੂੰ ਆਕਾਰ ਦਿੱਤਾ; ਜਦੋਂ ਇਹ ਚੋਣਾਂ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਬਦਲਦੀਆਂ ਹਨ ਤਾਂ ਉਸਦਾ ਵੇਰਵਾ ਦੇਣ; ਅਤੇ ਇਹ ਦਿਖਾਉਣ ਲਈ ਸਹਾਇਕ ਸਬੂਤ ਸ਼ਾਮਲ ਕਰਨ ਕਿ ਨਤੀਜਾ ਕਿਵੇਂ ਪੈਦਾ ਹੋਇਆ ਅਤੇ ਉਹ ਦਾਅਵੇ 'ਤੇ ਕਿੰਨਾ ਲਾਗੂ ਹੁੰਦਾ ਹੈ।

ਜਾਣੇ-ਪਛਾਣੇ ਖਤਰਿਆਂ ਦੀ ਜਾਂਚ ਕਰਕੇ ਵੈਧਤਾ ਦਾ ਅੰਕਲਨ ਕਰੋ ਜੋ ਨਤੀਜਿਆਂ ਨੂੰ ਵਿਗਾੜ ਸਕਦੇ ਹਨ

ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਹੋਰ ਸਮਰੱਥ ਬਣਦੇ ਹਨ, ਮੁਲਾਂਕਣ ਸਕੋਰਾਂ ਦੀ ਗਲਤ ਵਿਆਖਿਆ ਕਰਨਾ ਹੋਰ ਆਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ। ਅਸਲ ਸਮਰੱਥਾਵਾਂ ਦੇ ਮੁਕਾਬਲੇ, ਜੇ ਕੋਈ ਮਾਡਲ ਇਹ ਪਛਾਣ ਲਵੇ ਕਿ ਉਸਦਾ ਮੁਲਾਂਕਣ ਹੋ ਰਿਹਾ ਹੈ ਅਤੇ ਰਣਨੀਤਿਕ ਢੰਗ ਨਾਲ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰੇ, ਤਾਂ ਮੁਲਾਂਕਣ ਸਕੋਰ ਕ੍ਰਿਤ੍ਰਿਮ ਤੌਰ 'ਤੇ ਘੱਟ ਹੋ ਸਕਦੇ ਹਨ। ਜੇ ਮਾਡਲ ਕੰਮ, ਪ੍ਰੌਂਪਟ, ਸਕੋਰਰ ਜਾਂ ਹਾਰਨੈੱਸ ਵਿੱਚ ਮੌਜੂਦ ਕਿਸੇ ਸ਼ਾਰਟਕੱਟ ਦਾ ਫਾਇਦਾ ਚੁੱਕ ਲਵੇ, ਤਾਂ ਇਹ ਵੱਧ ਵੀ ਸਕਦੇ ਹਨ। ਇਹ ਕੰਟੈਮੀਨੇਸ਼ਨ ਨਾਲ ਵੀ ਵਿਗੜ ਸਕਦੇ ਹਨ, ਜਿੱਥੇ ਮਾਡਲ ਕੰਮ ਹੱਲ ਕੀਤੇ ਬਿਨਾਂ ਹੀ ਜਵਾਬ ਪਹਿਲਾਂ ਤੋਂ ਜਾਣਦਾ ਹੋਵੇ ਜਾਂ ਲੱਭ ਸਕਦਾ ਹੋਵੇ, ਜਾਂ “ਟੁੱਟੀਆਂ” ਸਮੱਸਿਆਵਾਂ ਨਾਲ ਜੋ ਅਸਪਸ਼ਟ, ਗਲਤ ਸਕੋਰ ਕੀਤੀਆਂ, ਅਣਹੱਲ ਜਾਂ ਅਣਚਾਹੇ ਸ਼ਾਰਟਕੱਟਾਂ ਲਈ ਸੰਵੇਦਨਸ਼ੀਲ ਹੋਣ। ਇਸ ਲਈ ਮੁਲਾਂਕਣ ਰਿਪੋਰਟਾਂ ਨੂੰ ਮੁੱਖ ਸਕੋਰਾਂ ਦੇ ਨਾਲ ਇਹਨਾਂ ਖਤਰਿਆਂ ਦੀ ਚਰਚਾ ਵੀ ਜੋੜਨੀ ਚਾਹੀਦੀ ਹੈ, ਤਾਂ ਜੋ ਪਾਠਕ ਅੰਕਲਨ ਕਰ ਸਕਣ ਕਿ ਕੀ ਸਕੋਰ ਇਰਾਦੇ ਵਾਲੇ ਵਿਹਾਰ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ।

ਹਾਰਨੈੱਸ, ਬਜਟ, ਟੂਲ, ਸਕੋਰਿੰਗ ਨਿਯਮ, ਮਾਨੀਟਰ ਅਤੇ ਸਮੀਖਿਆ ਪ੍ਰਕਿਰਿਆਵਾਂ ਸਭ ਇਹ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀਆਂ ਹਨ ਕਿ ਕੋਈ ਏਜੰਟ ਇਰਾਦੇ ਵਾਲਾ ਕੰਮ ਹੱਲ ਕਰ ਰਿਹਾ ਹੈ, ਇਸ ਤੋਂ ਬਚ ਰਿਹਾ ਹੈ, ਇਸਨੂੰ ਯਾਦ ਕਰ ਰਿਹਾ ਹੈ ਜਾਂ ਇਸਦੇ ਆਲੇ-ਦੁਆਲੇ ਕੋਈ ਰਾਹ ਲੱਭ ਰਿਹਾ ਹੈ। ਇੱਕ ਭਰੋਸੇਯੋਗ ਰਿਪੋਰਟ ਇਹ ਜਾਂਚਾਂ ਦ੍ਰਿਸ਼ਮਾਨ ਬਣਾਉਂਦੀ ਹੈ: ਹਰ ਵਾਰ ਜਦੋਂ ਕੋਈ ਅਸੈਸਮੈਂਟ ਚਲਾਇਆ ਜਾਵੇ, ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੂੰ ਇਹਨਾਂ ਵਿਹਾਰਾਂ ਲਈ ਨਮੂਨਿਆਂ ਦੀ ਸਮੀਖਿਆ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

ਰਿਵਾਰਡ ਹੈਕਿੰਗ

ਰਿਵਾਰਡ ਹੈਕਿੰਗ ਦਾ ਅਰਥ ਹੈ ਐਸੇ ਤਰੀਕਿਆਂ ਨਾਲ ਉੱਚ ਮੁਲਾਂਕਣ ਸਕੋਰ ਹਾਸਲ ਕਰਨਾ ਜੋ ਇਰਾਦੇ ਵਾਲੀ ਸਮਰੱਥਾ ਨੂੰ ਨਹੀਂ ਦਰਸਾਉਂਦੇ। ਇੱਥੇ ਚਿੰਤਾ ਇਹ ਹੈ ਕਿ ਸਿਸਟਮ ਉਹ ਕੰਮ ਕਰਨ ਦੀ ਬਜਾਏ ਜਿਸਨੂੰ ਮੁਲਾਂਕਣ ਮਾਪਣਾ ਚਾਹੁੰਦਾ ਸੀ, ਕੰਮ, ਸਕੋਰਰ, ਪ੍ਰੌਂਪਟ ਜਾਂ ਹਾਰਨੈੱਸ ਦਾ ਫਾਇਦਾ ਚੁੱਕ ਕੇ ਸ਼੍ਰੇਯ ਲੈ ਲੈਂਦਾ ਹੈ। METR ਵੱਲੋਂ GPT 5.4 ਦਾ ਮੁਲਾਂਕਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ: ਭਾਵੇਂ ਮਾਡਲ ਉਹਨਾਂ ਕੰਮਾਂ 'ਤੇ ਐਸੀ ਦਰ ਨਾਲ ਸਫਲ ਹੋਇਆ ਜੋ ਪਹਿਲੀ ਨਜ਼ਰ ਵਿੱਚ ਲਗਭਗ 13-ਘੰਟੇ ਦੇ time horizon ਵਜੋਂ ਦਰਜ ਹੁੰਦੀ, ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਨੇ ਦਿਖਾਇਆ ਕਿ ਕੁਝ ਸਫਲਤਾਵਾਂ ਰਿਵਾਰਡ ਹੈਕਿੰਗ ਤੋਂ ਆਈਆਂ ਸਨ, ਅਤੇ ਸਿਰਫ਼ ਉਹਨਾਂ ਮਾਮਲਿਆਂ ਨੂੰ ਗਿਣਦੇ ਹੋਏ ਜਿੱਥੇ ਰਿਵਾਰਡ ਹੈਕਿੰਗ ਨਹੀਂ ਸੀ, ਨਤੀਜਿਆਂ ਨੂੰ ਸੋਧਣ ਨਾਲ ਅੰਦਾਜ਼ਾ ਲਗਭਗ 6 ਘੰਟਿਆਂ ਤੱਕ ਘਟ ਗਿਆ। ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੂੰ ਐਸੀਆਂ ਸੋਧਾਂ ਦੀ ਲੋੜ ਦਾ ਅੰਕਲਨ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਅਤੇ ਜਦੋਂ ਇਹ ਲੋੜੀਂਦੀਆਂ ਹੋਣ, ਤਾਂ ਉਨ੍ਹਾਂ ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਰਿਪੋਰਟ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ: ਸਮਰੱਥਾ ਦਾ ਅੰਦਾਜ਼ਾ ਤਦੋਂ ਕਾਫ਼ੀ ਵੱਧ ਲਾਭਕਾਰੀ ਹੁੰਦਾ ਹੈ ਜਦੋਂ ਪਾਠਕ ਦੇਖ ਸਕਣ ਕਿ ਕਿਹੜੀਆਂ ਦਿਖਣ ਵਾਲੀਆਂ ਸਫਲਤਾਵਾਂ ਅਯੋਗ ਕਰਾਰ ਦਿੱਤੀਆਂ ਗਈਆਂ, ਕਿਉਂ ਦਿੱਤੀਆਂ ਗਈਆਂ, ਅਤੇ ਨਤੀਜਾ ਉਸ ਫੈਸਲੇ 'ਤੇ ਕਿੰਨਾ ਨਿਰਭਰ ਕਰਦਾ ਹੈ।

ਰੁਝਾਨ ਰੇਖਾ ਅਤੇ ਭਰੋਸੇ ਦੇ ਅੰਤਰਾਲਾਂ ਨਾਲ ਸਮੇਂ ਦੇ ਨਾਲ AI ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਉਂਦਾ ਚਾਰਟ।

ਇਨਕਾਰ

ਮਾਡਲ ਸੁਰੱਖਿਆ ਉਪਾਅ ਕਾਰਨ ਸਮਰੱਥਾ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਵੀ ਕਰ ਸਕਦੇ ਹਨ। ਕੋਈ ਮਾਡਲ ਮੁਲਾਂਕਣ ਦੇ ਕੰਮ ਪੂਰੇ ਕਰਨ ਦੀ ਬਜਾਏ ਉਨ੍ਹਾਂ ਤੋਂ ਇਨਕਾਰ ਕਰਨ ਕਾਰਨ ਆਪਣੀ ਅਸਲ ਸਮਰੱਥਾ ਨਾਲੋਂ ਘੱਟ ਮੁਲਾਂਕਣ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾ ਸਕਦਾ ਹੈ। ਇਸ ਲਈ ਰਿਪੋਰਟਾਂ ਨੂੰ ਸਮਝਾਉਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਕੀ ਇਨਕਾਰ ਮੁਲਾਂਕਣ ਨਤੀਜਿਆਂ ਦਾ ਹਿੱਸਾ ਸਨ ਅਤੇ ਜੇ ਹਾਂ, ਤਾਂ ਉਨ੍ਹਾਂ ਕਾਰਨ ਕਿੰਨੇ ਨਮੂਨੇ ਪ੍ਰਭਾਵਿਤ ਹੋਏ।

ਕੰਟੈਮੀਨੇਸ਼ਨ

ਕੰਟੈਮੀਨੇਸ਼ਨ ਸਭ ਤੋਂ ਵੱਧ ਜਨਤਕ ਜਾਂ ਦੁਬਾਰਾ ਵਰਤੇ ਬੈਂਚਮਾਰਕਾਂ⁠ ਲਈ ਮਹੱਤਵ ਰੱਖਦੀ ਹੈ। ਜੇਕਰ ਟਾਸਕ, ਜਵਾਬ ਜਾਂ ਨੇੜਲੇ ਰੂਪ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਵਿੱਚ ਮੌਜੂਦ ਹੋਣ ਜਾਂ ਬ੍ਰਾਊਜ਼ਿੰਗ ਵਾਲਾ ਏਜੰਟ ਉਨ੍ਹਾਂ ਨੂੰ ਲੱਭ ਸਕੇ, ਤਾਂ ਪ੍ਰਦਰਸ਼ਨ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਦੀ ਬਜਾਏ ਯਾਦਸ਼ਕਤੀ ਜਾਂ ਪ੍ਰਾਪਤੀ ਨੂੰ ਦਰਸਾ ਸਕਦਾ ਹੈ। ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ, ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੂੰ ਨਿੱਜੀ ਜਾਂ ਨਵੇਂ ਬਣਾਏ ਟਾਸਕਾਂ ਨੂੰ ਤਰਜੀਹ ਦੇਣੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਇਹ ਜਾਂਚਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਮਾਡਲ ਹੱਲ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਕੰਮ-ਵਿਸ਼ੇਸ਼ ਵੇਰਵੇ ਦੁਹਰਾਉਂਦੇ ਤਾਂ ਨਹੀਂ।

ਟੁੱਟੀਆਂ ਸਮੱਸਿਆਵਾਂ

ਟੁੱਟੀਆਂ ਸਮੱਸਿਆਵਾਂ ਵਿੱਚ ਉਹ ਹਾਲਾਤ ਸ਼ਾਮਲ ਹਨ ਜਿਵੇਂ ਕੋਈ ਸਮੱਸਿਆ ਜੋ ਅਣਜਾਣੇ ਵਿੱਚ ਹੱਲ ਹੀ ਨਾ ਹੋ ਸਕੇ। ਟੁੱਟੀਆਂ ਸਮੱਸਿਆਵਾਂ ਇੰਨੀ ਆਮ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਹਨ ਕਿ ਉਨ੍ਹਾਂ ਨੂੰ ਵੈਧਤਾ ਦੇ ਮਿਆਰੀ ਜੋਖਿਮ ਵਜੋਂ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਨ੍ਹਾਂ ਵਿੱਚ ਗਲਤ ਗਰਾਊਂਡ ਟਰੂਥ, ਅਸਪਸ਼ਟ ਪ੍ਰੌਂਪਟ, ਗਾਇਬ ਫਾਈਲਾਂ, ਅਸਥਿਰ ਸੇਵਾਵਾਂ, ਅਨਿਆਇਕ ਸਕੋਰਿੰਗ ਮਾਪਦੰਡ, ਅਤੇ ਅਜਿਹੇ ਵਾਤਾਵਰਨ ਸ਼ਾਮਲ ਹਨ ਜੋ ਲੁਕੀਆਂ ਜਵਾਬ ਫਾਈਲਾਂ ਜਾਂ ਗਰਾਊਂਡ-ਟਰੂਥ ਪੈਚ ਵਾਲੇ ਰਿਪੋਜ਼ਟਰੀ ਹਿਸਟਰੀ ਵਰਗੇ ਸ਼ਾਰਟਕੱਟਾਂ ਨੂੰ ਉਘਾੜਦੇ ਹਨ।

ਸੈਂਡਬੈਗਿੰਗ

ਕਿਸੇ ਮਾਡਲ ਜਾਂ ਸਿਸਟਮ ਵੱਲੋਂ ਸੈਂਡਬੈਗਿੰਗ ਦਾ ਅਰਥ ਹੈ ਰਣਨੀਤਿਕ ਢੰਗ ਨਾਲ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨਾ ਜਦੋਂ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਕਿਸੇ ਉਦੇਸ਼ ਨਾਲ ਟਕਰਾਏ। Apollo ਦੇ GPT‑5.5 ਮੁਲਾਂਕਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨੇ ਇਸਦੀ ਜਾਂਚ ਐਸਾ ਸੰਦਰਭ ਬਣਾਕੇ ਕੀਤੀ ਜਿਸ ਵਿੱਚ ਮਾਡਲ ਸਮਝਦਾ ਸੀ ਕਿ ਉੱਚ ਮੁਲਾਂਕਣ ਸਕੋਰ unlearning ਨੂੰ ਟ੍ਰਿਗਰ ਕਰ ਸਕਦੇ ਹਨ ਜਾਂ ਤੈਨਾਤੀ ਰੋਕ ਸਕਦੇ ਹਨ। GPT‑5.5 ਨੇ ਫਿਰ ਵੀ ਸਹੀ ਜਵਾਬ ਦਿੱਤੇ, ਜਿਸ ਨਾਲ ਰਣਨੀਤਿਕ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਘੱਟ ਵਿਹਾਰਕ ਸਬੂਤ ਮਿਲੇ³। ਪਰ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਸਮੀਖਿਆ ਨੇ ਮਹੱਤਵਪੂਰਨ ਸੰਦਰਭ ਜੋੜਿਆ: Apollo ਨੇ sandbagging-condition ਨਮੂਨਿਆਂ ਦੇ 52% ਵਿੱਚ alignment-evaluation awareness ਦੇ ਦਰਮਿਆਨੇ ਜਾਂ ਇਸ ਤੋਂ ਉੱਚੇ ਸੰਕੇਤ ਲੱਭੇ, ਜਦਕਿ counterfactuals ਵਿੱਚ ਇਹ 0% ਸੀ। ਇਹ ਸਬੂਤ ਨਤੀਜੇ ਦੀ ਵਿਆਖਿਆ ਨੂੰ ਜਟਿਲ ਬਣਾਉਂਦਾ ਹੈ, ਪਰ ਆਖ਼ਿਰਕਾਰ ਪਾਠਕਾਂ ਨੂੰ ਹੋਰ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ: ਪਾਠਕ ਦਿਲਾਸਾ ਦੇਣ ਵਾਲਾ ਵਿਹਾਰਕ ਨਤੀਜਾ ਵੀ ਦੇਖ ਸਕਦੇ ਹਨ ਅਤੇ ਇਸਦੀ ਅਤਿ-ਵਿਆਖਿਆ ਤੋਂ ਸਾਵਧਾਨ ਰਹਿਣ ਦਾ ਕਾਰਨ ਵੀ।

ਅਸੀਂ ਹੋਰ ਮਜ਼ਬੂਤ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਕਿਵੇਂ ਸਮਰਥਨ ਦੇ ਰਹੇ ਹਾਂ

ਮਜ਼ਬੂਤ ਦਾਵਿਆਂ ਲਈ ਵਿਹਾਰ ਨੂੰ ਐਲੀਸਿਟ ਕਰਨ ਵਾਸਤੇ ਸਹੀ ਹਾਰਨੈੱਸ ਅਤੇ ਇਹ ਦਿਖਾਉਣ ਲਈ ਵੈਧਤਾ ਜਾਂਚਾਂ ਦੋਵੇਂ ਲੋੜੀਂਦੀਆਂ ਹਨ ਕਿ ਨਤੀਜਾ ਮਜ਼ਬੂਤ ਹੈ। ਇਹ ਸਾਡਾ ਵਿਚਾਰ ਕਿ ਹਾਰਨੈੱਸ ਅਤੇ ਵੈਧਤਾ ਜਾਂਚਾਂ ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਦਾ ਹਿੱਸਾ ਹਨ, ਇਸ ਗੱਲ ਨੂੰ ਆਕਾਰ ਦਿੰਦਾ ਹੈ ਕਿ ਅਸੀਂ ਅਮਲ ਵਿੱਚ ਤੀਜੇ ਪੱਖ ਦੇ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕਿਵੇਂ ਕਰਦੇ ਹਾਂ:

ਅਸੀਂ ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨਾਲ ਖਾਸ ਅਧਿਕਤਮ-ਐਲੀਸੀਟੇਸ਼ਨ ਮਾਰਗਦਰਸ਼ਨ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ।
ਅਸੀਂ ਸਮਰੱਥਾ ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੂੰ ਕਹਿ ਰਹੇ ਹਾਂ ਕਿ OpenAI ਮਾਡਲਾਂ ਲਈ Codex ਨੂੰ ਇੱਕ ਸਾਂਝੇ ਨਿਊਨਤਮ ਮਾਪਦੰਡ ਵਜੋਂ ਵਰਤਣ: ਟੈਸਟ ਘੱਟੋ-ਘੱਟ ਉਸੇ ਏਜੰਟਿਕ ਇੰਟਰਫੇਸ ਰਾਹੀਂ ਇੱਕ ਬੇਸਲਾਈਨ ਚਲਾਉਣ ਜਿਸ 'ਤੇ ਵਰਤੋਂਕਾਰ ਭਰੋਸਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦੇ ਹਨ, ਨਾ ਕਿ ਸਿਰਫ਼ ਇੱਕ ਘਟਾਏ ਹੋਏ ਮਾਡਲ ਇੰਟਰਫੇਸ ਰਾਹੀਂ।
ਅਸੀਂ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ ਅਤੇ ਹੋਰ ਵਿਚਕਾਰਲੇ ਆਰਟੀਫੈਕਟ ਵੀ ਉੱਥੇ ਉਪਲਬਧ ਕਰਵਾ ਰਹੇ ਹਾਂ ਜਿੱਥੇ ਧੋਖਾਧੜੀ, ਸੈਂਡਬੈਗਿੰਗ ਜਾਂ ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ ਦਾ ਅੰਕਲਨ ਕਰਨ ਲਈ ਉਨ੍ਹਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। METR ਅਤੇ Apollo ਨੇ GPT‑5 ਤੋਂ ਲੈ ਕੇ OpenAI ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਇਸ ਪਹੁੰਚ ਦਾ ਵਰੇਤੋਂ ਕੀਤਾ ਹੈ।
ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਗੱਲ ਨੂੰ ਹੋਰ ਡੂੰਘਾਈ ਨਾਲ ਸਮਝਣ ਲਈ ਖੋਜ ਨੂੰ ਤਰਜੀਹ ਦੇ ਰਹੇ ਹਾਂ ਕਿ ਕਦੋਂ ਅਤੇ ਕਿਵੇਂ ਹਾਰਨੈੱਸ ਦੀਆਂ ਚੋਣਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਵਾਸਤਵਿਕ ਤੌਰ 'ਤੇ ਬਦਲ ਦਿੰਦੀਆਂ ਹਨ, ਸੰਦਰਭ ਪ੍ਰਬੰਧਨ ਅਤੇ ਟੂਲ ਪਹੁੰਚ ਤੋਂ ਲੈ ਕੇ ਰੀਟ੍ਰਾਈ ਵਿਹਾਰ, ਸਕੋਰਿੰਗ ਅਤੇ ਸਰੋਤ ਬਜਟਾਂ ਤੱਕ।

ਮੁਲਾਂਕਣ ਮਿਆਰਾਂ ਅਤੇ ਭਵਿੱਖੀ ਖੋਜ ਦਿਸ਼ਾਵਾਂ ਲਈ ਇਸਦਾ ਕੀ ਅਰਥ ਹੈ

ਇਹ ਸਿਫ਼ਾਰਸ਼ਾਂ ਸਿਰਫ਼ ਵੱਖ-ਵੱਖ ਮੁਲਾਂਕਣ ਰਿਪੋਰਟਾਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਅਤਿ-ਆਧੁਨਿਕ AI ਮੁਲਾਂਕਣ ਅਤੇ ਰਿਪੋਰਟਿੰਗ ਲਈ ਉਭਰ ਰਹੇ ਰਾਸ਼ਟਰੀ ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)ਅਤੇ ਅੰਤਰਰਾਸ਼ਟਰੀ ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)ਮਿਆਰਾਂ ਨੂੰ ਜਾਣਕਾਰੀ ਦੇਣ ਲਈ ਵੀ ਹਨ। ਅੱਗੇ ਵਧਦਿਆਂ, ਤੀਜੇ ਪੱਖ ਦੇ ਮੁਲਾਂਕਣ ਮਿਆਰਾਂ ਨੂੰ ਇੰਨਾ ਵੇਰਵਾ ਲਾਜ਼ਮੀ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਫੈਸਲਾ ਕਰਨ ਵਾਲੇ ਸਮਝ ਸਕਣ ਕਿ ਖਾਸ ਮੁਲਾਂਕਣ ਕਿਹੜੇ ਦਾਵਿਆਂ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ, ਕਿਹੜਾ ਸਿਸਟਮ ਜਾਂਚਿਆ ਗਿਆ ਸੀ, ਨਤੀਜਾ ਕਿਵੇਂ ਐਲੀਸਿਟ ਕੀਤਾ ਗਿਆ, ਅਤੇ ਮੁਲਾਂਕਣਕਰਤਿਆਂ ਨੇ ਇਸਦੀ ਵੈਧਤਾ ਕਿਵੇਂ ਜਾਂਚੀ। ਅਤਿ-ਆਧੁਨਿਕ ਸਿਸਟਮਾਂ ਲਈ, ਜਿਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਉਹਨਾਂ ਕੰਮਾਂ 'ਤੇ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ ਜਿੱਥੇ ਏਜੰਟਿਕ ਸਮਰੱਥਾਵਾਂ ਮਹੱਤਵ ਰੱਖਦੀਆਂ ਹਨ, ਵੇਰਵਿਆਂ ਵਿੱਚ ਇਹ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ, ਕਿਸੇ ਵੀ ਸੁਰੱਖਿਆ ਜਾਂ ਗੋਪਨੀਅਤਾ ਚਿੰਤਾਵਾਂ ਦੇ ਅਧੀਨ:

ਦਾਅਵਾ: ਕੀ ਮੁਲਾਂਕਣ ਸਿਸਟਮਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦਾ ਹੈ, ਸਮਰੱਥਾ ਦੀ ਉੱਪਰੀੇ ਸੀਮਾ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਂਦਾ ਹੈ, ਜਾਂ ਸੁਰੱਖਿਆ ਉਪਾਅ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
ਮੁਲਾਂਕਣ ਸਮੱਗਰੀ: ਕੰਮਾਂ ਜਾਂ ਕੰਮ-ਵੰਡ ਬਾਰੇ ਇੰਨਾ ਵੇਰਵਾ ਕਿ ਪਾਠਕ ਸਮਝ ਸਕਣ ਕਿ ਮੁਲਾਂਕਣ ਅਸਲ ਵਿੱਚ ਕਿਹੜੀਆਂ ਕੁਸ਼ਲਤਾਵਾਂ, ਵਿਹਾਰਾਂ ਜਾਂ ਅਸਫਲਤਾ ਮੋਡਾਂ ਦੀ ਜਾਂਚ ਕਰ ਰਿਹਾ ਹੈ।
ਟੈਸਟ ਕੀਤਾ ਸਿਸਟਮ: ਮਾਡਲ, ਰੀਜ਼ਨਿੰਗ ਸੈਟਿੰਗ, ਟੂਲ ਪਹੁੰਚ, ਹਾਰਨੈੱਸ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਅ।
ਬਜਟ: ਟਰਨ, ਟੋਕਨ, ਕੋਸ਼ਿਸ਼ਾਂ/ਰੀਟ੍ਰਾਈ, ਅਸਲ ਸਮਾਂ, ਇਨਫਰੈਂਸ ਲਾਗਤ, ਅਤੇ ਜਿੱਥੇ ਲਾਗੂ ਹੋਵੇ ਉੱਥੇ ਹਰ ਸਫਲ ਹੱਲ ਲਈ ਉਮੀਦਿਤ ਲਾਗਤ।
ਐਲੀਸੀਟੇਸ਼ਨ ਵਿਧੀਆਂ: ਨਤੀਜਾ ਬਾਹਰ ਲਿਆਉਣ ਲਈ ਵਰਤੀਆਂ ਹਾਰਨੈੱਸ ਚੋਣਾਂ, ਅਤੇ ਜੋ ਜਾਂਚਿਆ ਗਿਆ ਉਹ ਕੀਤੇ ਜਾ ਰਹੇ ਵੱਡੇ ਦਾਅਵੇ ਨੂੰ ਕਿੰਨਾ ਦਰਸਾਉਂਦਾ ਹੈ।
ਵੈਧਤਾ ਜਾਂਚਾਂ: ਅੰਕਲਨਕਰਤਿਆਂ ਨੇ ਰਿਵਾਰਡ ਹੈਕਿੰਗ, ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ, ਕੰਟੈਮੀਨੇਸ਼ਨ, ਇਨਕਾਰ, ਸੈਂਡਬੈਗਿੰਗ ਅਤੇ ਹੋਰ ਉਹਨਾਂ ਵਿਹਾਰਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕੀਤੀ ਜੋ ਨਤੀਜੇ ਨੂੰ ਕਮਜ਼ੋਰ ਕਰ ਸਕਦੇ ਹਨ, ਅਤੇ ਪੁਸ਼ਟੀਸ਼ੁਦਾ ਮਾਮਲਿਆਂ ਨੇ ਸਕੋਰਿੰਗ ਜਾਂ ਵਿਆਖਿਆ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਿਤ ਕੀਤਾ।

ਜੋ ਮਿਆਰ ਹਾਰਨੈੱਸ ਚੋਣਾਂ ਜਾਂ ਵੈਧਤਾ ਜਾਂਚਾਂ ਨੂੰ ਛੱਡ ਦਿੰਦੇ ਹਨ, ਉਹ ਇਹ ਘੱਟ ਦਿਖਾ ਸਕਦੇ ਹਨ ਕਿ ਕੋਈ ਸਿਸਟਮ ਕੀ ਕਰ ਸਕਦਾ ਹੈ ਜਾਂ ਕਿਸੇ ਸੁਰੱਖਿਆ ਦਾਅਵੇ 'ਤੇ ਭਰੋਸੇ ਨੂੰ ਵੱਧ ਦਿਖਾ ਸਕਦੇ ਹਨ। ਮਜ਼ਬੂਤ ਹਾਰਨੈੱਸ ਅਤੇ ਐਲੀਸੀਟੇਸ਼ਨ ਵਿਧੀਆਂ ਬਣਾਉਣਾ ਅਜੇ ਵੀ ਖੁੱਲ੍ਹਾ ਖੋਜ ਖੇਤਰ ਹੈ ਅਤੇ ਇਸਨੂੰ ਹੋਰ ਜਾਂਚ ਅਤੇ ਨਿਵੇਸ਼ ਦਾ ਕੇਂਦਰ ਬਣਨਾ ਚਾਹੀਦਾ ਹੈ।

2026

ਲੇਖਕ

OpenAI

ਸ਼ਬਦਾਵਲੀ

ਕਿਉਂਕਿ ਅਸੀਂ ਇਸ ਪੋਸਟ ਵਿੱਚ ਕਈ ਵਿਸ਼ੇਸ਼ ਸ਼ਬਦ ਵਰਤਦੇ ਹਾਂ, ਅਸੀਂ ਹੇਠਾਂ ਇੱਕ ਸ਼ਬਦਾਵਲੀ ਸ਼ਾਮਲ ਕੀਤੀ ਹੈ ਜੋ ਸਧਾਰਨ ਭਾਸ਼ਾ ਵਿੱਚ ਸਮਝਾਉਂਦੀ ਹੈ ਕਿ ਅਸੀਂ ਕਿਸ ਬਾਰੇ ਗੱਲ ਕਰ ਰਹੇ ਹਾਂ

ਏਜੰਟਿਕ ਸਿਸਟਮ:ਅਜਿਹਾ ਸਿਸਟਮ ਜੋ ਸਿਰਫ਼ ਇੱਕ ਪ੍ਰੌਂਪਟ ਦਾ ਇਕੱਲਾ ਜਵਾਬ ਦੇਣ ਦੀ ਬਜਾਏ, ਟੂਲ ਵਰਤ ਕੇ, ਕੰਮ ਦੀ ਸਥਿਤੀ ਕਾਇਮ ਰੱਖ ਕੇ ਅਤੇ ਕਿਸੇ ਵਾਤਾਵਰਨ ਵਿੱਚ ਕਾਰਵਾਈ ਕਰਕੇ, ਕਈ ਕਦਮਾਂ ਵਿੱਚ ਕੰਮ ਪੂਰਾ ਕਰ ਸਕੇ।
ਅਸੈਸਮੈਂਟ: ਇਸ ਗੱਲ ਦਾ ਇੱਕ ਵਿਆਪਕ ਨਿਰਣਾ ਕਿ ਕੀ ਉਪਲਬੱਧ ਸਬੂਤ ਕਿਸੇ ਦਾਅਵੇ, ਜੋਖਮ ਦੇ ਨਤੀਜੇ, ਜਾਂ ਭਰੋਸੇ ਦੀ ਸਥਿਤੀ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ; ਇਹ ਮੁਲਾਂਕਣ ਡਾਟਾ, ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਸਮੀਖਿਆ, ਇੰਟਰਵਿਊ, ਪ੍ਰਕਿਰਿਆ ਦੀ ਸਮੀਖਿਆ ਅਤੇ ਹੋਰ ਸੰਬੰਧਿਤ ਤੱਥਾਂ 'ਤੇ ਆਧਾਰਿਤ ਹੋ ਸਕਦਾ ਹੈ।
ਕੰਪੈਕਸ਼ਨ: ਲੰਬੇ ਰਨ ਦੌਰਾਨ ਕੰਮ-ਸੰਬੰਧੀ ਸੰਦਰਭ ਸੰਭਾਲ ਕੇ ਰੱਖਣ ਦੀ ਵਿਧੀ।
ਕੌਂਫਿਗਰੇਸ਼ਨ: ਮਾਡਲ ਦੇ ਨਾਮ ਤੋਂ ਇਲਾਵਾ, ਟੈਸਟ ਕੀਤਾ ਗਿਆ ਅਸਲ ਸਿਸਟਮ ਅਤੇ ਮੁਲਾਂਕਣ ਦੀਆਂ ਸਾਰੀਆਂ ਸਥਿਤੀਆਂ।
ਕੰਟੈਮੀਨੇਸ਼ਨ: ਜਦੋਂ ਮੁਲਾਂਕਣ ਦੇ ਟਾਸਕ, ਜਵਾਬ ਜਾਂ ਉਨ੍ਹਾਂ ਦੇ ਨੇੜਲੇ ਰੂਪ ਕਿਸੇ ਮਾਡਲ ਦੇ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਵਿੱਚ ਮਿਲ ਜਾਣ ਜਾਂ ਮੁਲਾਂਕਣ ਦੌਰਾਨ ਲੱਭੇ ਜਾ ਸਕਣ, (ਜਿਵੇਂ ਬ੍ਰਾਊਜ਼ਿੰਗ ਵਰਗੇ ਟੂਲਾਂ ਰਾਹੀਂ), ਤਾਂ ਪ੍ਰਦਰਸ਼ਨ ਮਾਡਲ ਦੀ ਅਸਲ ਜਨਰਲਾਈਜ਼ੇਸ਼ਨ ਤੋਂ ਵੱਧ ਦਿਖ ਸਕਦਾ ਹੈ।
ਐਲੀਸੀਟੇਸ਼ਨ: ਅਸੈਸਮੈਂਟ ਦੌਰਾਨ ਕਿਸੇ ਸਿਸਟਮ ਤੋਂ ਕੋਈ ਸਮਰੱਥਾ ਜਾਂ ਵਿਹਾਰ ਬਾਹਰ ਲਿਆਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਦੀ ਪ੍ਰਕਿਰਿਆ।
ਵਾਤਾਵਰਨ: ਉਹ ਟਾਸਕ ਸੈਟਿੰਗ ਜਿਸ ਵਿੱਚ ਕਿਸੇ ਸਿਸਟਮ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਸ ਵਿੱਚ ਉਹ ਚੀਜ਼ਾਂ ਸ਼ਾਮਲ ਹਨ ਜਿਵੇਂ ਬਾਹਰੀ ਸਥਿਤੀ ਜਿਸ ਨਾਲ ਏਜੰਟ ਮੁਲਾਂਕਣ ਦੌਰਾਨ ਸੰਪਰਕ ਕਰਦਾ ਹੈ ਅਤੇ ਜਿਸ ਨੂੰ ਬਦਲਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਟਰਮੀਨਲ ਵਾਤਾਵਰਨ ਜਾਂ ਵੀਡੀਓ ਗੇਮ।
ਮੁਲਾਂਕਣ: ਕਿਸੇ ਅਸੈਸਮੈਂਟ ਦੇ ਅੰਦਰ ਖਾਸ ਟੈਸਟ ਜਾਂ ਮਾਪ।
ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ: ਮੁਲਾਂਕਣ ਜਾਗਰੂਕਤਾ ਤੋਂ ਭਾਵ ਹੈ ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਇਹ ਪਛਾਣ ਲੈਂਦਾ ਹੈ, ਜਾਂ ਅਜਿਹਾ ਪ੍ਰਤੀਤ ਹੁੰਦਾ ਹੈ ਕਿ ਉਸਨੇ ਪਛਾਣ ਲਿਆ ਹੈ, ਕਿ ਉਸਦਾ ਟੈਸਟ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ, ਅਤੇ ਉਹ ਇਸ ਸਥਿਤੀ ਦੇ ਆਧਾਰ 'ਤੇ ਆਪਣੇ ਵਿਵਹਾਰ ਵਿੱਚ ਬਦਲਾਅ ਕਰਦਾ ਹੈ। ਇਹ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਸਾਹਮਣੇ ਆ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਮਾਡਲ ਵੱਲੋਂ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਟੈਸਟ ਕੀਤੇ ਜਾਣ ਬਾਰੇ ਰੀਜ਼ਨਿੰਗ, ਮੁਲਾਂਕਣ ਦੇ ਮਕਸਦ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ, ਜਾਂ ਆਪਣੇ ਵਿਵਹਾਰ ਨੂੰ ਇਸ ਲਈ ਬਦਲਣਾ ਕਿਉਂਕਿ ਉਸਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਇਸਦੇ ਨਤੀਜੇ ਉਸਦੀ ਡਿਪਲੌਏਮੈਂਟ ਜਾਂ ਉਸਦੀ ਜੱਜਮੈਂਟ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਨਗੇ।
ਹਾਰਨੈੱਸ: ਮਾਡਲ ਦੇ ਅਨੁਕੂਲ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਉਹ ਢਾਂਚਾ ਜੋ ਮਾਡਲ ਨੂੰ ਕੋਈ ਟਾਸਕ ਪੂਰਾ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ; ਇਸ ਵਿੱਚ ਮਾਡਲ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਕੰਮ ਕਰਨ ਵਾਲੇ ਸਪੋਰਟਿੰਗ ਸਿਸਟਮ ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਜਿਵੇਂ ਕਿ ਪ੍ਰੌਂਪਟ, ਟੂਲ, ਇੰਟਰਫੇਸ, ਕੰਟਰੋਲ ਲੌਜਿਕ, ਮੈਮੋਰੀ, ਰੀ-ਟ੍ਰਾਈ ਅਤੇ ਵੈਲੀਡੇਟਰ।
ਅਧਿਕਤਮ ਐਲੀਸੀਟੇਸ਼ਨ: ਅਜਿਹੀ ਜਾਂਚ ਜਿਸਦਾ ਉਦੇਸ਼ ਇਹ ਲੱਭਣਾ ਹੋਵੇ ਕਿ ਨਿਰਧਾਰਤ ਬਜਟ ਅੰਦਰ ਕੋਈ ਸਿਸਟਮ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ ਭਰੋਸੇਯੋਗ ਪ੍ਰਦਰਸ਼ਨ ਜਾਂ ਅਸਫਲਤਾ ਮੋਡ ਕੀ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ, ਨਾ ਕਿ ਸਿਰਫ਼ ਇੱਕ ਮਿਿਆਰੀਕ੍ਰਿਤ ਹਾਰਨੈੱਸ ਰਾਹੀਂ ਸਿਸਟਮ ਨੂੰ ਇੱਕ ਵਾਰ ਚਲਾਉਣਾ।
ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ: ਟੈਸਟ ਦੌਰਾਨ ਮਾਡਲ ਦੀ ਵਿਚਕਾਰਲੀ ਰੀਜ਼ਨਿੰਗ ਦੇ ਰਿਕਾਰਡ।
ਰਿਵਾਰਡ ਹੈਕਿੰਗ: ਇਵੈਲੂਏਟਰ ਦੇ ਇਰਾਦੇ ਤੋਂ ਬਾਹਰ ਕਿਸੇ ਸ਼ਾਰਟਕੱਟ ਜਾਂ ਵਿਹਾਰ ਰਾਹੀਂ ਉੱਚ ਸਕੋਰ ਹਾਸਲ ਕਰਨਾ।
ਸੁਰੱਖਿਆ ਉਪਾਅ: ਫਿਲਟਰ, ਮੌਨੀਟਰ, ਰੋਕਣ ਵਾਲੇ ਸਿਸਟਮ ਅਤੇ ਹੋਰ ਸੁਰੱਖਿਆਵਾਂ ਜੋ ਮਾਡਲ ਜਾਂ ਉਤਪਾਦ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਲਾਗੂ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।
ਸੈਂਡਬੈਗਿੰਗ: ਮੁਲਾਂਕਣ ਵਿੱਚ ਰਣਨੀਤਿਕ ਢੰਗ ਨਾਲ ਘੱਟ ਕਾਰਗੁਜ਼ਾਰੀ ਕਰਨਾ, ਜਿਸ ਨਾਲ ਨਤੀਜਾ ਕਮਜ਼ੋਰ ਪੈਂਦਾ ਹੈ।
ਸਕੋਰਿੰਗ: ਉਹ ਵਿਧੀ ਜਿਸ ਨਾਲ ਇਹ ਤੈਅ ਕੀਤਾ ਜਾਂਦਾ ਹੈ ਕਿ ਕਾਰਗੁਜ਼ਾਰੀ ਕਿਵੇਂ ਮਾਪਿਆ ਜਾਵੇ ਜਾਂ ਕੋਈ ਟਾਸਕ ਸਫਲ ਹੋਇਆ ਕਿ ਨਹੀਂ
ਮਿਆਰੀਕ੍ਰਿਤ ਹਾਰਨੈੱਸ: ਅਜਿਹਾ ਹਾਰਨੈੱਸ ਜੋ ਵੱਖ-ਵੱਖ ਸਿਸਟਮਾਂ ਵਿੱਚ ਇੱਕੋ ਜਿਹਾ ਰੱਖਿਆ ਜਾਂਦਾ ਹੈ, ਕਿਸੇ ਖਾਸ ਮਾਡਲ ਜਾਂ ਟਾਸਕ ਲਈ ਕਸਟਮਾਈਜ਼ ਕਰਨ ਦੀ ਬਜਾਏ, ਤਾਂ ਜੋ ਨਤੀਜਿਆਂ ਦੇ ਫਰਕ ਨੂੰ ਜਾਂਚੇ ਗਏ ਮਾਡਲ ਨਾਲ ਜੋੜਨਾ ਆਸਾਨ ਹੋਵੇ।
ਸਮਾਂ ਦਾਇਰਾ00: ਕਿਸੇ ਟਾਸਕ ਦੀ ਉਹ ਲੰਬਾਈ ਜਿਸਨੂੰ ਕੋਈ ਸਿਸਟਮ ਇੱਕ ਨਿਰਧਾਰਿਤ ਭਰੋਸੇਯੋਗਤਾ ਨਾਲ ਪੂਰਾ ਕਰ ਸਕਦਾ ਹੈ; ਇਸਨੂੰ ਅਕਸਰ ਇਸ ਰੂਪ ਵਿੱਚ ਦਰਸਾਇਆ ਜਾਂਦਾ ਹੈ ਕਿ ਉਸੇ ਟਾਸਕ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਕਿੰਨਾ ਸਮਾਂ ਲੱਗੇਗਾ।
ਟੂਲ ਪਹੁੰਚ: ਅਸੈਸਮੈਂਟ ਦੌਰਾਨ ਮਾਡਲ ਲਈ ਉਪਲਬਧ ਬਾਹਰੀ ਟੂਲ।
ਟ੍ਰੈਜੈਕਟਰੀਆਂ: ਕਿਸੇ ਟਾਸਕ 'ਤੇ ਕੰਮ ਕਰਦੇ ਹੋਏ ਸਿਸਟਮ ਦੁਆਰਾ ਤੈਅ ਕੀਤੇ ਗਏ ਪੜਾਅਵਾਰ ਮਾਰਗ।
ਯੂਨੀਵਰਸਲ ਜੇਲਬ੍ਰੇਕ: ਇੱਕੋ ਹਮਲਾ ਪੈਟਰਨ ਜੋ ਕਈ ਪ੍ਰੌਂਪਟਾਂ ਜਾਂ ਟਾਸਕਾਂ ਵਿੱਚ ਸਿਸਟਮ ਨੂੰ ਸੁਰੱਖਿਆ ਉਪਾਅ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰੇ।

ਫੁੱਟਨੋਟ

1
ਇਹ ਪੋਸਟ ਇਹ ਹੱਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਨਹੀਂ ਕਰਦੀ ਕਿ ਤੀਜੇ ਧਿਰਾਂ ਨੂੰ ਗ਼ਲਤ-ਤਾਲਮੇਲ ਜਾਂ ਕਾਰਜ-ਪ੍ਰਵਿਰਤੀ ਸੰਬੰਧੀ ਦਾਵਿਆਂ ਦਾ ਇਵੈਲੂਏਸ਼ਨ ਕਿਵੇਂ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਸਮਝਣ ਲਈ ਅਜੇ ਹੋਰ ਕੰਮ ਦੀ ਲੋੜ ਹੈ ਕਿ ਹਾਰਨੈੱਸ ਦੀਆਂ ਚੋਣਾਂ ਉਹਨਾਂ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਕਿਵੇਂ ਪ੍ਰਭਾਵਿਤ ਕਰਦੀਆਂ ਹਨ, ਖ਼ਾਸ ਕਰਕੇ ਕਿਉਂਕਿ ਲੰਬੀ ਮਿਆਦ ਦੇ ਵਿਹਾਰ ਨੂੰ ਸਮਰਥਨ ਦੇਣ ਵਾਲੇ ਹਾਰਨੈੱਸ ਉਸ ਅਣਚਾਹੇ ਵਿਹਾਰ ਦੀ ਕਿਸਮ ਨੂੰ ਵੀ ਬਦਲ ਸਕਦੇ ਹਨ ਜਿਸਦੀ ਨਿਗਰਾਨੀ ਇਵੈਲੂਏਟਰਾਂ ਨੂੰ ਕਰਨੀ ਪੈਂਦੀ ਹੈ।
2
HAL⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਏਜੰਟ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਇੱਕ ਹੋਰ ਉਦਾਹਰਨ ਦਿੰਦਾ ਹੈ: CORE-Bench⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ, ਹਾਰਨੈੱਸ ਨੂੰ Claude Code ਵਿੱਚ ਬਦਲਣ ਨਾਲ ਇੱਕੋ ਬੈਂਚਮਾਰਕ 'ਤੇ ਮਾਪਿਆ ਗਿਆ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਲਾਗਤ ਪ੍ਰੋਫ਼ਾਈਲ ਦੋਵੇਂ ਬਦਲ ਗਏ। ਹੋਰ ਜਨਤਕ ਉਦਾਹਰਨਾਂ ਵਿੱਚ SWE-agent⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), SeeAct⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ScienceAgentBench⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), CORE-Bench⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਤੇ Inspect Cyber⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਸ਼ਾਮਲ ਹਨ; ਹਰ ਇੱਕ ਪਾਠਕਾਂ ਨੂੰ ਦੱਸਦਾ ਹੈ ਕਿ ਕਿਹੜੇ ਇੰਟਰਫੇਸ ਜਾਂ ਹਾਰਨੈੱਸ ਨੇ ਸਕੋਰ ਪੈਦਾ ਕੀਤਾ।
3
ਦੋਵੇਂ ਸੈਂਡਬੈਗਿੰਗ QA ਰੂਪਾਂ 'ਤੇ 100% ਅਤੇ ਰਣਨੀਤਕ ਧੋਖਾਧੜੀ ਸੈਂਡਬੈਗਿੰਗ ਟਾਸਕ 'ਤੇ 99.6% ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਨਾ।

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

Safety and alignment in an era of long-horizon models

ਸੁਰੱਖਿਆ20 ਜੁਲਾ 2026

Why teens deserve access to safe AI

ਸੁਰੱਖਿਆ16 ਜੁਲਾ 2026

GPT-Red: ਮਜ਼ਬੂਤੀ ਲਈ ਸਵੈ-ਸੁਧਾਰ ਦੇ ਰਾਹ ਖੋਲ੍ਹਣਾ

ਸੁਰੱਖਿਆ15 ਜੁਲਾ 2026