19 ਨਵੰਬਰ 2025

ਬਾਹਰੀ ਟੈਸਟਿੰਗ ਨਾਲ ਸਾਡੇ ਸੁਰੱਖਿਆ ਤੰਤਰ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ

ਅਤਿ-ਆਧੁਨਿਕ AI ਲਈ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਬਾਰੇ ਸਾਡਾ ਦ੍ਰਿਸ਼ਟੀਕੋਣ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

OpenAI ਵਿੱਚ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਸੁਤੰਤਰ, ਭਰੋਸੇਯੋਗ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਅਤਿ-ਆਧੁਨਿਕ AI ਦੇ ਸੁਰੱਖਿਆ ਤੰਤਰ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਵਿੱਚ ਨਿਰਣਾਇਕ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ ਹਨ। ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਉੱਤੇ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਅਜੇਹੇ ਮੁਲਾਂਕਣ ਹਨ ਜੋ ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਜੋਖਮ-ਘਟਾਊ ਉਪਾਵਾਂ ਬਾਰੇ ਦਾਵਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ ਜਾਂ ਉਨ੍ਹਾਂ ਲਈ ਵਾਧੂ ਸਬੂਤ ਦਿੰਦੇ ਹਨ। ਇਹ ਮੁਲਾਂਕਣ ਸੁਰੱਖਿਆ ਸੰਬੰਧੀ ਦਾਵਿਆਂ ਦੀ ਤਸਦੀਕ ਕਰਨ, ਅਣਦਿੱਖੇ ਖਾਲੀਆਂ ਤੋਂ ਬਚਾਅ ਕਰਨ, ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਤੇ ਖਤਰਿਆਂ ਬਾਰੇ ਪਾਰਦਰਸ਼ਤਾ ਵਧਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ। ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨੂੰ ਸਾਡੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਲਈ ਸੱਦਾ ਦੇ ਕੇ, ਅਸੀਂ ਆਪਣੀਆਂ ਸਮਰੱਥਾ-ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਗਹਿਰਾਈ ਉੱਤੇ ਭਰੋਸਾ ਬਣਾਉਣ ਅਤੇ ਵਿਆਪਕ ਸੁਰੱਖਿਆ ਤੰਤਰ ਨੂੰ ਉੱਚਾ ਚੁੱਕਣ ਦਾ ਵੀ ਲਕਸ਼ ਰੱਖਦੇ ਹਾਂ.

GPT‑4 ਦੇ ਲਾਂਚ ਤੋਂ ਬਾਅਦ, OpenAI ਨੇ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਮੁਲਾਂਕਣ ਲਈ ਕਈ ਬਾਹਰੀ ਭਾਗੀਦਾਰਾਂ ਨਾਲ ਸਹਿਯੋਗ ਕੀਤਾ ਹੈ। ਵਿਆਪਕ ਤੌਰ ਤੇ, ਸਾਡੇ ਤੀਜੀ-ਧਿਰ ਸਹਿਯੋਗ ਤਿੰਨ ਰੂਪ ਲੈਂਦੇ ਹਨ:

ਬਾਇਓਸੁਰੱਖਿਆ, ਸਾਈਬਰਸੁਰੱਖਿਆ, AI ਸਵੈ-ਸੁਧਾਰ ਅਤੇ ਚਾਲਾਕੀ ਵਰਗੇ ਮੁੱਖ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਅਤੇ ਖਤਰਾ ਖੇਤਰਾਂ ਦੇ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ
ਅਜੇਹੀਆਂ ਕਾਰਜ-ਵਿਧੀ ਸਮੀਖਿਆਵਾਂ ਜੋ ਇਹ ਜਾਂਚਦੀਆਂ ਹਨ ਕਿ ਅਸੀਂ ਖਤਰੇ ਦਾ ਮੁਲਾਂਕਣ ਅਤੇ ਅਰਥਘਟਨ ਕਿਵੇਂ ਕਰਦੇ ਹਾਂ
ਵਿਸ਼ਾ-ਮਾਹਿਰ (SME) ਪ੍ਰੋਬਿੰਗ, ਜਿਸ ਵਿੱਚ ਮਾਹਿਰ ਅਸਲ ਦੁਨਿਆ ਦੇ SME ਕੰਮਾਂ ਉੱਤੇ ਮਾਡਲ ਦਾ ਸਿੱਧਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ ਅਤੇ ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੰਬੰਧਿਤ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਬਾਰੇ ਸਾਡੇ ਮੁਲਾਂਕਣ ਲਈ ਸੰਰਚਿਤ ਇਨਪੁੱਟ ਦਿੰਦੇ ਹਨ¹

ਇਹ ਬਲੌਗ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਸੀਂ ਬਾਹਰੀ ਮੁਲਾਂਕਣ ਦੇ ਇਨ੍ਹਾਂ ਹਰ ਰੂਪਾਂ ਨੂੰ ਕਿਵੇਂ ਵਰਤਦੇ ਹਾਂ, ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹਨ, ਇਨ੍ਹਾਂ ਨੇ ਡਿਪਲੌਇਮੈਂਟ ਦੇ ਫ਼ੈਸਲਿਆਂ ਨੂੰ ਕਿਵੇਂ ਆਕਾਰ ਦਿੱਤਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਇਨ੍ਹਾਂ ਸਹਿਯੋਗਾਂ ਦੀ ਸੰਰਚਨਾ ਲਈ ਕਿਹੜੇ ਸਿਧਾਂਤ ਵਰਤਦੇ ਹਾਂ। ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਭਾਵਨਾ ਨਾਲ, ਅਸੀਂ ਉਹ ਗੋਪਨੀਯਤਾ ਅਤੇ ਪ੍ਰਕਾਸ਼ਨ ਸ਼ਰਤਾਂ ਬਾਰੇ ਵੀ ਹੋਰ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਤੀਜੀ-ਧਿਰ ਟੈਸਟਰਾਂ ਨਾਲ ਸਾਡੇ ਸਹਿਯੋਗ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਦੀਆਂ ਹਨ.

ਇਹ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ?

ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰ ਸਾਡੇ ਅੰਦਰੂਨੀ ਕੰਮ ਦੇ ਨਾਲ ਇਕ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ-ਪਰਤ ਜੋੜਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਕੜਾਈ ਮਜ਼ਬੂਤ ਹੁੰਦੀ ਹੈ ਅਤੇ ਆਪਣੇ-ਆਪ ਦੀ ਪੁਸ਼ਟੀ ਵਾਲੇ ਪੱਖਪਾਤ ਤੋਂ ਵਾਧੂ ਸੁਰੱਖਿਆ ਮਿਲਦੀ ਹੈ। ਉਨ੍ਹਾਂ ਦੀ ਇਨਪੁੱਟ ਸਾਡੇ ਆਪਣੇ ਮੁਲਾਂਕਣਾਂ ਦੇ ਨਾਲ ਵਾਧੂ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸਿਸਟਮਾਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਡਿਪਲੌਇਮੈਂਟ ਫ਼ੈਸਲੇ ਲੈਣ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ.

ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਤੰਤਰ ਬਣਾਉਣ⁠ ਦਾ ਹਿੱਸਾ ਵੀ ਮੰਨਦੇ ਹਾਂ। ਸਾਡੀਆਂ ਟੀਮਾਂ ਸਮਰੱਥਾ ਅਤੇ ਖਤਰਾ ਖੇਤਰਾਂ ਵਿੱਚ ਵਿਸ਼ਾਲ ਅੰਦਰੂਨੀ ਟੈਸਟਿੰਗ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਸੁਤੰਤਰ ਸੰਸਥਾਵਾਂ ਵਾਧੂ ਨਜ਼ਰੀਏ ਅਤੇ ਕਾਰਜ-ਵਿਧੀਕ ਪਹੁੰਚਾਂ ਲਿਆਉਂਦੀਆਂ ਹਨ। ਅਸੀਂ ਅਜਿਹੀਆਂ ਯੋਗ ਮੁਲਾਂਕਣਕਾਰੀ ਸੰਸਥਾਵਾਂ ਦੇ ਵਿਭਿੰਨ ਸਮੂਹ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਕੰਮ ਕਰਦੇ ਹਾਂ ਜੋ ਸਾਡੇ ਨਾਲ-ਨਾਲ ਨਿਯਮਿਤ ਤੌਰ ਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰ ਸਕਣ.

ਅਖੀਰ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਬਾਰੇ ਪਾਰਦਰਸ਼ੀ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਇਹ ਇਨਪੁੱਟ ਸਾਡੀ ਸੁਰੱਖਿਆ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਕਿਵੇਂ ਆਕਾਰ ਦਿੰਦੀ ਹੈ। ਅਸੀਂ ਨਿਯਮਿਤ ਤੌਰ ਤੇ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਜਨਤਕ ਕਰਦੇ ਹਾਂ—ਉਦਾਹਰਨ ਵਜੋਂ, ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਡਿਪਲੌਇਮੈਂਟ-ਪੂਰਵ ਮੁਲਾਂਕਣਾਂ ਦੇ ਸਾਰ ਸ਼ਾਮਲ ਕਰਕੇ, ਅਤੇ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਸਮੀਖਿਆ ਤੋਂ ਬਾਅਦ ਮੁਲਾਂਕਣਕਾਰੀ ਸੰਸਥਾਵਾਂ ਨੂੰ ਹੋਰ ਵਿਸਥਾਰਪੂਰਣ ਕੰਮ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਦੇ ਕੇ। ਇਹ ਪਾਰਦਰਸ਼ਤਾ ਇਹ ਦਿਖਾ ਕੇ ਭਰੋਸਾ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਬਾਹਰੀ ਇਨਪੁੱਟ ਸਾਡੀਆਂ ਸਮਰੱਥਾ-ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਨੂੰ ਕਿਵੇਂ ਆਕਾਰ ਦਿੰਦੀ ਹੈ.

ਭਰੋਸੇਯੋਗ ਪਹੁੰਚ, ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਗਿਆਨ-ਸਾਂਝੇਦਾਰੀ ਉੱਤੇ ਬਣੇ ਟਿਕਾਊ ਸੰਬੰਧ ਸਾਰੇ ਤੰਤਰ ਨੂੰ ਉਭਰਦੇ ਖਤਰਿਆਂ ਤੋਂ ਅੱਗੇ ਰਹਿਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਅਤੇ ਅਤਿ-ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਲਈ ਹੋਰ ਮਜ਼ਬੂਤ ਮਾਪਦੰਡਾਂ ਅਤੇ ਹੋਰ ਜਾਣਕਾਰੀ-ਆਧਾਰਿਤ ਸ਼ਾਸਨ ਲਈ ਲੋੜੀਂਦੇ ਅਨੁਕੂਲ ਅਤੇ ਕਾਰਗਰ ਮੁਲਾਂਕਣ ਪੈਦਾ ਕਰਦੇ ਹਨ.

ਬਾਹਰੀ ਲੈਬਾਂ ਦੁਆਰਾ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ

GPT‑4⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੇ ਲਾਂਚ ਨਾਲ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਡਿਪਲੌਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਸ਼ੁਰੂਆਤੀ ਮਾਡਲ ਚੈਕਪੌਇੰਟਾਂ ਉੱਤੇ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕੀਤਾ ਹੈ। ਉਸ ਸਮੇਂ ਤੋਂ, ਅਸੀਂ ਕਈ ਤੀਜੀ-ਧਿਰ ਸੰਸਥਾਵਾਂ ਨਾਲ ਆਪਣਾ ਕੰਮ ਵਧਾਇਆ ਹੈ, ਜਿਨ੍ਹਾਂ ਕੋਲ ਮੁੱਖ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਅਤੇ ਖਤਰਾ ਖੇਤਰਾਂ ਲਈ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਡੂੰਘੀ ਮਾਹਰਤਾ ਹੈ। ਅਸੀਂ ਸੁਤੰਤਰ ਲੈਬ ਕੰਮ ਨੂੰ ਖੁੱਲ੍ਹੇ ਅੰਤ ਵਾਲੀ ਟੈਸਟਿੰਗ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਬਾਹਰੀ ਟੀਮਾਂ ਕਿਸੇ ਖਾਸ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਨਾਲ ਸੰਬੰਧਿਤ ਦਾਅਵਾ ਜਾਂ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰਨ ਲਈ ਆਪਣੀਆਂ ਵਿਧੀਆਂ ਲਾਗੂ ਕਰਦੀਆਂ ਹਨ.

ਉਦਾਹਰਨ ਵਜੋਂ, GPT‑5⁠ ਲਈ OpenAI ਨੇ ਲੰਬੇ-ਅਵਧੀ ਸਵੈਣਤ੍ਰਤਾ, ਚਾਲਾਕੀ, ਧੋਖਾਧੜੀ ਅਤੇ ਨਿਗਰਾਨੀ-ਉਲੰਘਣ, ਵੈਟ ਲੈਬ ਯੋਜਨਾ ਸੰਭਾਵਨਾ, ਅਤੇ ਆਕਰਮਕ ਸਾਈਬਰਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣ ਵਰਗੇ ਮੁੱਖ ਜੋਖਮ ਖੇਤਰਾਂ ਵਿੱਚ ਬਾਹਰੀ ਸਮਰੱਥਾ-ਮੁਲਾਂਕਣਾਂ ਦਾ ਵਿਸ਼ਾਲ ਸੈੱਟ ਸਮਨਵਿਤ ਕੀਤਾ.

ਇਹ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ OpenAI ਦੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਦੇ ਅਨੁਸਾਰ ਕੀਤੇ ਗਏ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਨ੍ਹਾਂ ਵਿੱਚ METR ਦੀ ਟਾਈਮ ਹੋਰਾਈਜ਼ਨ ਮੁਲਾਂਕਣ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜਾਂ SecureBio ਦੀ Virology Capabilities Test (VCT)⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮੁਲਾਂਕਣ ਵਰਗੇ ਬੈਂਚਮਾਰਕ ਸ਼ਾਮਲ ਹਨ.

ਇਨ੍ਹਾਂ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ, ਅਸੀਂ ਸ਼ੁਰੂਆਤੀ ਮਾਡਲ ਚੈਕਪੌਇੰਟਾਂ ਲਈ ਸੁਰੱਖਿਅਤ ਪਹੁੰਚ, ਉਹ ਚੁਣਿੰਦੇ ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਜੋ ਅਸੀਂ ਦੇਖ ਰਹੇ ਸਮਰੱਥਾ-ਸੁਧਾਰਾਂ ਨੂੰ ਠੋਸ ਬਣਾਉਂਦੇ ਹਨ, ਜਿੱਥੇ ਲੋੜ ਹੋਵੇ ਉੱਥੇ zero-data retention, ਅਤੇ ਘੱਟ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਵਾਲੇ ਮਾਡਲ ਪ੍ਰਦਾਨ ਕੀਤੇ। ਉਦਾਹਰਨ ਲਈ, ਸਾਈਬਰਸੁਰੱਖਿਆ ਅਤੇ ਬਾਇਓਸੇਫਟੀ ਖੇਤਰਾਂ ਵਿੱਚ ਜਾਂਚ ਕਰਨ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਨੇ ਅੰਦਰੂਨੀ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਲਈ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਨਾਲ ਅਤੇ ਬਿਨਾਂ ਦੋਹਾਂ ਤਰ੍ਹਾਂ ਦੇ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਕਈ ਹੋਰ ਸੰਸਥਾਵਾਂ ਨੂੰ ਸਿੱਧੀ ਚੇਨ-ਆਫ-ਥੌਟ ਪਹੁੰਚ ਦਿੱਤੀ ਗਈ ਤਾਂ ਜੋ ਉਹ ਮਾਡਲ ਦੇ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ ਦੀ ਜਾਂਚ ਕਰ ਸਕਣ। ਪਾਰਦਰਸ਼ਤਾ ਵਧਾਉਣ ਵਾਲੇ ਇਸ ਕਦਮ ਨੇ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ sandbagging² ਜਾਂ ਚਾਲਾਕੀ ਵਾਲੇ ਵਿਵਹਾਰ ਦੇ ਉਹ ਕੇਸ ਪਛਾਣਣ ਦੀ ਆਗਿਆ ਦਿੱਤੀ ਜੋ ਸ਼ਾਇਦ ਸਿਰਫ਼ ਚੇਨ-ਆਫ-ਥੌਟ ਪੜ੍ਹ ਕੇ ਹੀ ਸਮਝ ਆ ਸਕਦੇ ਸਨ। ਪਹੁੰਚ ਸੁਰੱਖਿਆ ਨਿਯੰਤਰਣਾਂ ਦੇ ਨਾਲ ਦਿੱਤੀ ਗਈ ਸੀ, ਅਤੇ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਟੈਸਟਿੰਗ ਦੀਆਂ ਲੋੜਾਂ ਵਿਕਸਿਤ ਹੁੰਦੀਆਂ ਹਨ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਨਿਯੰਤਰਣਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਦੇ ਰਹਿੰਦੇ ਹਾਂ.

ਕਾਰਜ-ਵਿਧੀ ਸਮੀਖਿਆ

ਕੁਝ ਸੰਦਰਭਾਂ ਵਿੱਚ, ਬਾਹਰੀ ਮੁਲਾਂਕਣਕਾਰ ਕਾਰਜ-ਵਿਧੀਕ ਸਮੀਖਿਆ ਦੇਣ ਲਈ ਸੁਚੱਜੀ ਸਥਿਤੀ ਵਿੱਚ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਉਹ ਫ੍ਰੇਮਵਰਕਾਂ ਅਤੇ ਸਬੂਤਾਂ ਲਈ ਵਾਧੂ ਨਜ਼ਰੀਏ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਉੱਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਲੈਬਾਂ ਖਤਰੇ ਦੇ ਮੁਲਾਂਕਣ ਲਈ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ। ਉਦਾਹਰਨ ਲਈ, gpt-oss⁠ ਦੇ ਲਾਂਚ ਦੌਰਾਨ, ਅਸੀਂ ਓਪਨ ਵਜ਼ਨ ਮਾਡਲਜ਼ ਲਈ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਸਮਰੱਥਾਵਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਵਾਸਤੇ adversarial fine-tuning ਵਰਤੀ, ਜਿਸ ਦਾ ਵਰਣਨ Estimating worst case frontier risks of open weight LLMs⁠ ਵਿੱਚ ਹੈ। ਮੁੱਖ ਸੁਰੱਖਿਆ ਪ੍ਰਸ਼ਨ ਇਹ ਸੀ ਕਿ ਕੀ ਕੋਈ ਦੁਸ਼ਟ ਅਦਾਕਾਰ ਸਾਡੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਅਧੀਨ bio ਜਾਂ cyber ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਉੱਚ ਸਮਰੱਥਾ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਮਾਡਲ ਨੂੰ fine-tune ਕਰ ਸਕਦਾ ਹੈ। ਕਿਉਂਕਿ ਇਸ ਲਈ ਸਰੋਤ-ਘਣ adversarial fine-tuning ਦੀ ਲੋੜ ਸੀ, ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ ਸਮਾਨ ਕੰਮ ਦੁਹਰਾਉਣ ਦੀ ਬਜਾਏ ਸਾਡੀਆਂ ਅੰਦਰੂਨੀ ਵਿਧੀਆਂ ਅਤੇ ਨਤੀਜਿਆਂ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਅਤੇ ਸਿਫ਼ਾਰਸ਼ਾਂ ਦੇਣ ਲਈ ਸੱਦਾ ਦਿੱਤਾ.

ਇਸ ਵਿੱਚ ਕਈ ਹਫ਼ਤਿਆਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਸ਼ਾਮਲ ਸੀ ਜਿਸ ਦੌਰਾਨ ਅਸੀਂ evaluation rollouts ਸਾਂਝੇ ਕੀਤੇ, adversarial fine tuning ਲਈ ਪਹੁੰਚ ਬਾਰੇ ਵੇਰਵੇ ਦਿੱਤੇ, ਅਤੇ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਅਤਿ-ਆਧੁਨਿਕ ਖਤਰਿਆਂ ਲਈ ਕਾਰਜ-ਵਿਧੀ ਅਤੇ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਸੁਧਾਰਣ ਸਬੰਧੀ ਸੰਰਚਿਤ ਸਿਫ਼ਾਰਸ਼ਾਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ। ਮੁਲਾਂਕਣਕਾਰਾਂ ਤੋਂ ਮਿਲੇ ਫੀਡਬੈਕ ਨੇ ਅੰਤਿਮ adversarial fine-tuning ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਕਰਵਾਈਆਂ ਅਤੇ ਕਾਰਜ-ਵਿਧੀਕ ਪੁਸ਼ਟੀ ਦੀ ਕੀਮਤ ਦਿਖਾਈ। ਅਸੀਂ ਦਰਜ ਕੀਤਾ ਕਿ ਕਿਹੜੀਆਂ ਗੱਲਾਂ ਅਸੀਂ ਪੇਪਰ ਅਤੇ gpt-oss ਦੇ ਸਿਸਟਮ ਕਾਰਡ ਵਿੱਚ ਅਪਣਾਈਆਂ, ਅਤੇ ਜਿਨ੍ਹਾਂ ਨੂੰ ਨਹੀਂ ਅਪਣਾਇਆ ਉਨ੍ਹਾਂ ਲਈ ਕਾਰਨ ਵੀ ਦਿੱਤੇ.

ਇੱਥੇ, ਸੁਤੰਤਰ ਮੁਲਾਂਕਣਾਂ ਦੀ ਥਾਂ ਕਾਰਜ-ਵਿਧੀ ਸਮੀਖਿਆ ਠੀਕ ਚੋਣ ਸੀ: ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ ਉੱਤੇ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਪ੍ਰਯੋਗ ਚਲਾਉਣੇ ਸ਼ਾਮਲ ਸਨ, ਜਿਨ੍ਹਾਂ ਲਈ ਅਜਿਹਾ ਢਾਂਚਾ ਅਤੇ ਤਕਨੀਕੀ ਮਾਹਰਤਾ ਚਾਹੀਦੀ ਹੈ ਜੋ ਵੱਡੀਆਂ AI ਲੈਬਾਂ ਤੋਂ ਬਾਹਰ ਆਮ ਤੌਰ ਤੇ ਉਪਲਬਧ ਨਹੀਂ ਹੁੰਦੀ। ਇਸਦਾ ਮਤਲਬ ਸੀ ਕਿ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ ਸੰਭਵਤ: ਸਿੱਧੇ ਤੌਰ ਤੇ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਦ੍ਰਿਸ਼ਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਨਹੀਂ ਦੇ ਸਕਦੇ ਸਨ, ਅਤੇ ਬਾਹਰੀ ਮੁਲਾਂਕਣਕਾਰਾਂ ਦਾ ਧਿਆਨ ਦਾਵਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਉੱਤੇ ਕੇਂਦ੍ਰਿਤ ਕਰਨਾ ਹੋਰ ਉਤਪਾਦਕ ਸੀ। ਬਾਹਰੀ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੇ ਵਿਧੀਆਂ ਅਤੇ ਸਬੂਤਾਂ ਦੀ ਸਮੀਖਿਆ ਕੀਤੀ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਤੇ ਫ਼ੈਸਲਾ-ਸੰਬੰਧੀ ਖਾਮੀਆਂ ਉਜਾਗਰ ਕੀਤੀਆਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਿਫ਼ਾਰਸ਼ੀ ਫੀਡਬੈਕ ਲੂਪ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਦੂਰ ਕੀਤਾ ਗਿਆ। ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਇਸ ਪਹੁੰਚ ਨੂੰ ਹੋਰ ਅਜਿਹੇ ਰਸਤਿਆਂ ਤੱਕ ਵੀ ਵਧਾਇਆ ਜਾਵੇ ਜਿੱਥੇ ਪਹੁੰਚ ਜਾਂ ਢਾਂਚਾਗਤ ਲੋੜਾਂ ਕਾਰਨ ਕਿਸੇ ਤੀਜੀ-ਧਿਰ ਲਈ ਸਿੱਧੇ ਮੁਲਾਂਕਣ ਕਰਨਾ ਅਵਿਵਹਾਰਿਕ ਹੁੰਦਾ ਹੈ, ਜਾਂ ਜਿੱਥੇ ਬਾਹਰੀ ਮੁਲਾਂਕਣ ਅਜੇ ਮੌਜੂਦ ਨਹੀਂ ਹਨ.

ਵਿਸ਼ਾ-ਮਾਹਿਰ (SME) ਪ੍ਰੋਬਿੰਗ

ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਜੁੜਨ ਦਾ ਇਕ ਹੋਰ ਤਰੀਕਾ ਵਿਸ਼ਾ-ਮਾਹਿਰ (SME) ਪ੍ਰੋਬਿੰਗ ਹੈ, ਜਿਸ ਵਿੱਚ ਮਾਹਿਰ ਮਾਡਲ ਦਾ ਸਿੱਧਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ ਅਤੇ ਸਰਵੇਖਣਾਂ ਰਾਹੀਂ ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਸਾਡੇ ਮੁਲਾਂਕਣ ਲਈ ਸੰਰਚਿਤ ਇਨਪੁੱਟ ਦਿੰਦੇ ਹਨ। ਇਹ ਰੈਡ ਟੀਮਿੰਗ⁠ ਤੋਂ ਵੱਖ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਖਾਸ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਕੜੀ ਜਾਂਚ ਕਰਨਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਸਾਨੂੰ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਅੰਤਰਦ੍ਰਿਸ਼ਟੀਆਂ ਨਾਲ ਪੂਰਾ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜੋ ਮਾਹਿਰ ਫ਼ੈਸਲੇ ਅਤੇ ਅਸਲ-ਦੁਨਿਆ ਸੰਦਰਭ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਥਿਰ ਮੁਲਾਂਕਣ ਇਕੱਲੇ ਸ਼ਾਇਦ ਨਾ ਪਕੜ ਸਕਣ। ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਵਿਸ਼ਾ-ਮਾਹਿਰਾਂ ਦੇ ਇਕ ਪੈਨਲ ਨੂੰ ChatGPT Agent ਅਤੇ GPT‑5 ਲਈ ਆਪਣੀਆਂ ਪੂਰੀਆਂ bio ਸਥਿਤੀਆਂ ਅਜ਼ਮਾਉਣ ਵਾਸਤੇ helpful-only ਮਾਡਲ³ ਵਰਤਣ ਲਈ ਸੱਦਾ ਦਿੱਤਾ। ਉਨ੍ਹਾਂ ਨੇ ਇਹ ਅੰਕ ਦਿੱਤੇ ਕਿ ਮਾਡਲ ਆਪਣੇ ਵਰਗੇ ਕਿਸੇ ਮਾਹਿਰ ਨੂੰ ਘੱਟ ਅਨੁਭਵੀ ਨਵਸਿਖੀਏ ਨਾਲ ਤੁਲਨਾ ਵਿੱਚ ਕਿੰਨਾ ਉੱਪਰ ਲੈ ਜਾ ਸਕਦਾ ਹੈ, ਇਹ ਉਸ ਰਹਿਨੁਮਾਈ ਦੀ ਉਪਯੋਗਤਾ ਉੱਤੇ ਆਧਾਰਿਤ ਸੀ ਜੋ ਉਸ ਨੇ ਉਨ੍ਹਾਂ ਦੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਦਿੱਤੀ। ਉਦੇਸ਼ ਇਹ ਸੀ ਕਿ ਇਸ ਬਾਰੇ ਵਾਧੂ ਇਨਪੁੱਟ ਇਕੱਠੀ ਕੀਤੀ ਜਾਵੇ ਕਿ ਸਿਸਟਮ ਇਕ ਉਤਸ਼ਾਹੀ ਨਵਸਿਖੀਏ ਨੂੰ ਯੋਗਤਾਪੂਰਣ ਕਾਰਜ-ਨਿਰਵਹਣ ਦੇ ਕਿੰਨਾ ਨੇੜੇ ਲਿਆ ਸਕਦਾ ਹੈ: SMEs ਨੇ ਸਾਡੇ “novice uplift” ਦਾਵਿਆਂ ਨੂੰ ਉਹਨਾਂ ਹਕੀਕਤੀ workflows ਵਿੱਚ ਕੜੀ ਜਾਂਚ ਅਧੀਨ ਰੱਖਿਆ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਖੁਦ ਬਣਾਏ, ਅਤੇ ਵੱਖ-ਵੱਖ ਪੱਧਰ ਦਾ ਫੀਡਬੈਕ ਦਿੱਤਾ ਕਿ ਮਾਡਲ ਨੇ ਕਿੱਥੇ ਠੋਸ, ਕਦਮ-ਦਰ-ਕਦਮ ਮਦਦ ਦਿੱਤੀ ਅਤੇ ਕਿੱਥੇ ਘੱਟ ਉਪਯੋਗੀ ਸਾਰ ਦਿੱਤੇ। ਇਹ ਮਾਹਿਰ ਪ੍ਰੋਬਿੰਗ ਅਭਿਆਸ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਡਿਪਲੌਇਮੈਂਟ ਲਈ ਕੁੱਲ ਮੁਲਾਂਕਣ ਦਾ ਹਿੱਸਾ ਸੀ, ਅਤੇ ਦੋਹਾਂ ਲਾਂਚਾਂ ਦੇ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਸਾਂਝਾ ਕੀਤਾ ਗਿਆ.

ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਸਹਿਯੋਗ ਨੂੰ ਕਾਮਯਾਬ ਕੀ ਬਣਾਉਂਦਾ ਹੈ?

ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਭਾਵਨਾ ਨਾਲ, ਅਸੀਂ ਇਸ ਬਾਰੇ ਹੋਰ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ ਕਿ ਜਦੋਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰ ਸਾਡੇ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ ਤਾਂ ਉਹ ਕਿਸ ਗੱਲ ਲਈ ਸਹਿਮਤ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਉਹ ਸਿਧਾਂਤ ਜੋ ਸਾਡੇ ਸਹਿਯੋਗਾਂ ਨੂੰ ਦਿਸ਼ਾ ਦਿੰਦੇ ਹਨ:

ਸਾਵਧਾਨ ਗੋਪਨੀਯਤਾ ਸੀਮਾਵਾਂ ਨਾਲ ਪਾਰਦਰਸ਼ਤਾ: ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰ ਗੋਪਨੀਯ, ਗੈਰ-ਜਨਤਕ ਜਾਣਕਾਰੀ ਸਾਂਝੀ ਕਰਨ ਯੋਗ ਬਣਾਉਣ ਲਈ non-disclosure agreements ਉੱਤੇ ਦਸਤਖ਼ਤ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਉਹ ਆਪਣੇ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕਰ ਸਕਣ। ਇਸ ਪੋਸਟ ਦੇ Appendix⁠ ਵਿੱਚ, ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨਾਲ ਕਰਾਰਾਂ ਦੇ ਸਬੰਧਿਤ ਅੰਸ਼ ਸ਼ਾਮਲ ਕੀਤੇ ਹਨ ਜੋ ਪ੍ਰਕਾਸ਼ਨ-ਅਧਿਕਾਰਾਂ ਅਤੇ ਸਮੀਖਿਆ ਸੰਬੰਧੀ ਉਮੀਦਾਂ ਦਾ ਖਾਕਾ ਪੇਸ਼ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਪਾਰਦਰਸ਼ਤਾ ਦੇ ਸਿਧਾਂਤ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਾਂ ਅਤੇ ਅਜਿਹੇ ਪ੍ਰਕਾਸ਼ਨ ਨੂੰ ਯੋਗ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ ਜੋ ਗੋਪਨੀਯ ਜਾਣਕਾਰੀ ਜਾਂ ਬੌਧਿਕ ਸੰਪਤੀ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਸੁਰੱਖਿਆ ਅਤੇ ਸੰਬੰਧਿਤ ਮੁਲਾਂਕਣਾਂ ਦੀ ਸਮਝ ਨੂੰ ਅੱਗੇ ਵਧਾਏ। ਇਸ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਆਉਣ ਵਾਲੇ ਪ੍ਰਕਾਸ਼ਨਾਂ ਦੀ ਸਮੀਖਿਆ ਅਤੇ ਮਨਜ਼ੂਰੀ ਦਿੰਦੇ ਹਾਂ ਤਾਂ ਜੋ ਗੋਪਨੀਯਤਾ ਅਤੇ ਤੱਥਾਤਮਕ ਸ਼ੁੱਧਤਾ ਦੋਹਾਂ ਯਕੀਨੀ ਬਣ ਸਕਣ। ਪਿਛਲੇ ਕੁਝ ਸਾਲਾਂ ਵਿੱਚ, ਕਈ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੇ ਆਪਣੇ ਕੰਮ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਹਨ, ਨਾਲ ਹੀ ਅਸੀਂ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਮੁਲਾਂਕਣ ਸਾਰ ਵੀ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਹਨ। ਅਜਿਹੇ ਕੰਮ ਦੀਆਂ ਕੁਝ ਉਦਾਹਰਣਾਂ, ਜਿਨ੍ਹਾਂ ਦੀ ਅਸੀਂ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਲਈ ਸਮੀਖਿਆ ਕੀਤੀ, ਵਿੱਚ ਇਹ ਸ਼ਾਮਲ ਹਨ: [METR GPT‑5 report ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), OpenAI o1 ਬਾਰੇ Apollo Research report⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), Irregular GPT‑5 Assessment⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)]
ਸੋਚ-ਵਿਚਾਰ ਵਾਲਾ ਜਾਣਕਾਰੀ ਖੁਲਾਸਾ ਅਤੇ ਸੁਰੱਖਿਅਤ, ਸੰਵੇਦਨਸ਼ੀਲ ਪਹੁੰਚ: ਮੂਲ ਤੌਰ ਤੇ, ਅਸੀਂ ਅਜਿਹੀ ਜਾਣਕਾਰੀ ਅਤੇ ਮਾਡਲਾਂ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ ਜੋ ਜਨਤਕ ਜਾਂ ਪ੍ਰੋਡਕਸ਼ਨ-ਤਿਆਰ ਹੋਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹੁੰਦੇ ਹਨ। ਜਦੋਂ ਮੁਲਾਂਕਣਾਂ ਲਈ ਲੋੜ ਹੋਵੇ, ਅਸੀਂ ਹੋਰ ਡੂੰਘੀ ਪਹੁੰਚ ਦਿੰਦੇ ਹਾਂ, ਜਿਵੇਂ helpful-only ਮਾਡਲਾਂ ਜਾਂ ਗੈਰ-ਜਨਤਕ ਜਾਣਕਾਰੀ ਤੱਕ। ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਪ੍ਰਸ਼ਨਾਂ ਲਈ OpenAI ਨੇ ਜਿੱਥੇ ਲੋੜ ਹੋਈ, ਉੱਥੇ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ ਅਜਿਹੀ ਪਹੁੰਚ ਦਿੱਤੀ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਸ ਕਿਸਮ ਦੀ ਸੰਵੇਦਨਸ਼ੀਲ ਪਹੁੰਚ ਲਈ ਕੜੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਟੈਸਟਿੰਗ ਦੀਆਂ ਲੋੜਾਂ ਬਦਲਦੀਆਂ ਹਨ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਨਿਯੰਤਰਣਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਦੇ ਰਹਿੰਦੇ ਹਾਂ.
ਸੰਤੁਲਿਤ ਵਿੱਤੀ ਪ੍ਰੇਰਣਾਵਾਂ: ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਤੰਤਰ ਲਈ ਵਧੀਆ ਫੰਡਿੰਗ ਹੋਵੇ ਅਤੇ ਉਹ ਟਿਕਾਊ ਰਹੇ। ਇਸ ਕਰਕੇ, ਅਸੀਂ ਆਪਣੇ ਸਭ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ ਮੁਆਵਜ਼ਾ ਦਿੰਦੇ ਹਾਂ, ਹਾਲਾਂਕਿ ਕੁਝ ਇਸ ਬਾਰੇ ਆਪਣੀ ਸੰਸਥਾਤਮਕ ਸੋਚ ਦੇ ਆਧਾਰ ਤੇ ਇਸ ਨੂੰ ਠੁਕਰਾ ਦੇਂਦੇ ਹਨ। ਮੁਆਵਜ਼ੇ ਦੇ ਰੂਪਾਂ ਵਿੱਚ ਸਿੱਧਾ ਭੁਗਤਾਨ ਅਤੇ/ਜਾਂ API credits ਰਾਹੀਂ ਜਾਂ ਹੋਰ ਤਰੀਕਿਆਂ ਨਾਲ ਮਾਡਲ ਵਰਤੋਂ ਦੀ ਲਾਗਤ ਨੂੰ ਸਬਸਿਡੀ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ। ਕਿਸੇ ਵੀ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਦੇ ਨਤੀਜਿਆਂ ਉੱਤੇ ਭੁਗਤਾਨ ਕਦੇ ਵੀ ਨਿਰਭਰ ਨਹੀਂ ਹੁੰਦਾ.

ਇਕੱਠੇ ਮਿਲ ਕੇ, ਇਹ ਤੱਤ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਦੀ ਰੱਖਿਆ ਕਰਨ ਦੇ ਨਾਲ AI ਸੁਰੱਖਿਆ ਵਿੱਚ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਵੀ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ, ਅਤੇ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਲਈ ਆਪਣੇ ਸਮੇਂ ਦਾ ਮੁਆਵਜ਼ਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਰਸਤੇ ਬਣਾਉਂਦੇ ਹਨ.

ਅੱਗੇ ਵੱਲ ਦੇਖਦੇ ਹੋਏ

ਅੱਗੇ ਵੱਲ ਦੇਖਦੇ ਹੋਏ, ਅਸੀਂ ਅਜਿਹੀਆਂ ਸੰਸਥਾਵਾਂ ਦੇ ਤੰਤਰ ਨੂੰ ਲਗਾਤਾਰ ਮਜ਼ਬੂਤ ਕਰਨ ਦੀ ਲੋੜ ਵੇਖਦੇ ਹਾਂ ਜੋ ਅਤਿ-ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਦੇ ਭਰੋਸੇਯੋਗ, ਫ਼ੈਸਲਾ-ਸੰਬੰਧੀ ਮੁਲਾਂਕਣ ਕਰ ਸਕਣ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਲਈ ਖ਼ਾਸ ਮਾਹਰਤਾ, ਸਥਿਰ ਫੰਡਿੰਗ ਅਤੇ ਕਾਰਜ-ਵਿਧੀਕ ਕੜਾਈ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਯੋਗ ਮੁਲਾਂਕਣਕਾਰੀ ਸੰਸਥਾਵਾਂ ਵਿੱਚ ਨਿਰੰਤਰ ਨਿਵੇਸ਼, ਮਾਪ-ਵਿਗਿਆਨ ਦੀ ਤਰੱਕੀ, ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਪਹੁੰਚ ਲਈ ਸੁਰੱਖਿਆ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਅਤਿਅਵਸ਼ਕ ਹੋਣਗੇ ਕਿ ਮੁਲਾਂਕਣ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਹੋ ਰਹੀ ਤਰੱਕੀ ਦੇ ਨਾਲ ਕਦਮ ਮਿਲਾ ਸਕਣ.

ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਵਿੱਚੋਂ ਇਕ ਹਨ ਜਿਨ੍ਹਾਂ ਰਾਹੀਂ ਅਸੀਂ ਆਪਣੇ ਸੁਰੱਖਿਆ ਕੰਮ ਵਿੱਚ ਬਾਹਰੀ ਨਜ਼ਰੀਆ ਲਿਆਉਂਦੇ ਹਾਂ, ਅਤੇ ਇਹ ਹੋਰ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਸੰਰਚਿਤ ਰੈਡ ਟੀਮਿੰਗ ਯਤਨਾਂ, collective alignment projects⁠, U.S. CAISI and UK AISI⁠ ਨਾਲ ਕੰਮ, ਅਤੇ ਸਾਡੇ Global Physician Network⁠ ਅਤੇ ਸਾਡੇ Expert Council on Well-Being and AI⁠ ਵਰਗੇ ਸਲਾਹਕਾਰ ਸਮੂਹਾਂ ਰਾਹੀਂ ਵੀ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਸਹਿਯੋਗ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਜੋ ਮਾਨਸਿਕ ਸਿਹਤ ਅਤੇ ਯੂਜ਼ਰ ਸੁਖ-ਸਮ੍ਰਿੱਧੀ ਬਾਰੇ ਸਾਡੇ ਕੰਮ ਨੂੰ ਦਿਸ਼ਾ ਮਿਲ ਸਕੇ। ਇਹ ਯਤਨ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੀ ਮਾਹਰਤਾ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਅਤੇ ਉੱਚ-ਪੱਧਰੀ AI ਸਿਸਟਮਾਂ ਦੇ ਮੁਲਾਂਕਣ ਅਤੇ ਸ਼ਾਸਨ ਲਈ ਹੋਰ ਵਿਆਪਕ ਅਤੇ ਭਰੋਸੇਯੋਗ ਨੀਂਹ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ.

ਐਪੈਂਡਿਕਸ

ਹੇਠਾਂ ਉਹ ਨਮੂਨਾ ਅੰਸ਼ ਦਿੱਤੇ ਗਏ ਹਨ ਜੋ ਪ੍ਰੀ-ਡਿਪਲੌਇਮੈਂਟ ਮੁਲਾਂਕਣਾਂ ਉੱਤੇ ਸਾਡੇ ਨਾਲ ਸਹਿਯੋਗ ਕਰਨ ਵਾਲੀਆਂ ਤੀਜੀ-ਧਿਰਾਂ ਨਾਲ ਸਾਡੇ ਸਮਝੌਤਿਆਂ ਵਿੱਚੋਂ ਲਏ ਗਏ ਹਨ.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

ਲੇਖਕ

OpenAI

ਫੁਟਨੋਟਸ

1
ਇਹ ਰੈਡ ਟੀਮਿੰਗ ਤੋਂ ਵੱਖ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਸੁਖਮ ਪੱਧਰ ਤੇ ਕੜੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਮੁਲਾਂਕਣ ਵਿਕਾਸ ਲਈ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੁੰਦਾ ਹੈ।
2
ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਜਾਣ-ਬੁੱਝ ਕੇ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਾਂ ਆਪਣੀਆਂ ਅਸਲ ਸਮਰੱਥਾਵਾਂ ਲੁਕਾਂਦਾ ਹੈ, ਜਦੋਂ ਉਸ ਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਉਸਦਾ ਮੁਲਾਂਕਣ ਜਾਂ ਟੈਸਟ ਹੋ ਰਿਹਾ ਹੈ।
3
Helpful-only ਮਾਡਲ ਹਰ ਬੇਨਤੀ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਭਾਵੇਂ ਬੇਨਤੀ ਹਾਨੀਕਾਰਕ ਹੀ ਕਿਉਂ ਨਾ ਹੋਵੇ। ਇਹ ਅਜਿਹੀਆਂ post-training ਵਿਧੀਆਂ ਨਾਲ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਜੋ ਇਸ ਵਿਵਹਾਰ ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦੀਆਂ ਹਨ।

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

Safety and alignment in an era of long-horizon models

ਸੁਰੱਖਿਆ20 ਜੁਲਾ 2026

Why teens deserve access to safe AI

ਸੁਰੱਖਿਆ16 ਜੁਲਾ 2026

GPT-Red: ਮਜ਼ਬੂਤੀ ਲਈ ਸਵੈ-ਸੁਧਾਰ ਦੇ ਰਾਹ ਖੋਲ੍ਹਣਾ

ਸੁਰੱਖਿਆ15 ਜੁਲਾ 2026