ਬਾਹਰੀ ਟੈਸਟਿੰਗ ਨਾਲ ਸਾਡੇ ਸੁਰੱਖਿਆ ਤੰਤਰ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ
ਅਤਿ-ਆਧੁਨਿਕ AI ਲਈ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਬਾਰੇ ਸਾਡਾ ਦ੍ਰਿਸ਼ਟੀਕੋਣ.
OpenAI ਵਿੱਚ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਸੁਤੰਤਰ, ਭਰੋਸੇਯੋਗ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਅਤਿ-ਆਧੁਨਿਕ AI ਦੇ ਸੁਰੱਖਿਆ ਤੰਤਰ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਵਿੱਚ ਨਿਰਣਾਇਕ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ ਹਨ। ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਉੱਤੇ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਅਜੇਹੇ ਮੁਲਾਂਕਣ ਹਨ ਜੋ ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਜੋਖਮ-ਘਟਾਊ ਉਪਾਵਾਂ ਬਾਰੇ ਦਾਵਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਕਰਦੇ ਹਨ ਜਾਂ ਉਨ੍ਹਾਂ ਲਈ ਵਾਧੂ ਸਬੂਤ ਦਿੰਦੇ ਹਨ। ਇਹ ਮੁਲਾਂਕਣ ਸੁਰੱਖਿਆ ਸੰਬੰਧੀ ਦਾਵਿਆਂ ਦੀ ਤਸਦੀਕ ਕਰਨ, ਅਣਦਿੱਖੇ ਖਾਲੀਆਂ ਤੋਂ ਬਚਾਅ ਕਰਨ, ਅਤੇ ਸਮਰੱਥਾਵਾਂ ਤੇ ਖਤਰਿਆਂ ਬਾਰੇ ਪਾਰਦਰਸ਼ਤਾ ਵਧਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ। ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨੂੰ ਸਾਡੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਲਈ ਸੱਦਾ ਦੇ ਕੇ, ਅਸੀਂ ਆਪਣੀਆਂ ਸਮਰੱਥਾ-ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਗਹਿਰਾਈ ਉੱਤੇ ਭਰੋਸਾ ਬਣਾਉਣ ਅਤੇ ਵਿਆਪਕ ਸੁਰੱਖਿਆ ਤੰਤਰ ਨੂੰ ਉੱਚਾ ਚੁੱਕਣ ਦਾ ਵੀ ਲਕਸ਼ ਰੱਖਦੇ ਹਾਂ.
GPT‑4 ਦੇ ਲਾਂਚ ਤੋਂ ਬਾਅਦ, OpenAI ਨੇ ਸਾਡੇ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਅਤੇ ਮੁਲਾਂਕਣ ਲਈ ਕਈ ਬਾਹਰੀ ਭਾਗੀਦਾਰਾਂ ਨਾਲ ਸਹਿਯੋਗ ਕੀਤਾ ਹੈ। ਵਿਆਪਕ ਤੌਰ ਤੇ, ਸਾਡੇ ਤੀਜੀ-ਧਿਰ ਸਹਿਯੋਗ ਤਿੰਨ ਰੂਪ ਲੈਂਦੇ ਹਨ:
- ਬਾਇਓਸੁਰੱਖਿਆ, ਸਾਈਬਰਸੁਰੱਖਿਆ, AI ਸਵੈ-ਸੁਧਾਰ ਅਤੇ ਚਾਲਾਕੀ ਵਰਗੇ ਮੁੱਖ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਅਤੇ ਖਤਰਾ ਖੇਤਰਾਂ ਦੇ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ
- ਅਜੇਹੀਆਂ ਕਾਰਜ-ਵਿਧੀ ਸਮੀਖਿਆਵਾਂ ਜੋ ਇਹ ਜਾਂਚਦੀਆਂ ਹਨ ਕਿ ਅਸੀਂ ਖਤਰੇ ਦਾ ਮੁਲਾਂਕਣ ਅਤੇ ਅਰਥਘਟਨ ਕਿਵੇਂ ਕਰਦੇ ਹਾਂ
- ਵਿਸ਼ਾ-ਮਾਹਿਰ (SME) ਪ੍ਰੋਬਿੰਗ, ਜਿਸ ਵਿੱਚ ਮਾਹਿਰ ਅਸਲ ਦੁਨਿਆ ਦੇ SME ਕੰਮਾਂ ਉੱਤੇ ਮਾਡਲ ਦਾ ਸਿੱਧਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ ਅਤੇ ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੰਬੰਧਿਤ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਬਾਰੇ ਸਾਡੇ ਮੁਲਾਂਕਣ ਲਈ ਸੰਰਚਿਤ ਇਨਪੁੱਟ ਦਿੰਦੇ ਹਨ1
ਇਹ ਬਲੌਗ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਅਸੀਂ ਬਾਹਰੀ ਮੁਲਾਂਕਣ ਦੇ ਇਨ੍ਹਾਂ ਹਰ ਰੂਪਾਂ ਨੂੰ ਕਿਵੇਂ ਵਰਤਦੇ ਹਾਂ, ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹਨ, ਇਨ੍ਹਾਂ ਨੇ ਡਿਪਲੌਇਮੈਂਟ ਦੇ ਫ਼ੈਸਲਿਆਂ ਨੂੰ ਕਿਵੇਂ ਆਕਾਰ ਦਿੱਤਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਇਨ੍ਹਾਂ ਸਹਿਯੋਗਾਂ ਦੀ ਸੰਰਚਨਾ ਲਈ ਕਿਹੜੇ ਸਿਧਾਂਤ ਵਰਤਦੇ ਹਾਂ। ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਭਾਵਨਾ ਨਾਲ, ਅਸੀਂ ਉਹ ਗੋਪਨੀਯਤਾ ਅਤੇ ਪ੍ਰਕਾਸ਼ਨ ਸ਼ਰਤਾਂ ਬਾਰੇ ਵੀ ਹੋਰ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਤੀਜੀ-ਧਿਰ ਟੈਸਟਰਾਂ ਨਾਲ ਸਾਡੇ ਸਹਿਯੋਗ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਦੀਆਂ ਹਨ.
ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰ ਸਾਡੇ ਅੰਦਰੂਨੀ ਕੰਮ ਦੇ ਨਾਲ ਇਕ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ-ਪਰਤ ਜੋੜਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਕੜਾਈ ਮਜ਼ਬੂਤ ਹੁੰਦੀ ਹੈ ਅਤੇ ਆਪਣੇ-ਆਪ ਦੀ ਪੁਸ਼ਟੀ ਵਾਲੇ ਪੱਖਪਾਤ ਤੋਂ ਵਾਧੂ ਸੁਰੱਖਿਆ ਮਿਲਦੀ ਹੈ। ਉਨ੍ਹਾਂ ਦੀ ਇਨਪੁੱਟ ਸਾਡੇ ਆਪਣੇ ਮੁਲਾਂਕਣਾਂ ਦੇ ਨਾਲ ਵਾਧੂ ਸਬੂਤ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਸ਼ਕਤੀਸ਼ਾਲੀ ਸਿਸਟਮਾਂ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਡਿਪਲੌਇਮੈਂਟ ਫ਼ੈਸਲੇ ਲੈਣ ਵਿੱਚ ਮਦਦ ਮਿਲਦੀ ਹੈ.
ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਤੰਤਰ ਬਣਾਉਣ ਦਾ ਹਿੱਸਾ ਵੀ ਮੰਨਦੇ ਹਾਂ। ਸਾਡੀਆਂ ਟੀਮਾਂ ਸਮਰੱਥਾ ਅਤੇ ਖਤਰਾ ਖੇਤਰਾਂ ਵਿੱਚ ਵਿਸ਼ਾਲ ਅੰਦਰੂਨੀ ਟੈਸਟਿੰਗ ਕਰਦੀਆਂ ਹਨ, ਪਰ ਸੁਤੰਤਰ ਸੰਸਥਾਵਾਂ ਵਾਧੂ ਨਜ਼ਰੀਏ ਅਤੇ ਕਾਰਜ-ਵਿਧੀਕ ਪਹੁੰਚਾਂ ਲਿਆਉਂਦੀਆਂ ਹਨ। ਅਸੀਂ ਅਜਿਹੀਆਂ ਯੋਗ ਮੁਲਾਂਕਣਕਾਰੀ ਸੰਸਥਾਵਾਂ ਦੇ ਵਿਭਿੰਨ ਸਮੂਹ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਕੰਮ ਕਰਦੇ ਹਾਂ ਜੋ ਸਾਡੇ ਨਾਲ-ਨਾਲ ਨਿਯਮਿਤ ਤੌਰ ਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰ ਸਕਣ.
ਅਖੀਰ ਵਿੱਚ, ਅਸੀਂ ਇਸ ਬਾਰੇ ਪਾਰਦਰਸ਼ੀ ਹੋਣਾ ਚਾਹੁੰਦੇ ਹਾਂ ਕਿ ਇਹ ਇਨਪੁੱਟ ਸਾਡੀ ਸੁਰੱਖਿਆ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਕਿਵੇਂ ਆਕਾਰ ਦਿੰਦੀ ਹੈ। ਅਸੀਂ ਨਿਯਮਿਤ ਤੌਰ ਤੇ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਜਨਤਕ ਕਰਦੇ ਹਾਂ—ਉਦਾਹਰਨ ਵਜੋਂ, ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਡਿਪਲੌਇਮੈਂਟ-ਪੂਰਵ ਮੁਲਾਂਕਣਾਂ ਦੇ ਸਾਰ ਸ਼ਾਮਲ ਕਰਕੇ, ਅਤੇ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਸਮੀਖਿਆ ਤੋਂ ਬਾਅਦ ਮੁਲਾਂਕਣਕਾਰੀ ਸੰਸਥਾਵਾਂ ਨੂੰ ਹੋਰ ਵਿਸਥਾਰਪੂਰਣ ਕੰਮ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨ ਵਿੱਚ ਸਹਾਇਤਾ ਦੇ ਕੇ। ਇਹ ਪਾਰਦਰਸ਼ਤਾ ਇਹ ਦਿਖਾ ਕੇ ਭਰੋਸਾ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਬਾਹਰੀ ਇਨਪੁੱਟ ਸਾਡੀਆਂ ਸਮਰੱਥਾ-ਮੁਲਾਂਕਣਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਨੂੰ ਕਿਵੇਂ ਆਕਾਰ ਦਿੰਦੀ ਹੈ.
ਭਰੋਸੇਯੋਗ ਪਹੁੰਚ, ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਗਿਆਨ-ਸਾਂਝੇਦਾਰੀ ਉੱਤੇ ਬਣੇ ਟਿਕਾਊ ਸੰਬੰਧ ਸਾਰੇ ਤੰਤਰ ਨੂੰ ਉਭਰਦੇ ਖਤਰਿਆਂ ਤੋਂ ਅੱਗੇ ਰਹਿਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ ਅਤੇ ਅਤਿ-ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਲਈ ਹੋਰ ਮਜ਼ਬੂਤ ਮਾਪਦੰਡਾਂ ਅਤੇ ਹੋਰ ਜਾਣਕਾਰੀ-ਆਧਾਰਿਤ ਸ਼ਾਸਨ ਲਈ ਲੋੜੀਂਦੇ ਅਨੁਕੂਲ ਅਤੇ ਕਾਰਗਰ ਮੁਲਾਂਕਣ ਪੈਦਾ ਕਰਦੇ ਹਨ.
GPT‑4(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੇ ਲਾਂਚ ਨਾਲ ਸ਼ੁਰੂ ਕਰਦੇ ਹੋਏ, ਅਸੀਂ ਡਿਪਲੌਇਮੈਂਟ ਤੋਂ ਪਹਿਲਾਂ ਸ਼ੁਰੂਆਤੀ ਮਾਡਲ ਚੈਕਪੌਇੰਟਾਂ ਉੱਤੇ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕੀਤਾ ਹੈ। ਉਸ ਸਮੇਂ ਤੋਂ, ਅਸੀਂ ਕਈ ਤੀਜੀ-ਧਿਰ ਸੰਸਥਾਵਾਂ ਨਾਲ ਆਪਣਾ ਕੰਮ ਵਧਾਇਆ ਹੈ, ਜਿਨ੍ਹਾਂ ਕੋਲ ਮੁੱਖ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਅਤੇ ਖਤਰਾ ਖੇਤਰਾਂ ਲਈ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਡੂੰਘੀ ਮਾਹਰਤਾ ਹੈ। ਅਸੀਂ ਸੁਤੰਤਰ ਲੈਬ ਕੰਮ ਨੂੰ ਖੁੱਲ੍ਹੇ ਅੰਤ ਵਾਲੀ ਟੈਸਟਿੰਗ ਵਜੋਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਬਾਹਰੀ ਟੀਮਾਂ ਕਿਸੇ ਖਾਸ ਅਤਿ-ਆਧੁਨਿਕ ਸਮਰੱਥਾ ਨਾਲ ਸੰਬੰਧਿਤ ਦਾਅਵਾ ਜਾਂ ਮੁਲਾਂਕਣ ਤਿਆਰ ਕਰਨ ਲਈ ਆਪਣੀਆਂ ਵਿਧੀਆਂ ਲਾਗੂ ਕਰਦੀਆਂ ਹਨ.
ਉਦਾਹਰਨ ਵਜੋਂ, GPT‑5 ਲਈ OpenAI ਨੇ ਲੰਬੇ-ਅਵਧੀ ਸਵੈਣਤ੍ਰਤਾ, ਚਾਲਾਕੀ, ਧੋਖਾਧੜੀ ਅਤੇ ਨਿਗਰਾਨੀ-ਉਲੰਘਣ, ਵੈਟ ਲੈਬ ਯੋਜਨਾ ਸੰਭਾਵਨਾ, ਅਤੇ ਆਕਰਮਕ ਸਾਈਬਰਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣ ਵਰਗੇ ਮੁੱਖ ਜੋਖਮ ਖੇਤਰਾਂ ਵਿੱਚ ਬਾਹਰੀ ਸਮਰੱਥਾ-ਮੁਲਾਂਕਣਾਂ ਦਾ ਵਿਸ਼ਾਲ ਸੈੱਟ ਸਮਨਵਿਤ ਕੀਤਾ.
ਇਹ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ OpenAI ਦੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਦੇ ਅਨੁਸਾਰ ਕੀਤੇ ਗਏ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਨ੍ਹਾਂ ਵਿੱਚ METR ਦੀ ਟਾਈਮ ਹੋਰਾਈਜ਼ਨ ਮੁਲਾਂਕਣ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਜਾਂ SecureBio ਦੀ Virology Capabilities Test (VCT)(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਮੁਲਾਂਕਣ ਵਰਗੇ ਬੈਂਚਮਾਰਕ ਸ਼ਾਮਲ ਹਨ.
ਇਨ੍ਹਾਂ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ, ਅਸੀਂ ਸ਼ੁਰੂਆਤੀ ਮਾਡਲ ਚੈਕਪੌਇੰਟਾਂ ਲਈ ਸੁਰੱਖਿਅਤ ਪਹੁੰਚ, ਉਹ ਚੁਣਿੰਦੇ ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਜੋ ਅਸੀਂ ਦੇਖ ਰਹੇ ਸਮਰੱਥਾ-ਸੁਧਾਰਾਂ ਨੂੰ ਠੋਸ ਬਣਾਉਂਦੇ ਹਨ, ਜਿੱਥੇ ਲੋੜ ਹੋਵੇ ਉੱਥੇ zero-data retention, ਅਤੇ ਘੱਟ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਵਾਲੇ ਮਾਡਲ ਪ੍ਰਦਾਨ ਕੀਤੇ। ਉਦਾਹਰਨ ਲਈ, ਸਾਈਬਰਸੁਰੱਖਿਆ ਅਤੇ ਬਾਇਓਸੇਫਟੀ ਖੇਤਰਾਂ ਵਿੱਚ ਜਾਂਚ ਕਰਨ ਵਾਲੀਆਂ ਸੰਸਥਾਵਾਂ ਨੇ ਅੰਦਰੂਨੀ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਲਈ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਨਾਲ ਅਤੇ ਬਿਨਾਂ ਦੋਹਾਂ ਤਰ੍ਹਾਂ ਦੇ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਕਈ ਹੋਰ ਸੰਸਥਾਵਾਂ ਨੂੰ ਸਿੱਧੀ ਚੇਨ-ਆਫ-ਥੌਟ ਪਹੁੰਚ ਦਿੱਤੀ ਗਈ ਤਾਂ ਜੋ ਉਹ ਮਾਡਲ ਦੇ ਰੀਜ਼ਨਿੰਗ ਟ੍ਰੇਸ ਦੀ ਜਾਂਚ ਕਰ ਸਕਣ। ਪਾਰਦਰਸ਼ਤਾ ਵਧਾਉਣ ਵਾਲੇ ਇਸ ਕਦਮ ਨੇ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ sandbagging2 ਜਾਂ ਚਾਲਾਕੀ ਵਾਲੇ ਵਿਵਹਾਰ ਦੇ ਉਹ ਕੇਸ ਪਛਾਣਣ ਦੀ ਆਗਿਆ ਦਿੱਤੀ ਜੋ ਸ਼ਾਇਦ ਸਿਰਫ਼ ਚੇਨ-ਆਫ-ਥੌਟ ਪੜ੍ਹ ਕੇ ਹੀ ਸਮਝ ਆ ਸਕਦੇ ਸਨ। ਪਹੁੰਚ ਸੁਰੱਖਿਆ ਨਿਯੰਤਰਣਾਂ ਦੇ ਨਾਲ ਦਿੱਤੀ ਗਈ ਸੀ, ਅਤੇ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਟੈਸਟਿੰਗ ਦੀਆਂ ਲੋੜਾਂ ਵਿਕਸਿਤ ਹੁੰਦੀਆਂ ਹਨ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਨਿਯੰਤਰਣਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਦੇ ਰਹਿੰਦੇ ਹਾਂ.
ਕੁਝ ਸੰਦਰਭਾਂ ਵਿੱਚ, ਬਾਹਰੀ ਮੁਲਾਂਕਣਕਾਰ ਕਾਰਜ-ਵਿਧੀਕ ਸਮੀਖਿਆ ਦੇਣ ਲਈ ਸੁਚੱਜੀ ਸਥਿਤੀ ਵਿੱਚ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਉਹ ਫ੍ਰੇਮਵਰਕਾਂ ਅਤੇ ਸਬੂਤਾਂ ਲਈ ਵਾਧੂ ਨਜ਼ਰੀਏ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜਿਨ੍ਹਾਂ ਉੱਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਲੈਬਾਂ ਖਤਰੇ ਦੇ ਮੁਲਾਂਕਣ ਲਈ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ। ਉਦਾਹਰਨ ਲਈ, gpt-oss ਦੇ ਲਾਂਚ ਦੌਰਾਨ, ਅਸੀਂ ਓਪਨ ਵਜ਼ਨ ਮਾਡਲਜ਼ ਲਈ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਸਮਰੱਥਾਵਾਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਵਾਸਤੇ adversarial fine-tuning ਵਰਤੀ, ਜਿਸ ਦਾ ਵਰਣਨ Estimating worst case frontier risks of open weight LLMs ਵਿੱਚ ਹੈ। ਮੁੱਖ ਸੁਰੱਖਿਆ ਪ੍ਰਸ਼ਨ ਇਹ ਸੀ ਕਿ ਕੀ ਕੋਈ ਦੁਸ਼ਟ ਅਦਾਕਾਰ ਸਾਡੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਅਧੀਨ bio ਜਾਂ cyber ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ ਉੱਚ ਸਮਰੱਥਾ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਮਾਡਲ ਨੂੰ fine-tune ਕਰ ਸਕਦਾ ਹੈ। ਕਿਉਂਕਿ ਇਸ ਲਈ ਸਰੋਤ-ਘਣ adversarial fine-tuning ਦੀ ਲੋੜ ਸੀ, ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ ਸਮਾਨ ਕੰਮ ਦੁਹਰਾਉਣ ਦੀ ਬਜਾਏ ਸਾਡੀਆਂ ਅੰਦਰੂਨੀ ਵਿਧੀਆਂ ਅਤੇ ਨਤੀਜਿਆਂ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਅਤੇ ਸਿਫ਼ਾਰਸ਼ਾਂ ਦੇਣ ਲਈ ਸੱਦਾ ਦਿੱਤਾ.
ਇਸ ਵਿੱਚ ਕਈ ਹਫ਼ਤਿਆਂ ਦੀ ਪ੍ਰਕਿਰਿਆ ਸ਼ਾਮਲ ਸੀ ਜਿਸ ਦੌਰਾਨ ਅਸੀਂ evaluation rollouts ਸਾਂਝੇ ਕੀਤੇ, adversarial fine tuning ਲਈ ਪਹੁੰਚ ਬਾਰੇ ਵੇਰਵੇ ਦਿੱਤੇ, ਅਤੇ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਅਤਿ-ਆਧੁਨਿਕ ਖਤਰਿਆਂ ਲਈ ਕਾਰਜ-ਵਿਧੀ ਅਤੇ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਸੁਧਾਰਣ ਸਬੰਧੀ ਸੰਰਚਿਤ ਸਿਫ਼ਾਰਸ਼ਾਂ ਇਕੱਠੀਆਂ ਕੀਤੀਆਂ। ਮੁਲਾਂਕਣਕਾਰਾਂ ਤੋਂ ਮਿਲੇ ਫੀਡਬੈਕ ਨੇ ਅੰਤਿਮ adversarial fine-tuning ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਤਬਦੀਲੀਆਂ ਕਰਵਾਈਆਂ ਅਤੇ ਕਾਰਜ-ਵਿਧੀਕ ਪੁਸ਼ਟੀ ਦੀ ਕੀਮਤ ਦਿਖਾਈ। ਅਸੀਂ ਦਰਜ ਕੀਤਾ ਕਿ ਕਿਹੜੀਆਂ ਗੱਲਾਂ ਅਸੀਂ ਪੇਪਰ ਅਤੇ gpt-oss ਦੇ ਸਿਸਟਮ ਕਾਰਡ ਵਿੱਚ ਅਪਣਾਈਆਂ, ਅਤੇ ਜਿਨ੍ਹਾਂ ਨੂੰ ਨਹੀਂ ਅਪਣਾਇਆ ਉਨ੍ਹਾਂ ਲਈ ਕਾਰਨ ਵੀ ਦਿੱਤੇ.
ਇੱਥੇ, ਸੁਤੰਤਰ ਮੁਲਾਂਕਣਾਂ ਦੀ ਥਾਂ ਕਾਰਜ-ਵਿਧੀ ਸਮੀਖਿਆ ਠੀਕ ਚੋਣ ਸੀ: ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਵੱਡੇ ਪੱਧਰ ਉੱਤੇ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਪ੍ਰਯੋਗ ਚਲਾਉਣੇ ਸ਼ਾਮਲ ਸਨ, ਜਿਨ੍ਹਾਂ ਲਈ ਅਜਿਹਾ ਢਾਂਚਾ ਅਤੇ ਤਕਨੀਕੀ ਮਾਹਰਤਾ ਚਾਹੀਦੀ ਹੈ ਜੋ ਵੱਡੀਆਂ AI ਲੈਬਾਂ ਤੋਂ ਬਾਹਰ ਆਮ ਤੌਰ ਤੇ ਉਪਲਬਧ ਨਹੀਂ ਹੁੰਦੀ। ਇਸਦਾ ਮਤਲਬ ਸੀ ਕਿ ਸੁਤੰਤਰ ਮੁਲਾਂਕਣ ਸੰਭਵਤ: ਸਿੱਧੇ ਤੌਰ ਤੇ ਸਭ ਤੋਂ ਬੁਰੇ-ਹਾਲਾਤੀ ਦ੍ਰਿਸ਼ਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਨਹੀਂ ਦੇ ਸਕਦੇ ਸਨ, ਅਤੇ ਬਾਹਰੀ ਮੁਲਾਂਕਣਕਾਰਾਂ ਦਾ ਧਿਆਨ ਦਾਵਿਆਂ ਦੀ ਪੁਸ਼ਟੀ ਉੱਤੇ ਕੇਂਦ੍ਰਿਤ ਕਰਨਾ ਹੋਰ ਉਤਪਾਦਕ ਸੀ। ਬਾਹਰੀ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੇ ਵਿਧੀਆਂ ਅਤੇ ਸਬੂਤਾਂ ਦੀ ਸਮੀਖਿਆ ਕੀਤੀ(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), ਅਤੇ ਫ਼ੈਸਲਾ-ਸੰਬੰਧੀ ਖਾਮੀਆਂ ਉਜਾਗਰ ਕੀਤੀਆਂ ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਿਫ਼ਾਰਸ਼ੀ ਫੀਡਬੈਕ ਲੂਪ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਦੂਰ ਕੀਤਾ ਗਿਆ। ਅਸੀਂ ਆਸ ਕਰਦੇ ਹਾਂ ਕਿ ਇਸ ਪਹੁੰਚ ਨੂੰ ਹੋਰ ਅਜਿਹੇ ਰਸਤਿਆਂ ਤੱਕ ਵੀ ਵਧਾਇਆ ਜਾਵੇ ਜਿੱਥੇ ਪਹੁੰਚ ਜਾਂ ਢਾਂਚਾਗਤ ਲੋੜਾਂ ਕਾਰਨ ਕਿਸੇ ਤੀਜੀ-ਧਿਰ ਲਈ ਸਿੱਧੇ ਮੁਲਾਂਕਣ ਕਰਨਾ ਅਵਿਵਹਾਰਿਕ ਹੁੰਦਾ ਹੈ, ਜਾਂ ਜਿੱਥੇ ਬਾਹਰੀ ਮੁਲਾਂਕਣ ਅਜੇ ਮੌਜੂਦ ਨਹੀਂ ਹਨ.
ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਜੁੜਨ ਦਾ ਇਕ ਹੋਰ ਤਰੀਕਾ ਵਿਸ਼ਾ-ਮਾਹਿਰ (SME) ਪ੍ਰੋਬਿੰਗ ਹੈ, ਜਿਸ ਵਿੱਚ ਮਾਹਿਰ ਮਾਡਲ ਦਾ ਸਿੱਧਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ ਅਤੇ ਸਰਵੇਖਣਾਂ ਰਾਹੀਂ ਇਸ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਸਾਡੇ ਮੁਲਾਂਕਣ ਲਈ ਸੰਰਚਿਤ ਇਨਪੁੱਟ ਦਿੰਦੇ ਹਨ। ਇਹ ਰੈਡ ਟੀਮਿੰਗ ਤੋਂ ਵੱਖ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਖਾਸ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਕੜੀ ਜਾਂਚ ਕਰਨਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਸਾਨੂੰ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ ਅੰਤਰਦ੍ਰਿਸ਼ਟੀਆਂ ਨਾਲ ਪੂਰਾ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜੋ ਮਾਹਿਰ ਫ਼ੈਸਲੇ ਅਤੇ ਅਸਲ-ਦੁਨਿਆ ਸੰਦਰਭ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਸਥਿਰ ਮੁਲਾਂਕਣ ਇਕੱਲੇ ਸ਼ਾਇਦ ਨਾ ਪਕੜ ਸਕਣ। ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ ਵਿਸ਼ਾ-ਮਾਹਿਰਾਂ ਦੇ ਇਕ ਪੈਨਲ ਨੂੰ ChatGPT Agent ਅਤੇ GPT‑5 ਲਈ ਆਪਣੀਆਂ ਪੂਰੀਆਂ bio ਸਥਿਤੀਆਂ ਅਜ਼ਮਾਉਣ ਵਾਸਤੇ helpful-only ਮਾਡਲ3 ਵਰਤਣ ਲਈ ਸੱਦਾ ਦਿੱਤਾ। ਉਨ੍ਹਾਂ ਨੇ ਇਹ ਅੰਕ ਦਿੱਤੇ ਕਿ ਮਾਡਲ ਆਪਣੇ ਵਰਗੇ ਕਿਸੇ ਮਾਹਿਰ ਨੂੰ ਘੱਟ ਅਨੁਭਵੀ ਨਵਸਿਖੀਏ ਨਾਲ ਤੁਲਨਾ ਵਿੱਚ ਕਿੰਨਾ ਉੱਪਰ ਲੈ ਜਾ ਸਕਦਾ ਹੈ, ਇਹ ਉਸ ਰਹਿਨੁਮਾਈ ਦੀ ਉਪਯੋਗਤਾ ਉੱਤੇ ਆਧਾਰਿਤ ਸੀ ਜੋ ਉਸ ਨੇ ਉਨ੍ਹਾਂ ਦੀਆਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਦਿੱਤੀ। ਉਦੇਸ਼ ਇਹ ਸੀ ਕਿ ਇਸ ਬਾਰੇ ਵਾਧੂ ਇਨਪੁੱਟ ਇਕੱਠੀ ਕੀਤੀ ਜਾਵੇ ਕਿ ਸਿਸਟਮ ਇਕ ਉਤਸ਼ਾਹੀ ਨਵਸਿਖੀਏ ਨੂੰ ਯੋਗਤਾਪੂਰਣ ਕਾਰਜ-ਨਿਰਵਹਣ ਦੇ ਕਿੰਨਾ ਨੇੜੇ ਲਿਆ ਸਕਦਾ ਹੈ: SMEs ਨੇ ਸਾਡੇ “novice uplift” ਦਾਵਿਆਂ ਨੂੰ ਉਹਨਾਂ ਹਕੀਕਤੀ workflows ਵਿੱਚ ਕੜੀ ਜਾਂਚ ਅਧੀਨ ਰੱਖਿਆ ਜੋ ਉਨ੍ਹਾਂ ਨੇ ਖੁਦ ਬਣਾਏ, ਅਤੇ ਵੱਖ-ਵੱਖ ਪੱਧਰ ਦਾ ਫੀਡਬੈਕ ਦਿੱਤਾ ਕਿ ਮਾਡਲ ਨੇ ਕਿੱਥੇ ਠੋਸ, ਕਦਮ-ਦਰ-ਕਦਮ ਮਦਦ ਦਿੱਤੀ ਅਤੇ ਕਿੱਥੇ ਘੱਟ ਉਪਯੋਗੀ ਸਾਰ ਦਿੱਤੇ। ਇਹ ਮਾਹਿਰ ਪ੍ਰੋਬਿੰਗ ਅਭਿਆਸ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦੀ ਡਿਪਲੌਇਮੈਂਟ ਲਈ ਕੁੱਲ ਮੁਲਾਂਕਣ ਦਾ ਹਿੱਸਾ ਸੀ, ਅਤੇ ਦੋਹਾਂ ਲਾਂਚਾਂ ਦੇ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਸਾਂਝਾ ਕੀਤਾ ਗਿਆ.
ਪਾਰਦਰਸ਼ਤਾ ਦੀ ਭਾਵਨਾ ਨਾਲ, ਅਸੀਂ ਇਸ ਬਾਰੇ ਹੋਰ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ ਕਿ ਜਦੋਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰ ਸਾਡੇ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ ਤਾਂ ਉਹ ਕਿਸ ਗੱਲ ਲਈ ਸਹਿਮਤ ਹੁੰਦੇ ਹਨ, ਅਤੇ ਉਹ ਸਿਧਾਂਤ ਜੋ ਸਾਡੇ ਸਹਿਯੋਗਾਂ ਨੂੰ ਦਿਸ਼ਾ ਦਿੰਦੇ ਹਨ:
- ਸਾਵਧਾਨ ਗੋਪਨੀਯਤਾ ਸੀਮਾਵਾਂ ਨਾਲ ਪਾਰਦਰਸ਼ਤਾ: ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰ ਗੋਪਨੀਯ, ਗੈਰ-ਜਨਤਕ ਜਾਣਕਾਰੀ ਸਾਂਝੀ ਕਰਨ ਯੋਗ ਬਣਾਉਣ ਲਈ non-disclosure agreements ਉੱਤੇ ਦਸਤਖ਼ਤ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਉਹ ਆਪਣੇ ਮੁਲਾਂਕਣਾਂ ਦਾ ਸਮਰਥਨ ਕਰ ਸਕਣ। ਇਸ ਪੋਸਟ ਦੇ Appendix ਵਿੱਚ, ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨਾਲ ਕਰਾਰਾਂ ਦੇ ਸਬੰਧਿਤ ਅੰਸ਼ ਸ਼ਾਮਲ ਕੀਤੇ ਹਨ ਜੋ ਪ੍ਰਕਾਸ਼ਨ-ਅਧਿਕਾਰਾਂ ਅਤੇ ਸਮੀਖਿਆ ਸੰਬੰਧੀ ਉਮੀਦਾਂ ਦਾ ਖਾਕਾ ਪੇਸ਼ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਪਾਰਦਰਸ਼ਤਾ ਦੇ ਸਿਧਾਂਤ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਾਂ ਅਤੇ ਅਜਿਹੇ ਪ੍ਰਕਾਸ਼ਨ ਨੂੰ ਯੋਗ ਬਣਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ ਜੋ ਗੋਪਨੀਯ ਜਾਣਕਾਰੀ ਜਾਂ ਬੌਧਿਕ ਸੰਪਤੀ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਸੁਰੱਖਿਆ ਅਤੇ ਸੰਬੰਧਿਤ ਮੁਲਾਂਕਣਾਂ ਦੀ ਸਮਝ ਨੂੰ ਅੱਗੇ ਵਧਾਏ। ਇਸ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਤੋਂ ਆਉਣ ਵਾਲੇ ਪ੍ਰਕਾਸ਼ਨਾਂ ਦੀ ਸਮੀਖਿਆ ਅਤੇ ਮਨਜ਼ੂਰੀ ਦਿੰਦੇ ਹਾਂ ਤਾਂ ਜੋ ਗੋਪਨੀਯਤਾ ਅਤੇ ਤੱਥਾਤਮਕ ਸ਼ੁੱਧਤਾ ਦੋਹਾਂ ਯਕੀਨੀ ਬਣ ਸਕਣ। ਪਿਛਲੇ ਕੁਝ ਸਾਲਾਂ ਵਿੱਚ, ਕਈ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੇ ਆਪਣੇ ਕੰਮ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਹਨ, ਨਾਲ ਹੀ ਅਸੀਂ ਸਿਸਟਮ ਕਾਰਡਾਂ ਵਿੱਚ ਮੁਲਾਂਕਣ ਸਾਰ ਵੀ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਹਨ। ਅਜਿਹੇ ਕੰਮ ਦੀਆਂ ਕੁਝ ਉਦਾਹਰਣਾਂ, ਜਿਨ੍ਹਾਂ ਦੀ ਅਸੀਂ ਗੋਪਨੀਯਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਲਈ ਸਮੀਖਿਆ ਕੀਤੀ, ਵਿੱਚ ਇਹ ਸ਼ਾਮਲ ਹਨ: [METR GPT‑5 report (ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), OpenAI o1 ਬਾਰੇ Apollo Research report(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ), Irregular GPT‑5 Assessment(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)]
- ਸੋਚ-ਵਿਚਾਰ ਵਾਲਾ ਜਾਣਕਾਰੀ ਖੁਲਾਸਾ ਅਤੇ ਸੁਰੱਖਿਅਤ, ਸੰਵੇਦਨਸ਼ੀਲ ਪਹੁੰਚ: ਮੂਲ ਤੌਰ ਤੇ, ਅਸੀਂ ਅਜਿਹੀ ਜਾਣਕਾਰੀ ਅਤੇ ਮਾਡਲਾਂ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ ਜੋ ਜਨਤਕ ਜਾਂ ਪ੍ਰੋਡਕਸ਼ਨ-ਤਿਆਰ ਹੋਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹੁੰਦੇ ਹਨ। ਜਦੋਂ ਮੁਲਾਂਕਣਾਂ ਲਈ ਲੋੜ ਹੋਵੇ, ਅਸੀਂ ਹੋਰ ਡੂੰਘੀ ਪਹੁੰਚ ਦਿੰਦੇ ਹਾਂ, ਜਿਵੇਂ helpful-only ਮਾਡਲਾਂ ਜਾਂ ਗੈਰ-ਜਨਤਕ ਜਾਣਕਾਰੀ ਤੱਕ। ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਪ੍ਰਸ਼ਨਾਂ ਲਈ OpenAI ਨੇ ਜਿੱਥੇ ਲੋੜ ਹੋਈ, ਉੱਥੇ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ ਅਜਿਹੀ ਪਹੁੰਚ ਦਿੱਤੀ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਸ ਕਿਸਮ ਦੀ ਸੰਵੇਦਨਸ਼ੀਲ ਪਹੁੰਚ ਲਈ ਕੜੇ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਅਤੇ ਜਿਵੇਂ-ਜਿਵੇਂ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਟੈਸਟਿੰਗ ਦੀਆਂ ਲੋੜਾਂ ਬਦਲਦੀਆਂ ਹਨ, ਅਸੀਂ ਉਨ੍ਹਾਂ ਨਿਯੰਤਰਣਾਂ ਨੂੰ ਅਪਡੇਟ ਕਰਦੇ ਰਹਿੰਦੇ ਹਾਂ.
- ਸੰਤੁਲਿਤ ਵਿੱਤੀ ਪ੍ਰੇਰਣਾਵਾਂ: ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਤੰਤਰ ਲਈ ਵਧੀਆ ਫੰਡਿੰਗ ਹੋਵੇ ਅਤੇ ਉਹ ਟਿਕਾਊ ਰਹੇ। ਇਸ ਕਰਕੇ, ਅਸੀਂ ਆਪਣੇ ਸਭ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਨੂੰ ਮੁਆਵਜ਼ਾ ਦਿੰਦੇ ਹਾਂ, ਹਾਲਾਂਕਿ ਕੁਝ ਇਸ ਬਾਰੇ ਆਪਣੀ ਸੰਸਥਾਤਮਕ ਸੋਚ ਦੇ ਆਧਾਰ ਤੇ ਇਸ ਨੂੰ ਠੁਕਰਾ ਦੇਂਦੇ ਹਨ। ਮੁਆਵਜ਼ੇ ਦੇ ਰੂਪਾਂ ਵਿੱਚ ਸਿੱਧਾ ਭੁਗਤਾਨ ਅਤੇ/ਜਾਂ API credits ਰਾਹੀਂ ਜਾਂ ਹੋਰ ਤਰੀਕਿਆਂ ਨਾਲ ਮਾਡਲ ਵਰਤੋਂ ਦੀ ਲਾਗਤ ਨੂੰ ਸਬਸਿਡੀ ਦੇਣਾ ਸ਼ਾਮਲ ਹੈ। ਕਿਸੇ ਵੀ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਦੇ ਨਤੀਜਿਆਂ ਉੱਤੇ ਭੁਗਤਾਨ ਕਦੇ ਵੀ ਨਿਰਭਰ ਨਹੀਂ ਹੁੰਦਾ.
ਇਕੱਠੇ ਮਿਲ ਕੇ, ਇਹ ਤੱਤ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਦੀ ਰੱਖਿਆ ਕਰਨ ਦੇ ਨਾਲ AI ਸੁਰੱਖਿਆ ਵਿੱਚ ਪਾਰਦਰਸ਼ਤਾ ਨੂੰ ਵੀ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ, ਅਤੇ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣਕਾਰਾਂ ਲਈ ਆਪਣੇ ਸਮੇਂ ਦਾ ਮੁਆਵਜ਼ਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੇ ਰਸਤੇ ਬਣਾਉਂਦੇ ਹਨ.
ਅੱਗੇ ਵੱਲ ਦੇਖਦੇ ਹੋਏ, ਅਸੀਂ ਅਜਿਹੀਆਂ ਸੰਸਥਾਵਾਂ ਦੇ ਤੰਤਰ ਨੂੰ ਲਗਾਤਾਰ ਮਜ਼ਬੂਤ ਕਰਨ ਦੀ ਲੋੜ ਵੇਖਦੇ ਹਾਂ ਜੋ ਅਤਿ-ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਦੇ ਭਰੋਸੇਯੋਗ, ਫ਼ੈਸਲਾ-ਸੰਬੰਧੀ ਮੁਲਾਂਕਣ ਕਰ ਸਕਣ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਲਈ ਖ਼ਾਸ ਮਾਹਰਤਾ, ਸਥਿਰ ਫੰਡਿੰਗ ਅਤੇ ਕਾਰਜ-ਵਿਧੀਕ ਕੜਾਈ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਯੋਗ ਮੁਲਾਂਕਣਕਾਰੀ ਸੰਸਥਾਵਾਂ ਵਿੱਚ ਨਿਰੰਤਰ ਨਿਵੇਸ਼, ਮਾਪ-ਵਿਗਿਆਨ ਦੀ ਤਰੱਕੀ, ਅਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਪਹੁੰਚ ਲਈ ਸੁਰੱਖਿਆ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਅਤਿਅਵਸ਼ਕ ਹੋਣਗੇ ਕਿ ਮੁਲਾਂਕਣ ਮਾਡਲ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਹੋ ਰਹੀ ਤਰੱਕੀ ਦੇ ਨਾਲ ਕਦਮ ਮਿਲਾ ਸਕਣ.
ਤੀਜੀ-ਧਿਰ ਮੁਲਾਂਕਣ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਵਿੱਚੋਂ ਇਕ ਹਨ ਜਿਨ੍ਹਾਂ ਰਾਹੀਂ ਅਸੀਂ ਆਪਣੇ ਸੁਰੱਖਿਆ ਕੰਮ ਵਿੱਚ ਬਾਹਰੀ ਨਜ਼ਰੀਆ ਲਿਆਉਂਦੇ ਹਾਂ, ਅਤੇ ਇਹ ਹੋਰ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਸੰਰਚਿਤ ਰੈਡ ਟੀਮਿੰਗ ਯਤਨਾਂ, collective alignment projects, U.S. CAISI and UK AISI ਨਾਲ ਕੰਮ, ਅਤੇ ਸਾਡੇ Global Physician Network ਅਤੇ ਸਾਡੇ Expert Council on Well-Being and AI ਵਰਗੇ ਸਲਾਹਕਾਰ ਸਮੂਹਾਂ ਰਾਹੀਂ ਵੀ ਬਾਹਰੀ ਮਾਹਿਰਾਂ ਨਾਲ ਸਹਿਯੋਗ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਜੋ ਮਾਨਸਿਕ ਸਿਹਤ ਅਤੇ ਯੂਜ਼ਰ ਸੁਖ-ਸਮ੍ਰਿੱਧੀ ਬਾਰੇ ਸਾਡੇ ਕੰਮ ਨੂੰ ਦਿਸ਼ਾ ਮਿਲ ਸਕੇ। ਇਹ ਯਤਨ ਵੱਖ-ਵੱਖ ਕਿਸਮ ਦੀ ਮਾਹਰਤਾ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਅਤੇ ਉੱਚ-ਪੱਧਰੀ AI ਸਿਸਟਮਾਂ ਦੇ ਮੁਲਾਂਕਣ ਅਤੇ ਸ਼ਾਸਨ ਲਈ ਹੋਰ ਵਿਆਪਕ ਅਤੇ ਭਰੋਸੇਯੋਗ ਨੀਂਹ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ.
ਹੇਠਾਂ ਉਹ ਨਮੂਨਾ ਅੰਸ਼ ਦਿੱਤੇ ਗਏ ਹਨ ਜੋ ਪ੍ਰੀ-ਡਿਪਲੌਇਮੈਂਟ ਮੁਲਾਂਕਣਾਂ ਉੱਤੇ ਸਾਡੇ ਨਾਲ ਸਹਿਯੋਗ ਕਰਨ ਵਾਲੀਆਂ ਤੀਜੀ-ਧਿਰਾਂ ਨਾਲ ਸਾਡੇ ਸਮਝੌਤਿਆਂ ਵਿੱਚੋਂ ਲਏ ਗਏ ਹਨ.
ਲੇਖਕ
ਫੁਟਨੋਟਸ
- 1
ਇਹ ਰੈਡ ਟੀਮਿੰਗ ਤੋਂ ਵੱਖ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਸੁਰੱਖਿਆ ਉਪਾਵਾਂ ਦੀ ਸੁਖਮ ਪੱਧਰ ਤੇ ਕੜੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਮੁਲਾਂਕਣ ਵਿਕਾਸ ਲਈ ਡਾਟਾ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੁੰਦਾ ਹੈ।
- 2
ਜਦੋਂ ਕੋਈ ਮਾਡਲ ਜਾਣ-ਬੁੱਝ ਕੇ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਜਾਂ ਆਪਣੀਆਂ ਅਸਲ ਸਮਰੱਥਾਵਾਂ ਲੁਕਾਂਦਾ ਹੈ, ਜਦੋਂ ਉਸ ਨੂੰ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਉਸਦਾ ਮੁਲਾਂਕਣ ਜਾਂ ਟੈਸਟ ਹੋ ਰਿਹਾ ਹੈ।
- 3
Helpful-only ਮਾਡਲ ਹਰ ਬੇਨਤੀ ਦਾ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਭਾਵੇਂ ਬੇਨਤੀ ਹਾਨੀਕਾਰਕ ਹੀ ਕਿਉਂ ਨਾ ਹੋਵੇ। ਇਹ ਅਜਿਹੀਆਂ post-training ਵਿਧੀਆਂ ਨਾਲ ਬਣਾਏ ਜਾਂਦੇ ਹਨ ਜੋ ਇਸ ਵਿਵਹਾਰ ਨੂੰ ਸੰਭਵ ਬਣਾਉਂਦੀਆਂ ਹਨ।


