Published: 26 ਅਕਤੂਬਰ 2023

OpenAI ਦੀ ਫਰੰਟੀਅਰ ਰਿਸਕ ਲਈ ਪਹੁੰਚ

ਯੂਕੇ AI Safety Summit ਲਈ ਇੱਕ ਅੱਪਡੇਟ

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

21 July 2023 ਨੂੰ, OpenAI ਨੇ ਹੋਰ ਅਗੇਤੀ AI ਲੈਬਾਂ ਨਾਲ ਮਿਲ ਕੇ AI ਵਿੱਚ ਸੁਰੱਖਿਆ, ਸਿਕਿਊਰਟੀ ਅਤੇ ਭਰੋਸੇ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਕੁਝ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਕੀਤੀਆਂ. ਇਨ੍ਹਾਂ ਵਚਨਬੱਧਤਾਵਾਂ ਵਿੱਚ ਕਈ ਰਿਸਕ ਖੇਤਰ ਸ਼ਾਮਲ ਸਨ, ਜਿਨ੍ਹਾਂ ਦੇ ਕੇਂਦਰ ਵਿੱਚ ਅਤਿ-ਆਧੁਨਿਕ ਰਿਸਕ ਸਨ ਜੋ ਆਉਣ ਵਾਲੇ AI Safety Summit ਦਾ ਮੁੱਖ ਫੋਕਸ ਹਨ.

ਇਸ ਅੱਪਡੇਟ ਵਿੱਚ, ਅਸੀਂ ਉਹਨਾਂ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਤੇ ਆਪਣੀ ਪ੍ਰਗਤੀ ਦਾ ਵੇਰਵਾ ਦਿੰਦੇ ਹਾਂ ਅਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਰਿਸਕਾਂ ਨੂੰ ਘਟਾਉਣ ਲਈ ਆਪਣੀ ਵਿਕਸਿਤ ਹੋ ਰਹੀ ਪਹੁੰਚ ਬਾਰੇ ਹੋਰ ਵਿਸਥਾਰ ਦਿੰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਤਿਆਰ ਕਰਨ ਲਈ ਸਾਡਾ ਜਾਰੀ ਕੰਮ ਵੀ ਸ਼ਾਮਲ ਹੈ.

3 October, 2023 ਨੂੰ ਅਸੀਂ ਜਨਤਕ ਤੌਰ ਤੇ system card⁠ ਜਾਰੀ ਕੀਤਾ ਸਾਡੇ text to image model DALL-E 3⁠ ਲਈ, ਜੋ ਸਾਡੀਆਂ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਦੇ ਦਾਇਰੇ ਵਿੱਚ ਇੱਕ ਨਵੇਂ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਦੀ ਪਹਿਲੀ ਵੱਡੀ ਜਨਤਕ ਰਿਲੀਜ਼ ਸੀ. ਸਾਡੇ ਮਿਸ਼ਨ ਅਤੇ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਦੋਵੇਂ ਦੇ ਅਨੁਕੂਲ, ਅਸੀਂ ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਕੰਮ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਤਾਇਨਾਤੀ ਤੋਂ ਪਹਿਲਾਂ ਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣ ਅਤੇ ਰੈਡ ਟੀਮਿੰਗ ਸ਼ਾਮਲ ਸੀ. ਇਸ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਲੋਕਾਂ ਨੂੰ AI-ਜਨਰੇਟ ਕੀਤੇ ਮੀਡੀਆ ਦੀ provenance ਟਰੈਕ ਕਰਨ ਲਈ ਸਸ਼ਕਤ ਬਣਾਉਣ ਵਾਲੇ ਨਵੇਂ ਤਰੀਕਿਆਂ ਵੱਲ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ, ਅਤੇ ChatGPT ਵਿੱਚ voice ਅਤੇ image analysis ਸਮਰੱਥਾਵਾਂ ਦੀ ਆਪਣੀ rollout ਰਾਹੀਂ ਜ਼ਿੰਮੇਵਾਰ ਅਭਿਆਸਾਂ ਵਿੱਚ ਨਿਵੇਸ਼ ਜਾਰੀ ਰੱਖਿਆ ਹੈ.

ਅਸੀਂ ਆਪਣੀ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾ⁠ ਵੀ ਪੂਰੀ ਕੀਤੀ ਹੈ ਕਿ “ਅਜਿਹਾ forum ਜਾਂ mechanism ਸਥਾਪਿਤ ਜਾਂ ਉਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣਾ ਜਿਸ ਰਾਹੀਂ [ਅਸੀਂ] ਅਤਿ-ਆਧੁਨਿਕ AI ਸੁਰੱਖਿਆ ਲਈ ਸਾਂਝੇ ਮਿਆਰ ਅਤੇ ਸਰਵੋਤਮ ਅਭਿਆਸ ਵਿਕਸਿਤ, ਅੱਗੇ ਵਧਾ ਅਤੇ ਅਪਣਾਅ ਸਕੀਏ,” Frontier Model Forum ਦੀ ਸਹਿ-ਸਥਾਪਨਾ ਕਰਕੇ. ਇਹ ਨਵਾਂ ਉਦਯੋਗਿਕ ਸੰਸਥਾਨ, Microsoft, Google Deepmind ਅਤੇ Anthropic ਨਾਲ ਮਿਲ ਕੇ ਸਥਾਪਿਤ ਕੀਤਾ ਗਿਆ, ਅਤਿ-ਆਧੁਨਿਕ AI ਸਿਸਟਮਾਂ ਲਈ AI ਸੁਰੱਖਿਆ ਖੋਜ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰ ਵਿਕਾਸ ਅਭਿਆਸਾਂ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਇੱਕ ਮੰਚ ਹੈ.

ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ

ਅਤਿ-ਆਧੁਨਿਕ AI ਮਾਡਲਾਂ ਵਿੱਚ ਪੂਰੀ ਮਨੁੱਖਤਾ ਨੂੰ ਲਾਭ ਪਹੁੰਚਾਉਣ ਦੀ ਸਮਰੱਥਾ ਹੈ, ਪਰ ਇਹ ਵੱਧਦੇ ਹੋਏ ਗੰਭੀਰ ਰਿਸਕ ਵੀ ਪੈਦਾ ਕਰਦੇ ਹਨ. ਜਿਵੇਂ ਜਿਵੇਂ AI ਮਾਡਲ ਹੋਰ ਸੁਧਰਦੇ ਜਾ ਰਹੇ ਹਨ, ਇਨ੍ਹਾਂ ਰਿਸਕਾਂ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਲਈ ਅਸੀਂ ਇੱਕ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਤਿਆਰ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਜ਼ਿੰਮੇਵਾਰ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਵਿਕਾਸ ਲਈ ਸਾਡੀ ਪਹਿਲਕਦਮੀ, ਰਿਸਕ-ਆਧਾਰਿਤ ਪਹੁੰਚ ਨੂੰ ਹੋਰ ਗਹਿਰਾ ਕਰਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਤਬਾਹੀਕਾਰਕ ਰਿਸਕਾਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ.

ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਸਮਰੱਥਾ ਮੁਲਾਂਕਣ ਅਤੇ ਨਿਗਰਾਨੀ ਨੂੰ ਕੜਾਈ ਨਾਲ ਵਿਕਸਿਤ ਕਰਨ ਬਾਰੇ ਸਾਡੀ ਪਹੁੰਚ ਦਾ ਵੇਰਵਾ ਦੇਵੇਗਾ, ਨਾਲ ਹੀ ਪੂਰੀ ਵਿਕਾਸ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਜਵਾਬਦੇਹੀ ਅਤੇ ਨਿਗਰਾਨੀ ਲਈ ਇੱਕ ਗਵਰਨੈਂਸ ਢਾਂਚਾ ਸਥਾਪਿਤ ਕਰੇਗਾ. ਇਸ ਨੀਤੀ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਅਸੀਂ ਜਿਨ੍ਹਾਂ ਰਿਸਕਾਂ ਨੂੰ ਟਰੈਕ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ, ਉਹ ਕਈ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਫੈਲਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸਾਇਬਰਸੁਰੱਖਿਆ, ਮਨਾਉਣ, ਰਸਾਇਣਕ ਅਤੇ ਜੈਵਿਕ ਖਤਰੇ, ਅਤੇ ਸਵੈ-ਨਿਰਭਰਤਾ ਸ਼ਾਮਲ ਹਨ.

ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਤਬਾਹੀਕਾਰਕ ਨਤੀਜਿਆਂ ਤੋਂ ਬਚਾਅ ਲਈ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਕਾਰਵਾਈਆਂ ਵੀ ਪ੍ਰਦਾਨ ਕਰੇਗਾ. ਤਬਾਹੀਕਾਰਕ ਰਿਸਕ ਬਾਰੇ ਤਜਰਬਾਤੀ ਸਮਝ ਅਜੇ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਹੈ ਅਤੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਿਤ ਹੋ ਰਹੀ ਹੈ. ਇਸ ਲਈ ਅਸੀਂ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਰਿਸਕ ਪੱਧਰਾਂ ਦਾ ਆਪਣਾ ਮੁਲਾਂਕਣ ਗਤੀਸ਼ੀਲ ਢੰਗ ਨਾਲ ਅੱਪਡੇਟ ਕਰਦੇ ਰਹਾਂਗੇ, ਤਾਂ ਜੋ ਸਾਡੀ ਸਭ ਤੋਂ ਨਵੀਂ ਮੁਲਾਂਕਣ ਅਤੇ ਨਿਗਰਾਨੀ ਸਮਝ ਦਰਸਾਈ ਜਾ ਸਕੇ. ਅਸੀਂ ਇਸ ਯਤਨ ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਲਈ ਇੱਕ ਸਮਰਪਿਤ ਟੀਮ (Preparedness) ਖੜੀ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਲੋੜੀਂਦੀ ਖੋਜ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰਨਾ ਵੀ ਸ਼ਾਮਲ ਹੈ.

ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਸਾਡੇ ਮੌਜੂਦਾ ਰਿਸਕ-ਘਟਾਓ ਕੰਮ ਨੂੰ ਪੂਰਾ ਕਰਨ ਅਤੇ ਵਧਾਉਣ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ, ਜੋ ਤਾਇਨਾਤੀ ਤੋਂ ਪਹਿਲਾਂ ਅਤੇ ਬਾਅਦ ਦੋਵੇਂ ਹੀ, ਨਵੇਂ ਅਤੇ ਬਹੁਤ ਸਮਰੱਥ ਸਿਸਟਮਾਂ ਦੀ ਸੁਰੱਖਿਆ ਅਤੇ ਐਲਾਈਨਮੈਂਟ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦਾ ਹੈ. ਇਨ੍ਹਾਂ ਮੌਜੂਦਾ ਯਤਨਾਂ ਵਿੱਚ ਸਾਡੀ Safety Systems ਟੀਮ ਦਾ ਖੋਜ ਕਰਨਾ ਅਤੇ ਵਿਵਸਥਿਤ ਹੱਲ ਬਣਾਉਣਾ ਸ਼ਾਮਲ ਹੈ, ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਸਾਡੇ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਤਾਇਨਾਤ ਕੀਤੇ ਜਾ ਸਕਣ, ਅਤੇ ਸਾਡੀ Superalignment ਟੀਮ, ਜੋ ਸੁਪਰਇੰਟੈਲੀਜੈਂਟ AI ਸਿਸਟਮਾਂ ਨੂੰ ਮਨੁੱਖੀ ਇਰਾਦੇ ਨਾਲ ਐਲਾਈਨ ਕਰਨ ਦੀਆਂ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਚੁਣੌਤੀਆਂ ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਿਤ ਕਰਦੀ ਹੈ.

ਇਨ੍ਹਾਂ ਵਿੱਚ Microsoft ਨਾਲ ਸਾਂਝਾ Deployment Safety Board (DSB) ਵੀ ਸ਼ਾਮਲ ਹੈ, ਜੋ ਕਿਸੇ ਨਿਰਧਾਰਤ ਸਮਰੱਥਾ ਹੱਦ ਤੋਂ ਉੱਪਰ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਤਾਇਨਾਤ ਕਰਨ ਸੰਬੰਧੀ ਕਿਸੇ ਵੀ ਪੱਖ ਦੇ ਫ਼ੈਸਲੇ ਮਨਜ਼ੂਰ ਕਰਦਾ ਹੈ. DSB ਖਾਸ ਤੌਰ ਤੇ ਤਾਇਨਾਤੀ ਦੇ ਫ਼ੈਸਲਿਆਂ ਤੇ ਧਿਆਨ ਦਿੰਦਾ ਹੈ, ਨਾ ਕਿ ਪਹਿਲਾਂ ਦੇ ਕਦਮਾਂ ਤੇ, ਜਿਵੇਂ ਕਿ ਕਿਸੇ ਖਾਸ ਸਕੇਲ ਜਾਂ ਸਮਰੱਥਾ ਪੱਧਰ ਦੇ ਮਾਡਲਾਂ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨਾ ਹੈ ਜਾਂ ਨਹੀਂ. ਇਸ ਵਿੱਚ ਉਹਨਾਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚੋਂ ਕੁਝ ਹਨ ਜਿਨ੍ਹਾਂ ਤੇ ਅਕਸਰ ਜ਼ਿੰਮੇਵਾਰ ਸਕੇਲਿੰਗ ਨੀਤੀਆਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ ਚਰਚਾ ਹੁੰਦੀ ਹੈ, ਜਿਵੇਂ ਸਭ ਤੋਂ ਸਮਰੱਥ ਸਿਸਟਮਾਂ ਤੇ ਧਿਆਨ, ਵਿਰੋਧੀ ਟੈਸਟਿੰਗ ਤੇ ਮਜ਼ਬੂਤ ਜ਼ੋਰ, ਅਤੇ ਐਲਾਈਨਮੈਂਟ ਤੇ ਸਪਸ਼ਟ ਵਿਚਾਰ. ਅਸੀਂ GPT‑4 ਦੀ DSB ਸਮੀਖਿਆ ਤੋਂ ਕੀਮਤੀ ਸਬਕ ਸਿੱਖੇ ਹਨ, ਜੋ ਪਹਿਲੀ ਯੋਗ ਤਾਇਨਾਤੀ ਸੀ, ਅਤੇ ਅਸੀਂ ਉਹਨਾਂ ਸਬਕਾਂ ਨੂੰ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਦੇ ਡਿਜ਼ਾਈਨ ਅਤੇ ਲਾਗੂ ਕਰਨ ਨੂੰ ਜਾਣਕਾਰੀ ਦੇਣ ਲਈ ਵਰਤਾਂਗੇ. DSB ਅਤੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਦੋਵੇਂ, ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਆਪਣੀਆਂ ਭੂਮਿਕਾਵਾਂ, ਸਮੇਂ ਦੇ ਨਾਲ ਵਿਕਸਿਤ ਹੋ ਸਕਦੀਆਂ ਹਨ ਜਿਵੇਂ ਜਿਵੇਂ ਅਸੀਂ ਰਿਸਕਾਂ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਘਟਾਓ ਬਾਰੇ ਹੋਰ ਸਿੱਖਦੇ ਹਾਂ.

ਨੋਟ: ਅਸੀਂ ਆਪਣੀ ਨੀਤੀ ਨੂੰ Responsible Scaling Policy ਦੀ ਬਜਾਇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਕਹਿੰਦੇ ਹਾਂ ਕਿਉਂਕਿ ਅਸੀਂ ਸਕੇਲ ਵਿੱਚ ਵੱਡੇ ਵਾਧੇ ਤੋਂ ਬਿਨਾਂ ਵੀ ਸਮਰੱਥਾ ਵਿੱਚ ਨਾਟਕੀ ਵਾਧਾ ਦੇਖ ਸਕਦੇ ਹਾਂ, ਉਦਾਹਰਨ ਲਈ, ਐਲਗੋਰਿਦਮਿਕ ਸੁਧਾਰਾਂ ਰਾਹੀਂ. ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਸਾਡੇ ਵੱਧਦੀ ਸਮਰੱਥਾ ਵਾਲੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਦਾ ਹੈ, ਭਾਵੇਂ ਉਹ ਵਧਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਸਕੇਲ, ਐਲਗੋਰਿਦਮਿਕ ਸੁਧਾਰਾਂ ਜਾਂ ਹੋਰ ਅਨੁਕੂਲਣਾਂ ਤੋਂ ਆਉਣ.

ਸਮਾਜਕ, ਸੁਰੱਖਿਆ ਅਤੇ ਸਿਕਿਊਰਟੀ ਰਿਸਕਾਂ ਤੇ ਤਰਜੀਹੀ ਖੋਜ ਅਤੇ ਨਿਵੇਸ਼

ਸਾਨੂੰ ਆਪਣੇ ਨਾਲੋਂ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਸਮਾਰਟ AI ਸਿਸਟਮਾਂ ਨੂੰ ਨਿਯੰਤਰਿਤ ਕਰਨ ਅਤੇ ਜੋੜਨ ਲਈ ਵਿਗਿਆਨਕ ਬ੍ਰੇਕਥਰੂ, ਸਮਾਜਕ ਤਿਆਰੀ ਅਤੇ ਉੱਨਤ ਸੁਰੱਖਿਆ ਸਿਸਟਮਾਂ ਦੀ ਲੋੜ ਹੈ. ਅਸੀਂ ਇਹ ਬ੍ਰੇਕਥਰੂ ਦੋ ਨਵੀਆਂ ਟੀਮਾਂ ਬਣਾਕੇ ਕਰ ਰਹੇ ਹਾਂ: Superalignment ਅਤੇ Preparedness, ਅਤੇ ਆਪਣੇ ਸੁਰੱਖਿਆ ਸਿਸਟਮਾਂ ਵਿੱਚ ਹੋਰ ਨਿਵੇਸ਼ ਕਰਕੇ.

AI ਨੂੰ ਐਲਾਈਨ ਕਰਨ ਲਈ ਸਾਡੀਆਂ ਮੌਜੂਦਾ ਤਕਨੀਕਾਂ, ਜਿਵੇਂ ਹਿਊਮਨ ਫੀਡਬੈਕ ਤੋਂ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ, AI ਦੀ ਨਿਗਰਾਨੀ ਕਰਨ ਦੀ ਮਨੁੱਖੀ ਸਮਰੱਥਾ ਤੇ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ. ਪਰ ਇਹ ਤਕਨੀਕਾਂ ਸੁਪਰਇੰਟੈਲੀਜੈਂਸ ਲਈ ਕੰਮ ਨਹੀਂ ਕਰਨਗੀਆਂ, ਕਿਉਂਕਿ ਮਨੁੱਖ ਆਪਣੇ ਨਾਲੋਂ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਸਮਾਰਟ AI ਸਿਸਟਮਾਂ ਦੀ ਭਰੋਸੇਯੋਗ ਨਿਗਰਾਨੀ ਨਹੀਂ ਕਰ ਸਕਣਗੇ. ਅਸੀਂ Ilya Sutskever (OpenAI ਦੇ ਸਹਿ-ਸੰਸਥਾਪਕ ਅਤੇ Chief Scientist) ਅਤੇ Jan Leike (Head of Alignment) ਦੀ ਸਹਿ-ਅਗਵਾਈ ਹੇਠ Superalignment⁠ ਨਾਮ ਦੀ ਇੱਕ ਨਵੀਂ ਟੀਮ ਵਿੱਚ ਨਿਵੇਸ਼ ਕਰਕੇ ਇਹ ਸਮੱਸਿਆ ਚਾਰ ਸਾਲਾਂ ਵਿੱਚ ਹੱਲ ਕਰਨ ਦਾ ਲੱਖਯ ਰੱਖਿਆ ਹੈ. ਸਾਡਾ ਲੱਖਯ ਮਨੁੱਖੀ ਪੱਧਰ ਦੇ ਨੇੜੇ ਇੱਕ automated alignment researcher ਬਣਾਉਣਾ ਹੈ ਅਤੇ ਸੁਪਰਇੰਟੈਲੀਜੈਂਸ ਨੂੰ ਐਲਾਈਨ ਕਰਨ ਲਈ ਆਪਣੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ ਫੈਲਾਉਣ ਵਾਸਤੇ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ compute ਵਰਤਣਾ ਹੈ. ਅਸੀਂ ਇਸ ਯਤਨ ਲਈ June 2023 ਤੱਕ ਸੁਰੱਖਿਅਤ ਕੀਤੇ compute ਦਾ 20% ਸਮਰਪਿਤ ਕਰਨ ਦੀ ਯੋਜਨਾ ਬਣਾਈ ਹੈ. ਟੀਮ ਨਤੀਜੇ ਵਿਆਪਕ ਤੌਰ ਤੇ ਸਾਂਝੇ ਕਰੇਗੀ ਤਾਂ ਜੋ non-OpenAI ਮਾਡਲਾਂ ਦੀ ਐਲਾਈਨਮੈਂਟ ਅਤੇ ਸੁਰੱਖਿਆ ਵਿੱਚ ਵੀ ਯੋਗਦਾਨ ਪੈ ਸਕੇ.

ਸੁਪਰਇੰਟੈਲੀਜੈਂਸ ਨੂੰ ਐਲਾਈਨ ਕਰਨ ਦੀ ਚੁਣੌਤੀ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਮੰਨਦੇ ਹਾਂ ਕਿ ਵੱਧਦੀ ਸਮਰੱਥਾ ਵਾਲੇ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਦੇ ਸੰਭਾਵਿਤ ਦੁਰਉਪਯੋਗ ਤੋਂ ਵਧਦੇ ਗੰਭੀਰ ਰਿਸਕ ਉਭਰ ਸਕਦੇ ਹਨ. ਅਸੀਂ Preparedness ਨਾਮ ਦੀ ਇੱਕ ਸਮਰਪਿਤ ਨਵੀਂ ਟੀਮ ਬਣਾ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਇਨ੍ਹਾਂ ਰਿਸਕਾਂ ਦੀ ਪਛਾਣ, ਨਿਗਰਾਨੀ ਅਤੇ ਤਿਆਰੀ ਕੀਤੀ ਜਾ ਸਕੇ. ਅਸੀਂ frontier risk ਨੂੰ ਟਰੈਕ ਕਰਨ ਦਾ ਇਰਾਦਾ ਰੱਖਦੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸਾਇਬਰਸੁਰੱਖਿਆ, CBRN, persuasion ਅਤੇ autonomous replication and adaptation ਸ਼ਾਮਲ ਹਨ, ਅਤੇ ਤਬਾਹੀਕਾਰਕ ਰਿਸਕ ਦੇ ਪ੍ਰਭਾਵਾਂ ਤੋਂ ਬਚਾਅ ਲਈ ਕਾਰਵਾਈਆਂ ਸਾਂਝੀਆਂ ਕਰਾਂਗੇ. ਕਿਉਂਕਿ ਤਬਾਹੀਕਾਰਕ ਰਿਸਕ ਬਾਰੇ ਤਜਰਬਾਤੀ ਸਮਝ ਅਜੇ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਹੈ, ਅਸੀਂ ਮੌਜੂਦਾ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲ ਰਿਸਕ ਪੱਧਰਾਂ ਦੇ ਆਪਣੇ ਮੁਲਾਂਕਣ ਨੂੰ ਦੁਹਰਾਓਂਦੇ ਹੋਏ ਅੱਪਡੇਟ ਕਰਾਂਗੇ, ਤਾਂ ਜੋ ਸਾਡੀ ਸਭ ਤੋਂ ਨਵੀਂ ਮੁਲਾਂਕਣ ਅਤੇ ਨਿਗਰਾਨੀ ਸਮਝ ਦਰਸਾਈ ਜਾ ਸਕੇ.

ਅਸੀਂ ਮਾਲਕਾਨਾ ਅਤੇ ਅਜੇ ਜਾਰੀ ਨਾ ਹੋਏ ਮਾਡਲ weights ਦੀ ਰੱਖਿਆ ਲਈ ਸਾਇਬਰਸੁਰੱਖਿਆ ਅਤੇ insider threat ਸੁਰੱਖਿਆਵਾਂ ਵਿੱਚ ਨਿਵੇਸ਼ ਜਾਰੀ ਰੱਖੇ ਹੋਏ ਹਾਂ. ਅਸੀਂ Cybersecurity Grant Program ਅਤੇ OpenAI Bug Bounty Program ਸ਼ੁਰੂ ਕੀਤੇ ਹਨ ਤਾਂ ਜੋ ਸਾਂਝੀ ਸੁਰੱਖਿਆ ਲਈ ਕੰਮ ਕਰਨ ਵਾਲੇ ਇਕੋ ਜਿਹੀ ਸੋਚ ਵਾਲੇ ਖੋਜਕਰਤਿਆਂ ਦਾ ਸਹਿਯੋਗ ਕੀਤਾ ਜਾ ਸਕੇ. Cybersecurity Grant Program ਇੱਕ $1M ਪਹਲ ਹੈ ਜੋ AI-ਸਮਰਥਿਤ ਸਾਇਬਰਸੁਰੱਖਿਆ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਵਧਾਉਣ ਅਤੇ ਮਾਪਣ, ਅਤੇ ਉੱਚ-ਪੱਧਰੀ AI ਅਤੇ ਸਾਇਬਰਸੁਰੱਖਿਆ ਚਰਚਾ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਹੈ. ਅਸੀਂ ਜਨਤਾ ਨੂੰ ਵੀ ਸਾਡੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਮਿਲਣ ਵਾਲੀਆਂ ਕਮਜ਼ੋਰੀਆਂ, bugs ਜਾਂ security flaws ਦੀ ਰਿਪੋਰਟ ਕਰਨ ਲਈ ਸੱਦਾ ਦਿੰਦੇ ਹਾਂ. OpenAI Bug Bounty Program ਸਾਨੂੰ ਉਹਨਾਂ ਵਿਅਕਤੀਆਂ ਦੀ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਨੂੰ ਮੰਨਤਾ ਦੇਣ ਅਤੇ ਇਨਾਮਿਤ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜੋ ਸਾਡੀ ਤਕਨਾਲੋਜੀ ਅਤੇ ਕੰਪਨੀ ਨੂੰ ਸੁਰੱਖਿਅਤ ਰੱਖਣ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੇ ਹਨ.

ਮਾਡਲ ਮੁਲਾਂਕਣ ਅਤੇ ਰੈਡ ਟੀਮਿੰਗ

ਅਸੀਂ ਜਾਰੀ ਕੀਤੇ ਜਾਣ ਵਾਲੇ ਹਰ ਨਵੇਂ ਵੱਡੇ ਮਾਡਲ ਦੀ ਸੁਰੱਖਿਆ ਲਈ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਰੈਡ ਟੀਮਿੰਗ ਦੀ ਵਰਤੋਂ ਵੀ ਸ਼ਾਮਲ ਹੈ. ਉਦਾਹਰਨ ਵਜੋਂ, GPT‑4 ਨੂੰ ਜਨਤਕ ਤੌਰ ਤੇ ਜਾਰੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਬਾਹਰੀ ਰੈਡ ਟੀਮਰਾਂ ਨੇ ਮਾਡਲ ਨੂੰ ਹੇਠ ਲਿਖੇ frontier risk ਲਈ ਟੈਸਟ ਕੀਤਾ: (1) ਨਿਊਕਲੀਅਰ, ਰੇਡੀਓਲੌਜੀਕਲ, ਜੈਵਿਕ ਅਤੇ ਰਸਾਇਣਕ ਹਥਿਆਰਾਂ (CBRN) ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਮਦਦ, (2) ਸਾਇਬਰ ਰਿਸਕ ਵਿੱਚ ਵਾਧਾ, (3) tool use ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਰਿਸਕ ਅਤੇ (4) self-replication ਸਮਰੱਥਾਵਾਂ. DALL-E 3 ਦੀ ਸਾਡੀ ਰੈਡ ਟੀਮਿੰਗ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਸਾਡੀਆਂ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਦੇ ਦਾਇਰੇ ਵਿੱਚ, ਅਸੀਂ CBRN ਨੂੰ ਵਿਕਸਿਤ, ਪ੍ਰਾਪਤ ਜਾਂ ਫੈਲਾਉਣ ਲਈ ਲੋੜੀਂਦੀ ਦ੍ਰਿਸ਼ਟੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਦੀ ਰੈਡ ਟੀਮਿੰਗ ਕੀਤੀ.

ਅਸੀਂ OpenAI Red Teaming Network⁠ ਲਈ ਇੱਕ ਖੁੱਲ੍ਹਾ ਸੱਦਾ ਵੀ ਸਾਂਝਾ ਕੀਤਾ ਹੈ, ਤਾਂ ਜੋ ਉਹ ਖੇਤਰ-ਵਿਸ਼ੇਸ਼ਗਿਆਰ ਜਿਹੜੇ OpenAI ਦੇ ਮਾਡਲਾਂ ਦੀ ਸੁਰੱਖਿਆ ਸੁਧਾਰਨ ਵਿੱਚ ਦਿਲਚਸਪੀ ਰੱਖਦੇ ਹਨ, ਸਾਡੇ ਰੈਡ ਟੀਮਿੰਗ ਯਤਨਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਲਈ ਜਨਤਕ ਤੌਰ ਤੇ ਸੱਦੇ ਜਾ ਸਕਣ.

CBRN. ਕੁਝ LLM ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ dual-use ਸੰਭਾਵਨਾ ਹੋ ਸਕਦੀ ਹੈ, ਅਰਥਾਤ ਮਾਡਲਾਂ ਨੂੰ ਵਪਾਰਕ ਅਤੇ ਸੈਨਿਕ ਜਾਂ ਫੈਲਾਅ ਸੰਬੰਧੀ ਦੋਵਾਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ. ਅਸੀਂ GPT‑4 ਨੂੰ ਚਾਰ dual-use ਖੇਤਰਾਂ ਵਿੱਚ stress testing, boundary testing ਅਤੇ ਰੈਡ ਟੀਮਿੰਗ ਅਧੀਨ ਰੱਖਿਆ ਤਾਂ ਜੋ ਇਹ ਪਤਾ ਲੱਗ ਸਕੇ ਕਿ ਕੀ ਸਾਡੇ ਮਾਡਲ CBRN ਨੂੰ ਵਿਕਸਿਤ, ਪ੍ਰਾਪਤ ਜਾਂ ਫੈਲਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਵਾਲਿਆਂ ਨੂੰ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਦੇ ਸਕਦੇ ਹਨ. ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਆਪਣੇ ਆਪ ਵਿੱਚ GPT‑4 ਤੱਕ ਪਹੁੰਚ ਫੈਲਾਅ ਲਈ ਕਾਫ਼ੀ ਸ਼ਰਤ ਨਹੀਂ ਹੈ, ਪਰ ਇਹ ਫੈਲਾਅ ਕਰਨ ਵਾਲਿਆਂ ਲਈ ਉਪਲਬਧ ਜਾਣਕਾਰੀ ਨੂੰ ਬਦਲ ਸਕਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਪਰੰਪਰਾਗਤ search tools ਨਾਲ ਤੁਲਨਾ ਵਿੱਚ. ਰੈਡ ਟੀਮਰਾਂ ਨੇ GPT‑4 ਅਤੇ ਪਰੰਪਰਾਗਤ search engines ਦੋਵਾਂ ਲਈ ਪ੍ਰੌੰਪਟ ਵਜੋਂ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਚੁਣਿਆ ਅਤੇ ਪਾਇਆ ਕਿ GPT‑4 ਵਰਤਣ ਤੇ ਖੋਜ ਪੂਰੀ ਕਰਨ ਲਈ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ ਘੱਟ ਹੋ ਗਿਆ. ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ ਜਾਣਕਾਰੀ ਦੀ ਸ਼ੁੱਧਤਾ ਘਟਾਏ ਬਿਨਾਂ ਖੋਜ ਪ੍ਰਕਿਰਿਆ ਕਈ ਘੰਟਿਆਂ ਤੱਕ ਘੱਟ ਹੋ ਗਈ. ਇਸ ਲਈ ਅਸੀਂ ਨਤੀਜਾ ਕੱਢਿਆ ਕਿ ਇੱਕ ਮੁੱਖ ਰਿਸਕ ਡਰਾਈਵਰ GPT‑4 ਦੀ ਉਹ ਸਮਰੱਥਾ ਹੈ ਜਿਸ ਨਾਲ ਇਹ ਜਨਤਕ ਤੌਰ ਤੇ ਉਪਲਬਧ ਪਰ ਮੁਸ਼ਕਲ ਨਾਲ ਲੱਭੀ ਜਾਣ ਵਾਲੀ ਜਾਣਕਾਰੀ ਤਿਆਰ ਕਰਦਾ ਹੈ, ਵਰਤੋਂਕਾਰਾਂ ਦਾ ਖੋਜ ਤੇ ਲੱਗਣ ਵਾਲਾ ਸਮਾਂ ਘਟਾਉਂਦਾ ਹੈ ਅਤੇ ਇਸ ਜਾਣਕਾਰੀ ਨੂੰ ਗੈਰ-ਵਿਸ਼ੇਸ਼ਗਿਆਰ ਵਰਤੋਂਕਾਰ ਲਈ ਸਮਝਣਯੋਗ ਢੰਗ ਨਾਲ ਇਕੱਠਾ ਕਰਦਾ ਹੈ. DALL-E 3 ਜਾਰੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ ਇਹ ਟੈਸਟ ਕਰਕੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਕਿ text-to-image generation ਨੇ ਰਿਸਕ ਪ੍ਰੋਫ਼ਾਈਲ ਨੂੰ ਕਿਵੇਂ ਬਦਲਿਆ, ਜਿਸ ਵਿੱਚ CBRN ਰਿਸਕਾਂ ਨਾਲ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਅਤੇ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਡਾਇਗ੍ਰਾਮ ਅਤੇ visual instructions ਜਨਰੇਟ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਸ਼ਾਮਲ ਸੀ. GPT‑4 ਦੀ ਤਰ੍ਹਾਂ, ਅਸੀਂ DALL-E 3 ਦੀ ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਟੈਸਟਿੰਗ ਕੀਤੀ, ਜਿੱਥੇ ਅਸੀਂ ਮਾਡਲ ਨੂੰ ਅੰਦਰੂਨੀ ਤੌਰ ਤੇ ਰਿਸਕਾਂ ਲਈ ਟੈਸਟ ਕੀਤਾ ਅਤੇ ਬਾਹਰੀ ਵਿਸ਼ੇਸ਼ਗਿਆਰਾਂ ਨੂੰ ਸ਼ੁਰੂਆਤੀ ਪਹੁੰਚ ਦਿੱਤੀ ਤਾਂ ਜੋ ਵੱਖ ਵੱਖ ਉਦਯੋਗਾਂ ਤੋਂ ਉਹ ਸਿਸਟਮਾਂ ਦੀ ਜਾਂਚ ਕਰਕੇ ਰਿਸਕਾਂ ਦਾ ਨਕਸ਼ਾ ਤਿਆਰ ਕਰਨ ਅਤੇ ਮੁਲਾਂਕਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਣ. ਅਸੀਂ DALL·E 3 ਨੂੰ ਚਾਰ dual-use ਖੇਤਰਾਂ ਵਿੱਚ ਰੈਡ ਟੀਮਿੰਗ ਅਧੀਨ ਰੱਖਿਆ ਤਾਂ ਜੋ ਇਹ ਪਤਾ ਲੱਗ ਸਕੇ ਕਿ ਕੀ ਇਹ CBRN ਨੂੰ ਵਿਕਸਿਤ, ਪ੍ਰਾਪਤ ਜਾਂ ਫੈਲਾਉਣ ਲਈ ਲੋੜੀਂਦੀ ਜਾਣਕਾਰੀ ਦੇ ਸਕਦਾ ਹੈ. ਰੈਡ ਟੀਮਰਾਂ ਨੇ ਪਾਇਆ ਕਿ ਇਨ੍ਹਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਰਿਸਕ ਬਹੁਤ ਘੱਟ ਸੀ, ਕਿਉਂਕਿ ਇਨ੍ਹਾਂ ਵਿਸ਼ਿਆਂ ਵਿੱਚ ਅਸੁੱਧਤਾ, ਇਨਕਾਰ, ਅਤੇ ਸਫਲ ਫੈਲਾਅ ਲਈ ਹੋਰ ਪਹੁੰਚ ਅਤੇ ਲੋੜੀਂਦੇ “ingredients” ਦੀ ਵੱਡੀ ਲੋੜ ਇਕੱਠੇ ਤੌਰ ਤੇ ਮੌਜੂਦ ਸੀ.

Cyber capabilities. ਅਸੀਂ GPT‑4 ਦੀ ਕਮਜ਼ੋਰੀਆਂ ਦੀ ਖੋਜ ਅਤੇ ਉਨ੍ਹਾਂ ਦੇ ਦੁਰਉਪਯੋਗ, ਅਤੇ social engineering ਲਈ ਵਰਤੋਂਯੋਗਤਾ ਦਾ ਵੀ ਮੁਲਾਂਕਣ ਕੀਤਾ. ਕੰਪਿਊਟਰ ਕਮਜ਼ੋਰੀਆਂ ਦੀ ਖੋਜ, ਮੁਲਾਂਕਣ ਅਤੇ exploit ਕਰਨ ਵਿੱਚ ਮਾਡਲ ਦੀ ਮਦਦ ਦੀ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਅਸੀਂ ਬਾਹਰੀ ਸਾਇਬਰਸੁਰੱਖਿਆ ਵਿਸ਼ੇਸ਼ਗਿਆਰਾਂ ਨਾਲ ਠੇਕਾ ਕੀਤਾ, ਜਿਨ੍ਹਾਂ ਨੇ ਪਾਇਆ ਕਿ ਜੇ source code ਇੰਨਾ ਛੋਟਾ ਹੋਵੇ ਕਿ ਮਾਡਲ ਦੀ context window ਵਿੱਚ ਆ ਜਾਵੇ, ਤਾਂ GPT‑4 ਕੁਝ ਕਮਜ਼ੋਰੀਆਂ ਨੂੰ ਸਮਝਾ ਸਕਦਾ ਸੀ, ਪਰ ਪਛਾਣੀਆਂ ਗਈਆਂ ਕਮਜ਼ੋਰੀਆਂ ਲਈ exploits ਬਣਾਉਣ ਵਿੱਚ GPT‑4 ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਮਜ਼ੋਰ ਸੀ. social engineering ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਲਈ, ਵਿਸ਼ੇਸ਼ਗਿਆਰ ਰੈਡ ਟੀਮਰਾਂ ਨੇ ਟੈਸਟ ਕੀਤਾ ਕਿ ਕੀ GPT‑4 target identification, spear-phishing ਅਤੇ bait-and-switch phishing ਵਰਗੇ ਸੰਬੰਧਤ ਕੰਮਾਂ ਵਿੱਚ ਮੌਜੂਦਾ tools ਨਾਲੋਂ ਸੁਧਾਰ ਪੇਸ਼ ਕਰਦਾ ਹੈ. ਉਨ੍ਹਾਂ ਨੇ ਪਾਇਆ ਕਿ ਮਾਡਲ ਮੌਜੂਦਾ social engineering ਸਮਰੱਥਾਵਾਂ ਲਈ ਤਿਆਰ-ਤੁਰੰਤ ਅੱਪਗ੍ਰੇਡ ਨਹੀਂ ਸੀ, ਕਿਉਂਕਿ ਇਹ target ਦੀ ਗਿਣਤੀ ਕਰਨ ਅਤੇ ਹਾਲੀਆ ਜਾਣਕਾਰੀ ਲਾਗੂ ਕਰਕੇ ਹੋਰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ phishing ਸਮੱਗਰੀ ਬਣਾਉਣ ਵਰਗੇ ਤੱਥਾਤਮਕ ਕੰਮਾਂ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰਦਾ ਸੀ. ਹਾਲਾਂਕਿ, target ਬਾਰੇ ਢੁਕਵੇਂ ਪਿਛੋਕੜੀ ਗਿਆਨ ਨਾਲ, GPT‑4 ਹਕੀਕਤੀ social engineering ਸਮੱਗਰੀ ਦਾ ਮਸੌਦਾ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸੀ. ਇਨ੍ਹਾਂ ਖੋਜਾਂ ਦੇ ਆਧਾਰ ਤੇ, ਅਸੀਂ GPT‑4 ਨੂੰ ਦੁਰਾਸ਼ਯਪੂਰਣ ਸਾਇਬਰਸੁਰੱਖਿਆ ਬੇਨਤੀਆਂ ਤੋਂ ਇਨਕਾਰ ਕਰਨ ਲਈ ਪੋਸਟ-ਟ੍ਰੇਨਡ ਕੀਤਾ, ਅਤੇ ਨਿਗਰਾਨੀ, ਪਛਾਣ ਅਤੇ ਜਵਾਬ ਸਮੇਤ ਆਪਣੇ ਅੰਦਰੂਨੀ ਸੁਰੱਖਿਆ ਸਿਸਟਮਾਂ ਨੂੰ ਫੈਲਾਇਆ.

Self-replication. GPT‑4 ਜਾਰੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, ਅਸੀਂ Alignment Research Center (ARC) ਵੱਲੋਂ ਮਾਡਲ ਦੀ ਸਵੈ-ਨਿਰਭਰ ਤੌਰ ਤੇ ਆਪਣੇ ਆਪ ਦੀ ਨਕਲ ਕਰਨ ਅਤੇ ਸਰੋਤ ਇਕੱਠੇ ਕਰਨ ਲਈ ਕਾਰਵਾਈਆਂ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਦਾ ਇੱਕ ਪ੍ਰਾਰੰਭਿਕ ਮੁਲਾਂਕਣ ਵੀ ਸੁਗਮ ਬਣਾਇਆ. ਅਸੀਂ ਰੈਡ ਟੀਮਿੰਗ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ARC ਨੂੰ ਮਾਡਲਾਂ ਤੱਕ ਸ਼ੁਰੂਆਤੀ ਪਹੁੰਚ ਦਿੱਤੀ ਤਾਂ ਜੋ ਉਨ੍ਹਾਂ ਦੀ ਟੀਮ power-seeking behavior ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੇ ਰਿਸਕਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰ ਸਕੇ. power-seeking ਦਾ ਜੋ ਖਾਸ ਰੂਪ ARC ਨੇ ਜਾਂਚਿਆ, ਉਹ ਮਾਡਲ ਦੀ ਸਵੈ-ਨਿਰਭਰ ਤੌਰ ਤੇ ਆਪਣੇ ਆਪ ਦੀ ਨਕਲ ਕਰਨ ਅਤੇ ਸਰੋਤ ਹਾਸਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਸੀ. ARC ਨੇ ਪਾਇਆ ਕਿ GPT‑4 ਦੇ ਸ਼ੁਰੂਆਤੀ ਸੰਸਕਰਣ ਉਨ੍ਹਾਂ ਦੇ ਪ੍ਰਾਰੰਭਿਕ ਪ੍ਰਯੋਗਾਂ ਵਿੱਚ autonomous replication ਕੰਮ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਨਹੀਂ ਸਨ. ਇਸ ਲਈ ਉਨ੍ਹਾਂ ਨੇ ਨਤੀਜਾ ਕੱਢਿਆ ਕਿ ਮਾਡਲ ਦੇ ਆਪਣੇ ਆਪ ਦੀ ਸਵੈ-ਨਿਰਭਰ ਨਕਲ ਕਰਨ ਯੋਗ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਸੀ.

ਮਾਡਲ ਰਿਪੋਰਟਿੰਗ ਅਤੇ ਜਾਣਕਾਰੀ ਸਾਂਝੀ ਕਰਨਾ

ਪਾਰਦਰਸ਼ਤਾ ਜਵਾਬਦੇਹ AI ਸਿਸਟਮ ਬਣਾਉਣ ਦਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਤੱਤ ਹੈ. ਜਵਾਬਦੇਹੀ ਲਈ ਸਾਡੀ ਪਹੁੰਚ ਦਾ ਇੱਕ ਮੁੱਖ ਹਿੱਸਾ ਨਵੇਂ AI ਸਿਸਟਮਾਂ ਲਈ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਅਸੀਂ ਤਾਇਨਾਤ ਕਰਦੇ ਹਾਂ, ਇੱਕ ਦਸਤਾਵੇਜ਼ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨਾ ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ ਇਸ ਵੇਲੇ ਸਿਸਟਮ ਕਾਰਡ ਕਹਿੰਦੇ ਹਾਂ. ਸਾਡੇ ਸਿਸਟਮ ਕਾਰਡਾਂ ਦਾ ਉਦੇਸ਼ ਪਾਠਕਾਂ ਨੂੰ ਉਹਨਾਂ ਮੁੱਖ ਕਾਰਕਾਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਦੇਣਾ ਹੈ ਜੋ ਸਿਸਟਮ ਦੇ ਵਿਹਾਰ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ, ਖਾਸ ਕਰਕੇ ਜ਼ਿੰਮੇਵਾਰ ਵਰਤੋਂ ਨਾਲ ਸੰਬੰਧਿਤ ਖੇਤਰਾਂ ਵਿੱਚ, ਅਤੇ ਇਹ ਮਾਡਲ ਅਤੇ ਸਿਸਟਮ ਕਾਰਡਾਂ ਤੇ ਪਿਛਲੀ ਖੋਜ ਤੋਂ ਪ੍ਰੇਰਣਾ ਲੈਂਦੇ ਹਨ. ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ, OpenAI ਨੇ ਦੋ ਸਿਸਟਮ ਕਾਰਡ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤੇ ਸਨ: GPT‑4 System Card ਅਤੇ DALL-E 2 System Card. ਇਸ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ DALL-E 3 ਨੂੰ ChatGPT ਵਿੱਚ ਜਾਰੀ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇੱਕ System Card ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ, ਜੋ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਤੇ ਦਸਤਖ਼ਤ ਕਰਨ ਤੋਂ ਬਾਅਦ ਸਾਡੇ ਨਵੇਂ ਮਾਡਲ ਦੀ ਪਹਿਲੀ ਵੱਡੀ ਜਨਤਕ ਰਿਲੀਜ਼ ਸੀ. ਆਪਣੀ ਤਕਨਾਲੋਜੀ ਨੂੰ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਜਾਰੀ ਕਰਨ ਦੇ ਲਗਾਤਾਰ ਯਤਨਾਂ ਵਿੱਚ, ਅਸੀਂ GPT‑4 ਦੀ vision capabilities ਲਈ ਵੀ ChatGPT ਵਿੱਚ ਉਪਲਬਧ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇੱਕ System Card ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ.

ਮਾਡਲ ਜਾਰੀ ਹੋਣ ਤੋਂ ਬਾਅਦ ਮਿਲੀਆਂ ਕਮਜ਼ੋਰੀਆਂ ਲਈ ਰਿਪੋਰਟਿੰਗ ਢਾਂਚਾ

ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ Frontier Model Forum ਦੇ ਅੰਦਰ ਇੱਕ ਵਰਕਿੰਗ ਗਰੁੱਪ ਸ਼ੁਰੂ ਕੀਤਾ ਹੈ ਤਾਂ ਜੋ AI ਲੈਬਾਂ ਵਿਚਕਾਰ ਖਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ ਦੇ ਜ਼ਿੰਮੇਵਾਰ ਖੁਲਾਸੇ ਲਈ ਇੱਕ ਮਕੈਨਿਜ਼ਮ ਬਣਾਇਆ ਜਾ ਸਕੇ. ਇਸ ਮਕੈਨਿਜ਼ਮ ਦਾ ਉਦੇਸ਼ ਅਤਿ-ਆਧੁਨਿਕ ਮਾਡਲਾਂ ਵਿੱਚ ਪਛਾਣੇ ਗਏ ਮਹੱਤਵਪੂਰਨ ਰਿਸਕਾਂ ਦਾ ਗੋਪਨੀਯ ਖੁਲਾਸਾ ਅਤਿ-ਆਧੁਨਿਕ ਲੈਬਾਂ ਅਤੇ ਹੋਰ AI ਲੈਬਾਂ ਵਿਚਕਾਰ ਸੰਭਵ ਬਣਾਉਣਾ ਹੋਵੇਗਾ. ਸਾਡਾ ਸ਼ੁਰੂਆਤੀ ਫੋਕਸ ਰਾਸ਼ਟਰੀ ਸੁਰੱਖਿਆ ਨਾਲ ਸੰਬੰਧਿਤ ਖੇਤਰਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦਾ ਹੈ, ਜਿਵੇਂ Chemical, Biological, Radiological, and Nuclear (CBRN) ਸਮਰੱਥਾਵਾਂ, ਨਾਲ ਹੀ ਹੋਰ ਖਤਰਨਾਕ ਸਮਰੱਥਾਵਾਂ ਜਿਵੇਂ self-replication, deception ਅਤੇ manipulation. ਖੁਲਾਸੇ ਦੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਮੁਲਾਂਕਣ, ਰੈਡ ਟੀਮਿੰਗ ਅਭਿਆਸਾਂ ਤੋਂ ਮਿਲੀਆਂ ਅੰਦਰੂਨੀ ਜਾਣਕਾਰੀਆਂ, ਅਤੇ ਉਨ੍ਹਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਲੈਬ ਮੈਂਬਰਾਂ ਵਿਚਕਾਰ ਸਾਂਝੇ ਖਤਰਿਆਂ ਦੇ ਹੋਰ ਸਬੂਤ ਸ਼ਾਮਲ ਹੋਣਗੇ ਜਿੱਥੇ ਵਿਆਪਕ ਖੁਲਾਸਾ ਆਪਣੇ ਆਪ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਰਿਸਕ ਪੈਦਾ ਕਰੇਗਾ.

ਅਸੀਂ OpenAI ਦੇ ਬੱਗ ਬਾਊਂਟੀ ਪ੍ਰੋਗ੍ਰਾਮ ਦਾ ਐਲਾਨ ਵੀ ਇੱਕ ਅਜੇਹੇ ਤਰੀਕੇ ਵਜੋਂ ਕੀਤਾ ਹੈ ਜਿਸ ਰਾਹੀਂ ਉਹ ਵਿਅਕਤੀਆਂ ਦੀ ਪਛਾਣ ਅਤੇ ਸਨਮਾਨ ਕੀਤਾ ਜਾ ਸਕੇ ਜੋ ਸਾਡੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਸੁਰੱਖਿਆ ਕਮਜ਼ੋਰੀਆਂ ਦੀ ਰਿਪੋਰਟ ਕਰਦੇ ਹਨ. ਸਾਡੇ ਇਨਾਮ ਘੱਟ-ਗੰਭੀਰਤਾ ਵਾਲੀਆਂ ਖੋਜਾਂ ਲਈ $200 ਤੋਂ ਲੈ ਕੇ ਅਸਾਧਾਰਣ ਖੋਜਾਂ ਲਈ $20,000 ਤੱਕ ਹਨ. ਅਸੀਂ ਇੱਕ ਅਗੇਤੀ bug bounty ਪਲੇਟਫਾਰਮ Bugcrowd ਨਾਲ ਭਾਈਚਾਰਾ ਕੀਤਾ ਹੈ, ਤਾਂ ਜੋ ਇੱਕ submission ਅਤੇ reward ਪ੍ਰਕਿਰਿਆ ਬਣਾਈ ਜਾ ਸਕੇ, ਜੋ ਬੱਗ ਬਾਊਂਟੀ ਪ੍ਰੋਗ੍ਰਾਮ ਪੇਜ⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਤੇ ਉਪਲਬਧ ਹੈ.

ਦੁਰਉਪਯੋਗ ਦੇ ਪੈਟਰਨਾਂ ਲਈ ਤਾਇਨਾਤੀ ਬਾਅਦ ਨਿਗਰਾਨੀ

ਅਸੀਂ ਤਾਇਨਾਤੀ ਤੋਂ ਪਹਿਲਾਂ ਅਗਾਊਂ ਦਿਖਣ ਵਾਲੇ ਰਿਸਕਾਂ ਨੂੰ ਰੋਕਣ ਲਈ ਕਾਫ਼ੀ ਮਿਹਨਤ ਕਰਦੇ ਹਾਂ. ਹਾਲਾਂਕਿ, ਲੈਬ ਵਿੱਚ ਕੋਈ ਵੀ ਕੀ ਕੁਝ ਸਿੱਖ ਸਕਦਾ ਹੈ, ਇਸ ਦੀਆਂ ਹੱਦਾਂ ਵੀ ਹੁੰਦੀਆਂ ਹਨ. ਵਿਸਤ੍ਰਿਤ ਖੋਜ ਅਤੇ ਟੈਸਟਿੰਗ ਤੋਂ ਬਾਅਦ ਵੀ, ਅਸੀਂ ਲੋਕ ਸਾਡੀ ਤਕਨਾਲੋਜੀ ਨੂੰ ਕਿਹੜੇ ਕਿਹੜੇ ਲਾਭਦਾਇਕ ਤਰੀਕਿਆਂ ਨਾਲ ਵਰਤਣਗੇ, ਜਾਂ ਕਿਹੜੇ ਤਰੀਕਿਆਂ ਨਾਲ ਇਸ ਦਾ ਦੁਰਉਪਯੋਗ ਕਰ ਸਕਦੇ ਹਨ, ਇਹ ਸਭ ਅਗਾਊਂ ਨਹੀਂ ਦੱਸ ਸਕਦੇ. ਅਣਅਨੁਮਾਨਿਤ ਰਿਸਕਾਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਪਛਾਣਣ ਅਤੇ ਹੱਲ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਬਣਾਉਣਾ ਸਾਡੇ ਲਈ ਉੱਚ ਤਰਜੀਹ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਸਮਰੱਥਾ ਅਤਿ-ਆਧੁਨਿਕ ਸਿਸਟਮਾਂ ਲਈ ਇੱਕ ਨਾਜ਼ੁਕ ਸੁਰੱਖਿਆ ਹੈ, ਜਿੱਥੇ ਸਾਰੇ ਰਿਸਕਾਂ ਦਾ ਪੂਰਾ ਅਨੁਮਾਨ ਨਹੀਂ ਲਗਾਇਆ ਜਾ ਸਕਦਾ. ਅਸੀਂ ਅੰਦਰੂਨੀ ਉਪਾਅ ਬਣਾਉਂਦੇ ਹਾਂ ਜੋ ਅਣਉਮੀਦ ਦੁਰਉਪਯੋਗ ਦੇ ਰੂਪਾਂ ਨੂੰ ਪਛਾਣਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ, ਉਨ੍ਹਾਂ ਦਾ ਜਵਾਬ ਦੇਣ ਲਈ ਪ੍ਰਕਿਰਿਆਵਾਂ ਰੱਖਦੇ ਹਾਂ, ਅਤੇ ਸਿੱਖਿਆ ਨੂੰ ਸਾਡੀਆਂ ਵਰਤੋਂ ਨੀਤੀਆਂ, ਸੁਰੱਖਿਆ ਸਿਸਟਮਾਂ ਅਤੇ ਮਾਡਲ ਆਉਟਪੁੱਟ ਨੂੰ ਸੁਧਾਰਣ ਲਈ ਵਰਤਦੇ ਹਾਂ. ਕਿਸੇ ਸਿਸਟਮ ਨੂੰ ਜਾਰੀ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਅਸੀਂ ਦੁਰਉਪਯੋਗ ਜਾਂ ਅਣਅਨੁਮਾਨਿਤ ਰਿਸਕਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਲਈ ਸਰਗਰਮ ਜਾਂਚ, ਨਿਗਰਾਨੀ ਅਤੇ ਆਉਣ ਵਾਲੀਆਂ ਰਿਪੋਰਟਾਂ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਾਂ. ਫਿਰ ਅਸੀਂ ਨੀਤੀ ਅਤੇ ਤਕਨੀਕੀ ਹੱਲਾਂ ਰਾਹੀਂ ਸਾਹਮਣੇ ਆਏ ਮੁੱਦਿਆਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਅਤੇ ਕਦਮਬੰਦ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰਨ ਦਾ ਲੱਖਯ ਰੱਖਦੇ ਹਾਂ. ਅਸੀਂ ਆਪਣੇ ਓਪਰੇਸ਼ਨਾਂ ਨੂੰ ਹੋਰ ਫੈਲਾ ਰਹੇ ਹਾਂ ਅਤੇ ਜਵਾਬੀ ਸਮਾਂ ਘਟਾ ਰਹੇ ਹਾਂ.

ਮਾਡਲ weights ਦੀ ਸੁਰੱਖਿਆ ਸਮੇਤ ਸੁਰੱਖਿਆ ਕੰਟਰੋਲ

ਅਸੀਂ OpenAI ਦੀ ਤਕਨਾਲੋਜੀ, ਬੌਧਿਕ ਸੰਪਤੀ ਅਤੇ ਡਾਟਾ ਦੀ ਸੁਰੱਖਿਆ ਲਈ ਮਹੱਤਵਪੂਰਨ ਸਰੋਤ ਸਮਰਪਿਤ ਕਰਦੇ ਹਾਂ.

ਅਸੀਂ ਆਪਣੇ ਸਭ ਤੋਂ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਮਾਡਲਾਂ ਨੂੰ ਸੇਵਾਵਾਂ ਵਜੋਂ ਤਾਇਨਾਤ ਕਰਦੇ ਹਾਂ. ਅਸੀਂ ਅਜੇਹੇ ਮਾਡਲਾਂ ਦੇ weights ਨੂੰ OpenAI ਅਤੇ ਸਾਡੇ ਤਕਨਾਲੋਜੀ ਭਾਗੀਦਾਰ Microsoft ਤੋਂ ਬਾਹਰ ਵੰਡਦੇ ਨਹੀਂ, ਅਤੇ ਅਸੀਂ ਆਪਣੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਮਾਡਲਾਂ ਤੱਕ ਤੀਜੇ ਪੱਖ ਦੀ ਪਹੁੰਚ API ਰਾਹੀਂ ਦਿੰਦੇ ਹਾਂ, ਤਾਂ ਜੋ ਮਾਡਲ weights, source code ਅਤੇ ਹੋਰ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਨਿਯੰਤਰਿਤ ਰਹੇ.

ਅਸੀਂ ਨਿੱਜੀ ਜਾਣਕਾਰੀ ਦੇ ਨੁਕਸਾਨ, ਦੁਰਉਪਯੋਗ ਅਤੇ ਬਿਨਾਂ ਅਨੁਮਤੀ ਪਹੁੰਚ ਨੂੰ ਰੋਕਣ ਲਈ ਵਪਾਰਕ ਤੌਰ ਤੇ ਉਚਿਤ ਤਕਨੀਕੀ, ਪ੍ਰਸ਼ਾਸਕੀ ਅਤੇ ਸੰਗਠਨਾਤਮਕ ਉਪਾਅ ਵੀ ਲਾਗੂ ਕਰਦੇ ਹਾਂ. ਇਸ ਵਿੱਚ ਸਾਡੇ ਸੁਰੱਖਿਆ ਪ੍ਰੋਗ੍ਰਾਮ ਦੀ ਤੀਜੇ ਪੱਖ ਵੱਲੋਂ ਆਡਿਟ ਕਰਵਾਉਣਾ ਸ਼ਾਮਲ ਹੈ, ਜਿਸ ਵਿੱਚ SOC 2 Type 2 ਵੀ ਸ਼ਾਮਲ ਹੈ. ਅਸੀਂ ਇੱਕ ਬੱਗ ਬਾਊਂਟੀ ਪ੍ਰੋਗ੍ਰਾਮ ਵੀ ਸ਼ੁਰੂ ਕੀਤਾ ਹੈ ਜੋ ਸੁਤੰਤਰ ਖੋਜਕਰਤਿਆਂ ਨੂੰ ਸਾਡੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਕਮਜ਼ੋਰੀਆਂ ਦੀ ਰਿਪੋਰਟ ਕਰਨ ਲਈ ਨਕਦ ਇਨਾਮਾਂ ਦੇ ਬਦਲੇ ਸੱਦਾ ਦਿੰਦਾ ਹੈ. ਸਾਡਾ ਟਰਸਟ ਪੋਰਟਲ ਗਾਹਕਾਂ ਅਤੇ ਹੋਰ ਹਿਤਧਾਰਕਾਂ ਨੂੰ ਸਾਡੇ ਸੁਰੱਖਿਆ ਕੰਟਰੋਲਾਂ ਅਤੇ ਆਡਿਟ ਰਿਪੋਰਟਾਂ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ. ਸਾਡੇ ਸਾਇਬਰਸੁਰੱਖਿਆ ਯਤਨਾਂ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਨਿਯਮਿਤ ਤੌਰ ਤੇ ਅੰਦਰੂਨੀ ਅਤੇ ਤੀਜੇ ਪੱਖ ਵੱਲੋਂ penetration testing ਕਰਦੇ ਹਾਂ, ਅਤੇ ਆਪਣੇ ਸੁਰੱਖਿਆ ਕੰਟਰੋਲਾਂ ਦੀ ਉਚਿਤਤਾ ਅਤੇ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਦਾ ਆਡਿਟ ਕਰਦੇ ਹਾਂ.

AI-ਜਨਰੇਟ ਕੀਤੀ ਸਮੱਗਰੀ ਦੇ ਪਛਾਣ-ਚਿੰਨ੍ਹ

ਅਸੀਂ provenance ਲਈ ਇੱਕ ਤਕਨੀਕੀ ਪਹੁੰਚ ਵਿਕਸਿਤ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਸਾਡੇ ਮਾਡਲਾਂ ਦੁਆਰਾ ਬਣਾਈ ਗਈ ਆਡੀਓਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਮਿਲ ਸਕੇ. ਜਦੋਂ ਇਹ ਪਹੁੰਚ ਵਿਕਸਿਤ ਹੋ ਜਾਏਗੀ, ਅਸੀਂ ਇਸਨੂੰ ਆਪਣੇ ਨਵੇਂ ਅਤਿ-ਆਧੁਨਿਕ ਸਿਸਟਮਾਂ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ ਤੇ ਤਾਇਨਾਤ ਕਰਾਂਗੇ. ਅਸੀਂ provenance ਦੀਆਂ ਕਈ ਤਕਨੀਕਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਹਰ ਇੱਕ ਦੇ ਵੱਖਰੇ ਫਾਇਦੇ ਅਤੇ ਨੁਕਸਾਨ ਹਨ, ਅਤੇ ਜੋ ਵਿਆਪਕ ਤੌਰ ਤੇ ਤਿੰਨ ਵਰਗਾਂ ਵਿੱਚ ਆਉਂਦੀਆਂ ਹਨ: watermarking, classifiers, metadata-based approaches.

ਸਾਡੀਆਂ ਸਵੈਛਿਕ ਵਚਨਬੱਧਤਾਵਾਂ ਕਰਨ ਤੋਂ ਬਾਅਦ ਤੋਂ, ਅਸੀਂ ਇੱਕ provenance classifier ਤੇ ਖੋਜ ਅਤੇ ਟੈਸਟਿੰਗ ਕਰ ਰਹੇ ਹਾਂ ਜੋ ਸਾਨੂੰ ਇਹ ਪਛਾਣਣ ਵਿੱਚ ਮਦਦ ਕਰੇ ਕਿ ਕੋਈ ਤਸਵੀਰ DALL·E 3 ਦੁਆਰਾ ਜਨਰੇਟ ਕੀਤੀ ਗਈ ਸੀ ਜਾਂ ਨਹੀਂ. ਅਸੀਂ ਇਸ ਵੇਲੇ ਇਸ ਦਾ ਅੰਦਰੂਨੀ ਮੁਲਾਂਕਣ ਕਰ ਰਹੇ ਹਾਂ ਅਤੇ DALL·E 3 ਰਿਲੀਜ਼ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਇੱਕ ਜਨਤਕ ਅੱਪਡੇਟ ਵੀ ਦਿੱਤਾ ਸੀ.

ਡਾਟਾ ਇਨਪੁੱਟ ਕੰਟਰੋਲ ਅਤੇ ਆਡਿਟ

OpenAI ਦੇ large language models, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਉਹ ਮਾਡਲ ਵੀ ਸ਼ਾਮਲ ਹਨ ਜੋ ChatGPT ਨੂੰ ਚਲਾਉਂਦੇ ਹਨ, ਜਾਣਕਾਰੀ ਦੇ ਤਿੰਨ ਮੁੱਖ ਸਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਨਾਲ ਵਿਕਸਿਤ ਕੀਤੇ ਜਾਂਦੇ ਹਨ: (1) ਉਹ ਜਾਣਕਾਰੀ ਜੋ ਇੰਟਰਨੈੱਟ ਤੇ ਜਨਤਕ ਤੌਰ ਤੇ ਉਪਲਬਧ ਹੈ, (2) ਉਹ ਜਾਣਕਾਰੀ ਜੋ ਅਸੀਂ ਤੀਜੇ ਪੱਖਾਂ ਤੋਂ ਲਾਇਸੰਸ ਕਰਦੇ ਹਾਂ, ਅਤੇ (3) ਉਹ ਜਾਣਕਾਰੀ ਜੋ ਸਾਡੇ ਵਰਤੋਂਕਾਰ ਜਾਂ ਸਾਡੇ ਮਨੁੱਖੀ ਟ੍ਰੇਨਰ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ.

ਸਾਡੇ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਦਾ ਵੱਡਾ ਹਿੱਸਾ ਜਨਤਕ ਤੌਰ ਤੇ ਉਪਲਬਧ ਜਾਣਕਾਰੀ ਤੋਂ ਆਉਂਦਾ ਹੈ ਜੋ ਇੰਟਰਨੈੱਟ ਤੇ ਖੁੱਲ੍ਹੇ ਅਤੇ ਮੁਫ਼ਤ ਰੂਪ ਵਿੱਚ ਉਪਲਬਧ ਹੈ. ਉਦਾਹਰਨ ਲਈ, ਅਸੀਂ paywalls ਦੇ ਪਿੱਛੇ ਜਾਂ “deep web” ਤੋਂ ਜਾਣਕਾਰੀ ਨਹੀਂ ਲੱਭਦੇ. ਅਸੀਂ filters ਲਾਗੂ ਕਰਦੇ ਹਾਂ ਅਤੇ ਕੁਝ ਡਾਟਾ ਹਟਾਉਂਦੇ ਹਾਂ ਜਿਨ੍ਹਾਂ ਤੋਂ ਅਸੀਂ ਨਹੀਂ ਚਾਹੁੰਦੇ ਕਿ ਸਾਡੇ ਮਾਡਲ ਸਿੱਖਣ ਜਾਂ ਆਉਟਪੁੱਟ ਕਰਨ, ਜਿਵੇਂ hate speech, adult content, ਉਹ sites ਜੋ ਮੁੱਖ ਤੌਰ ਤੇ ਨਿੱਜੀ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ spam.

ਅਸੀਂ ਅਜਿਹੇ ਉਪਾਅ ਵੀ ਲਾਗੂ ਕੀਤੇ ਹਨ ਜੋ creators, rightsholders ਅਤੇ website operators ਨੂੰ ਉਸ ਸਮੱਗਰੀ ਬਾਰੇ AI ਟ੍ਰੇਨਿੰਗ ਸੰਬੰਧੀ ਆਪਣੀਆਂ ਪਸੰਦਾਂ ਦਰਸਾਉਣ ਦੀ ਸਹੂਲਤ ਦਿੰਦੇ ਹਨ ਜਿਸ ਦੇ ਉਹ ਮਾਲਕ ਹਨ ਜਾਂ ਜਿਸ ਤੇ ਉਹਨਾਂ ਦਾ ਨਿਯੰਤਰਣ ਹੈ. ਉਦਾਹਰਨ ਲਈ, OpenAI ਨੇ website operators ਲਈ robots.txt web standard ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹੋਏ ਆਪਣੀ ਸਮੱਗਰੀ ਨੂੰ OpenAI ਦੇ “GPTBot” web crawler ਦੁਆਰਾ ਐਕਸੈੱਸ ਕੀਤੇ ਜਾਣ ਤੋਂ ਬਾਹਰ ਰੱਖਣ ਦਾ ਇੱਕ ਆਸਾਨ ਤਰੀਕਾ ਲਾਗੂ ਕੀਤਾ ਹੈ. ਇਸੇ ਤਰ੍ਹਾਂ, OpenAI ਨੇ ਉਹ user-agent-string (“ChatGPT‑user”) ਵੀ ਦਸਤਾਵੇਜ਼ਬੱਧ ਕੀਤਾ ਹੈ ਜੋ ChatGPT ਅਤੇ ChatGPT plugins websites ਤੱਕ ਪਹੁੰਚ ਲਈ ਵਰਤਦੇ ਹਨ, ਤਾਂ ਜੋ site operators ਇਨ੍ਹਾਂ ਉਦੇਸ਼ਾਂ ਲਈ ਪਹੁੰਚ ਨੂੰ ਰੋਕ ਸਕਣ. ਅਸੀਂ online ਇਹ ਹਦਾਇਤਾਂ ਦਿੰਦੇ ਹਾਂ ਕਿ ਕਿਸੇ ਇੱਕ bot ਨੂੰ sites ਤੱਕ ਪਹੁੰਚ ਤੋਂ ਕਿਵੇਂ ਰੋਕਿਆ ਜਾਵੇ. ਅਸੀਂ image creators ਨੂੰ ਸਾਡੇ ਭਵਿੱਖ ਦੇ DALL-E ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਮਾਡਲਾਂ ਦੀ ਟ੍ਰੇਨਿੰਗ ਤੋਂ ਆਪਣੀ ਸਮੱਗਰੀ ਬਾਹਰ ਰੱਖਣ ਲਈ ਇੱਕ self-service form⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਵੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਾਂ.