ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

22 ਦਸੰਬਰ 2025

ਸੁਰੱਖਿਆ

ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲਿਆਂ ਵਿਰੁੱਧ ChatGPT Atlas ਨੂੰ ਲਗਾਤਾਰ ਮਜ਼ਬੂਤ ਬਣਾਉਣਾ

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਾਲ ਸੰਚਾਲਿਤ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਸਾਨੂੰ ਅਸਲ ਦੁਨੀਆ ਦੇ ਏਜੰਟ exploits ਨੂੰ ਖੁੱਲ੍ਹੇ ਤੌਰ 'ਤੇ ਹਥਿਆਰ ਬਣਨ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਸਰਗਰਮ ਢੰਗ ਨਾਲ ਲੱਭਣ ਅਤੇ ਪੈਚ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ChatGPT Atlas ਵਿੱਚ ਏਜੰਟ ਮੋਡ ਅੱਜ ਤੱਕ ਜਾਰੀ ਕੀਤੀਆਂ ਸਾਡੀਆਂ ਸਭ ਤੋਂ ਆਮ-ਉਦੇਸ਼ੀਏ ਏਜੰਟਿਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਇਸ ਮੋਡ ਵਿੱਚ, browser ਏਜੰਟ ਵੈੱਬਪੇਜ ਵੇਖਦਾ ਹੈ ਅਤੇ ਤੁਹਾਡੇ browser ਦੇ ਅੰਦਰ ਠੀਕ ਤੁਹਾਡੇ ਵਾਂਗ ਕਾਰਵਾਈਆਂ, clicks ਅਤੇ keystrokes ਕਰਦਾ ਹੈ। ਇਸ ਨਾਲ ChatGPT ਤੁਹਾਡੀ ਰੋਜ਼ਾਨਾ ਦੀਆਂ ਕਈ workflows 'ਤੇ ਉਸੇ space, context ਅਤੇ data ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਿੱਧਾ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ.

ਜਿਵੇਂ browser ਏਜੰਟ ਤੁਹਾਨੂੰ ਹੋਰ ਕੰਮ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਇਹ ਵਿਰੋਧੀ ਹਮਲਿਆਂ ਲਈ ਹੋਰ ਉੱਚ-ਮੁੱਲ ਵਾਲਾ ਨਿਸ਼ਾਨਾ ਵੀ ਬਣ ਜਾਂਦਾ ਹੈ। ਇਸ ਕਰਕੇ AI ਸੁਰੱਖਿਆ ਖਾਸ ਤੌਰ 'ਤੇ ਮਹੱਤਵਪੂਰਣ ਬਣ ਜਾਂਦੀ ਹੈ। ChatGPT Atlas ਲਾਂਚ ਕਰਨ ਤੋਂ ਕਾਫੀ ਪਹਿਲਾਂ ਹੀ, ਅਸੀਂ ਨਵੀਆਂ ਉੱਭਰਦੀਆਂ ਧਮਕੀਆਂ ਵਿਰੁੱਧ ਰੱਖਿਆ ਬਣਾਉਣ ਅਤੇ ਮਜ਼ਬੂਤ ਕਰਨ ਦਾ ਕੰਮ ਲਗਾਤਾਰ ਕਰ ਰਹੇ ਸੀ, ਜੋ ਖਾਸ ਤੌਰ 'ਤੇ browser ਦੇ ਅੰਦਰਲੇ ਇਸ ਨਵੇਂ “browser ਵਿੱਚ ਏਜੰਟ” ਪੈਰਾਡਾਈਮ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੀਆਂ ਹਨ। ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਉਹਨਾਂ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਣ ਖਤਰਿਆਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿਰੁੱਧ ਅਸੀਂ ਸਰਗਰਮੀ ਨਾਲ ਰੱਖਿਆ ਕਰਦੇ ਹਾਂ, ਤਾਂ ਜੋ ChatGPT Atlas ਤੁਹਾਡੇ ਵੱਲੋਂ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰ ਸਕੇ.

ਇਸ ਯਤਨ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, ਅਸੀਂ ਹਾਲ ਹੀ ਵਿੱਚ Atlas ਦੇ browser ਏਜੰਟ ਲਈ ਇੱਕ ਸੁਰੱਖਿਆ ਅੱਪਡੇਟ ਜਾਰੀ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਨਵਾਂ adversarially trained ਮਾਡਲ ਅਤੇ ਆਸ-ਪਾਸ ਦੀਆਂ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆਵਾਂ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਅੱਪਡੇਟ ਸਾਡੀ ਅੰਦਰੂਨੀ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਰਾਹੀਂ ਸਾਹਮਣੇ ਆਈ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲਿਆਂ ਦੀ ਨਵੀਂ ਕਿਸਮ ਕਾਰਨ ਪ੍ਰੇਰਿਤ ਸੀ.

ਇਸ ਪੋਸਟ ਵਿੱਚ, ਅਸੀਂ ਦੱਸਦੇ ਹਾਂ ਕਿ ਵੈੱਬ-ਅਧਾਰਿਤ ਏਜੰਟਾਂ ਲਈ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਦਾ ਖਤਰਾ ਕਿਵੇਂ ਪੈਦਾ ਹੋ ਸਕਦਾ ਹੈ, ਅਤੇ ਅਸੀਂ ਇੱਕ ਤੇਜ਼ ਜਵਾਬੀ ਲੂਪ ਸਾਂਝਾ ਕਰਦੇ ਹਾਂ ਜੋ ਅਸੀਂ ਨਵੇਂ ਹਮਲੇ ਲਗਾਤਾਰ ਲੱਭਣ ਅਤੇ ਫੌਰੀ mitigation ਜਾਰੀ ਕਰਨ ਲਈ ਤਿਆਰ ਕਰ ਰਹੇ ਹਾਂ—ਜਿਸ ਨੂੰ ਇਸ ਹਾਲੀਆ ਸੁਰੱਖਿਆ ਅੱਪਡੇਟ ਨਾਲ ਦਰਸਾਇਆ ਗਿਆ ਹੈ.

ਅਸੀਂ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੀ AI ਸੁਰੱਖਿਆ ਚੁਣੌਤੀ ਮੰਨਦੇ ਹਾਂ, ਅਤੇ ਸਾਨੂੰ ਇਸ ਦੇ ਵਿਰੁੱਧ ਆਪਣੀਆਂ ਰੱਖਿਆਵਾਂ ਨੂੰ ਲਗਾਤਾਰ ਮਜ਼ਬੂਤ ਕਰਨਾ ਪਵੇਗਾ, ਬਿਲਕੁਲ ਉਹਨਾਂ ਆਨਲਾਈਨ ਠੱਗੀਆਂ ਵਾਂਗ ਜੋ ਮਨੁੱਖਾਂ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦੀਆਂ ਹੋਈਆਂ ਲਗਾਤਾਰ ਬਦਲਦੀਆਂ ਰਹਿੰਦੀਆਂ ਹਨ। ਸਾਡਾ ਸਭ ਤੋਂ ਨਵਾਂ ਤੇਜ਼ ਜਵਾਬੀ ਚੱਕਰ ਇਸ ਯਾਤਰਾ ਵਿੱਚ ਇੱਕ ਨਾਜ਼ੁਕ ਸੰਦ ਵਜੋਂ ਸ਼ੁਰੂਆਤੀ ਹੌਸਲਾ-ਅਫਜ਼ਾਈ ਦਿਖਾ ਰਿਹਾ ਹੈ: ਅਸੀਂ ਜੰਗਲੀ ਮਾਹੌਲ ਵਿੱਚ ਦਿਖਾਈ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਹੀ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਨਵੀਆਂ ਹਮਲਾ ਰਣਨੀਤੀਆਂ ਲੱਭ ਰਹੇ ਹਾਂ। ਸਾਡਾ ਲੰਬੇ ਸਮੇਂ ਦਾ ਵਿਜ਼ਨ ਇਹ ਹੈ ਕਿ (1) ਸਾਡੇ ਮਾਡਲਾਂ ਤੱਕ white-box ਪਹੁੰਚ, (2) ਸਾਡੀਆਂ ਰੱਖਿਆਵਾਂ ਦੀ ਡੂੰਘੀ ਸਮਝ, ਅਤੇ (3) compute scale ਦਾ ਪੂਰਾ ਲਾਭ ਲੈ ਕੇ ਬਾਹਰੀ ਹਮਲਾਵਰਾਂ ਤੋਂ ਅੱਗੇ ਰਹੀਏ—exploit ਹੋਰ ਜਲਦੀ ਲੱਭੀਏ, mitigation ਹੋਰ ਤੇਜ਼ੀ ਨਾਲ ਜਾਰੀ ਕਰੀਏ, ਅਤੇ ਇਸ ਲੂਪ ਨੂੰ ਲਗਾਤਾਰ ਤੰਗ ਕਰੀਏ। ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਨਵੀਆਂ ਤਕਨੀਕਾਂ 'ਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਖੋਜ ਅਤੇ ਹੋਰ ਸੁਰੱਖਿਆ ਨਿਯੰਤਰਣਾਂ ਵਿੱਚ ਵਧੇਰੇ ਨਿਵੇਸ਼ ਨਾਲ ਮਿਲ ਕੇ, ਇਹ ਸੰਯੁਕਤ ਚੱਕਰ ਹਮਲਿਆਂ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਮੁਸ਼ਕਲ ਅਤੇ ਮਹਿੰਗਾ ਬਣਾ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਅਸਲ ਦੁਨੀਆ ਦੇ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਖਤਰੇ ਵਿੱਚ ਠੋਸ ਘਟਾਓ ਆ ਸਕਦਾ ਹੈ। ਆਖਿਰਕਾਰ, ਸਾਡਾ ਲਕਸ਼ ਇਹ ਹੈ ਕਿ ਤੁਸੀਂ ChatGPT ਏਜੰਟ 'ਤੇ ਆਪਣੇ browser ਨੂੰ ਉਸੇ ਤਰ੍ਹਾਂ ਵਰਤਣ ਲਈ ਭਰੋਸਾ ਕਰ ਸਕੋ, ਜਿਵੇਂ ਤੁਸੀਂ ਕਿਸੇ ਬਹੁਤ ਸਮਰੱਥ ਅਤੇ ਸੁਰੱਖਿਆ-ਸਚੇਤ ਸਹਿਕਰਮੀ ਜਾਂ ਦੋਸਤ 'ਤੇ ਕਰਦੇ ਹੋ.

ਏਜੰਟ ਸੁਰੱਖਿਆ ਲਈ ਖੁੱਲ੍ਹੀ ਚੁਣੌਤੀ ਵਜੋਂ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ

ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲਾ AI ਏਜੰਟਾਂ ਨੂੰ ਉਸ ਸਮੱਗਰੀ ਵਿੱਚ ਦੁਰਭਾਵਨਾਪੂਰਣ ਹਦਾਇਤਾਂ ਸਮਾਈਆਂ ਹੋਈਆਂ ਦੇ ਕੇ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਸ ਨੂੰ ਏਜੰਟ ਪ੍ਰਕਿਰਿਆ ਕਰਦਾ ਹੈ। ਉਹ ਹਦਾਇਤਾਂ ਏਜੰਟ ਦੇ ਵਿਵਹਾਰ ਨੂੰ override ਜਾਂ redirect ਕਰਨ ਲਈ ਬਣਾਈਆਂ ਜਾਂਦੀਆਂ ਹਨ—ਤਾਂ ਜੋ ਉਹ ਉਪਭੋਗਤਾ ਦੀ ਬਜਾਏ ਹਮਲਾਵਰ ਦੇ ਮਨਸੂਬੇ ਦੀ ਪਾਲਣਾ ਕਰੇ.

ChatGPT Atlas ਦੇ ਅੰਦਰਲੇ browser ਏਜੰਟ ਵਰਗੇ ਏਜੰਟ ਲਈ, ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਰਵਾਇਤੀ ਵੈੱਬ ਸੁਰੱਖਿਆ ਖਤਰਿਆਂ, ਜਿਵੇਂ ਉਪਭੋਗਤਾ ਗਲਤੀ ਜਾਂ software vulnerabilities, ਤੋਂ ਅੱਗੇ ਇੱਕ ਨਵਾਂ threat vector ਜੋੜਦਾ ਹੈ। ਮਨੁੱਖਾਂ ਨੂੰ phishing ਕਰਨ ਜਾਂ browser ਦੀਆਂ ਸਿਸਟਮ ਕਮਜ਼ੋਰੀਆਂ ਦਾ ਫਾਇਦਾ ਚੁੱਕਣ ਦੀ ਬਜਾਏ, ਹਮਲਾਵਰ ਉਸ ਦੇ ਅੰਦਰ ਕੰਮ ਕਰਦੇ ਏਜੰਟ ਨੂੰ ਨਿਸ਼ਾਨਾ ਬਣਾਉਂਦਾ ਹੈ.

ਇੱਕ ਕਲਪਨਾਤਮਕ ਉਦਾਹਰਣ ਵਜੋਂ, ਹਮਲਾਵਰ ਇੱਕ ਦੁਰਭਾਵਨਾਪੂਰਣ ਈਮੇਲ ਭੇਜ ਸਕਦਾ ਹੈ ਜੋ ਏਜੰਟ ਨੂੰ ਉਪਭੋਗਤਾ ਦੀ ਬੇਨਤੀ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨ ਅਤੇ ਇਸ ਦੀ ਥਾਂ ਸੰਵੇਦਨਸ਼ੀਲ tax documents ਹਮਲਾਵਰ-ਨਿਯੰਤਰਿਤ ਈਮੇਲ ਪਤੇ 'ਤੇ ਭੇਜਣ ਲਈ ਫਸਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੇ। ਜੇ ਉਪਭੋਗਤਾ ਏਜੰਟ ਨੂੰ ਨਾ-ਪੜ੍ਹੀਆਂ ਈਮੇਲਾਂ ਦੀ ਸਮੀਖਿਆ ਕਰਨ ਅਤੇ ਮੁੱਖ ਬਿੰਦੂਆਂ ਦਾ ਸਾਰ ਦੇਣ ਲਈ ਕਹਿੰਦਾ ਹੈ, ਤਾਂ workflow ਦੌਰਾਨ ਏਜੰਟ ਉਹ ਦੁਰਭਾਵਨਾਪੂਰਣ ਈਮੇਲ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ। ਜੇ ਇਹ ਸਮਾਈਆਂ ਹਦਾਇਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰ ਲਏ, ਤਾਂ ਇਹ ਮੁੱਖ ਕੰਮ ਤੋਂ ਹਟ ਸਕਦਾ ਹੈ ਅਤੇ ਗਲਤ ਤਰੀਕੇ ਨਾਲ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਸਾਂਝੀ ਕਰ ਸਕਦਾ ਹੈ.

ਇਹ ਸਿਰਫ਼ ਇੱਕ ਖਾਸ ਸਥਿਤੀ ਹੈ। ਉਹੀ ਆਮ-ਉਦੇਸ਼ੀਏ ਸੁਭਾਉ ਜੋ browser ਏਜੰਟਾਂ ਨੂੰ ਲਾਭਦਾਇਕ ਬਣਾਉਂਦਾ ਹੈ, ਖਤਰਿਆਂ ਨੂੰ ਵੀ ਹੋਰ ਵਿਸ਼ਾਲ ਬਣਾਉਂਦਾ ਹੈ: ਏਜੰਟ ਅਸਲ ਵਿੱਚ ਬੇਹੱਦ ਵੱਡੇ ਸਤਹੀ ਖੇਤਰ ਵਿੱਚ ਗੈਰ-ਭਰੋਸੇਯੋਗ ਹਦਾਇਤਾਂ ਨੂੰ ਸਾਹਮਣਾ ਕਰ ਸਕਦਾ ਹੈ—ਈਮੇਲਾਂ ਅਤੇ attachments, calendar invites, shared documents, forums, social media posts, ਅਤੇ ਮਨਮਾਣੀਆਂ webpages। ਕਿਉਂਕਿ ਏਜੰਟ browser ਵਿੱਚ ਉਹਨਾਂ ਬਹੁਤੀਆਂ ਕਾਰਵਾਈਆਂ ਨੂੰ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਉਪਭੋਗਤਾ ਕਰ ਸਕਦਾ ਹੈ, ਇੱਕ ਸਫਲ ਹਮਲੇ ਦਾ ਪ੍ਰਭਾਵ ਵੀ ਕਲਪਨਾਤਮਕ ਤੌਰ 'ਤੇ ਉਨਾ ਹੀ ਵਿਸ਼ਾਲ ਹੋ ਸਕਦਾ ਹੈ: ਸੰਵੇਦਨਸ਼ੀਲ ਈਮੇਲ ਅੱਗੇ ਭੇਜਣਾ, ਪੈਸੇ ਭੇਜਣਾ, cloud ਵਿੱਚ ਫਾਈਲਾਂ ਸੰਪਾਦਿਤ ਜਾਂ ਮਿਟਾਉਣਾ, ਅਤੇ ਹੋਰ ਬਹੁਤ ਕੁਝ.

ਜਿਵੇਂ ਅਸੀਂ ਇੱਕ ਪਹਿਲੀ ਪੋਸਟ ਵਿੱਚ ਸਾਂਝਾ ਕੀਤਾ ਸੀ, ਅਸੀਂ ਸੁਰੱਖਿਆ ਦੀਆਂ ਕਈ ਪਰਤਾਂ ਰਾਹੀਂ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਤੋਂ ਬਚਾਅ ਵਿੱਚ ਤਰੱਕੀ ਕੀਤੀ ਹੈ। ਫਿਰ ਵੀ, ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਏਜੰਟ ਸੁਰੱਖਿਆ ਲਈ ਇੱਕ ਖੁੱਲ੍ਹੀ ਚੁਣੌਤੀ ਬਣੀ ਹੋਈ ਹੈ, ਅਤੇ ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਆਉਣ ਵਾਲੇ ਸਾਲਾਂ ਤੱਕ ਇਸ 'ਤੇ ਕੰਮ ਜਾਰੀ ਰੱਖਾਂਗੇ.

ਐਂਡ-ਟੂ-ਐਂਡ ਅਤੇ ਉੱਚ-compute ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਰਾਹੀਂ ਆਟੋਮੇਟਡ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲਾ ਖੋਜ

ਸਾਡੀਆਂ ਰੱਖਿਆਵਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ, ਅਸੀਂ production ਵਿੱਚ ਮੌਜੂਦ ਏਜੰਟ ਸਿਸਟਮਾਂ ਵਿਰੁੱਧ ਨਵੇਂ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲੇ ਲਗਾਤਾਰ ਲੱਭ ਰਹੇ ਹਾਂ। ਇਹ ਹਮਲੇ ਲੱਭਣਾ ਮਜ਼ਬੂਤ mitigation ਬਣਾਉਣ ਲਈ ਲਾਜ਼ਮੀ ਪੂਰਵ-ਸ਼ਰਤ ਹੈ: ਇਹ ਸਾਨੂੰ ਅਸਲ ਦੁਨੀਆ ਦੇ ਖਤਰੇ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ, ਸਾਡੀਆਂ ਰੱਖਿਆਵਾਂ ਵਿੱਚ ਖਾਮੀਆਂ ਬਾਹਰ ਲਿਆਉਂਦਾ ਹੈ, ਅਤੇ ਠੋਸ patches ਨੂੰ ਅੱਗੇ ਵਧਾਉਂਦਾ ਹੈ.

ਇਸ ਨੂੰ ਵੱਡੇ ਪੱਧਰ 'ਤੇ ਕਰਨ ਲਈ, ਅਸੀਂ ਇੱਕ LLM-ਆਧਾਰਿਤ ਆਟੋਮੇਟਡ ਹਮਲਾਵਰ ਬਣਾਇਆ ਅਤੇ ਇਸ ਨੂੰ ਉਹ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲੇ ਲੱਭਣ ਲਈ ਪ੍ਰਸ਼ਿਕਸ਼ਿਤ ਕੀਤਾ ਜੋ browser ਏਜੰਟ 'ਤੇ ਸਫਲ ਹਮਲਾ ਕਰ ਸਕਣ। ਅਸੀਂ ਇਸ ਹਮਲਾਵਰ ਨੂੰ ਐਂਡ-ਟੂ-ਐਂਡ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨਾਲ ਪ੍ਰਸ਼ਿਕਸ਼ਿਤ ਕੀਤਾ, ਤਾਂ ਜੋ ਇਹ ਆਪਣੀਆਂ ਸਫਲਤਾਵਾਂ ਅਤੇ ਅਸਫਲਤਾਵਾਂ ਤੋਂ ਸਿੱਖ ਕੇ ਆਪਣੀਆਂ ਰੈਡ ਟੀਮਿੰਗ ਕੌਸ਼ਲਾਂ ਨੂੰ ਸੁਧਾਰੇ। ਅਸੀਂ ਇਸ ਨੂੰ “ship ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਆਜ਼ਮਾਉਣ” ਦੀ ਵੀ ਆਗਿਆ ਦਿੱਤੀ। ਇਸ ਦਾ ਅਰਥ ਹੈ ਕਿ ਆਪਣੀ chain of thought ਰੀਜ਼ਨਿੰਗ ਦੌਰਾਨ ਹਮਲਾਵਰ ਇੱਕ candidate injection ਪੇਸ਼ ਕਰ ਸਕਦਾ ਹੈ ਅਤੇ ਇਸ ਨੂੰ ਇੱਕ ਬਾਹਰੀ simulator ਨੂੰ ਭੇਜ ਸਕਦਾ ਹੈ। simulator ਇਸ ਗੱਲ ਦੀ counterfactual rollout ਚਲਾਂਦਾ ਹੈ ਕਿ ਜੇ ਨਿਸ਼ਾਨਾ ਬਣਿਆ victim ਏਜੰਟ, ਯਾਨੀ defender, ਉਸ injection ਦਾ ਸਾਹਮਣਾ ਕਰੇ ਤਾਂ ਉਹ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰੇਗਾ, ਅਤੇ ਇਹ victim ਏਜੰਟ ਦੀ ਪੂਰੀ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਕਾਰਵਾਈ trace ਵਾਪਸ ਕਰਦਾ ਹੈ। ਹਮਲਾਵਰ ਉਸ trace ਨੂੰ feedback ਵਜੋਂ ਵਰਤਦਾ ਹੈ, ਹਮਲੇ 'ਤੇ ਦੁਹਰਾਵ ਕਰਦਾ ਹੈ, ਅਤੇ simulation ਨੂੰ ਮੁੜ ਚਲਾਂਦਾ ਹੈ—ਅੰਤਿਮ ਹਮਲੇ 'ਤੇ ਟਿਕਣ ਤੋਂ ਪਹਿਲਾਂ ਇਹ ਲੂਪ ਕਈ ਵਾਰ ਦੁਹਰਾਉਂਦਾ ਹੈ। ਇਸ ਨਾਲ ਹਮਲਾਵਰ ਨੂੰ ਸਿਰਫ਼ ਇੱਕ pass/fail signal ਨਾਲੋਂ ਹੋਰ ਸਮ੍ਰੱਥ in-context feedback ਮਿਲਦਾ ਹੈ। ਇਹ ਹਮਲਾਵਰ ਦੇ test-time compute ਨੂੰ ਵੀ ਵਧਾਉਂਦਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, defender ਦੀਆਂ reasoning traces ਤੱਕ privileged access, ਜਿਹੜੀਆਂ ਅਸੀਂ ਬਾਹਰੀ ਉਪਭੋਗਤਾਵਾਂ ਨਾਲ ਸਾਂਝੀਆਂ ਨਹੀਂ ਕਰਦੇ, ਸਾਡੇ ਅੰਦਰੂਨੀ ਹਮਲਾਵਰ ਨੂੰ ਇੱਕ ਅਸਮਾਨ ਲਾਭ ਦਿੰਦੀ ਹੈ—ਜਿਸ ਨਾਲ ਇਸ ਦੇ ਬਾਹਰੀ ਵਿਰੋਧੀਆਂ ਤੋਂ ਤੇਜ਼ ਨਿਕਲ ਜਾਣ ਦੀ ਸੰਭਾਵਨਾ ਵਧਦੀ ਹੈ.

ਲਾਈਟ-ਮੋਡ ਵੈੱਬਪੇਜ mockup ਜੋ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਚਮਕੀਲੇ gradient ਪਿਛੋਕੜ 'ਤੇ ਤੈਰਦੀਆਂ ਜਿਓਮੈਟ੍ਰਿਕ ਆਕਰਿਤੀਆਂ ਨਾਲ ਸੰਪਰਕ ਕਰਦਾ ਇੱਕ stylized ਰੋਬੋਟਿਕ ਬਾਂਹ ਹੈ.

ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਕਿਉਂ? ਅਸੀਂ ਆਟੋਮੇਟਡ ਹਮਲਾਵਰ ਨੂੰ ਪ੍ਰਸ਼ਿਕਸ਼ਿਤ ਕਰਨ ਲਈ ਕਈ ਕਾਰਨਾਂ ਕਰਕੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਚੁਣੀ:

  1. ਲੰਬੇ-ਹੋਰਾਈਜ਼ਨ ਅਤੇ ਗੈਰ-ਨਿਰੰਤਰ ਹਮਲਾਵਰ ਉਦੇਸ਼ਾਂ ਦਾ ਅਪਟੀਮਾਈਜ਼ੇਸ਼ਨ. ਸਾਡਾ ਲਕਸ਼ ਉਹ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲੇ ਲੱਭਣਾ ਹੈ ਜੋ ਏਜੰਟ ਨੂੰ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਹੋ ਸਕਣ ਵਾਲੇ ਜਟਿਲ ਵਿਰੋਧੀ ਕੰਮ, ਜਿਵੇਂ ਈਮੇਲ ਭੇਜਣਾ ਜਾਂ ਬੈਂਕ ਲੈਣ-ਦੇਣ, ਕਰਨ ਲਈ ਫਸਾ ਸਕਣ। ਇਹ ਵਿਰੋਧੀ ਕੰਮ ਮੂਲ ਤੌਰ 'ਤੇ ਲੰਬੇ-ਹੋਰਾਈਜ਼ਨ ਵਾਲੇ ਹੁੰਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਲਈ ਰੀਜ਼ਨਿੰਗ ਅਤੇ environment ਨਾਲ ਸੰਪਰਕ ਦੇ ਕਈ ਕਦਮ ਲੋੜੀਂਦੇ ਹਨ, ਅਤੇ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸਫਲਤਾ ਦੇ ਸੰਕੇਤ ਛਿੱਟੇ ਅਤੇ ਦੇਰੀ ਨਾਲ ਮਿਲਦੇ ਹਨ। ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਇਸ sparse, delayed reward structure ਲਈ ਬਹੁਤ ਉਚਿਤ ਹੈ.
  2. ਅਤਿ-ਆਧੁਨਿਕ LLM ਸਮਰੱਥਾਵਾਂ ਦਾ ਲਾਭ ਲੈਣਾ. ਅਸੀਂ frontier LLMs ਨੂੰ ਸਿੱਧੇ auto-red-teamers ਵਜੋਂ ਪ੍ਰਸ਼ਿਕਸ਼ਿਤ ਕੀਤਾ, ਤਾਂ ਜੋ ਹਮਲਾਵਰ ਨੂੰ frontier ਮਾਡਲਾਂ ਵਿੱਚ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਯੋਜਨਾ-ਬੰਦੀ ਵਿੱਚ ਹੋ ਰਹੇ ਸੁਧਾਰਾਂ ਦਾ ਸਿੱਧਾ ਲਾਭ ਮਿਲੇ। ਜਿਵੇਂ ਬੇਸ ਮਾਡਲ ਹੋਰ ਮਜ਼ਬੂਤ ਹੁੰਦੇ ਹਨ, ਹਮਲਾਵਰ ਵੀ ਕੁਦਰਤੀ ਤੌਰ 'ਤੇ ਹੋਰ ਸਮਰੱਥ ਬਣ ਜਾਂਦਾ ਹੈ—ਇਸ ਨਾਲ ਇਹ ਸਾਡੀਆਂ ਰੱਖਿਆਵਾਂ 'ਤੇ ਦਬਾਅ ਕਾਇਮ ਰੱਖਣ ਦਾ ਸਕੇਲ ਕਰਨ ਯੋਗ ਤਰੀਕਾ ਬਣਦਾ ਹੈ, ਜਿਵੇਂ ਸਾਡੇ ਮਾਡਲ ਵਿਕਸਤ ਹੁੰਦੇ ਹਨ.
  3. compute ਦਾ ਸਕੇਲ ਵਧਾਉਣਾ ਅਤੇ ਅਨੁਕੂਲਨਸ਼ੀਲ ਹਮਲਾਵਰਾਂ ਦੀ ਨਕਲ ਕਰਨਾ. ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ ਵੱਡੀ ਗਿਣਤੀ ਦੇ samplings ਅਤੇ learning steps ਵਿੱਚ ਹਮਲੇ ਲੱਭਣ 'ਤੇ ਖਰਚ ਕੀਤੀ ਜਾਣ ਵਾਲੀ computation ਨੂੰ ਸਕੇਲ ਕਰਨ ਲਈ ਉਚਿਤ ਹੈ, ਅਤੇ ਇਹ ਇਸ ਗੱਲ ਨੂੰ ਵੀ ਨੇੜੇ ਤੋਂ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਅਨੁਕੂਲਨਸ਼ੀਲ ਮਨੁੱਖੀ ਹਮਲਾਵਰ ਕਿਵੇਂ ਵਿਵਹਾਰ ਕਰਦੇ ਹਨ: ਰਣਨੀਤੀਆਂ ਨੂੰ ਵਾਰ-ਵਾਰ ਆਜ਼ਮਾਉਣਾ, ਨਤੀਜਿਆਂ ਤੋਂ ਸਿੱਖਣਾ, ਅਤੇ ਸਫਲ ਵਿਵਹਾਰਾਂ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ.

ਸਾਡਾ ਆਟੋਮੇਟਡ ਹਮਲਾਵਰ ਨਵੇਂ, ਹਕੀਕਤੀ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲੇ ਐਂਡ-ਟੂ-ਐਂਡ ਲੱਭ ਸਕਦਾ ਹੈ. ਪਿਛਲੇ ਜ਼ਿਆਦਾਤਰ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਕੰਮ ਤੋਂ ਵੱਖਰੇ ਤੌਰ 'ਤੇ, ਜਿਸ ਵਿੱਚ ਏਜੰਟ ਤੋਂ ਖਾਸ output strings ਲਵਾਉਣ ਜਾਂ ਇੱਕ ਅਣਚਾਹੀ single-step tool call trigger ਕਰਨ ਵਰਗੀਆਂ ਸਧਾਰਣ ਅਸਫਲਤਾਵਾਂ ਸਾਹਮਣੇ ਆਈਆਂ, ਸਾਡਾ RL-ਪ੍ਰਸ਼ਿਕਸ਼ਿਤ ਹਮਲਾਵਰ ਏਜੰਟ ਨੂੰ ਦਹਾਕਿਆਂ, ਜਾਂ ਕਈ ਵਾਰ ਸੈਂਕੜਿਆਂ, ਕਦਮਾਂ ਵਿੱਚ ਖੁਲ੍ਹਣ ਵਾਲੀਆਂ ਜਟਿਲ, ਲੰਬੇ-ਹੋਰਾਈਜ਼ਨ ਹਾਨਿਕਾਰਕ workflows ਨੂੰ ਅੰਜਾਮ ਦੇਣ ਵੱਲ ਮੋੜ ਸਕਦਾ ਹੈ। ਅਸੀਂ ਨਵੀਆਂ ਹਮਲਾ ਰਣਨੀਤੀਆਂ ਵੀ ਵੇਖੀਆਂ ਜੋ ਸਾਡੀ ਮਨੁੱਖੀ ਰੈਡ ਟੀਮਿੰਗ ਮੁਹਿੰਮ ਜਾਂ ਬਾਹਰੀ ਰਿਪੋਰਟਾਂ ਵਿੱਚ ਨਹੀਂ ਦਿਖੀਆਂ.

ਹੇਠਾਂ ਦਿੱਤਾ ਡੈਮੋ ਸਾਡੇ ਆਟੋਮੇਟਡ ਹਮਲਾਵਰ ਦੁਆਰਾ ਲੱਭਿਆ ਇੱਕ ਠੋਸ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ exploit ਪੇਸ਼ ਕਰਦਾ ਹੈ, ਜਿਸ ਦੀ ਵਰਤੋਂ ਅਸੀਂ ChatGPT Atlas ਦੀਆਂ ਰੱਖਿਆਵਾਂ ਨੂੰ ਹੋਰ ਮਜ਼ਬੂਤ ਕਰਨ ਲਈ ਕੀਤੀ। ਹਮਲਾਵਰ ਉਪਭੋਗਤਾ ਦੇ inbox ਵਿੱਚ ਇੱਕ ਦੁਰਭਾਵਨਾਪੂਰਣ ਈਮੇਲ ਰੱਖਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਇੱਕ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹੁੰਦਾ ਹੈ ਜੋ ਏਜੰਟ ਨੂੰ ਉਪਭੋਗਤਾ ਦੇ CEO ਨੂੰ ਅਸਤੀਫੇ ਦਾ ਪੱਤਰ ਭੇਜਣ ਲਈ ਕਹਿੰਦਾ ਹੈ। ਬਾਅਦ ਵਿੱਚ, ਜਦੋਂ ਉਪਭੋਗਤਾ ਏਜੰਟ ਨੂੰ ਦਫ਼ਤਰ ਤੋਂ ਬਾਹਰ ਹੋਣ ਦਾ ਜਵਾਬ draft ਕਰਨ ਲਈ ਕਹਿੰਦਾ ਹੈ, ਤਾਂ ਆਮ task execution ਦੌਰਾਨ ਏਜੰਟ ਉਸ ਈਮੇਲ ਨਾਲ ਟਕਰਾਉਂਦਾ ਹੈ, ਸਮਾਈ ਪ੍ਰੌੰਪਟ ਨੂੰ ਅਧਿਕਾਰਤ ਮੰਨਦਾ ਹੈ, ਅਤੇ ਇਸ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ। out-of-office ਕਦੇ ਨਹੀਂ ਲਿਖਿਆ ਜਾਂਦਾ ਅਤੇ ਇਸ ਦੀ ਥਾਂ ਏਜੰਟ ਉਪਭੋਗਤਾ ਦੀ ਥਾਂ ਅਸਤੀਫਾ ਦੇ ਦਿੰਦਾ ਹੈ.

ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਦੀ ਪ੍ਰਕਿਰਤੀ ਨਿਰਧਾਰਿਤ ਸੁਰੱਖਿਆ ਗਾਰੰਟੀਜ਼ ਨੂੰ ਚੁਣੌਤੀਪੂਰਨ ਬਣਾਉਂਦੀ ਹੈ, ਪਰ ਆਪਣੀ ਆਟੋਮੇਟਡ ਸੁਰੱਖਿਆ ਖੋਜ, ਵਿਰੋਧੀ ਟੈਸਟਿੰਗ ਅਤੇ ਤੇਜ਼ ਜਵਾਬੀ ਲੂਪ ਨੂੰ ਕੱਸ ਕੇ ਅਸੀਂ ਮਾਡਲ ਦੀ robustness ਅਤੇ ਰੱਖਿਆਵਾਂ ਨੂੰ ਸੁਧਾਰ ਸਕਦੇ ਹਾਂ - ਜੰਗਲੀ ਮਾਹੌਲ ਵਿੱਚ ਹਮਲਾ ਹੋਣ ਦੀ ਉਡੀਕ ਕੀਤੇ ਬਿਨਾਂ.

ਅਸੀਂ ਇਹ ਡੈਮੋ ਇਸ ਲਈ ਸਾਂਝਾ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਉਪਭੋਗਤਾ ਅਤੇ ਖੋਜਕਾਰ ਇਨ੍ਹਾਂ ਹਮਲਿਆਂ ਦੀ ਪ੍ਰਕਿਰਤੀ ਨੂੰ, ਅਤੇ ਇਹ ਵੀ ਕਿ ਅਸੀਂ ਉਨ੍ਹਾਂ ਦੇ ਵਿਰੁੱਧ ਸਰਗਰਮੀ ਨਾਲ ਕਿਵੇਂ ਰੱਖਿਆ ਕਰ ਰਹੇ ਹਾਂ, ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਮਝ ਸਕਣ। ਸਾਡੇ ਵਿਚਾਰ ਵਿੱਚ ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਕੀ ਹਾਸਲ ਕਰ ਸਕਦੀ ਹੈ, ਅਤੇ ਅਸੀਂ ਆਪਣੀ ਖੋਜ ਜਾਰੀ ਰੱਖਣ ਲਈ ਬਹੁਤ ਉਤਸ਼ਾਹਿਤ ਹਾਂ.

ਪ੍ਰੋਐਕਟਿਵ ਤੇਜ਼ ਜਵਾਬੀ ਲੂਪ ਨਾਲ ChatGPT Atlas ਨੂੰ ਮਜ਼ਬੂਤ ਬਣਾਉਣਾ

ਸਾਡੀ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਇੱਕ ਪ੍ਰੋਐਕਟਿਵ ਤੇਜ਼ ਜਵਾਬੀ ਲੂਪ ਨੂੰ ਚਲਾ ਰਹੀ ਹੈ: ਜਦੋਂ ਆਟੋਮੇਟਡ ਹਮਲਾਵਰ ਸਫਲ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਹਮਲਿਆਂ ਦੀ ਇੱਕ ਨਵੀਂ ਕਿਸਮ ਲੱਭਦਾ ਹੈ, ਤਾਂ ਇਹ ਤੁਰੰਤ ਸਾਡੀਆਂ ਰੱਖਿਆਵਾਂ ਨੂੰ ਸੁਧਾਰਣ ਲਈ ਇੱਕ ਠੋਸ ਨਿਸ਼ਾਨਾ ਤਿਆਰ ਕਰਦਾ ਹੈ.

ਨਵੀਂਆਂ ਲੱਭੀਆਂ ਹਮਲਿਆਂ ਵਿਰੁੱਧ adversarial training. ਅਸੀਂ ਲਗਾਤਾਰ ਅਪਡੇਟ ਕੀਤੇ ਏਜੰਟ ਮਾਡਲਾਂ ਨੂੰ ਆਪਣੇ ਸਭ ਤੋਂ ਵਧੀਆ ਆਟੋਮੇਟਡ ਹਮਲਾਵਰ ਵਿਰੁੱਧ ਪ੍ਰਸ਼ਿਕਸ਼ਿਤ ਕਰਦੇ ਹਾਂ—ਉਹਨਾਂ ਹਮਲਿਆਂ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦਿਆਂ ਜਿੱਥੇ ਨਿਸ਼ਾਨਾ ਬਣੇ ਏਜੰਟ ਇਸ ਵੇਲੇ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਲਕਸ਼ ਏਜੰਟਾਂ ਨੂੰ ਵਿਰੋਧੀ ਹਦਾਇਤਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਅਤੇ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ ਨਾਲ ਸੁਰਖ਼ ਰਹਿਣਾ ਸਿਖਾਉਣਾ ਹੈ, ਜਿਸ ਨਾਲ ਨਵੀਂਆਂ ਲੱਭੀਆਂ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਰਣਨੀਤੀਆਂ ਵਿਰੁੱਧ ਰੋਧਕਤਾ ਸੁਧਰਦੀ ਹੈ। ਇਹ ਨਵੀਂਆਂ, ਉੱਚ-ਤਾਕਤ ਵਾਲੀਆਂ ਹਮਲਿਆਂ ਵਿਰੁੱਧ robustness ਨੂੰ ਸਿੱਧੇ ਮਾਡਲ checkpoint ਵਿੱਚ “burn in” ਕਰ ਦਿੰਦਾ ਹੈ। ਉਦਾਹਰਣ ਵਜੋਂ, ਹਾਲੀਆ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਨੇ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਇੱਕ ਨਵਾਂ adversarially trained browser-agent checkpoint ਤਿਆਰ ਕੀਤਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਹੀ ਸਾਰੇ ChatGPT Atlas ਉਪਭੋਗਤਾਵਾਂ ਲਈ roll out ਕੀਤਾ ਜਾ ਚੁੱਕਾ ਹੈ। ਆਖਿਰਕਾਰ, ਇਹ ਸਾਡੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਨਵੀਆਂ ਕਿਸਮਾਂ ਦੇ ਹਮਲਿਆਂ ਵਿਰੁੱਧ ਹੋਰ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੁਰੱਖਿਅਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ.

ਵਿਸ਼ਾਲ ਰੱਖਿਆ stack ਨੂੰ ਸੁਧਾਰਣ ਲਈ attack traces ਦੀ ਵਰਤੋਂ. ਸਾਡੇ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਰ ਦੁਆਰਾ ਲੱਭੇ ਗਏ ਕਈ attack paths ਸਿਰਫ਼ ਮਾਡਲ ਤੋਂ ਬਾਹਰ ਵੀ ਸੁਧਾਰ ਦੇ ਮੌਕੇ ਵਿਖਾਉਂਦੇ ਹਨ—ਜਿਵੇਂ monitoring, ਮਾਡਲ ਦੇ context ਵਿੱਚ ਦਿੱਤੀਆਂ ਸੁਰੱਖਿਆ ਹਦਾਇਤਾਂ, ਜਾਂ system-level safeguards ਵਿੱਚ। ਉਹ ਨਤੀਜੇ ਸਾਨੂੰ ਸਿਰਫ਼ ਏਜੰਟ checkpoint ਹੀ ਨਹੀਂ, ਪੂਰੇ defense stack 'ਤੇ iteration ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ.

ਸਰਗਰਮ ਹਮਲਿਆਂ ਦਾ ਜਵਾਬ ਦੇਣਾ. ਇਹ ਲੂਪ ਜੰਗਲੀ ਮਾਹੌਲ ਵਿੱਚ ਚੱਲ ਰਹੇ ਹਮਲਿਆਂ ਦਾ ਹੋਰ ਚੰਗਾ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਵੀ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ। ਜਿਵੇਂ ਅਸੀਂ ਆਪਣੇ ਵਿਸ਼ਵ ਪੱਧਰੀ footprint ਵਿੱਚ ਸੰਭਾਵਿਤ ਹਮਲਿਆਂ ਨੂੰ ਵੇਖਦੇ ਹਾਂ, ਅਸੀਂ ਬਾਹਰੀ ਵਿਰੋਧੀਆਂ ਦੀਆਂ ਵੇਖੀਆਂ ਤਕਨੀਕਾਂ ਅਤੇ ਯੁਕਤੀਆਂ ਨੂੰ ਲੈ ਸਕਦੇ ਹਾਂ, ਉਨ੍ਹਾਂ ਨੂੰ ਇਸ ਲੂਪ ਵਿੱਚ ਪਾ ਸਕਦੇ ਹਾਂ, ਉਨ੍ਹਾਂ ਦੀ ਗਤੀਵਿਧੀ ਦੀ ਨਕਲ ਕਰ ਸਕਦੇ ਹਾਂ, ਅਤੇ ਆਪਣੇ ਪਲੇਟਫਾਰਮ ਵਿੱਚ ਰੱਖਿਆਤਮਕ ਬਦਲਾਅ ਚਲਾ ਸਕਦੇ ਹਾਂ.

ਅੱਗੇ ਦੀ ਦਿਸ਼ਾ: ਏਜੰਟ ਸੁਰੱਖਿਆ ਲਈ ਸਾਡੀ ਲੰਬੇ ਸਮੇਂ ਦੀ ਵਚਨਬੱਧਤਾ

ਏਜੰਟਾਂ ਦੀ ਰੈਡ ਟੀਮਿੰਗ ਕਰਨ ਦੀ ਸਾਡੀ ਸਮਰੱਥਾ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ ਅਤੇ ਉਸ ਕੰਮ ਦੇ ਕੁਝ ਹਿੱਸਿਆਂ ਨੂੰ ਆਟੋਮੇਟ ਕਰਨ ਲਈ ਆਪਣੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਨਾ—ਖੋਜ-ਤੋਂ-ਸੁਧਾਰ ਲੂਪ ਨੂੰ ਸਕੇਲ ਕਰਕੇ Atlas browser ਏਜੰਟ ਨੂੰ ਹੋਰ robust ਬਣਾਉਂਦਾ ਹੈ। ਇਹ hardening ਯਤਨ ਸੁਰੱਖਿਆ ਦਾ ਇੱਕ ਜਾਣਿਆ-ਪਛਾਣਿਆ ਸਬਕ ਮਜ਼ਬੂਤ ਕਰਦਾ ਹੈ: ਹੋਰ ਮਜ਼ਬੂਤ ਸੁਰੱਖਿਆ ਵੱਲ ਇੱਕ ਅਜ਼ਮਾਇਆ ਹੋਇਆ ਰਾਹ ਅਸਲ ਸਿਸਟਮਾਂ ਨੂੰ ਲਗਾਤਾਰ ਦਬਾਅ ਹੇਠ ਟੈਸਟ ਕਰਨਾ, ਅਸਫਲਤਾਵਾਂ 'ਤੇ ਪ੍ਰਤੀਕਿਰਿਆ ਦੇਣਾ, ਅਤੇ ਠੋਸ fixes ਜਾਰੀ ਕਰਨਾ ਹੈ.

ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ ਵਿਰੋਧੀ ਲਗਾਤਾਰ ਅਨੁਕੂਲ ਹੋਣਗੇ। ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ, ਵੈੱਬ ਉੱਤੇ scams ਅਤੇ social engineering ਵਾਂਗ, ਸੰਭਵਤ: ਕਦੇ ਵੀ ਪੂਰੀ ਤਰ੍ਹਾਂ “ਹੱਲ” ਨਹੀਂ ਹੋਵੇਗਾ। ਪਰ ਸਾਨੂੰ ਆਸ ਹੈ ਕਿ ਇੱਕ ਪ੍ਰੋਐਕਟਿਵ, ਬਹੁਤ ਤੇਜ਼ ਜਵਾਬ ਦੇਣ ਵਾਲਾ ਤੇਜ਼ ਜਵਾਬੀ ਲੂਪ ਸਮੇਂ ਦੇ ਨਾਲ ਅਸਲ ਦੁਨੀਆ ਦੇ ਖਤਰੇ ਨੂੰ ਠੋਸ ਤੌਰ 'ਤੇ ਘਟਾਉਂਦਾ ਰਹੇਗਾ। ਆਟੋਮੇਟਡ ਹਮਲਾ ਖੋਜ ਨੂੰ adversarial training ਅਤੇ system-level safeguards ਨਾਲ ਜੋੜ ਕੇ, ਅਸੀਂ ਨਵੇਂ ਹਮਲੇ ਦੇ ਪੈਟਰਨ ਹੋਰ ਜਲਦੀ ਪਛਾਣ ਸਕਦੇ ਹਾਂ, ਖਾਮੀਆਂ ਹੋਰ ਤੇਜ਼ੀ ਨਾਲ ਬੰਦ ਕਰ ਸਕਦੇ ਹਾਂ, ਅਤੇ exploitation ਦੀ ਲਾਗਤ ਲਗਾਤਾਰ ਵਧਾ ਸਕਦੇ ਹਾਂ.

ChatGPT Atlas ਵਿੱਚ ਏਜੰਟ ਮੋਡ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੈ—ਅਤੇ ਇਹ ਸੁਰੱਖਿਆ threat surface ਨੂੰ ਵੀ ਵਧਾਉਂਦਾ ਹੈ। ਉਸ tradeoff ਨੂੰ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਦੇਖਣਾ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਨਿਰਮਾਣ ਕਰਨ ਦਾ ਹਿੱਸਾ ਹੈ। ਸਾਡਾ ਲਕਸ਼ Atlas ਨੂੰ ਹਰ iteration ਨਾਲ ਮਾਇਨੇਖੇਜ਼ ਤੌਰ 'ਤੇ ਹੋਰ ਸੁਰੱਖਿਅਤ ਬਣਾਉਣਾ ਹੈ: ਮਾਡਲ robustness ਸੁਧਾਰ ਕੇ, ਆਸ-ਪਾਸ ਦੇ defense stack ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਕੇ, ਅਤੇ ਜੰਗਲੀ ਮਾਹੌਲ ਵਿੱਚ ਉੱਭਰ ਰਹੇ ਦੁਰਵਰਤੋਂ ਦੇ ਪੈਟਰਨਾਂ ਦੀ ਨਿਗਰਾਨੀ ਕਰਕੇ.

ਅਸੀਂ ਖੋਜ ਅਤੇ deployment ਦੋਹਾਂ ਵਿੱਚ ਨਿਵੇਸ਼ ਜਾਰੀ ਰੱਖਾਂਗੇ, ਹੋਰ ਵਧੀਆ ਆਟੋਮੇਟਡ ਰੈਡ ਟੀਮਿੰਗ ਤਰੀਕੇ ਵਿਕਸਿਤ ਕਰਾਂਗੇ, layered mitigations ਜਾਰੀ ਕਰਾਂਗੇ, ਅਤੇ ਸਿੱਖਦੇ ਹੋਏ ਤੇਜ਼ੀ ਨਾਲ iteration ਕਰਾਂਗੇ। ਅਸੀਂ ਵਿਆਪਕ ਭਾਈਚਾਰੇ ਨਾਲ ਜੋ ਕੁਝ ਸਾਂਝਾ ਕਰ ਸਕਦੇ ਹਾਂ, ਉਹ ਵੀ ਕਰਾਂਗੇ.

ਏਜੰਟਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਵਰਤਣ ਲਈ ਸਿਫ਼ਾਰਸ਼ਾਂ

ਜਦੋਂ ਤੱਕ ਅਸੀਂ system level 'ਤੇ Atlas ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਦੇ ਰਹਿੰਦੇ ਹਾਂ, ਉਪਭੋਗਤਾ ਵੀ ਏਜੰਟਾਂ ਦੀ ਵਰਤੋਂ ਦੌਰਾਨ ਖਤਰਾ ਘਟਾਉਣ ਲਈ ਕੁਝ ਕਦਮ ਚੁੱਕ ਸਕਦੇ ਹਨ.

ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ logged-in access ਸੀਮਿਤ ਕਰੋ. ਅਸੀਂ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਅਜੇ ਵੀ ਇਹ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ Atlas ਵਿੱਚ Agent ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ logged-out mode(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦਾ ਲਾਭ ਲੈਣ, ਜਦੋਂ ਉਹਨਾਂ ਵੈੱਬਸਾਈਟਾਂ ਤੱਕ ਪਹੁੰਚ ਕੰਮ ਲਈ ਲਾਜ਼ਮੀ ਨਾ ਹੋਵੇ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਤੁਸੀਂ logged in ਹੋ, ਜਾਂ ਕੰਮ ਦੌਰਾਨ ਸਿਰਫ਼ ਕੁਝ ਖਾਸ sites ਤੱਕ sign-in access ਸੀਮਿਤ ਰੱਖਣ.

ਪੁਸ਼ਟੀ ਬੇਨਤੀਆਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਜਾਂਚੋ. ਕੁਝ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਾਰਵਾਈਆਂ ਲਈ, ਜਿਵੇਂ ਖਰੀਦ ਪੂਰੀ ਕਰਨੀ ਜਾਂ ਈਮੇਲ ਭੇਜਣੀ, ਏਜੰਟਾਂ ਨੂੰ ਅੱਗੇ ਵਧਣ ਤੋਂ ਪਹਿਲਾਂ ਤੁਹਾਡੀ ਪੁਸ਼ਟੀ ਮੰਗਣ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕੋਈ ਏਜੰਟ ਤੁਹਾਨੂੰ ਕਿਸੇ ਕਾਰਵਾਈ ਦੀ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ ਕਹੇ, ਤਾਂ ਇਕ ਪਲ ਕੱਢ ਕੇ ਜਾਂਚ ਕਰੋ ਕਿ ਕਾਰਵਾਈ ਠੀਕ ਹੈ ਅਤੇ ਸਾਂਝੀ ਕੀਤੀ ਜਾ ਰਹੀ ਕੋਈ ਵੀ ਜਾਣਕਾਰੀ ਉਸ ਸੰਦਰਭ ਲਈ ਉਚਿਤ ਹੈ.

ਜਿੱਥੇ ਸੰਭਵ ਹੋਵੇ, ਏਜੰਟਾਂ ਨੂੰ ਸਪਸ਼ਟ ਹਦਾਇਤਾਂ ਦਿਓ. “ਮੇਰੀਆਂ ਈਮੇਲਾਂ ਦੀ ਸਮੀਖਿਆ ਕਰੋ ਅਤੇ ਜੋ ਵੀ ਕਾਰਵਾਈ ਲੋੜੀਂਦੀ ਹੋਵੇ ਕਰ ਦਿਓ” ਵਰਗੇ ਬਹੁਤ ਵਿਸ਼ਾਲ ਪ੍ਰੌੰਪਟਾਂ ਤੋਂ ਬਚੋ। ਬਹੁਤ ਵੱਡੀ ਛੂਟ ਹੋਣ 'ਤੇ ਲੁਕੀ ਹੋਈ ਜਾਂ ਦੁਰਭਾਵਨਾਪੂਰਣ ਸਮੱਗਰੀ ਲਈ ਏਜੰਟ 'ਤੇ ਅਸਰ ਪਾਉਣਾ ਅਸਾਨ ਹੋ ਜਾਂਦਾ ਹੈ, ਭਾਵੇਂ safeguards ਮੌਜੂਦ ਹੋਣ। ਏਜੰਟ ਨੂੰ ਖਾਸ, ਸਪਸ਼ਟ-ਸੀਮਿਤ ਕੰਮ ਕਰਨ ਲਈ ਕਹਿਣਾ ਹੋਰ ਸੁਰੱਖਿਅਤ ਹੈ। ਹਾਲਾਂਕਿ ਇਸ ਨਾਲ ਖਤਰਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਖਤਮ ਨਹੀਂ ਹੁੰਦਾ, ਪਰ ਹਮਲਿਆਂ ਨੂੰ ਅੰਜਾਮ ਦੇਣਾ ਹੋਰ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ.

ਜੇ ਏਜੰਟ ਰੋਜ਼ਾਨਾ ਕੰਮਾਂ ਲਈ ਭਰੋਸੇਯੋਗ ਸਾਥੀ ਬਣਣੇ ਹਨ, ਤਾਂ ਉਨ੍ਹਾਂ ਨੂੰ ਖੁੱਲ੍ਹੇ ਵੈੱਬ ਵੱਲੋਂ ਸੰਭਵ ਬਣਾਈਆਂ ਗਈਆਂ ਹੇਰਾਫੇਰੀਆਂ ਦੇ ਵਿਰੁੱਧ ਲਚਕੀਲਾ ਹੋਣਾ ਲਾਜ਼ਮੀ ਹੈ। ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਵਿਰੁੱਧ ਮਜ਼ਬੂਤੀ ਲੰਬੇ ਸਮੇਂ ਦੀ ਵਚਨਬੱਧਤਾ ਹੈ ਅਤੇ ਸਾਡੀਆਂ ਸਭ ਤੋਂ ਉੱਚੀਆਂ ਤਰਜੀਹਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ। ਅਸੀਂ ਇਸ ਕੰਮ ਬਾਰੇ ਜਲਦੀ ਹੋਰ ਸਾਂਝਾ ਕਰਾਂਗੇ.

ਲੇਖਕ

OpenAI