ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

17 ਜੁਲਾਈ 2025

ਉਤਪਾਦਰਿਲੀਜ਼

ChatGPT ਏਜੰਟ ਦੀ ਪੇਸ਼ਕਸ਼: ਰਿਸਰਚ ਅਤੇ ਕਾਰਵਾਈ ਵਿਚਕਾਰ ਪੁਲ

ChatGPT ਹੁਣ ਸੋਚਦਾ ਵੀ ਹੈ ਅਤੇ ਕੰਮ ਵੀ ਕਰਦਾ ਹੈ, ਤੁਹਾਡੇ ਲਈ ਕੰਮ ਪੂਰੇ ਕਰਨ ਵਾਸਤੇ agentic ਹੁਨਰਾਂ ਦੇ ਟੂਲਬਾਕਸ ਵਿਚੋਂ ਖੁਦ ਚੋਣ ਕਰਦਾ ਹੈ.

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ChatGPT ਹੁਣ ਆਪਣੇ ਹੀ ਕੰਪਿਊਟਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਤੁਹਾਡੇ ਲਈ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਜਟਿਲ ਕੰਮਾਂ ਨੂੰ ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਸੰਭਾਲ ਸਕਦਾ ਹੈ।

ਹੁਣ ਤੁਸੀਂ ChatGPT ਨੂੰ ਇਸ ਤਰ੍ਹਾਂ ਦੀਆਂ ਬੇਨਤੀਆਂ ਸੰਭਾਲਣ ਲਈ ਕਹਿ ਸਕਦੇ ਹੋ ਜਿਵੇਂ “ਮੇਰਾ ਕੈਲੰਡਰ ਵੇਖੋ ਅਤੇ ਹਾਲੀਆ ਖ਼ਬਰਾਂ ਦੇ ਆਧਾਰ ’ਤੇ ਆਉਣ ਵਾਲੀਆਂ ਕਲਾਇੰਟ ਮੀਟਿੰਗਾਂ ਬਾਰੇ ਮੈਨੂੰ ਬ੍ਰੀਫ ਕਰੋ,” “ਚਾਰ ਲੋਕਾਂ ਲਈ ਜਪਾਨੀ ਨਾਸਤਾ ਬਣਾਉਣ ਵਾਸਤੇ ਸਮੱਗਰੀ ਦੀ ਯੋਜਨਾ ਬਣਾਓ ਅਤੇ ਖਰੀਦੋ,” ਅਤੇ “ਤਿੰਨ ਮੁਕਾਬਲੇਦਾਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰੋ ਅਤੇ ਇੱਕ slide deck ਬਣਾਓ।” ChatGPT ਸਮਝਦਾਰੀ ਨਾਲ ਵੈਬਸਾਈਟਾਂ ’ਤੇ ਜਾਵੇਗਾ, ਨਤੀਜੇ ਫਿਲਟਰ ਕਰੇਗਾ, ਲੋੜ ਪੈਣ ’ਤੇ ਤੁਹਾਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਲੌਗ ਇਨ ਕਰਨ ਲਈ ਕਹੇਗਾ, ਕੋਡ ਚਲਾਏਗਾ, ਵਿਸ਼ਲੇਸ਼ਣ ਕਰੇਗਾ, ਅਤੇ ਆਪਣੇ ਨਤੀਜਿਆਂ ਦਾ ਸਾਰ ਦਿੰਦੀਆਂ ਸੋਧਯੋਗ slideshowਆਂ ਅਤੇ spreadsheets ਵੀ ਦੇਵੇਗਾ। 

ਇਸ ਨਵੀਂ ਸਮਰੱਥਾ ਦੇ ਕੇਂਦਰ ਵਿੱਚ ਇੱਕ ਇਕਰੂਪ agentic ਸਿਸਟਮ ਹੈ। ਇਹ ਪਹਿਲੀਆਂ ਉਪਲਬਧੀਆਂ ਦੀਆਂ ਤਿੰਨ ਤਾਕਤਾਂ ਨੂੰ ਇਕੱਠਾ ਕਰਦਾ ਹੈ: Operator ਦੀ ਵੈਬਸਾਈਟਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਦੀ ਸਮਰੱਥਾ, ਡੀਪ ਰਿਸਰਚ ਦੀ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਸ਼ਲੇਸ਼ਿਤ ਕਰਨ ਦੀ ਕਾਬਲੀਅਤ, ਅਤੇ ChatGPT ਦੀ ਬੁੱਧਿਮਾਨੀ ਅਤੇ ਗੱਲਬਾਤੀ ਪ੍ਰਵਾਹਸ਼ੀਲਤਾ।

ChatGPT ਇਹ ਕੰਮ ਆਪਣੇ ਹੀ virtual computer ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਰਦਾ ਹੈ, ਅਤੇ ਤੁਹਾਡੇ ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਆਧਾਰ ’ਤੇ ਸ਼ੁਰੂ ਤੋਂ ਅੰਤ ਤੱਕ ਜਟਿਲ workflows ਸੰਭਾਲਣ ਲਈ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਕਾਰਵਾਈ ਵਿਚਕਾਰ ਸੁਚਾਰੂ ਤੌਰ ’ਤੇ ਬਦਲਦਾ ਰਹਿੰਦਾ ਹੈ।

ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਨਿਯੰਤਰਣ ਹਮੇਸ਼ਾ ਤੁਹਾਡੇ ਹੱਥ ਵਿੱਚ ਰਹਿੰਦਾ ਹੈ। ChatGPT ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਾਰਵਾਈ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਇਜਾਜ਼ਤ ਮੰਗਦਾ ਹੈ, ਅਤੇ ਤੁਸੀਂ ਕਿਸੇ ਵੀ ਵੇਲੇ ਆਸਾਨੀ ਨਾਲ ਰੁਕਾਵਟ ਪਾ ਸਕਦੇ ਹੋ, browser ਆਪਣੇ ਹੱਥ ਵਿੱਚ ਲੈ ਸਕਦੇ ਹੋ, ਜਾਂ ਕੰਮ ਰੋਕ ਸਕਦੇ ਹੋ।

ਅੱਜ ਤੋਂ, Pro, Plus, ਅਤੇ Team ਵਰਤੋਂਕਾਰ composer ਤੋਂ tools dropdown ਰਾਹੀਂ ਕਿਸੇ ਵੀ ਗੱਲਬਾਤ ਵਿੱਚ ਕਿਸੇ ਵੀ ਵੇਲੇ ‘agent mode’ ਚੁਣ ਕੇ ChatGPT ਦੀਆਂ ਨਵੀਆਂ agentic ਸਮਰੱਥਾਵਾਂ ਸਿੱਧਾ ਐਕਟੀਵੇਟ ਕਰ ਸਕਦੇ ਹਨ। 

ਹਾਲਾਂਕਿ ChatGPT ਏਜੰਟ ਜਟਿਲ ਕੰਮਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਪਹਿਲਾਂ ਹੀ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਟੂਲ ਹੈ, ਅੱਜ ਦੀ ਲਾਂਚ ਸਿਰਫ਼ ਸ਼ੁਰੂਆਤ ਹੈ। ਅਸੀਂ ਨਿਯਮਿਤ ਤੌਰ ’ਤੇ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਦਮਦਰਕਦਮ ਸ਼ਾਮਲ ਕਰਦੇ ਰਹਾਂਗੇ, ਜਿਸ ਨਾਲ ਸਮੇਂ ਦੇ ਨਾਲ ਇਹ ਹੋਰ ਸਮਰੱਥ ਅਤੇ ਹੋਰ ਲੋਕਾਂ ਲਈ ਹੋਰ ਲਾਭਕਾਰੀ ਬਣੇਗਾ।

Operator ਅਤੇ ਡੀਪ ਰਿਸਰਚ ਦਾ ਸੁਭਾਵਿਕ ਵਿਕਾਸ

ਪਹਿਲਾਂ, Operator ਅਤੇ ਡੀਪ ਰਿਸਰਚ ਹਰ ਇੱਕ ਆਪਣੀਆਂ ਵਿਲੱਖਣ ਤਾਕਤਾਂ ਲੈ ਕੇ ਆਏ: Operator ਵੈਬ ’ਤੇ ਸਕ੍ਰੋਲ, ਕਲਿਕ ਅਤੇ ਟਾਈਪ ਕਰ ਸਕਦਾ ਸੀ, ਜਦਕਿ ਡੀਪ ਰਿਸਰਚ ਜਾਣਕਾਰੀ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਸਾਰ ਬਣਾਉਣ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਸੀ। ਪਰ ਉਹ ਵੱਖ-ਵੱਖ ਹਾਲਾਤਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੇ ਸਨ: Operator ਵਿਸ਼ਲੇਸ਼ਣ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਨਹੀਂ ਜਾ ਸਕਦਾ ਸੀ ਜਾਂ ਵਿਸਥਾਰਪੂਰਣ ਰਿਪੋਰਟਾਂ ਨਹੀਂ ਲਿਖ ਸਕਦਾ ਸੀ, ਅਤੇ ਡੀਪ ਰਿਸਰਚ ਨਤੀਜਿਆਂ ਨੂੰ ਸੁਧਾਰਨ ਜਾਂ user authentication ਲੋੜੀਂਦੀ ਸਮੱਗਰੀ ਤੱਕ ਪਹੁੰਚ ਲਈ ਵੈਬਸਾਈਟਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਨਹੀਂ ਕਰ ਸਕਦੀ ਸੀ। ਅਸਲ ਵਿੱਚ, ਅਸੀਂ ਵੇਖਿਆ ਕਿ ਬਹੁਤ ਸਾਰੀਆਂ queries ਜਿਹਨਾਂ ਨੂੰ ਵਰਤੋਂਕਾਰ Operator ਨਾਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਸਨ, ਉਹ ਅਸਲ ਵਿੱਚ ਡੀਪ ਰਿਸਰਚ ਲਈ ਜ਼ਿਆਦਾ ਉਚਿਤ ਸਨ, ਇਸ ਲਈ ਅਸੀਂ ਦੋਵਾਂ ਵਿੱਚੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਚੀਜ਼ਾਂ ਨੂੰ ਇਕੱਠਾ ਕੀਤਾ।

ChatGPT ਵਿੱਚ ਇਹ ਪੂਰਕ ਤਾਕਤਾਂ ਇਕੱਤਰ ਕਰਕੇ ਅਤੇ ਵਾਧੂ tools ਜੋੜਕੇ, ਅਸੀਂ ਇੱਕ ਹੀ ਮਾਡਲ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ ਖੋਲ੍ਹ ਦਿੱਤੀਆਂ ਹਨ। ਹੁਣ ਇਹ ਵੈਬਸਾਈਟਾਂ ਨਾਲ ਸਰਗਰਮੀ ਨਾਲ ਜੁੜ ਸਕਦਾ ਹੈ—ਕਲਿਕ ਕਰਦਿਆਂ, ਫਿਲਟਰ ਕਰਦਿਆਂ ਅਤੇ ਹੋਰ ਸਹੀ ਅਤੇ ਕੁਸ਼ਲ ਨਤੀਜੇ ਇਕੱਠੇ ਕਰਦਿਆਂ। ਤੁਸੀਂ ਇੱਕ ਸਧਾਰਣ ਗੱਲਬਾਤ ਤੋਂ ਉਸੇ chat ਅੰਦਰ ਸਿੱਧੀ ਕਾਰਵਾਈ ਦੀ ਬੇਨਤੀ ਤੱਕ ਕੁਦਰਤੀ ਤਰੀਕੇ ਨਾਲ ਬਦਲ ਸਕਦੇ ਹੋ। 

ਇੱਕ ਏਜੰਟ ਜੋ ਤੁਹਾਡੇ ਲਈ, ਤੁਹਾਡੇ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ 

ਅਸੀਂ ChatGPT ਏਜੰਟ ਨੂੰ ਟੂਲਾਂ ਦੇ ਇੱਕ ਸੈੱਟ ਨਾਲ ਸਜਾਇਆ ਹੈ: ਇੱਕ visual browser ਜੋ graphical-user interface ਰਾਹੀਂ ਵੈਬ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਦਾ ਹੈ, ਸਧਾਰਣ ਰੀਜ਼ਨਿੰਗ-ਆਧਾਰਿਤ ਵੈਬ queries ਲਈ ਇੱਕ text-based browser, ਇੱਕ terminal, ਅਤੇ direct API access. ਏਜੰਟ ChatGPT connectors(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਦੀ ਵੀ ਵਰਤੋਂ ਕਰ ਸਕਦਾ ਹੈ, ਜੋ ਤੁਹਾਨੂੰ Gmail ਅਤੇ Github ਵਰਗੀਆਂ ਐਪਾਂ ਨਾਲ ਕਨੈਕਟ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ ਤਾਂ ਜੋ ChatGPT ਤੁਹਾਡੇ ਪ੍ਰੌੰਪਟਾਂ ਨਾਲ ਸੰਬੰਧਤ ਜਾਣਕਾਰੀ ਲੱਭ ਸਕੇ ਅਤੇ ਉਸਨੂੰ ਆਪਣੇ ਜਵਾਬਾਂ ਵਿੱਚ ਵਰਤ ਸਕੇ। ਤੁਸੀਂ browser ਆਪਣੇ ਹੱਥ ਵਿੱਚ ਲੈ ਕੇ ਕਿਸੇ ਵੀ ਵੈਬਸਾਈਟ ’ਤੇ ਲੌਗ ਇਨ ਵੀ ਕਰ ਸਕਦੇ ਹੋ, ਜਿਸ ਨਾਲ ਇਹ ਰਿਸਰਚ ਅਤੇ ਕੰਮ ਦੇ ਨਿਭਾਅ ਦੋਹਾਂ ਵਿੱਚ ਹੋਰ ਡੂੰਘਾਈ ਅਤੇ ਵਿਆਪਕਤਾ ਨਾਲ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ। ChatGPT ਨੂੰ ਵੈਬ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਅਤੇ ਉਸ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਨ ਲਈ ਇਹ ਵੱਖ-ਵੱਖ ਰਸਤੇ ਦੇਣ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਹ ਕੰਮ ਸਭ ਤੋਂ ਕੁਸ਼ਲ ਢੰਗ ਨਾਲ ਕਰਨ ਲਈ ਸਭ ਤੋਂ ਉਚਿਤ ਰਸਤਾ ਚੁਣ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਇਹ API ਰਾਹੀਂ ਤੁਹਾਡੇ ਕੈਲੰਡਰ ਬਾਰੇ ਜਾਣਕਾਰੀ ਇਕੱਠੀ ਕਰ ਸਕਦਾ ਹੈ, text-based browser ਨਾਲ ਵੱਡੀ ਮਾਤਰਾ ਦੇ ਟੈਕਸਟ ’ਤੇ ਕੁਸ਼ਲਤਾਪੂਰਵਕ ਰੀਜ਼ਨ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਨਾਲ ਹੀ ਉਹਨਾਂ ਵੈਬਸਾਈਟਾਂ ਨਾਲ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ’ਤੇ ਇੰਟਰੈਕਟ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਰੱਖਦਾ ਹੈ ਜੋ ਮੁੱਖ ਤੌਰ ’ਤੇ ਮਨੁੱਖਾਂ ਲਈ ਬਣੀਆਂ ਹਨ। 

ਇਹ ਸਭ ਕੁਝ ਇਸਦੇ ਆਪਣੇ virtual computer ਨਾਲ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਕੰਮ ਲਈ ਲੋੜੀਂਦਾ ਸੰਦਰਭ ਬਣਾਈ ਰੱਖਦਾ ਹੈ, ਭਾਵੇਂ ਕਈ tools ਵਰਤੇ ਜਾਣ—ਮਾਡਲ text browser ਜਾਂ visual browser ਨਾਲ ਕੋਈ ਪੇਜ ਖੋਲ੍ਹ ਸਕਦਾ ਹੈ, ਵੈਬ ਤੋਂ ਫਾਇਲ ਡਾਊਨਲੋਡ ਕਰ ਸਕਦਾ ਹੈ, terminal ਵਿੱਚ ਕਮਾਂਡ ਚਲਾ ਕੇ ਉਸ ’ਤੇ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਫਿਰ visual browser ਵਿੱਚ ਨਤੀਜਾ ਵਾਪਸ ਦੇਖ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਗਤੀ, ਸ਼ੁੱਧਤਾ ਅਤੇ ਕੁਸ਼ਲਤਾ ਨਾਲ ਕੰਮ ਪੂਰਾ ਕਰਨ ਲਈ ਆਪਣਾ ਢੰਗ ਅਨੁਕੂਲ ਕਰਦਾ ਹੈ।

ChatGPT ਏਜੰਟ ਨੂੰ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ, ਸਹਿਕਾਰੀ workflows ਲਈ ਡਿਜ਼ਾਈਨ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਪਿਛਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਕਿਤੇ ਵੱਧ ਇੰਟਰਐਕਟਿਵ ਅਤੇ ਲਚਕੀਲਾ ਹੈ। ਜਦੋਂ ChatGPT ਕੰਮ ਕਰ ਰਿਹਾ ਹੁੰਦਾ ਹੈ, ਤੁਸੀਂ ਕਿਸੇ ਵੀ ਵੇਲੇ ਰੁਕਾਵਟ ਪਾ ਕੇ ਆਪਣੇ ਨਿਰਦੇਸ਼ ਸਪਸ਼ਟ ਕਰ ਸਕਦੇ ਹੋ, ਇਸਨੂੰ ਚਾਹੀਦੇ ਨਤੀਜਿਆਂ ਵੱਲ ਮੋੜ ਸਕਦੇ ਹੋ, ਜਾਂ ਕੰਮ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਬਦਲ ਸਕਦੇ ਹੋ। ਇਹ ਜਿੱਥੇ ਛੱਡਿਆ ਸੀ, ਓਥੋਂ ਹੀ ਮੁੜ ਸ਼ੁਰੂ ਕਰੇਗਾ, ਹੁਣ ਨਵੀਂ ਜਾਣਕਾਰੀ ਨਾਲ, ਪਰ ਪਹਿਲੀ ਤਰੱਕੀ ਗੁਆਏ ਬਿਨਾਂ। ਇਸੇ ਤਰ੍ਹਾਂ, ਲੋੜ ਪੈਣ ’ਤੇ ChatGPT ਖੁਦ ਵੀ ਤੁਹਾਡੇ ਕੋਲੋਂ ਵਾਧੂ ਵੇਰਵੇ ਮੰਗ ਸਕਦਾ ਹੈ ਤਾਂ ਜੋ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ ਕਿ ਕੰਮ ਤੁਹਾਡੇ ਲਕਸ਼ਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਰਹੇ। ਜੇ ਕੋਈ ਕੰਮ ਉਮੀਦ ਨਾਲੋਂ ਵੱਧ ਸਮਾਂ ਲੈਂਦਾ ਹੈ ਜਾਂ ਅਟਕਿਆ ਜਾਪਦਾ ਹੈ, ਤੁਸੀਂ ਇਸਨੂੰ pause ਕਰ ਸਕਦੇ ਹੋ, ਇਸ ਤੋਂ progress summary ਮੰਗ ਸਕਦੇ ਹੋ, ਜਾਂ ਇਸਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਰੋਕ ਕੇ ਅੰਸ਼ਿਕ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ। ਜੇ ਤੁਹਾਡੇ ਫੋਨ ’ਤੇ ChatGPT ਐਪ ਹੈ, ਤਾਂ ਕੰਮ ਮੁਕੰਮਲ ਹੋਣ ’ਤੇ ਇਹ ਤੁਹਾਨੂੰ ਇੱਕ notification ਭੇਜੇਗਾ।

ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਵਰਤੋਂਯੋਗਤਾ ਦਾ ਵਿਸਥਾਰ 

ਇਹ ਇਕਰੂਪ agentic ਸਮਰੱਥਾਵਾਂ ਰੋਜ਼ਾਨਾ ਅਤੇ ਪੇਸ਼ਾਵਰ ਦੋਹਾਂ ਸੰਦਰਭਾਂ ਵਿੱਚ ChatGPT ਦੀ ਉਪਯੋਗਤਾ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ’ਤੇ ਵਧਾਉਂਦੀਆਂ ਹਨ। ਕੰਮ ਦੀ ਥਾਂ ’ਤੇ, ਤੁਸੀਂ ਦੁਹਰਾਏ ਜਾਣ ਵਾਲੇ ਕੰਮ ਆਟੋਮੇਟ ਕਰ ਸਕਦੇ ਹੋ, ਜਿਵੇਂ screenshots ਜਾਂ dashboards ਨੂੰ ਸੋਧਯੋਗ vector elements ਵਾਲੀਆਂ presentations ਵਿੱਚ ਬਦਲਣਾ, meetings ਨੂੰ ਮੁੜ ਤਹਿ ਕਰਨਾ, offsites ਦੀ ਯੋਜਨਾ ਅਤੇ booking ਕਰਨਾ, ਅਤੇ ਉਹੀ formatting ਕਾਇਮ ਰੱਖਦਿਆਂ spreadsheets ਨੂੰ ਨਵੇਂ ਵਿੱਤੀ ਡਾਟੇ ਨਾਲ ਅਪਡੇਟ ਕਰਨਾ। ਆਪਣੀ ਨਿੱਜੀ ਜ਼ਿੰਦਗੀ ਵਿੱਚ, ਤੁਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਬਿਨਾਂ ਜ਼ਹਿਮਤ ਯਾਤਰਾ itineraries ਦੀ ਯੋਜਨਾ ਅਤੇ booking ਕਰਨ, ਪੂਰੀ dinner parties ਡਿਜ਼ਾਈਨ ਅਤੇ book ਕਰਨ, ਜਾਂ ਮਾਹਿਰ ਲੱਭ ਕੇ appointments ਤਹਿ ਕਰਨ ਲਈ ਕਰ ਸਕਦੇ ਹੋ। 

ਮਾਡਲ ਦੀਆਂ ਉੱਚੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵੈਬ browsing ਅਤੇ ਅਸਲ ਦੁਨੀਆ ਦੇ ਕੰਮ ਪੂਰੇ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਣ ਵਾਲੀਆਂ evaluations ’ਤੇ ਇਸਦੀ state-of-the-art (SOTA) ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਝਲਕਦੀਆਂ ਹਨ। 

Humanity’s Last Exam(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ)* ’ਤੇ, ਜੋ ਵਿਦਵਤ-ਪੱਧਰੀ ਸਵਾਲਾਂ ’ਤੇ ਵੱਖ-ਵੱਖ ਵਿਸ਼ਿਆਂ ਵਿੱਚ AI ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਮਾਪਦਾ ਹੈ, ChatGPT ਏਜੰਟ ਨੂੰ ਚਲਾਉਣ ਵਾਲਾ ਮਾਡਲ 41.6 ’ਤੇ ਨਵਾਂ pass@1 SOTA ਸਕੋਰ ਕਰਦਾ ਹੈ। ਕਿਉਂਕਿ ਏਜੰਟ ਗਤੀਸ਼ੀਲ ਢੰਗ ਨਾਲ ਯੋਜਨਾ ਬਣਾਉਂਦਾ ਹੈ ਅਤੇ ਆਪਣੇ tools ਖੁਦ ਚੁਣਦਾ ਹੈ, ਇਹ ਇੱਕੋ ਕੰਮ ਨੂੰ ਵੱਖ-ਵੱਖ runs ਵਿੱਚ ਵੱਖਰੇ ਤਰੀਕਿਆਂ ਨਾਲ ਕਰ ਸਕਦਾ ਹੈ। ਜਦੋਂ ਅਸੀਂ ਇਸਨੂੰ ਇੱਕ ਸਧਾਰਣ parallel rollout strategy ਨਾਲ ਸਕੇਲ ਕੀਤਾ—ਇੱਕੋ ਸਮੇਂ ਅੱਠ ਕੋਸ਼ਿਸ਼ਾਂ ਤੱਕ ਚਲਾ ਕੇ ਅਤੇ ਸਭ ਤੋਂ ਵੱਧ self-reported confidence ਵਾਲੀ ਚੁਣ ਕੇ—ਤਾਂ ਏਜੰਟ ਦਾ HLE ਸਕੋਰ 44.4 ਤੱਕ ਵਧ ਜਾਂਦਾ ਹੈ।

FrontierMath** ਸਭ ਤੋਂ ਮੁਸ਼ਕਲ ਜਾਣਿਆ ਗਣਿਤ ਬੈਂਚਮਾਰਕ ਹੈ, ਜਿਸ ਵਿੱਚ ਨਵੇਂ, ਅਣਪ੍ਰਕਾਸ਼ਿਤ ਪ੍ਰਸ਼ਨ ਹੁੰਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਅਕਸਰ ਮਾਹਿਰ ਗਣਿਤਜੀਆਂ ਨੂੰ ਘੰਟੇ ਜਾਂ ਕਈ ਵਾਰ ਦਿਨ ਲੱਗ ਜਾਂਦੇ ਹਨ। ਟੂਲ ਵਰਤੋਂ ਨਾਲ, ਜਿਵੇਂ ਕੋਡ ਚਲਾਉਣ ਲਈ terminal ਤੱਕ ਪਹੁੰਚ, ChatGPT ਏਜੰਟ 27.4% ਸ਼ੁੱਧਤਾ ਤੱਕ ਪਹੁੰਚਦਾ ਹੈ, ਅਤੇ ਪਿਛਲੇ ਦੋਹਾਂ ਮਾਡਲਾਂ ਨੂੰ ਵੱਡੇ ਅੰਤਰ ਨਾਲ ਪਿੱਛੇ ਛੱਡਦਾ ਹੈ।

ਅਸੀਂ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਉਹਨਾਂ benchmarks ਨਾਲ ਵੀ ਕੀਤਾ ਜੋ ਜਟਿਲ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਕੰਮਾਂ ਦੀ ਤਰ੍ਹਾਂ ਬਣਾਏ ਗਏ ਹਨ। ਜਟਿਲ, ਆਰਥਿਕ ਤੌਰ ’ਤੇ ਕੀਮਤੀ ਗਿਆਨ-ਕੰਮ ਵਾਲੇ ਕੰਮਾਂ ’ਤੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਮਾਪਣ ਲਈ ਬਣਾਏ ਗਏ ਇੱਕ ਅੰਦਰੂਨੀ benchmark ’ਤੇ, ChatGPT ਏਜੰਟ ਦਾ ਆਉਟਪੁੱਟ ਵੱਖ-ਵੱਖ ਕੰਮ-ਪੂਰਾ ਕਰਨ ਦੇ ਸਮਿਆਂ ਵਿੱਚ ਲਗਭਗ ਅੱਧੇ ਕੇਸਾਂ ਵਿੱਚ ਮਨੁੱਖਾਂ ਦੇ ਬਰਾਬਰ ਜਾਂ ਉਸ ਤੋਂ ਵਧੀਆ ਹੈ, ਜਦਕਿ ਇਹ o3 ਅਤੇ o4-mini ਨਾਲੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ’ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਮਾਡਲ ਦੇ ਆਉਟਪੁੱਟਾਂ ਦਾ ਮੁਲਾਂਕਣ ਮਾਹਿਰਾਂ ਵੱਲੋਂ ਹਰ ਖੇਤਰ ਦੇ ਸ਼੍ਰੇਸ਼ਠ ਪ੍ਰਦਰਸ਼ਨਕਾਰਾਂ ਦੁਆਰਾ ਬਣਾਏ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਮਨੁੱਖੀ baselines ਦੇ ਮੁਕਾਬਲੇ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। ਇਹ ਕੰਮ, ਜੋ ਵੱਖ-ਵੱਖ ਪੇਸ਼ਿਆਂ ਅਤੇ ਉਦਯੋਗਾਂ ਦੇ ਮਾਹਿਰਾਂ ਤੋਂ ਲਏ ਗਏ ਹਨ, ਅਸਲ ਦੁਨੀਆ ਦੇ ਪੇਸ਼ਾਵਰ ਕੰਮਾਂ ਨੂੰ ਦਰਸਾਉਂਦੇ ਹਨ—ਜਿਵੇਂ on-demand urgent care providers ਦਾ ਮੁਕਾਬਲਾਤੀ ਵਿਸ਼ਲੇਸ਼ਣ ਤਿਆਰ ਕਰਨਾ, ਵਿਸਥਾਰਪੂਰਣ amortization schedules ਬਣਾਉਣਾ, ਅਤੇ ਨਵੀਂ green hydrogen facility ਲਈ ਯੋਗ water wells ਦੀ ਪਛਾਣ ਕਰਨਾ। 

DSBench(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ’ਤੇ, ਜੋ data analysis ਅਤੇ modeling ਵਿੱਚ ਫੈਲੇ ਹਕੀਕਤੀ data science ਕੰਮਾਂ ’ਤੇ agents ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ, ChatGPT ਏਜੰਟ ਮਨੁੱਖੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਨਾਲ ਪਿੱਛੇ ਛੱਡਦਾ ਹੈ।

SpreadsheetBench ’ਤੇ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਤੋਂ ਲਿਆਈਆਂ spreadsheets ਨੂੰ ਸੰਪਾਦਿਤ ਕਰਨ ਦੀ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ChatGPT ਏਜੰਟ ਮੌਜੂਦਾ ਮਾਡਲਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਅੰਤਰ ਨਾਲ ਪਿੱਛੇ ਛੱਡਦਾ ਹੈ। ਜਦੋਂ ਇਸਨੂੰ spreadsheets ਨੂੰ ਸਿੱਧਾ ਸੰਪਾਦਿਤ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ChatGPT ਏਜੰਟ 45.5% ਨਾਲ ਹੋਰ ਵੀ ਉੱਚਾ ਸਕੋਰ ਕਰਦਾ ਹੈ, ਜਦਕਿ Excel ਵਿੱਚ Copilot 20.0% ’ਤੇ ਹੈ। 

ਪ੍ਰਕਿਰਿਆ: SpreadsheetBench ਦੇ ਲੇਖਕਾਂ ਨੇ ਸਪ੍ਰੈਡਸ਼ੀਟਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ Microsoft Excel ਵਾਲਾ Windows ਮਾਹੌਲ ਵਰਤਿਆ। ਅਸੀਂ OSX ਮਾਹੌਲ ਅਤੇ LibreOffice ਵਰਤੇ, ਜਿਸ ਕਰਕੇ ਗ੍ਰੇਡਿੰਗ ਵਿੱਚ ਛੋਟੇ ਫਰਕ ਆ ਸਕਦੇ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਲੇਖਕਾਂ ਨੇ GPT‑4o ਲਈ Overall Hard restriction 15.02% ਪਾਈ, ਅਤੇ ਅਸੀਂ 13.38% ਪ੍ਰਾਪਤ ਕੀਤਾ। ਅਸੀਂ ਪੂਰਾ 912-ਸਵਾਲਾਂ ਵਾਲਾ ਬੈਂਚਮਾਰਕ ਵਰਤਿਆ।

ਇੱਕ ਅੰਦਰੂਨੀ benchmark ’ਤੇ ਜੋ ਮਾਡਲ ਦੀ ਪਹਿਲੇ ਤੋਂ ਤੀਜੇ ਸਾਲ ਦੇ investment banking analyst modeling tasks ਸੰਭਾਲਣ ਦੀ ਸਮਰੱਥਾ ਮਾਪਦਾ ਹੈ—ਜਿਵੇਂ ਸਹੀ formatting ਅਤੇ citations ਨਾਲ Fortune 500 ਕੰਪਨੀ ਲਈ three-statement financial model ਤਿਆਰ ਕਰਨਾ, ਜਾਂ take-private ਲਈ leveraged buyout model ਬਣਾਉਣਾ—ChatGPT ਏਜੰਟ ਨੂੰ ਚਲਾਉਣ ਵਾਲਾ ਮਾਡਲ ਡੀਪ ਰਿਸਰਚ ਅਤੇ o3 ਨਾਲੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ’ਤੇ ਵਧੀਆ ਹੈ। ਹਰ ਕੰਮ ਨੂੰ ਸਹੀਪਣ ਅਤੇ formula ਵਰਤੋਂ ਨਾਲ ਸੰਬੰਧਿਤ ਸੈਂਕੜਿਆਂ ਮਾਪਦੰਡਾਂ ’ਤੇ ਗ੍ਰੇਡ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

ਅਸੀਂ ChatGPT ਏਜੰਟ ਦਾ ਮੁਲਾਂਕਣ BrowseComp ’ਤੇ ਵੀ ਕੀਤਾ, ਜੋ ਇੱਕ benchmark ਹੈ ਜਿਸਨੂੰ ਅਸੀਂ ਇਸ ਸਾਲ ਪਹਿਲਾਂ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤਾ ਸੀ ਅਤੇ ਜੋ browsing agents ਦੀ ਵੈਬ ’ਤੇ ਲੱਭਣ ਔਖੀ ਜਾਣਕਾਰੀ ਖੋਜਣ ਦੀ ਸਮਰੱਥਾ ਮਾਪਦਾ ਹੈ। ਮਾਡਲ ਨੇ 68.9% ਨਾਲ ਨਵਾਂ SOTA ਸੈੱਟ ਕੀਤਾ, ਜੋ ਡੀਪ ਰਿਸਰਚ ਨਾਲੋਂ 17.4 ਪ੍ਰਤੀਸ਼ਤ ਅੰਕ ਵੱਧ ਹੈ।

ਅੰਤ ਵਿੱਚ, WebArena(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ’ਤੇ, ਜੋ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਵੈਬ ਕੰਮ ਪੂਰੇ ਕਰਨ ਵਿੱਚ web-browsing agents ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਬਣਾਇਆ ਗਿਆ benchmark ਹੈ, ਇਹ ਮਾਡਲ o3‑ਚਲਿਤ CUA (Operator ਨੂੰ ਚਲਾਉਣ ਵਾਲਾ ਮਾਡਲ) ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। 

ਵਰਤੋਂ ਕਿਵੇਂ ਕਰਨੀ ਹੈ

ਤੁਸੀਂ composer ਤੋਂ tools dropdown ਰਾਹੀਂ ਕਿਸੇ ਵੀ ਗੱਲਬਾਤ ਵਿੱਚ ਕਿਸੇ ਵੀ ਵੇਲੇ ‘agent mode’ ਚੁਣ ਕੇ ChatGPT ਦੀਆਂ ਨਵੀਆਂ agentic ਸਮਰੱਥਾਵਾਂ ਸਿੱਧਾ ਐਕਟੀਵੇਟ ਕਰ ਸਕਦੇ ਹੋ। ਸਿਰਫ਼ ਆਪਣਾ ਚਾਹਿਆ ਕੰਮ ਵੇਰਵਾ ਕਰੋ—ਚਾਹੇ ਉਹ ਡੀਪ ਰਿਸਰਚ ਕਰਨੀ ਹੋਵੇ, slideshow ਬਣਾਉਣੀ ਹੋਵੇ, ਜਾਂ expenses submit ਕਰਨੇ ਹੋਣ। ਜਦੋਂ ਇਹ ਤੁਹਾਡਾ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ screen ਉੱਤੇ narration ਤੁਹਾਨੂੰ ਇਹ ਸਪਸ਼ਟ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ChatGPT ਅਸਲ ਵਿੱਚ ਕੀ ਕਰ ਰਿਹਾ ਹੈ। ਤੁਸੀਂ ਲੋੜ ਅਨੁਸਾਰ ਰੁਕਾਵਟ ਪਾ ਸਕਦੇ ਹੋ ਅਤੇ browser ਦਾ ਕੰਟਰੋਲ ਆਪਣੇ ਹੱਥ ਵਿੱਚ ਲੈ ਸਕਦੇ ਹੋ, ਤਾਂ ਜੋ ਕੰਮ ਤੁਹਾਡੇ ਲਕਸ਼ਾਂ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਰਹਿਣ।

ChatGPT ਏਜੰਟ ਤੁਹਾਡੇ connectors ਤੱਕ ਪਹੁੰਚ ਕਰ ਸਕਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਤੁਹਾਡੇ workflows ਨਾਲ ਇੰਟੀਗ੍ਰੇਟ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਸੰਬੰਧਤ, ਕਾਰਵਾਈਯੋਗ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਕਰ ਸਕਦਾ ਹੈ। ਇੱਕ ਵਾਰ authentication ਹੋ ਜਾਣ ’ਤੇ, ਇਹ connectors ChatGPT ਨੂੰ ਜਾਣਕਾਰੀ ਵੇਖਣ ਅਤੇ, ਉਦਾਹਰਨ ਲਈ, ਦਿਨ ਲਈ ਤੁਹਾਡਾ inbox ਸੰਖੇਪ ਕਰਨ ਜਾਂ ਮੀਟਿੰਗ ਲਈ ਤੁਹਾਡੇ ਉਪਲਬਧ time slots ਲੱਭਣ ਵਰਗੇ ਕੰਮ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੇ ਹਨ—ਹਾਲਾਂਕਿ ਇਨ੍ਹਾਂ ਸਾਈਟਾਂ ’ਤੇ ਕਾਰਵਾਈ ਕਰਨ ਲਈ, ਤੁਹਾਨੂੰ ਫਿਰ ਵੀ browser ਆਪਣੇ ਹੱਥ ਵਿੱਚ ਲੈ ਕੇ ਲੌਗ ਇਨ ਕਰਨ ਲਈ ਕਿਹਾ ਜਾਵੇਗਾ। 

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਤੁਸੀਂ ਮੁਕੰਮਲ ਹੋਏ ਕੰਮਾਂ ਨੂੰ ਆਪਣੇ ਆਪ ਦੁਹਰਾਏ ਜਾਣ ਲਈ schedule ਕਰ ਸਕਦੇ ਹੋ, ਜਿਵੇਂ ਹਰ ਸੋਮਵਾਰ ਸਵੇਰੇ ਹਫ਼ਤਾਵਾਰੀ metrics report ਤਿਆਰ ਕਰਨੀ।

ਨਵੀਆਂ ਸਮਰੱਥਾਵਾਂ, ਨਵੇਂ ਖਤਰੇ 

ਇਹ ਰਿਲੀਜ਼ ਪਹਿਲੀ ਵਾਰ ਦਰਸਾਉਂਦੀ ਹੈ ਕਿ ਵਰਤੋਂਕਾਰ ChatGPT ਨੂੰ ਵੈਬ ’ਤੇ ਕਾਰਵਾਈ ਕਰਨ ਲਈ ਕਹਿ ਸਕਦੇ ਹਨ। ਇਹ ਨਵੇਂ ਖਤਰੇ ਲਿਆਉਂਦੀ ਹੈ, ਖ਼ਾਸ ਕਰਕੇ ਇਸ ਲਈ ਕਿ ChatGPT ਏਜੰਟ ਤੁਹਾਡੇ ਡਾਟੇ ਨਾਲ ਸਿੱਧਾ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਚਾਹੇ ਉਹ connectors ਰਾਹੀਂ ਪ੍ਰਾਪਤ ਕੀਤੀ ਜਾਣਕਾਰੀ ਹੋਵੇ ਜਾਂ ਉਹ ਵੈਬਸਾਈਟਾਂ ਹੋਣ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਤੁਸੀਂ ਇਸਨੂੰ takeover mode ਰਾਹੀਂ ਲੌਗ ਇਨ ਕਰਵਾਇਆ ਹੋਵੇ। ਅਸੀਂ Operator ਦੇ research preview ਤੋਂ ਮਜ਼ਬੂਤ controls ਹੋਰ ਮਜ਼ਬੂਤ ਕੀਤੇ ਹਨ ਅਤੇ live web ’ਤੇ ਸੰਵੇਦਨਸ਼ੀਲ ਜਾਣਕਾਰੀ ਸੰਭਾਲਣ, ਵਿਆਪਕ user reach, ਅਤੇ (ਸੀਮਿਤ) terminal network access ਵਰਗੀਆਂ ਚੁਣੌਤੀਆਂ ਲਈ safeguards ਜੋੜੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ mitigations ਖਤਰੇ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ’ਤੇ ਘਟਾਉਂਦੀਆਂ ਹਨ, ChatGPT ਏਜੰਟ ਦੇ ਵਿਸਤ੍ਰਿਤ tools ਅਤੇ ਵੱਡੀ user reach ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਇਸਦੀ ਕੁੱਲ risk profile ਵੱਧ ਹੈ। 

ਅਸੀਂ ਪ੍ਰੌੰਪਟ ਇੰਜੈਕਸ਼ਨ ਰਾਹੀਂ ਵਿਰੋਧੀ ਹੇਰਾਫੇਰੀ ਤੋਂ ChatGPT ਏਜੰਟ ਦੀ ਰੱਖਿਆ ’ਤੇ ਵਿਸ਼ੇਸ਼ ਜ਼ੋਰ ਦਿੱਤਾ ਹੈ, ਜੋ ਆਮ ਤੌਰ ’ਤੇ agentic ਸਿਸਟਮਾਂ ਲਈ ਇੱਕ ਖਤਰਾ ਹੈ, ਅਤੇ ਇਸ ਲਈ ਅਸੀਂ ਹੋਰ ਵਿਸਤ੍ਰਿਤ mitigations ਤਿਆਰ ਕੀਤੀਆਂ ਹਨ। Prompt injections ਉਹ ਕੋਸ਼ਿਸ਼ਾਂ ਹਨ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਤੀਜੀਆਂ ਧਿਰਾਂ ਖ਼ਰਾਬ ਨਿਰਦੇਸ਼ਾਂ ਰਾਹੀਂ ਇਸਦੇ ਵਿਹਾਰ ਨਾਲ ਹੇਰਾਫੇਰੀ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀਆਂ ਹਨ, ਜਿਨ੍ਹਾਂ ਨਾਲ ChatGPT ਏਜੰਟ ਨੂੰ ਕੰਮ ਪੂਰਾ ਕਰਦੇ ਸਮੇਂ ਵੈਬ ’ਤੇ ਸਾਹਮਣਾ ਹੋ ਸਕਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਕਿਸੇ webpage ਵਿੱਚ ਲੁਕਿਆ ਖ਼ਰਾਬ ਪ੍ਰੌੰਪਟ, ਜਿਵੇਂ ਅਦ੍ਰਿਸ਼ ਤੱਤਾਂ ਜਾਂ metadata ਵਿੱਚ, ਏਜੰਟ ਨੂੰ ਅਣਚਾਹੀਆਂ ਕਾਰਵਾਈਆਂ ਕਰਨ ਲਈ ਫਸਾ ਸਕਦਾ ਹੈ, ਜਿਵੇਂ ਕਿਸੇ connector ਤੋਂ ਨਿੱਜੀ ਡਾਟਾ ਹਮਲਾਵਰ ਨਾਲ ਸਾਂਝਾ ਕਰਨਾ, ਜਾਂ ਉਸ ਸਾਈਟ ’ਤੇ ਹਾਨਿਕਾਰਕ ਕਾਰਵਾਈ ਕਰਨਾ ਜਿਸ ’ਤੇ ਵਰਤੋਂਕਾਰ ਲੌਗ ਇਨ ਹੋਇਆ ਹੋਵੇ। ਕਿਉਂਕਿ ChatGPT ਏਜੰਟ ਸਿੱਧੀਆਂ ਕਾਰਵਾਈਆਂ ਕਰ ਸਕਦਾ ਹੈ, ਸਫਲ ਹਮਲਿਆਂ ਦਾ ਅਸਰ ਵੱਧ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਵੱਡੇ ਖਤਰੇ ਪੈਦਾ ਹੋ ਸਕਦੇ ਹਨ। 

ਅਸੀਂ prompt injections ਦੀ ਪਛਾਣ ਅਤੇ ਉਨ੍ਹਾਂ ਦਾ ਵਿਰੋਧ ਕਰਨ ਬਾਰੇ ਏਜੰਟ ਨੂੰ ਟ੍ਰੇਨ ਅਤੇ ਟੈਸਟ ਕੀਤਾ ਹੈ, ਨਾਲ ਹੀ prompt injection ਹਮਲਿਆਂ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਪਛਾਣਣ ਅਤੇ ਉਨ੍ਹਾਂ ’ਤੇ ਪ੍ਰਤੀਕ੍ਰਿਆ ਦੇਣ ਲਈ monitoring ਵੀ ਵਰਤੀ ਹੈ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਕਾਰਵਾਈਆਂ ਤੋਂ ਪਹਿਲਾਂ ਸਪਸ਼ਟ ਵਰਤੋਂਕਾਰ ਪੁਸ਼ਟੀ ਲਾਜ਼ਮੀ ਬਣਾਉਣਾ ਇਨ੍ਹਾਂ ਹਮਲਿਆਂ ਤੋਂ ਨੁਕਸਾਨ ਦੇ ਖਤਰੇ ਨੂੰ ਹੋਰ ਘਟਾਉਂਦਾ ਹੈ, ਅਤੇ ਵਰਤੋਂਕਾਰ takeover ਕਰਕੇ ਜਾਂ pause ਕਰਕੇ ਲੋੜ ਅਨੁਸਾਰ ਕੰਮਾਂ ਵਿੱਚ ਦਖ਼ਲ ਦੇ ਸਕਦੇ ਹਨ। ਵਰਤੋਂਕਾਰਾਂ ਨੂੰ ਇਹ ਤੋਲਣਾ ਚਾਹੀਦਾ ਹੈ ਕਿ ਏਜੰਟ ਨੂੰ ਕਿਹੜੀ ਜਾਣਕਾਰੀ ਦੇਣੀ ਹੈ, ਅਤੇ ਨਾਲ ਹੀ ਆਪਣੀ ਪਹੁੰਚ ਘਟਾਉਣ ਲਈ ਕਦਮ ਵੀ ਚੁੱਕਣੇ ਚਾਹੀਦੇ ਹਨ, ਜਿਵੇਂ ਜਦੋਂ ਕੰਮ ਲਈ ਲੋੜ ਨਾ ਹੋਵੇ ਤਾਂ connectors ਨੂੰ ਅਯੋਗ ਕਰ ਦੇਣਾ। 

ਅਸੀਂ ਮਾਡਲ ਦੀਆਂ ਗਲਤੀਆਂ ਦੇ ਆਸ-ਪਾਸ ਵੀ mitigations ਲਾਗੂ ਕੀਤੀਆਂ ਹਨ, ਖ਼ਾਸ ਕਰਕੇ ਇਸ ਲਈ ਕਿ ਮਾਡਲ ਹੁਣ ਅਜਿਹੇ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਅਸਲ ਦੁਨੀਆ ’ਤੇ ਅਸਰ ਪਾਂਦੇ ਹਨ: 

  • ਸਪਸ਼ਟ ਵਰਤੋਂਕਾਰ ਪੁਸ਼ਟੀ: ChatGPT ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ ਕਿ ਅਸਲ-ਦੁਨੀਆ ਦੇ ਨਤੀਜੇ ਵਾਲੀਆਂ ਕਾਰਵਾਈਆਂ, ਜਿਵੇਂ ਕੋਈ ਖਰੀਦ ਕਰਨਾ, ਤੋਂ ਪਹਿਲਾਂ ਤੁਹਾਡੀ ਸਪਸ਼ਟ ਇਜਾਜ਼ਤ ਲਵੇ।
  • ਸਕ੍ਰਿਆ ਨਿਗਰਾਨੀ (“Watch Mode”): ਕੁਝ ਮਹੱਤਵਪੂਰਨ ਕੰਮ, ਜਿਵੇਂ emails ਭੇਜਣਾ, ਤੁਹਾਡੀ ਸਕ੍ਰਿਆ ਦੇਖ-ਰੇਖ ਮੰਗਦੇ ਹਨ।
  • ਪ੍ਰੋਐਕਟਿਵ ਖਤਰਾ ਘਟਾਉਣਾ: ChatGPT ਨੂੰ bank transfers ਵਰਗੇ ਉੱਚ-ਖਤਰੇ ਵਾਲੇ ਕੰਮਾਂ ਨੂੰ ਸਰਗਰਮੀ ਨਾਲ ਅਸਵੀਕਾਰ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ।

ਅੰਤ ਵਿੱਚ, ਅਸੀਂ ਡਾਟੇ ਨੂੰ ਸੀਮਿਤ ਕਰਨ ਲਈ ਵਾਧੂ controls ਲਾਗੂ ਕੀਤੇ ਹਨ ਜਿਸ ਤੱਕ ਮਾਡਲ ਦੀ ਪਹੁੰਚ ਹੁੰਦੀ ਹੈ: 

  • ਪ੍ਰਾਈਵੇਸੀ controls: ChatGPT ਦੀਆਂ settings ਵਿੱਚ ਇੱਕ ਕਲਿਕ ਨਾਲ, ਤੁਸੀਂ ਸਾਰਾ browsing data ਮਿਟਾ ਸਕਦੇ ਹੋ ਅਤੇ ਸਾਰੀਆਂ ਸਰਗਰਮ ਵੈਬਸਾਈਟ sessions ਤੋਂ ਤੁਰੰਤ ਲੌਗ ਆਉਟ ਕਰ ਸਕਦੇ ਹੋ। ਨਹੀਂ ਤਾਂ, cookies ਹਰ ਵੇਖੀ ਗਈ ਵੈਬਸਾਈਟ ਦੀ cookie policies ਦੇ ਆਧਾਰ ’ਤੇ ਬਰਕਰਾਰ ਰਹਿੰਦੀਆਂ ਹਨ, ਜੋ ਦੁਬਾਰਾ ਆਉਣ ਵਾਲੀਆਂ visits ਨੂੰ ਹੋਰ ਕੁਸ਼ਲ ਬਣਾ ਸਕਦੀਆਂ ਹਨ।
  • ਸੁਰੱਖਿਅਤ browser takeover mode: ਜਦੋਂ ਤੁਸੀਂ ChatGPT ਦੇ browser (“takeover mode”) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵੈਬ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰਦੇ ਹੋ, ਤੁਹਾਡੇ inputs ਨਿੱਜੀ ਰਹਿੰਦੇ ਹਨ। ChatGPT ਇਨ੍ਹਾਂ sessions ਦੌਰਾਨ ਤੁਹਾਡੇ ਦੁਆਰਾ ਦਰਜ ਕੀਤਾ ਕੋਈ ਵੀ ਡਾਟਾ ਇਕੱਠਾ ਜਾਂ ਸਟੋਰ ਨਹੀਂ ਕਰਦਾ, ਜਿਵੇਂ passwords, ਕਿਉਂਕਿ ਮਾਡਲ ਨੂੰ ਉਸਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ, ਅਤੇ ਇਹ ਹੋਰ ਸੁਰੱਖਿਅਤ ਹੈ ਜੇ ਉਹ ਇਸਨੂੰ ਕਦੇ ਵੇਖੇ ਹੀ ਨਾ।

ਜੈਵਿਕ ਖਤਰੇ ਲਈ ਅਜੇ ਤੱਕ ਦੀ ਸਾਡੀ ਸਭ ਤੋਂ ਮਜ਼ਬੂਤ safety stack 

ਮਾਡਲ ਦੀਆਂ ਵਧੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨਾਲ, ਅਸੀਂ ਇਹ ਫੈਸਲਾ ਕੀਤਾ ਹੈ ਕਿ ਆਪਣੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਅਧੀਨ ChatGPT ਏਜੰਟ ਨੂੰ High Biological and Chemical capabilities ਵਜੋਂ ਮੰਨਿਆ ਜਾਵੇ, ਅਤੇ ਸੰਬੰਧਿਤ safeguards ਐਕਟੀਵੇਟ ਕੀਤੀਆਂ ਜਾਣ। ਹਾਲਾਂਕਿ ਸਾਡੇ ਕੋਲ ਇਹ ਨਿਸ਼ਚਿਤ ਸਬੂਤ ਨਹੀਂ ਹਨ ਕਿ ਇਹ ਮਾਡਲ ਕਿਸੇ ਨਵੀਂ ਸ਼ੁਰੂਆਤ ਕਰਨ ਵਾਲੇ ਨੂੰ ਗੰਭੀਰ ਜੈਵਿਕ ਨੁਕਸਾਨ ਪੈਦਾ ਕਰਨ ਵਿੱਚ ਅਰਥਪੂਰਨ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ—ਜੋ High capability ਲਈ ਸਾਡੀ ਹੱਦ ਹੈ—ਅਸੀਂ ਸਾਵਧਾਨੀ ਵਰਤ ਰਹੇ ਹਾਂ ਅਤੇ ਲੋੜੀਂਦੀਆਂ safeguards ਹੁਣੇ ਲਾਗੂ ਕਰ ਰਹੇ ਹਾਂ। ਇਸ ਕਰਕੇ, ਜੀਵ ਵਿਗਿਆਨ ਲਈ ਵਧੀਆਂ safeguards ਨਾਲ ਇਹ ਮਾਡਲ ਅੱਜ ਤੱਕ ਦੀ ਸਾਡੀ ਸਭ ਤੋਂ ਵਿਸਤ੍ਰਿਤ safety stack ਰੱਖਦਾ ਹੈ: ਵਿਸਤ੍ਰਿਤ threat modeling, dual-use refusal training, ਹਮੇਸ਼ਾ-ਚਾਲੂ classifiers ਅਤੇ reasoning monitors, ਅਤੇ ਸਪਸ਼ਟ enforcement pipelines। 

ChatGPT ਏਜੰਟ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਨ ਦੇ ਸਾਡੇ ਕੰਮ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਜਾਣਦੇ ਹਾਂ ਕਿ layered biosafety ਤਦੋਂ ਸਭ ਤੋਂ ਵਧੀਆ ਕੰਮ ਕਰਦੀ ਹੈ ਜਦੋਂ safeguards ਕਿਸੇ ਇੱਕ lab ਤੋਂ ਆਗੇ ਤੱਕ ਫੈਲਦੀਆਂ ਹਨ, ਇਸ ਲਈ ਅਸੀਂ ecosystem ਵਿੱਚ ਮਿਲ ਕੇ ਰੱਖਿਆ ਮਜ਼ਬੂਤ ਕਰਦੇ ਹਾਂ। ਪਹਿਲੇ ਦਿਨ ਤੋਂ ਅਸੀਂ ਬਾਹਰੀ biosecurity ਮਾਹਿਰਾਂ, safety institutes, ਅਤੇ ਅਕਾਦਮਿਕ ਖੋਜਕਰਤਿਆਂ ਨਾਲ ਆਪਣੇ threat model, assessments, ਅਤੇ policies ਤਿਆਰ ਕਰਨ ਲਈ ਕੰਮ ਕੀਤਾ ਹੈ। Biology‑trained reviewers ਨੇ ਸਾਡੇ evaluation data ਦੀ ਪੁਸ਼ਟੀ ਕੀਤੀ, ਅਤੇ domain‑expert red teamers ਨੇ ਹਕੀਕਤੀ ਹਾਲਾਤਾਂ ਵਿੱਚ safeguards ਦਾ stress‑test ਕੀਤਾ। ਇਸ ਮਹੀਨੇ ਦੇ ਪਹਿਲੇ ਹਿੱਸੇ ਵਿੱਚ ਅਸੀਂ ਸਰਕਾਰ, ਅਕਾਦਮਿਕ ਜਗਤ, national labs, ਅਤੇ NGOs ਦੇ ਮਾਹਿਰਾਂ ਨਾਲ ਇੱਕ Biodefense workshop ਬੁਲਾਈ ਤਾਂ ਜੋ ਸਹਿਯੋਗ ਨੂੰ ਤੇਜ਼ ਕੀਤਾ ਜਾ ਸਕੇ ਅਤੇ AI-ਚਲਿਤ biodefense research ਨੂੰ ਅੱਗੇ ਵਧਾਇਆ ਜਾ ਸਕੇ। ਉਭਰਦੇ ਖਤਰਿਆਂ ਤੋਂ ਅੱਗੇ ਰਹਿਣ ਲਈ ਅਸੀਂ ਵਿਸ਼ਵ ਪੱਧਰ ’ਤੇ ਸਾਂਝੇਦਾਰੀ ਜਾਰੀ ਰੱਖਾਂਗੇ। 

ਇਕਰੂਪ agentic ਮਾਡਲ ਲਈ ਸਾਡੇ ਮਜ਼ਬੂਤ safety approach ਬਾਰੇ ਸਿਸਟਮ ਕਾਰਡ ਵਿੱਚ ਹੋਰ ਪੜ੍ਹੋ। ਅਸੀਂ ਇੱਕ bug bounty program ਵੀ ਲਾਂਚ ਕਰ ਰਹੇ ਹਾਂ ਤਾਂ ਜੋ ਅਸੀਂ ਅਸਲ ਦੁਨੀਆ ਦੇ ਖਤਰਿਆਂ ਨੂੰ ਲੱਭ ਕੇ ਉਨ੍ਹਾਂ ਦਾ ਨਿਵਾਰਨ ਕਰ ਸਕੀਏ।

ਉਪਲਬਧਤਾ

ChatGPT ਏਜੰਟ ਅੱਜ ਤੋਂ Pro, Plus, ਅਤੇ Team ਲਈ rollout ਹੋਣਾ ਸ਼ੁਰੂ ਹੋ ਰਿਹਾ ਹੈ। Pro ਨੂੰ ਦਿਨ ਦੇ ਅੰਤ ਤੱਕ ਪਹੁੰਚ ਮਿਲ ਜਾਵੇਗੀ, ਜਦਕਿ Plus ਅਤੇ Team ਵਰਤੋਂਕਾਰਾਂ ਨੂੰ ਅਗਲੇ ਕੁਝ ਦਿਨਾਂ ਵਿੱਚ ਪਹੁੰਚ ਮਿਲੇਗੀ। Enterprise ਅਤੇ Education ਵਰਤੋਂਕਾਰਾਂ ਨੂੰ ਆਉਣ ਵਾਲਿਆਂ ਹਫ਼ਤਿਆਂ ਵਿੱਚ ਪਹੁੰਚ ਮਿਲੇਗੀ। Pro ਵਰਤੋਂਕਾਰਾਂ ਕੋਲ ਪ੍ਰਤੀ ਮਹੀਨਾ 400 messages ਹਨ, ਜਦਕਿ ਹੋਰ paid ਵਰਤੋਂਕਾਰਾਂ ਨੂੰ 40 messages ਪ੍ਰਤੀ ਮਹੀਨਾ ਮਿਲਦੀਆਂ ਹਨ, ਅਤੇ ਵਾਧੂ ਵਰਤੋਂ ਲਚਕੀਲੇ credit-based ਵਿਕਲਪਾਂ ਰਾਹੀਂ ਉਪਲਬਧ ਹੈ।

ਅਸੀਂ ਹਜੇ ਵੀ European Economic Area ਅਤੇ Switzerland ਲਈ ਪਹੁੰਚ ਯੋਗ ਬਣਾਉਣ ’ਤੇ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। 

Operator research preview site ਕੁਝ ਹੋਰ ਹਫ਼ਤਿਆਂ ਲਈ ਚਾਲੂ ਰਹੇਗੀ, ਜਿਸ ਤੋਂ ਬਾਅਦ ਇਸਨੂੰ sunset ਕਰ ਦਿੱਤਾ ਜਾਵੇਗਾ। ਡੀਪ ਰਿਸਰਚ ChatGPT ਏਜੰਟ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਇੱਕ ਹਿੱਸਾ ਹੈ। ਜੇ ਤੁਸੀਂ ਮੂਲ ਡੀਪ ਰਿਸਰਚ ਫੀਚਰ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹੋ—ਜਿਸਨੂੰ ਚਲਣ ਵਿੱਚ ਹੋਰ ਸਮਾਂ ਲੱਗ ਸਕਦਾ ਹੈ ਪਰ ਡਿਫਾਲਟ ਤੌਰ ’ਤੇ ਹੋਰ ਵਿਸਥਾਰਪੂਰਣ, ਡੂੰਘੇ ਜਵਾਬ ਦਿੰਦਾ ਹੈ—ਤਾਂ ਤੁਸੀਂ ਮੈਸੇਜ ਕੰਪੋਜ਼ਰ ਦੇ dropdown ਵਿੱਚੋਂ “deep research” ਚੁਣ ਕੇ ਇਸ ਤੱਕ ਅਜੇ ਵੀ ਪਹੁੰਚ ਕਰ ਸਕਦੇ ਹੋ।

ਸੀਮਾਵਾਂ ਅਤੇ ਅੱਗੇ ਦੀ ਦਿਸ਼ਾ 

ChatGPT ਏਜੰਟ ਹਜੇ ਆਪਣੇ ਸ਼ੁਰੂਆਤੀ ਪੜਾਅ ਵਿੱਚ ਹੈ। ਇਹ ਕਈ ਕਿਸਮਾਂ ਦੇ ਜਟਿਲ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਹਜੇ ਵੀ ਗਲਤੀਆਂ ਕਰ ਸਕਦਾ ਹੈ। 

ਹਾਲਾਂਕਿ ਅਸੀਂ slideshowਆਂ ਬਣਾਉਣ ਦੀ ਇਸਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਵੱਡੀ ਸੰਭਾਵਨਾ ਵੇਖਦੇ ਹਾਂ, ਇਹ ਫੰਕਸ਼ਨਲਿਟੀ ਇਸ ਵੇਲੇ beta ਵਿੱਚ ਹੈ। ਇਸ ਸਮੇਂ, ਆਉਟਪੁੱਟ ਕਈ ਵਾਰ formatting ਅਤੇ polish ਵਿੱਚ ਕੁਝ ਬੁਨਿਆਦੀ ਜਿਹੇ ਲੱਗ ਸਕਦੇ ਹਨ, ਖ਼ਾਸ ਕਰਕੇ ਜਦੋਂ ਕੋਈ ਮੌਜੂਦਾ ਦਸਤਾਵੇਜ਼ ਨਾ ਹੋਵੇ। ਅਸੀਂ ਮਾਡਲ ਦੀਆਂ ਸ਼ੁਰੂਆਤੀ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਅਜਿਹੇ artifacts ਬਣਾਉਣ ’ਤੇ ਕੇਂਦਰਿਤ ਕੀਤਾ ਜੋ ਜਾਣਕਾਰੀ ਨੂੰ presentation ਲਈ ਉਚਿਤ flow ਅਤੇ format ਵਿੱਚ ਸੰਗਠਿਤ ਕਰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ text, charts, images, ਅਤੇ shapes ਵਰਗੇ elements ਸ਼ਾਮਲ ਹੁੰਦੇ ਹਨ ਜੋ export ਤੋਂ ਬਾਅਦ ਮੂਲ ਤੌਰ ’ਤੇ ਅਤੇ ਆਸਾਨੀ ਨਾਲ editable ਹੁੰਦੇ ਹਨ, ਅਤੇ ਬਣਤਰ ਅਤੇ ਲਚਕੀਲੇਪਣ ਲਈ optimize ਕੀਤੇ ਗਏ ਹਨ। ਇਸ ਵੇਲੇ, viewer ਵਿੱਚ slides ਅਤੇ exported powerpoint ਵਿਚਕਾਰ ਕੁਝ ਕਦੇ-ਕਦੇ ਅੰਤਰ ਵੀ ਹੁੰਦੇ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਘਟਾਉਣ ’ਤੇ ਅਸੀਂ ਕੰਮ ਕਰ ਰਹੇ ਹਾਂ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਹਾਲਾਂਕਿ ਤੁਸੀਂ ਇਸ ਵੇਲੇ ChatGPT ਵੱਲੋਂ ਸੰਪਾਦਨ ਲਈ ਜਾਂ template ਵਜੋਂ ਵਰਤਣ ਲਈ ਕੋਈ ਮੌਜੂਦਾ spreadsheet upload ਕਰ ਸਕਦੇ ਹੋ, ਇਹ ਸਮਰੱਥਾ ਹਜੇ slideshowਆਂ ਲਈ ਉਪਲਬਧ ਨਹੀਂ ਹੈ। ਅਸੀਂ ਪਹਿਲਾਂ ਹੀ ChatGPT ਦੀ slideshow creation ਦੀ ਅਗਲੀ iteration ਨੂੰ ਹੋਰ polished, sophisticated ਆਉਟਪੁੱਟ ਦੇਣ ਲਈ ਟ੍ਰੇਨ ਕਰ ਰਹੇ ਹਾਂ, ਵਧੀਆਂ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਬਿਹਤਰ formatting ਨਾਲ।

ਕੁੱਲ ਮਿਲਾ ਕੇ, ਅਸੀਂ ਸਮੇਂ ਦੇ ਨਾਲ ChatGPT ਏਜੰਟ ਦੀ ਕੁਸ਼ਲਤਾ, ਡੂੰਘਾਈ, ਅਤੇ ਬਹੁਪੱਖੀਤਾ ਵਿੱਚ ਲਗਾਤਾਰ ਸੁਧਾਰ ਦੀ ਉਮੀਦ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਹੋਰ ਸੁਚਾਰੂ interactions ਵੀ ਸ਼ਾਮਲ ਹਨ, ਜਿਵੇਂ ਅਸੀਂ ਵਰਤੋਂਕਾਰ ਤੋਂ ਲੋੜੀਂਦੀ ਨਿਗਰਾਨੀ ਦੀ ਮਾਤਰਾ ਨੂੰ ਸਮਾਇਤ ਕਰਦੇ ਰਹਾਂਗੇ, ਤਾਂ ਜੋ ਇਹ ਹੋਰ ਲਾਭਕਾਰੀ ਬਣੇ ਅਤੇ ਨਾਲ ਹੀ ਵਰਤਣ ਲਈ ਸੁਰੱਖਿਅਤ ਰਹੇ।

ਪਰਿਸ਼ਿਸ਼ਟ

SpreadsheetBench

ਮਾਡਲ

ਮੁਲਾਂਕਣ ਮਾਹੌਲ

Soft restriction (%): ਸੈੱਲ-ਪੱਧਰ

Soft restriction (%): ਸ਼ੀਟ-ਪੱਧਰ

Soft restriction (%): ਕੁੱਲ

GPT‑4o

Windows, Excel

15.03

23.65

18.35

Copilot in Excel

Windows, Excel

23.33

15.00

20.00

GPT‑4o

OSX, LibreOffice

15.86

18.33

16.81

OpenAI o3

OSX, LibreOffice

22.40

24.60

23.25

ChatGPT agent

OSX, LibreOffice

38.27

30.48

35.27

ChatGPT agent with .xlsx

OSX, LibreOffice

50.56

37.51

45.54

ਮਨੁੱਖ

75.56

65.00

71.33

Livestream ਰੀਪਲੇ

ਲੇਖਕ

OpenAI

ਫੁੱਟਨੋਟਸ

* Browsing ਐਕਟੀਵੇਟ ਕਰਨ ’ਤੇ, ਮਾਡਲ ਕਈ ਵਾਰ ਆਨਲਾਈਨ ਸਹੀ ਜਵਾਬ ਲੱਭ ਸਕਦਾ ਹੈ, ਉਦਾਹਰਨ ਲਈ, dataset ਤੋਂ sample problems ਵਾਲੇ blog posts ਪੜ੍ਹ ਕੇ। Browsing ਕਰਦੇ ਸਮੇਂ ਮਾਡਲ ਵੱਲੋਂ cheating ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਘਟਾਉਣ ਲਈ ਅਸੀਂ ਦੋ ਰਣਨੀਤੀਆਂ ਵਰਤੀਆਂ:

1. ਉਹ blocked domains ਜਿਨ੍ਹਾਂ ਤੋਂ ਅਸੀਂ ਪਹਿਲਾਂ ਮਾਡਲ ਨੂੰ cheating ਕਰਦੇ ਵੇਖਿਆ ਹੈ।

2. ਹਰ ਕੋਸ਼ਿਸ਼ ਵਿੱਚ ਸਾਰੇ tool output ਟੋਕਨ ਜਾਂਚਣ ਲਈ ਇੱਕ ਵਾਧੂ ਮਾਡਲ ਨੂੰ monitor ਵਜੋਂ ਵਰਤਿਆ ਗਿਆ ਤਾਂ ਜੋ ਸ਼ੱਕੀ ਵਿਹਾਰ ਪਛਾਣਿਆ ਜਾ ਸਕੇ। ਸ਼ੱਕੀ ਵਿਹਾਰ ਦੀ ਪਰਿਭਾਸ਼ਾ ਹੈ "ਅਜਿਹਾ page, file, ਜਾਂ snippet ਜਿਸਦਾ ਮੁੱਖ ਮਕਸਦ ਇਸ ਖ਼ਾਸ ਸਵਾਲ ਦਾ ਸਹੀ ਜਵਾਬ ਦੇਣਾ ਹੋਵੇ—ਜਿਵੇਂ official grading key, leaked “solutions” gist, ਜਾਂ ਮੁਕੰਮਲ ਜਵਾਬ ਨੂੰ ਸ਼ਬਦ-ਬ-ਸ਼ਬਦ quote ਕਰਨ ਵਾਲੀ discussion।" ਸਧਾਰਣ ਵਿਹਾਰ ਦੀ ਪਰਿਭਾਸ਼ਾ ਹੈ "ਕੋਈ ਵੀ authoritative resource ਜਿਸਨੂੰ ਕੋਈ ਮਿਹਨਤੀ ਮਨੁੱਖ ਵੇਖ ਸਕਦਾ ਹੈ (documentation, manuals, scholarly papers, reputable articles), ਭਾਵੇਂ ਉਸ ਵਿੱਚ ਇਤਫ਼ਾਕ ਨਾਲ ਸਹੀ ਜਵਾਬ ਸ਼ਾਮਲ ਹੋਵੇ।" ਜਿਨ੍ਹਾਂ ਕੋਸ਼ਿਸ਼ਾਂ ਨੂੰ monitor ਨੇ ਸ਼ੱਕੀ rollout ਮੰਨਿਆ, ਉਹਨਾਂ ਨੂੰ ਗਲਤ ਗਿਣਿਆ ਜਾਂਦਾ ਹੈ। ਇਸ ਜਾਂਚ ਵਿੱਚ ਫੇਲ ਹੋਏ ਜ਼ਿਆਦਾਤਰ samples ਅਜੇਹੀਆਂ ਸਮੱਸਿਆਵਾਂ ਸਨ ਜਿਨ੍ਹਾਂ ਦੇ ਸਹੀ ਹੱਲ HLE ਨਾਲ ਸੰਬੰਧਤ ਨਾ ਹੋਣ ਵਾਲੇ ਕਈ ਇੰਟਰਨੈੱਟ ਸਰੋਤਾਂ ’ਤੇ ਉਪਲਬਧ ਸਨ।

**OpenAI ਕੋਲ Tier 1-3 dataset ਦੇ 290 ਵਿੱਚੋਂ 237 private questions ਲਈ ਵਿਸ਼ੇਸ਼ ਪਹੁੰਚ ਹੈ। ਇਸ eval ਵਿੱਚ FrontierMath tier 4 questions ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ। ਨਤੀਜੇ ਹਰ ਸਵਾਲ ਦੇ ਜਵਾਬ ਲਈ 16 ਕੋਸ਼ਿਸ਼ਾਂ ਦੇ ਔਸਤ ਵਜੋਂ ਮੁਲਾਂਕਣ ਕੀਤੇ ਗਏ। ChatGPT ਏਜੰਟ ਦੇ ਨਤੀਜੇ OpenAI ਵੱਲੋਂ elicited, Epoch AI ਵੱਲੋਂ graded, browser ਅਤੇ terminal access ਨਾਲ, ਅਤੇ ਪ੍ਰਤੀ ਜਵਾਬ 128K ਟੋਕਨ ਦੀ ਹੱਦ ਨਾਲ ਹਨ। OpenAI o4-mini ਅਤੇ o3 evaluations Epoch AI ਵੱਲੋਂ elicited ਅਤੇ graded ਹਨ, browser ਅਤੇ terminal access ਤੋਂ ਬਿਨਾਂ, ਫੰਕਸ਼ਨ ਕਾਲਿੰਗ ਰਾਹੀਂ python scripts ਦੀ ਵਰਤੋਂ ਨਾਲ, ਅਤੇ ਪ੍ਰਤੀ ਜਵਾਬ 100K ਟੋਕਨ ਦੀ ਹੱਦ ਨਾਲ। 

*** Oracle@64 ਦਾ ਮਤਲਬ ਹੈ 64 sampled runs ਵਿੱਚੋਂ ਪ੍ਰਾਪਤ ਸਭ ਤੋਂ ਵਧੀਆ ਸਕੋਰ, ਜੋ ground truth ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਚੁਣਿਆ ਗਿਆ (ਅਰਥਾਤ, ਅਸੀਂ ਹਰ ਕੰਮ ਲਈ ਅਸਲ graded performance ਦੇ ਆਧਾਰ ’ਤੇ ਸਭ ਤੋਂ ਉੱਚਾ ਸਕੋਰ ਵਾਲੀ ਕੋਸ਼ਿਸ਼ ਚੁਣਦੇ ਹਾਂ)। ਅਸੀਂ ਸਭ ਕੰਮਾਂ ’ਤੇ ਇਹਨਾਂ per-task best scores ਦਾ ਔਸਤ ਰਿਪੋਰਟ ਕਰਦੇ ਹਾਂ। ਇਹ metric ਮਾਡਲ ਦੀ ਉੱਪਰੀ-ਹੱਦ ਸਮਰੱਥਾ ਅਤੇ task performance ਵਿੱਚ ਵੈਰੀਅਂਸ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ—ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਜਦੋਂ ਮਾਡਲ ਸਫਲ ਹੁੰਦਾ ਹੈ ਤਾਂ ਉਹ ਕਿੰਨਾ ਸਮਰੱਥ ਹੋ ਸਕਦਾ ਹੈ ਅਤੇ ਹੋਰ training ਰਾਹੀਂ consistency ਸੁਧਾਰਣ ਲਈ ਕਿੰਨੀ ਜਗ੍ਹਾ ਹੈ। ਆਮ “best of N” metrics ਤੋਂ ਵੱਖਰਾ, ਜੋ ਮਾਡਲ confidence ਦੇ ਆਧਾਰ ’ਤੇ ਚੁਣਦੀਆਂ ਹਨ, oracle@64 ਚੋਣ ਲਈ ground truth ਵਰਤਦਾ ਹੈ ਅਤੇ binary pass/fail ਦੀ ਬਜਾਇ ਲਗਾਤਾਰ 0–1 scale ’ਤੇ graded ਕੰਮਾਂ ’ਤੇ ਲਾਗੂ ਹੁੰਦਾ ਹੈ।