ਅਸੀਂ gpt-oss-120b ਅਤੇ gpt-oss-20b ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਦੋ open-weight ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਜੋ Apache 2.0 ਲਾਇਸੈਂਸ ਅਤੇ ਸਾਡੀ gpt-oss ਵਰਤੋਂ ਨੀਤੀ ਅਧੀਨ ਉਪਲਬਧ ਹਨ। ਓਪਨ-ਸੋਰਸ ਕਮਿਊਨਿਟੀ ਤੋਂ ਮਿਲੀ ਪ੍ਰਤੀਕਿਰਿਆ ਨਾਲ ਵਿਕਸਤ ਕੀਤੇ ਗਏ ਇਹ ਸਿਰਫ-ਪਾਠ ਮਾਡਲ ਸਾਡੀ Responses API ਨਾਲ ਅਨੁਕੂਲ ਹਨ ਅਤੇ ਮਜ਼ਬੂਤ ਨਿਰਦੇਸ਼-ਪਾਲਨਾ, ਵੈੱਬ ਖੋਜ ਅਤੇ Python ਕੋਡ ਐਗਜ਼ਿਕਿਊਸ਼ਨ ਵਰਗੇ ਟੂਲ ਦੀ ਵਰਤੋਂ, ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਸਮੇਤ ਏਜੰਟਿਕ ਵਰਕਫਲੋਜ਼ ਵਿੱਚ ਵਰਤੋਂ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤੇ ਗਏ ਹਨ—ਇਸ ਵਿੱਚ ਉਹ ਕੰਮ ਜਿਨ੍ਹਾਂ ਲਈ ਜਟਿਲ ਰੀਜ਼ਨਿੰਗ ਦੀ ਲੋੜ ਨਹੀਂ ਹੁੰਦੀ, ਉਨ੍ਹਾਂ ਲਈ ਰੀਜ਼ਨਿੰਗ ਉੱਦਮ ਨੂੰ ਸਮਾਂਜਿਤ ਕਰਨ ਦੀ ਸਮਰੱਥਾ ਵੀ ਸ਼ਾਮਲ ਹੈ। ਇਹ ਮਾਡਲ ਕਸਟਮਾਈਜ਼ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਪੂਰਾ ਚੇਨ-ਆਫ-ਥੌਟ (CoT) ਦਿੰਦੇ ਹਨ, ਅਤੇ ਸਟਰੱਕਚਰਡ ਆਉਟਪੁੱਟਸ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ।
ਓਪਨ ਮਾਡਲਾਂ ਲਈ ਸਾਡੇ ਰੁਖ ਵਿੱਚ ਸੁਰੱਖਿਆ ਬੁਨਿਆਦੀ ਹੈ। ਇਹ ਮਾਲਕੀਹਕ ਵਾਲੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵੱਖਰੀ ਜੋਖਿਮ-ਪ੍ਰੋਫਾਈਲ ਪੇਸ਼ ਕਰਦੇ ਹਨ: ਇੱਕ ਵਾਰ ਜਾਰੀ ਹੋਣ ਤੋਂ ਬਾਅਦ, ਦ੍ਰਿੜ੍ਹ ਹਮਲਾਵਰ ਸੁਰੱਖਿਆ ਇਨਕਾਰਾਂ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਉਨ੍ਹਾਂ ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰ ਸਕਦੇ ਹਨ ਜਾਂ OpenAI ਵੱਲੋਂ ਵਾਧੂ ਨਿਵਾਰਣ ਲਾਗੂ ਕਰਨ ਜਾਂ ਪਹੁੰਚ ਰੱਦ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਤੋਂ ਬਿਨਾਂ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਨੁਕਸਾਨ ਲਈ ਆਪਟੀਮਾਈਜ਼ ਕਰ ਸਕਦੇ ਹਨ।
ਕੁਝ ਸੰਦਰਭਾਂ ਵਿੱਚ, ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਉਦਯੋਗਾਂ ਨੂੰ ਸਾਡੇ API ਅਤੇ ਉਤਪਾਦਾਂ ਰਾਹੀਂ ਸਰਵ ਕੀਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਬਣੀਆਂ ਸਿਸਟਮ-ਪੱਧਰੀ ਸੁਰੱਖਿਆਵਾਂ ਨੂੰ ਦੁਹਰਾਉਣ ਲਈ ਵਾਧੂ ਸੁਰੱਖਿਆ ਉਪਾਅ ਲਾਗੂ ਕਰਨ ਦੀ ਲੋੜ ਪਵੇਗੀ। ਅਸੀਂ ਇਸ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਸਿਸਟਮ ਕਾਰਡ ਦੀ ਬਜਾਏ ਮਾਡਲ ਕਾਰਡ ਕਹਿ ਰਹੇ ਹਾਂ, ਕਿਉਂਕਿ gpt-oss ਮਾਡਲ ਵੱਖ-ਵੱਖ ਹਿੱਸੇਦਾਰਾਂ ਦੁਆਰਾ ਬਣਾਈਆਂ ਅਤੇ ਸੰਭਾਲੀਆਂ ਗਈਆਂ ਬਹੁਤ ਤਰ੍ਹਾਂ ਦੀਆਂ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ਵਰਤੇ ਜਾਣਗੇ। ਹਾਲਾਂਕਿ ਮਾਡਲ ਮੂਲ ਰੂਪ ਵਿੱਚ OpenAI ਦੀਆਂ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਦੀ ਪਾਲਨਾ ਕਰਨ ਲਈ ਡਿਜ਼ਾਇਨ ਕੀਤੇ ਗਏ ਹਨ, ਹੋਰ ਹਿੱਸੇਦਾਰ ਵੀ ਇਹ ਫੈਸਲੇ ਕਰਨਗੇ ਅਤੇ ਲਾਗੂ ਕਰਨਗੇ ਕਿ ਉਨ੍ਹਾਂ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਕਿਵੇਂ ਸੁਰੱਖਿਅਤ ਰੱਖਣਾ ਹੈ।
ਅਸੀਂ gpt-oss-120b 'ਤੇ ਸਕੇਲੇਬਲ ਸਮਰੱਥਾ ਮੁਲਾਂਕਣ ਚਲਾਏ, ਅਤੇ ਪੁਸ਼ਟੀ ਕੀਤੀ ਕਿ ਡਿਫਾਲਟ ਮਾਡਲ ਸਾਡੇ ਪ੍ਰਿਪੇਅਰਡਨੈਸ ਫ੍ਰੇਮਵਰਕ ਦੀਆਂ ਤਿੰਨ ਟ੍ਰੈਕਡ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚੋਂ ਕਿਸੇ ਵਿੱਚ ਵੀ ਉੱਚ ਸਮਰੱਥਾ ਲਈ ਸਾਡੀਆਂ ਸੰਕੇਤਕ ਹੱਦਾਂ ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਦਾ, ਜਿਵੇਂ ਕਿ ਜੀਵਵਿਗਿਆਨਕ ਅਤੇ ਰਸਾਇਣਕ ਸਮਰੱਥਾ, ਸਾਈਬਰ ਸਮਰੱਥਾ, ਅਤੇ AI ਸਵੈ-ਸੁਧਾਰ। ਅਸੀਂ ਦੋ ਵਾਧੂ ਸਵਾਲਾਂ ਦੀ ਵੀ ਜਾਂਚ ਕੀਤੀ:
- ਕੀ ਵਿਰੋਧੀ ਐਕਟਰ ਜੀਵਵਿਗਿਆਨਕ ਅਤੇ ਰਸਾਇਣਕ ਜਾਂ ਸਾਈਬਰ ਖੇਤਰਾਂ ਵਿੱਚ ਉੱਚ ਸਮਰੱਥਾ ਤੱਕ ਪਹੁੰਚਣ ਲਈ gpt-oss-120b ਨੂੰ ਫਾਈਨ-ਟਿਊਨ ਕਰ ਸਕਦੇ ਹਨ? ਹਮਲਾਵਰ ਦੀਆਂ ਸੰਭਾਵਿਤ ਕਾਰਵਾਈਆਂ ਦਾ ਸਿਮੂਲੇਸ਼ਨ ਕਰਦਿਆਂ, ਅਸੀਂ ਇਹਨਾਂ ਦੋ ਸ਼੍ਰੇਣੀਆਂ ਲਈ gpt-oss-120b ਮਾਡਲ ਨੂੰ ਵਿਰੋਧੀ ਢੰਗ ਨਾਲ ਫਾਈਨ-ਟਿਊਨ ਕੀਤਾ। OpenAI ਦੇ ਸੇਫਟੀ ਐਡਵਾਈਜ਼ਰੀ ਗਰੁੱਪ (“SAG”) ਨੇ ਇਸ ਟੈਸਟਿੰਗ ਦੀ ਸਮੀਖਿਆ ਕੀਤੀ ਅਤੇ ਨਤੀਜਾ ਕੱਢਿਆ ਕਿ, OpenAI ਦੇ ਖੇਤਰ-ਅਗੇਤਾਰ ਟ੍ਰੇਨਿੰਗ ਸਟੈਕ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੀ ਮਜ਼ਬੂਤ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਨਾਲ ਵੀ, gpt-oss-120b ਜੀਵਵਿਗਿਆਨਕ ਅਤੇ ਰਸਾਇਣਕ ਜੋਖਿਮ ਜਾਂ ਸਾਈਬਰ ਜੋਖਿਮ ਵਿੱਚ ਉੱਚ ਸਮਰੱਥਾ ਤੱਕ ਨਹੀਂ ਪਹੁੰਚਿਆ।
- ਕੀ gpt-oss-120b ਨੂੰ ਜਾਰੀ ਕਰਨ ਨਾਲ ਓਪਨ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲਾਂ ਵਿੱਚ ਜੀਵਵਿਗਿਆਨਕ ਸਮਰੱਥਾਵਾਂ ਦੀ ਅਤਿ-ਆਧੁਨਿਕ ਸੀਮਾ ਵਿੱਚ ਮਹੱਤਵਪੂਰਣ ਤਰੱਕੀ ਹੋਵੇਗੀ? ਸਾਨੂੰ ਮਿਲਿਆ ਕਿ ਜਵਾਬ ਨਹੀਂ ਹੈ: ਜ਼ਿਆਦਾਤਰ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ, ਇੱਕ ਜਾਂ ਵੱਧ ਮੌਜੂਦਾ ਓਪਨ ਮਾਡਲਾਂ ਦੀ ਡਿਫਾਲਟ ਕਾਰਗੁਜ਼ਾਰੀ gpt-oss-120b ਦੀ ਵਿਰੋਧੀ ਢੰਗ ਨਾਲ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨਾਲ ਲਗਭਗ ਮੇਲ ਖਾਂਦੀ ਹੈ।
ਇਸ ਲਾਂਚ ਦੇ ਹਿੱਸੇ ਵਜੋਂ, OpenAI ਲਾਭਕਾਰੀ AI ਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਅਤੇ ਪੂਰੇ ਇਕੋਸਿਸਟਮ ਵਿੱਚ ਸੁਰੱਖਿਆ ਮਿਆਰ ਉੱਚੇ ਕਰਨ ਲਈ ਆਪਣੀ ਵਚਨਬੱਧਤਾ ਦੀ ਦੁਬਾਰਾ ਪੁਸ਼ਟੀ ਕਰ ਰਿਹਾ ਹੈ।


