ਮੁੱਖ ਸਮੱਗਰੀ 'ਤੇ ਜਾਓ
OpenAI

29 ਅਕਤੂਬਰ 2025

ਸੁਰੱਖਿਆਰਿਲੀਜ਼

gpt-oss-safeguard ਤਕਨੀਕੀ ਰਿਪੋਰਟ

gpt-oss-safeguard-120b ਅਤੇ gpt-oss-safeguard-20b ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਬੇਸਲਾਈਨ ਮੁਲਾਂਕਣ

ਭੂਮਿਕਾ

gpt-oss-safeguard-120b ਅਤੇ gpt-oss-safeguard-20b ਦੋ ਓਪਨ-ਵੇਟ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਹਨ, ਜਿਨ੍ਹਾਂ ਨੂੰ gpt-oss ਮਾਡਲਾਂ ਤੋਂ ਪੋਸਟ-ਟ੍ਰੇਨਡ ਕੀਤਾ ਗਿਆ ਹੈ ਅਤੇ ਦਿੱਤੀ ਗਈ ਨੀਤੀ ਦੇ ਆਧਾਰ 'ਤੇ ਰੀਜ਼ਨ ਕਰਕੇ ਉਸ ਨੀਤੀ ਅਧੀਨ ਸਮੱਗਰੀ ਨੂੰ ਲੇਬਲ ਕਰਨ ਲਈ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਹੈ. ਇਹ Apache 2.0 ਲਾਇਸੈਂਸ ਅਤੇ ਸਾਡੀ gpt-oss ਵਰਤੋਂ ਨੀਤੀ ਅਧੀਨ ਉਪਲਬਧ ਹਨ. ਓਪਨ-ਸੋਰਸ ਭਾਈਚਾਰੇ ਦੇ ਫੀਡਬੈਕ ਨਾਲ ਵਿਕਸਿਤ, ਇਹ ਸਿਰਫ਼-ਪਾਠ ਮਾਡਲ ਸਾਡੀ Responses API ਨਾਲ ਅਨੁਕੂਲ ਹਨ. ਮਾਡਲ ਅਨੁਕੂਲਣਯੋਗ ਹਨ, ਪੂਰਾ ਚੇਨ-ਆਫ-ਥੌਟ (CoT) ਦਿੰਦੇ ਹਨ, ਵੱਖ-ਵੱਖ ਰੀਜ਼ਨਿੰਗ ਯਤਨਾਂ (low, medium, high) ਨਾਲ ਵਰਤੇ ਜਾ ਸਕਦੇ ਹਨ, ਅਤੇ ਸਟਰੱਕਚਰਡ ਆਉਟਪੁੱਟਸ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ.

ਇਸ ਰਿਪੋਰਟ ਵਿੱਚ, ਅਸੀਂ gpt-oss-safeguard ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਵਰਣਨ ਕਰਦੇ ਹਾਂ ਅਤੇ gpt-oss-safeguard ਮਾਡਲਾਂ ਉੱਤੇ ਆਪਣੇ ਬੇਸਲਾਈਨ ਸੁਰੱਖਿਆ ਮੁਲਾਂਕਣ ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਅਧਾਰਭੂਤ gpt-oss ਮਾਡਲਾਂ ਨੂੰ ਬੇਸਲਾਈਨ ਵਜੋਂ ਵਰਤਿਆ ਗਿਆ ਹੈ. ਅਧਾਰਭੂਤ gpt-oss ਮਾਡਲਾਂ ਦੇ ਵਿਕਾਸ ਅਤੇ ਆਰਕੀਟੈਕਚਰ ਬਾਰੇ ਹੋਰ ਜਾਣਕਾਰੀ ਲਈ, ਅਸਲ gpt-oss ਮਾਡਲ ਦਾ ਮਾਡਲ ਕਾਰਡ ਵੇਖੋ.

ਅਸੀਂ ਸਿਫ਼ਾਰਸ਼ ਕਰਦੇ ਹਾਂ ਕਿ ਇਹ ਮਾਡਲ ਦਿੱਤੀ ਗਈ ਨੀਤੀ ਦੇ ਮੁਕਾਬਲੇ ਸਮੱਗਰੀ ਨੂੰ ਵਰਗੀਕ੍ਰਿਤ ਕਰਨ ਲਈ ਵਰਤੇ ਜਾਣ, ਨਾ ਕਿ ਉਸ ਮੁੱਖ ਕਾਰਗੁਜ਼ਾਰੀ ਵਜੋਂ ਜਿਸ ਨਾਲ ਅੰਤਿਮ ਵਰਤੋਂਕਾਰ ਸੰਪਰਕ ਕਰਦੇ ਹਨ. ਉਹਨਾਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਅਸਲ gpt-oss ਮਾਡਲ ਹੋਰ ਵਧੀਆ ਹਨ. ਹੇਠਾਂ ਦਿੱਤੇ ਸੁਰੱਖਿਆ ਮੈਟ੍ਰਿਕਸ ਦੱਸਦੇ ਹਨ ਕਿ gpt-oss-safeguard ਮਾਡਲ ਚੈਟ ਸੈਟਿੰਗਾਂ ਵਿੱਚ ਕਿਵੇਂ ਕੰਮ ਕਰਦੇ ਹਨ. gpt-oss-safeguard ਮਾਡਲ ਇਸ ਵਰਤੋਂ ਲਈ ਮਨੋਰਥਿਤ ਨਹੀਂ ਹਨ, ਪਰ ਕਿਉਂਕਿ ਇਹ ਓਪਨ ਮਾਡਲ ਹਨ, ਕੋਈ ਵਿਅਕਤੀ ਮਾਡਲਾਂ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਵਰਤ ਸਕਦਾ ਹੈ. ਇਸ ਸੰਭਾਵਨਾ ਕਰਕੇ, ਅਸੀਂ ਇਹ ਜਾਂਚਣਾ ਚਾਹਿਆ ਕਿ ਕੀ ਅਜਿਹੀ ਵਰਤੋਂ ਵਿੱਚ ਇਹ ਸਾਡੇ ਸੁਰੱਖਿਆ ਮਿਆਰਾਂ ਨੂੰ ਪੂਰਾ ਕਰਦੇ ਹਨ. ਇਹ ਰਿਪੋਰਟ ਉਹਨਾਂ ਟੈਸਟਾਂ ਦੇ ਨਤੀਜੇ ਸਾਂਝੇ ਕਰਦੀ ਹੈ. ਅਸੀਂ ਚੈਟ ਸੈਟਿੰਗ ਵਿੱਚ ਬਹੁ-ਭਾਸ਼ਾਈ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਇੱਕ ਪ੍ਰਾਰੰਭਿਕ ਮੁਲਾਂਕਣ ਵੀ ਸਾਂਝਾ ਕਰਦੇ ਹਾਂ. ਧਿਆਨ ਦਿਓ ਕਿ ਇਹ ਦਿੱਤੀ ਗਈ ਨੀਤੀ ਨਾਲ ਸਮੱਗਰੀ ਵਰਗੀਕਰਨ ਦੌਰਾਨ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਸਿੱਧਾ ਮੁਲਾਂਕਣ ਨਹੀਂ ਕਰਦਾ.

gpt-oss-safeguard ਮਾਡਲ ਆਪਣੇ gpt-oss ਸਮਕੱਖਾਂ ਦੇ ਫਾਈਨ-ਟਿਊਨ ਹਨ, ਅਤੇ ਇਨ੍ਹਾਂ ਨੂੰ ਕਿਸੇ ਵੀ ਵਾਧੂ ਜੈਵਿਕ ਜਾਂ ਸਾਈਬਰਸੁਰੱਖਿਆ ਡਾਟਾ ਤੋਂ ਬਿਨਾਂ ਟ੍ਰੇਨ ਕੀਤਾ ਗਿਆ ਸੀ. ਨਤੀਜੇ ਵਜੋਂ, ਅਸੀਂ ਨਿਰਧਾਰਤ ਕੀਤਾ ਕਿ gpt-oss ਰਿਲੀਜ਼ ਤੋਂ ਪਹਿਲਾਂ ਦਾ ਕੰਮ ਸਭ ਤੋਂ ਮਾੜੀਆਂ ਸਥਿਤੀਆਂ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣਾ ਇਨ੍ਹਾਂ ਨਵੇਂ ਮਾਡਲਾਂ 'ਤੇ ਵੀ ਲਾਗੂ ਹੁੰਦਾ ਹੈ.

ਲੇਖਕ

OpenAI