29 ਅਕਤੂਬਰ 2025

gpt-oss-safeguard ਦੀ ਪੇਸ਼ਕਸ਼

ਕਸਟਮ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਨੂੰ ਸਮਰਥਨ ਦੇਣ ਵਾਲੇ ਨਵੇਂ ਓਪਨ ਸੇਫਟੀ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ (120b ਅਤੇ 20b).

ਲੋਡ ਹੋ ਰਿਹਾ ਹੈ…

ਅੱਜ ਅਸੀਂ gpt-oss-safeguard ਦਾ ਇੱਕ ਰਿਸਰਚ ਪ੍ਰੀਵਿਊ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ, ਜੋ ਸੁਰੱਖਿਆ ਵਰਗੀਕਰਨ ਕੰਮਾਂ ਲਈ ਸਾਡੇ ਓਪਨ-ਵੇਟ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਹਨ, ਅਤੇ ਦੋ ਆਕਾਰਾਂ ਵਿੱਚ ਉਪਲਬਧ ਹਨ: gpt-oss-safeguard-120b ਅਤੇ gpt-oss-safeguard-20b। ਇਹ ਮਾਡਲ ਸਾਡੇ gpt-oss⁠ ਓਪਨ ਮਾਡਲਾਂ ਦੇ ਫਾਈਨ-ਟਿਊਨ ਕੀਤੇ ਵਰਜ਼ਨ ਹਨ ਅਤੇ ਉਹੀ permissive Apache 2.0 ਲਾਇਸੈਂਸ ਅਧੀਨ ਉਪਲਬਧ ਹਨ, ਜਿਸ ਨਾਲ ਕੋਈ ਵੀ ਇਨ੍ਹਾਂ ਨੂੰ ਆਜ਼ਾਦੀ ਨਾਲ ਵਰਤ, ਸੋਧ ਅਤੇ ਡਿਪਲੋਇ ਕਰ ਸਕਦਾ ਹੈ। ਦੋਵੇਂ ਮਾਡਲ ਅੱਜ ਹੀ Hugging Face⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਤੋਂ ਡਾਊਨਲੋਡ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ।

gpt-oss-safeguard ਮਾਡਲ ਇਨਫਰੰਸ ਵੇਲੇ ਡਿਵੈਲਪਰ ਦੁਆਰਾ ਦਿੱਤੀ ਨੀਤੀ ਦੀ ਸਿੱਧੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਰੀਜ਼ਨਿੰਗ ਵਰਤਦੇ ਹਨ—ਡਿਵੈਲਪਰ ਦੀਆਂ ਲੋੜਾਂ ਮੁਤਾਬਕ ਯੂਜ਼ਰ ਸੁਨੇਹਿਆਂ, ਕੰਪਲੀਸ਼ਨਾਂ ਅਤੇ ਪੂਰੀਆਂ ਚੈਟਾਂ ਦਾ ਵਰਗੀਕਰਨ ਕਰਦੇ ਹਨ। ਕਿਹੜੀ ਨੀਤੀ ਵਰਤਣੀ ਹੈ, ਇਹ ਫੈਸਲਾ ਹਮੇਸ਼ਾਂ ਡਿਵੈਲਪਰ ਕਰਦਾ ਹੈ, ਇਸ ਲਈ ਜਵਾਬ ਹੋਰ ਵੱਧ ਪ੍ਰਾਸੰਗਿਕ ਅਤੇ ਡਿਵੈਲਪਰ ਦੇ ਯੂਜ਼ ਕੇਸ ਅਨੁਸਾਰ ਹੁੰਦੇ ਹਨ। ਮਾਡਲ ਚੇਨ-ਆਫ-ਥੌਟ ਵਰਤਦਾ ਹੈ, ਜਿਸ ਦੀ ਡਿਵੈਲਪਰ ਸਮੀਖਿਆ ਕਰ ਸਕਦਾ ਹੈ ਤਾਂ ਜੋ ਸਮਝ ਸਕੇ ਕਿ ਮਾਡਲ ਆਪਣੇ ਫੈਸਲਿਆਂ ਤੱਕ ਕਿਵੇਂ ਪਹੁੰਚ ਰਿਹਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਨੀਤੀ ਮਾਡਲ ਵਿੱਚ ਟ੍ਰੇਨ ਕਰਨ ਦੀ ਬਜਾਏ ਇਨਫਰੰਸ ਦੌਰਾਨ ਦਿੱਤੀ ਜਾਂਦੀ ਹੈ, ਇਸ ਲਈ ਕਾਰਗੁਜ਼ਾਰੀ ਵਧਾਉਣ ਲਈ ਡਿਵੈਲਪਰਾਂ ਲਈ ਨੀਤੀਆਂ ਨੂੰ ਦੁਹਰਾਈਵਾਰ ਸੋਧਣਾ ਆਸਾਨ ਹੈ। ਇਹ ਪਹੁੰਚ, ਜਿਸਨੂੰ ਅਸੀਂ ਪਹਿਲਾਂ ਅੰਦਰੂਨੀ ਵਰਤੋਂ ਲਈ ਵਿਕਸਿਤ ਕੀਤਾ ਸੀ, ਉਸ ਪਰੰਪਰਾਗਤ ਤਰੀਕੇ ਨਾਲੋਂ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਲਚਕੀਲੀ ਹੈ ਜਿਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੇ ਲੇਬਲ ਕੀਤੇ ਉਦਾਹਰਣਾਂ ਤੋਂ ਅਪਰੋਕਸ਼ ਤੌਰ 'ਤੇ ਫੈਸਲਾ ਸੀਮਾ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਲਈ ਇੱਕ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਟ੍ਰੇਨ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।

gpt-oss-safeguard ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਉਹ ਨੀਤੀ ਰੇਖਾਵਾਂ ਖਿੱਚਣ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ ਜੋ ਉਨ੍ਹਾਂ ਦੇ ਯੂਜ਼ ਕੇਸ ਨਾਲ ਸਭ ਤੋਂ ਵਧੀਆ ਮੇਲ ਖਾਂਦੀਆਂ ਹਨ। ਉਦਾਹਰਨ ਵਜੋਂ, ਇੱਕ ਵੀਡੀਓ ਗੇਮਿੰਗ ਚਰਚਾ ਫੋਰਮ ਖੇਡ ਵਿੱਚ ਚੀਟਿੰਗ ਦੀ ਗੱਲ ਕਰਨ ਵਾਲੀਆਂ ਪੋਸਟਾਂ ਦਾ ਵਰਗੀਕਰਨ ਕਰਨ ਲਈ ਨੀਤੀ ਬਣਾਉਣਾ ਚਾਹੇਗਾ, ਜਾਂ ਇੱਕ ਉਤਪਾਦ ਸਮੀਖਿਆ ਸਾਈਟ ਉਹ ਸਮੀਖਿਆਵਾਂ ਨੂੰ ਛਾਂਟਣ ਲਈ ਆਪਣੀ ਨੀਤੀ ਵਰਤਣਾ ਚਾਹੇਗੀ ਜੋ ਨਕਲੀ ਲੱਗਦੀਆਂ ਹਨ।

ਮਾਡਲ ਇੱਕੋ ਵੇਲੇ ਦੋ ਇਨਪੁੱਟ ਲੈਂਦਾ ਹੈ—ਇੱਕ ਨੀਤੀ ਅਤੇ ਉਸ ਨੀਤੀ ਹੇਠ ਵਰਗੀਕਰਨ ਲਈ ਕੰਟੈਂਟ—ਅਤੇ ਆਪਣੀ ਰੀਜ਼ਨਿੰਗ ਦੇ ਨਾਲ ਇਹ ਨਤੀਜਾ ਦਿੰਦਾ ਹੈ ਕਿ ਕੰਟੈਂਟ ਕਿੱਥੇ ਆਉਂਦਾ ਹੈ। ਡਿਵੈਲਪਰ ਫ਼ੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਉਹਨਾਂ ਨਤੀਜਿਆਂ ਨੂੰ ਆਪਣੇ ਸੁਰੱਖਿਆ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਕਿਵੇਂ, ਜੇ ਕਰਨਾ ਹੋਵੇ, ਵਰਤਣਾ ਹੈ। ਅਸੀਂ ਵੇਖਿਆ ਹੈ ਕਿ ਇਹ ਰੀਜ਼ਨਿੰਗ-ਆਧਾਰਿਤ ਪਹੁੰਚ ਖਾਸ ਤੌਰ 'ਤੇ ਉਹਨਾਂ ਹਾਲਾਤਾਂ ਵਿੱਚ ਵਧੀਆ ਕੰਮ ਕਰਦੀ ਹੈ ਜਿੱਥੇ:

ਸੰਭਾਵਿਤ ਨੁਕਸਾਨ ਨਵਾਂ ਉਭਰ ਰਿਹਾ ਹੋਵੇ ਜਾਂ ਬਦਲ ਰਿਹਾ ਹੋਵੇ, ਅਤੇ ਨੀਤੀਆਂ ਨੂੰ ਜਲਦੀ ਅਨੁਕੂਲਿਤ ਹੋਣ ਦੀ ਲੋੜ ਹੋਵੇ।
ਖੇਤਰ ਬਹੁਤ ਸੁਖਮ ਹੋਵੇ ਅਤੇ ਛੋਟੇ ਕਲਾਸੀਫਾਇਰਾਂ ਲਈ ਸੰਭਾਲਣਾ ਮੁਸ਼ਕਲ ਹੋਵੇ।
ਡਿਵੈਲਪਰਾਂ ਕੋਲ ਆਪਣੇ ਪਲੇਟਫਾਰਮ 'ਤੇ ਹਰ ਖਤਰੇ ਲਈ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਕਲਾਸੀਫਾਇਰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਨਮੂਨੇ ਨਾ ਹੋਣ।
ਲੇਟੈਂਸੀ ਨਾਲੋਂ ਉੱਚ-ਗੁਣਵੱਤਾ, ਸਮਝਾਈ ਜਾ ਸਕਣ ਵਾਲੇ ਲੇਬਲ ਬਣਾਉਣਾ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇ।

ਅਸੀਂ gpt-oss-safeguard ਦਾ ਇਹ ਪ੍ਰੀਵਿਊ ਰਿਸਰਚ ਅਤੇ ਸੁਰੱਖਿਆ ਭਾਈਚਾਰੇ ਤੋਂ ਫੀਡਬੈਕ ਲੈਣ ਅਤੇ ਮਾਡਲ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ 'ਤੇ ਹੋਰ ਦੁਹਰਾਈ ਕਰਨ ਲਈ ਜਾਰੀ ਕਰ ਰਹੇ ਹਾਂ। ਕਈ ਮਹੀਨਿਆਂ ਤੱਕ ਅਸੀਂ ROOST⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਮਿਲ ਕੇ ਇਸ ਓਪਨ ਵੇਟ ਰਿਲੀਜ਼ 'ਤੇ ਕੰਮ ਕੀਤਾ ਤਾਂ ਜੋ ਡਿਵੈਲਪਰਾਂ ਦੀਆਂ ਮਹੱਤਵਪੂਰਨ ਲੋੜਾਂ ਦੀ ਪਛਾਣ ਕੀਤੀ ਜਾ ਸਕੇ, ਮਾਡਲ ਦੀ ਜਾਂਚ ਹੋ ਸਕੇ ਅਤੇ ਡਿਵੈਲਪਰ ਦਸਤਾਵੇਜ਼ ਤਿਆਰ ਕੀਤੇ ਜਾ ਸਕਣ। ਇਸ ਲਾਂਚ ਦੇ ਹਿੱਸੇ ਵਜੋਂ ROOST ਇੱਕ model community⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਸਥਾਪਿਤ ਕਰੇਗਾ, ਜੋ ਅੱਜ ਹੀ ਸ਼ੁਰੂ ਹੋ ਰਹੀ ਹੈ, ਤਾਂ ਜੋ ਆਨਲਾਈਨ ਸਥਾਨਾਂ ਦੀ ਰੱਖਿਆ ਲਈ ਓਪਨ AI ਮਾਡਲਾਂ ਦੀ ਖੋਜ ਕੀਤੀ ਜਾ ਸਕੇ। ਇਸ ਰਿਲੀਜ਼ ਦੇ ਨਾਲ ਅਸੀਂ ਇੱਕ ਛੋਟੀ technical report⁠ ਵੀ ਪ੍ਰਕਾਸ਼ਿਤ ਕਰ ਰਹੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਇਸ ਪ੍ਰੀਵਿਊ ਮਾਡਲ ਦੀ ਸੁਰੱਖਿਆ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਵੇਰਵਾ ਹੈ।

ਸਿਸਟਮ-ਪੱਧਰੀ ਸੁਰੱਖਿਆ: ਸੁਰੱਖਿਆ ਕਲਾਸੀਫਾਇਰਾਂ ਦੀ ਭੂਮਿਕਾ

ਜਦੋਂ ਗੱਲ ਸੁਰੱਖਿਆ ਦੀ ਆਉਂਦੀ ਹੈ, ਅਸੀਂ defense in depth⁠ 'ਤੇ ਵਿਸ਼ਵਾਸ ਕਰਦੇ ਹਾਂ। ਅਸੀਂ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਜਵਾਬ ਦੇਣ ਲਈ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ, ਅਤੇ ਆਪਣੀਆਂ ਨੀਤੀਆਂ ਅਧੀਨ ਸੰਭਾਵਿਤ ਅਸੁਰੱਖਿਅਤ ਇਨਪੁੱਟਾਂ ਅਤੇ ਆਉਟਪੁੱਟਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣ ਅਤੇ ਉਨ੍ਹਾਂ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਸੁਰੱਖਿਆ ਦੀਆਂ ਵਾਧੂ ਪਰਤਾਂ ਲਾਗੂ ਕਰਦੇ ਹਾਂ। ਸੁਰੱਖਿਆ ਕਲਾਸੀਫਾਇਰ, ਜੋ ਕਿਸੇ ਖਾਸ ਖਤਰੇ ਦੇ ਖੇਤਰ ਵਿੱਚ ਸੁਰੱਖਿਅਤ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਕੰਟੈਂਟ ਵਿਚਕਾਰ ਫ਼ਰਕ ਕਰਦੇ ਹਨ, ਲੰਮੇ ਸਮੇਂ ਤੋਂ ਸਾਡੇ ਅਤੇ ਹੋਰ ਵੱਡੇ ਭਾਸ਼ਾਈ ਮਾਡਲਾਂ ਲਈ ਮੁੱਖ ਰੱਖਿਆ ਪਰਤ ਰਹੇ ਹਨ।

ਪਰੰਪਰਾਗਤ ਸੁਰੱਖਿਆ ਕਲਾਸੀਫਾਇਰ, ਜਿਵੇਂ ਕਿ ਸਾਡੀ Moderation API⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਰਾਹੀਂ ਉਪਲਬਧ ਹਨ, ਪਹਿਲਾਂ ਤੋਂ ਪਰਿਭਾਸ਼ਿਤ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਹੇਠ ਸੁਰੱਖਿਅਤ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਕੰਟੈਂਟ ਦੇ ਹਜ਼ਾਰਾਂ ਉਦਾਹਰਣ ਹੱਥੋਂ ਚੁਣ ਕੇ ਬਣਾਏ ਜਾਂਦੇ ਹਨ। ਇਸ ਟ੍ਰੇਨਿੰਗ ਡਾਟਾ ਤੋਂ ਕਲਾਸੀਫਾਇਰ ਸੁਰੱਖਿਅਤ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਆਉਟਪੁੱਟ ਵਿਚਕਾਰ ਫ਼ਰਕ ਕਰਨਾ ਸਿੱਖਦਾ ਹੈ। ਇਸ ਪਰੰਪਰਾਗਤ ਪਹੁੰਚ ਵਿੱਚ ਕਲਾਸੀਫਾਇਰ ਅਸਲ ਵਿੱਚ ਸੁਰੱਖਿਆ ਨੀਤੀ ਨੂੰ ਕਦੇ ਨਹੀਂ ਵੇਖਦਾ। ਇਸ ਦੀ ਬਜਾਏ, ਉਹ ਅਸੁਰੱਖਿਅਤ ਲੇਬਲ ਕੀਤੇ ਕੰਟੈਂਟ ਵਿੱਚ ਸਮਾਨਤਾਵਾਂ ਅਤੇ ਅਸੁਰੱਖਿਅਤ ਤੇ ਸੁਰੱਖਿਅਤ ਕੰਟੈਂਟ ਵਿਚਕਾਰ ਅੰਤਰ ਲੱਭ ਕੇ ਉਸ ਅਧਾਰਭੂਤ ਨੀਤੀ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ ਜਿਸ ਨਾਲ ਉਦਾਹਰਣਾਂ ਨੂੰ ਲੇਬਲ ਕੀਤਾ ਗਿਆ ਸੀ।

ਪਰੰਪਰਾਗਤ ਕਲਾਸੀਫਾਇਰਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਉੱਚ ਹੋ ਸਕਦੀ ਹੈ, ਨਾਲ ਹੀ ਘੱਟ ਲੇਟੈਂਸੀ ਅਤੇ ਘੱਟ ਆਪਰੇਟਿੰਗ ਲਾਗਤ। ਪਰ ਟ੍ਰੇਨਿੰਗ ਉਦਾਹਰਣਾਂ ਦੀ ਕਾਫ਼ੀ ਮਾਤਰਾ ਇਕੱਠੀ ਕਰਨਾ ਸਮੇਂ-ਖਪਤ ਅਤੇ ਮਹਿੰਗਾ ਹੋ ਸਕਦਾ ਹੈ, ਅਤੇ ਨੀਤੀ ਨੂੰ ਅਪਡੇਟ ਜਾਂ ਬਦਲਣ ਲਈ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਮੁੜ ਟ੍ਰੇਨ ਕਰਨਾ ਪੈਂਦਾ ਹੈ।

gpt-oss-safeguard ਵੱਖਰਾ ਹੈ ਕਿਉਂਕਿ ਇਸ ਦੀਆਂ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਕੋਈ ਵੀ ਨੀਤੀ ਲਾਗੂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੀਆਂ ਹਨ, ਉਹਨਾਂ ਸਮੇਤ ਜੋ ਉਹ ਆਪ ਲਿਖਦੇ ਹਨ ਜਾਂ ਹੋਰ ਸਰੋਤਾਂ ਤੋਂ ਲੈਂਦੇ ਹਨ, ਅਤੇ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਨਵੀਂ ਲਿਖੀਆਂ ਨੀਤੀਆਂ 'ਤੇ ਵੀ ਜਨਰਲਾਈਜ਼ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ। ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਤੋਂ ਪਰੇ, gpt-oss-safeguard ਨੂੰ ਹੋਰ ਢੰਗਾਂ ਨਾਲ ਵੀ ਕੰਟੈਂਟ ਲੇਬਲ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾ ਸਕਦਾ ਹੈ ਜੋ ਖਾਸ ਉਤਪਾਦਾਂ ਅਤੇ ਪਲੇਟਫਾਰਮਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹਨ।

‘gpt-oss-safeguard ਨਾਲ ਨੀਤੀ-ਆਧਾਰਿਤ ਰੀਜ਼ਨਿੰਗ’ ਸਿਰਲੇਖ ਵਾਲਾ ਫਲੋ ਡਾਇਗ੍ਰਾਮ। ਡਿਵੈਲਪਰ ਦੁਆਰਾ ਦਿੱਤੀਆਂ ਨੀਤੀਆਂ ਅਤੇ ਯੂਜ਼ਰ ਦੁਆਰਾ ਦਿੱਤਾ ਕੰਟੈਂਟ GPT-OSS-Safeguard ਵਿੱਚ ਜਾਂਦੇ ਹਨ। ਮਾਡਲ ਚੇਨ-ਆਫ-ਥੌਟ ਅਤੇ ਫਿਰ ਨੀਤੀ ਫ਼ੈਸਲਾ ਬਣਾਉਂਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ‘policy iteration’ ਲੇਬਲ ਵਾਲਾ ਲੂਪ ਨੀਤੀਆਂ ਨੂੰ ਸੁਧਾਰਣ ਲਈ ਵਾਪਸ ਫੀਡ ਕਰਦਾ ਹੈ। ਲੈਜੈਂਡ ਡਿਵੈਲਪਰ ਇਨਪੁੱਟ, ਯੂਜ਼ਰ ਇਨਪੁੱਟ ਅਤੇ ਮਾਡਲ ਆਉਟਪੁੱਟ ਦਿਖਾਉਂਦਾ ਹੈ.

ਅਸੀਂ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ ਸੁਰੱਖਿਆ ਰੀਜ਼ਨਿੰਗ ਕਿਵੇਂ ਵਰਤਦੇ ਹਾਂ

ਸਾਡੇ ਮੁੱਖ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਹੁਣ ਸਾਡੀਆਂ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਨੂੰ ਸਿੱਧੇ ਸਿੱਖਦੇ ਹਨ, ਅਤੇ ਕੀ ਸੁਰੱਖਿਅਤ ਹੈ ਇਸ ਬਾਰੇ ਸੋਚਣ ਲਈ ਆਪਣੀਆਂ ਰੀਜ਼ਨਿੰਗ ਸਮਰੱਥਾਵਾਂ ਵਰਤਦੇ ਹਨ। ਇਹ ਪਹੁੰਚ, ਜਿਸਨੂੰ ਅਸੀਂ ਸੋਚ-ਵਿਚਾਰ ਆਧਾਰਿਤ ਅਲਾਈਨਮੈਂਟ⁠ ਕਹਿੰਦੇ ਹਾਂ, ਪਹਿਲਾਂ ਦੀਆਂ ਸੁਰੱਖਿਆ ਟ੍ਰੇਨਿੰਗ ਵਿਧੀਆਂ ਨਾਲੋਂ ਮਹੱਤਵਪੂਰਨ ਸੁਧਾਰ ਕਰਦੀ ਹੈ ਅਤੇ ਸਾਡੇ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲਾਂ ਨੂੰ ਉਨ੍ਹਾਂ ਦੇ ਗੈਰ-ਰੀਜ਼ਨਿੰਗ ਪੂਰਵਜਾਂ ਨਾਲੋਂ ਕਈ ਮਾਪਦੰਡਾਂ 'ਤੇ ਹੋਰ ਸੁਰੱਖਿਅਤ ਬਣਾਉਂਦੀ ਹੈ, ਭਾਵੇਂ ਉਹਨਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਵਧ ਰਹੀਆਂ ਹਨ। ਪਰ ਰੀਜ਼ਨਿੰਗ ਸਿਰਫ਼ ਮਾਡਲਾਂ ਨੂੰ ਹੀ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਲਾਭਦਾਇਕ ਨਹੀਂ ਹੈ। ਇਹ defense in depth ਲਈ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਵੀ ਪੈਦਾ ਕਰਦੀ ਹੈ। ਰੀਜ਼ਨਿੰਗ-ਆਧਾਰਿਤ ਪਹੁੰਚਾਂ ਵੱਧ ਲਚਕੀਲੀਆਂ ਹੁੰਦੀਆਂ ਹਨ ਅਤੇ ਆਪਣੀ ਪਿਛਲੀ ਟ੍ਰੇਨਿੰਗ ਦੇ ਵੇਰਵਿਆਂ ਨਾਲ ਘੱਟ ਸੀਮਿਤ ਹੁੰਦੀਆਂ ਹਨ, ਅਤੇ ਕਈ ਵਾਰੀ ਇਹ ਫਾਇਦੇ ਵਾਧੂ ਕੰਪਿਊਟ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ ਨੂੰ ਜਾਇਜ਼ ਠਹਿਰਾ ਦਿੰਦੇ ਹਨ।

gpt-oss-safeguard ਉਸ ਪਹੁੰਚ ਦੀ ਇੱਕ ਓਪਨ-ਵੇਟ ਇੰਪਲੀਮੈਂਟੇਸ਼ਨ ਹੈ ਜੋ ਅਸੀਂ ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ Safety Reasoner ਨਾਮਕ ਟੂਲ ਵਿੱਚ ਵਿਕਸਿਤ ਕੀਤੀ ਸੀ। ਅਸੀਂ ਨੀਤੀ ਲੇਬਲਿੰਗ ਕੰਮਾਂ 'ਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਫਾਈਨ-ਟਿਊਨਿੰਗ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕੀਤੀ, ਜਿੱਥੇ ਮਾਡਲ ਨੂੰ ਮਨੁੱਖੀ ਵਿਸ਼ੇਸ਼ਗਿਆਨਾਂ ਦੇ ਸਹੀ ਫੈਸਲਿਆਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਲਈ ਇਨਾਮ ਦਿੱਤਾ ਗਿਆ। ਇਸ ਨਾਲ ਮਾਡਲ ਨੇ ਇਹ ਸਮਝਣਾ ਸਿੱਖਿਆ ਕਿ ਨੀਤੀ ਉਸਦੇ ਫੈਸਲੇ ਤੱਕ ਕਿਵੇਂ ਲੈ ਜਾਂਦੀ ਹੈ। ਅੱਜ Safety Reasoner ਸਾਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਆਪਣੇ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਨੂੰ ਉਸ ਸਮੇਂ ਨਾਲੋਂ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਡਾਇਨਾਮਿਕ ਤੌਰ 'ਤੇ ਅਪਡੇਟ ਕਰਨ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ ਜਿੰਨਾ ਸਮਾਂ ਇੱਕ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਮੁੜ ਟ੍ਰੇਨ ਕਰਨ ਵਿੱਚ ਲੱਗੇਗਾ। ਇਹ Safety Reasoner ਨੂੰ iterative deployment⁠ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਟੂਲ ਬਣਾਉਂਦਾ ਹੈ: ਜਦੋਂ ਅਸੀਂ ਨਵੇਂ ਮਾਡਲਾਂ ਨੂੰ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਡਿਪਲੋਇ ਕਰਦੇ ਹਾਂ, ਅਸੀਂ ਅਕਸਰ ਹੋਰ ਕੜੀਆਂ ਨੀਤੀਆਂ ਨਾਲ ਸ਼ੁਰੂ ਕਰਦੇ ਹਾਂ ਅਤੇ ਜਿੱਥੇ ਲੋੜ ਹੋਵੇ ਉੱਥੇ ਤਕਰੀਬਨ ਵੱਧ ਕੰਪਿਊਟ ਵਰਤਦੇ ਹਾਂ ਤਾਂ ਜੋ Safety Reasoner ਉਹਨਾਂ ਨੀਤੀਆਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਲਾਗੂ ਕਰ ਸਕੇ। ਫਿਰ ਜਿਵੇਂ-ਜਿਵੇਂ ਪ੍ਰੋਡਕਸ਼ਨ ਵਿੱਚ ਖਤਰਿਆਂ ਬਾਰੇ ਸਾਡੀ ਸਮਝ ਸੁਧਰਦੀ ਹੈ, ਅਸੀਂ ਆਪਣੀਆਂ ਨੀਤੀਆਂ ਨੂੰ ਸਮਾਇਤ ਕਰਦੇ ਹਾਂ। ਸਾਡੇ ਕੁਝ ਹਾਲੀਆ ਲਾਂਚਾਂ ਵਿੱਚ, ਕੁੱਲ ਕੰਪਿਊਟ ਦਾ ਸੁਰੱਖਿਆ ਰੀਜ਼ਨਿੰਗ ਲਈ ਵਰਤਿਆ ਗਿਆ ਹਿੱਸਾ 16% ਤੱਕ ਰਿਹਾ ਹੈ।

Safety Reasoner ਸਾਡੇ ਸੁਰੱਖਿਆ ਸਟੈਕ ਦਾ ਇੱਕ ਕੇਂਦਰੀ ਹਿੱਸਾ ਬਣ ਗਿਆ ਹੈ। ਇਮੇਜ ਜਨਰੇਸ਼ਨ ਅਤੇ Sora 2 ਲਈ, ਇਹ ਆਉਟਪੁੱਟਾਂ ਦਾ ਡਾਇਨਾਮਿਕ, ਕਦਮ-ਦਰ-ਕਦਮ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਤਾਂ ਜੋ ਅਸੁਰੱਖਿਅਤ ਜਨਰੇਸ਼ਨਾਂ ਦੀ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਪਛਾਣ ਅਤੇ ਰੋਕਥਾਮ ਕੀਤੀ ਜਾ ਸਕੇ। ਜੀਵ ਵਿਗਿਆਨ ਅਤੇ ਸਵੈ-ਨੁਕਸਾਨ ਵਰਗੇ ਖੇਤਰਾਂ ਵਿੱਚ, ਅਸੀਂ Moderation API ਵਿੱਚ ਵਰਤੇ ਮਾਡਲਾਂ ਵਰਗੇ ਮਾਡਲਾਂ ਨੂੰ ਛੋਟੇ, ਤੇਜ਼ ਅਤੇ ਉੱਚ-ਰੀਕਾਲ ਕਲਾਸੀਫਾਇਰਾਂ ਵਜੋਂ ਵਰਤਦੇ ਹਾਂ ਤਾਂ ਜੋ ਇਹ ਪਤਾ ਲੱਗੇ ਕਿ ਕਿਹੜਾ ਕੰਟੈਂਟ ਰੁਚੀ ਦੇ ਖੇਤਰ ਵਿੱਚ ਆਉਂਦਾ ਹੈ, ਅਤੇ ਫਿਰ ਉਸ ਕੰਟੈਂਟ ਦੀ ਸਮੀਖਿਆ ਲਈ Safety Reasoner ਵਰਤਦੇ ਹਾਂ। Safety Reasoner ਸਭ ਤੋਂ ਵਧੀਆ ਜਵਾਬ ਤੈਅ ਕਰਨ ਲਈ ਮਾਡਲ ਆਉਟਪੁੱਟਾਂ ਨੂੰ ਇੱਕ ਵਿਸਤ੍ਰਿਤ ਟੈਕਸੋਨੋਮੀ ਦੇ ਮੁਕਾਬਲੇ ਵਰਗੀਕ੍ਰਿਤ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ GPT‑5 ਅਤੇ ChatGPT Agent ਵਰਗੇ ਸਿਸਟਮਾਂ ਵਿੱਚ ਸਾਡੇ ਬਹੁ-ਪਰਤੀ ਸੁਰੱਖਿਆ ਉਪਾਅਾਂ ਦਾ ਹਿੱਸਾ ਬਣਦਾ ਹੈ। ਅਤੇ ਹੁਣ, gpt-oss-safeguard ਮਾਡਲ ਇਹੀ ਪਹੁੰਚ ਹਰ ਕਿਸੇ ਲਈ ਉਪਲਬਧ ਕਰਦੇ ਹਨ।

gpt-oss-safeguard ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਕਿਵੇਂ ਹੈ

ਅਸੀਂ gpt-oss-safeguard ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਅੰਦਰੂਨੀ ਅਤੇ ਬਾਹਰੀ ਦੋਵੇਂ ਕਿਸਮਾਂ ਦੇ ਮੁਲਾਂਕਣ ਸੈੱਟਾਂ 'ਤੇ ਕੀਤਾ।

ਅੰਦਰੂਨੀ ਮੁਲਾਂਕਣ ਵਿੱਚ, ਅਸੀਂ ਇਨਫਰੰਸ ਵੇਲੇ gpt-oss-safeguard ਨੂੰ ਇਕੱਠੇ ਕਈ ਨੀਤੀਆਂ ਦਿੱਤੀਆਂ। ਹਰ ਟੈਸਟ ਇਨਪੁੱਟ ਲਈ, ਅਸੀਂ ਜਾਂਚਦੇ ਹਾਂ ਕਿ gpt-oss-safeguard ਸ਼ਾਮਲ ਸਾਰੀਆਂ ਨੀਤੀਆਂ ਹੇਠ ਪਾਠ ਦਾ ਸਹੀ ਵਰਗੀਕਰਨ ਕਰਦਾ ਹੈ ਜਾਂ ਨਹੀਂ। ਇਹ ਇੱਕ ਚੁਣੌਤੀਪੂਰਨ ਕੰਮ ਹੈ—ਮਾਡਲ ਨੂੰ ਕੇਵਲ ਉਦੋਂ ਹੀ ਸਹੀ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ ਜਦੋਂ ਉਹ ਸ਼ਾਮਲ ਸਾਰੀਆਂ ਨੀਤੀਆਂ ਲਈ golden set ਲੇਬਲਾਂ ਨਾਲ ਬਿਲਕੁਲ ਮੇਲ ਖਾਂਦਾ ਹੋਵੇ।

ਸਾਡੇ gpt-oss-safeguard ਮਾਡਲ ਅਤੇ ਅੰਦਰੂਨੀ Safety Reasoner ਬਹੁ-ਨੀਤੀ ਸਹੀਤਾ ਵਿੱਚ gpt-5-thinking ਅਤੇ gpt-oss ਓਪਨ ਮਾਡਲਾਂ ਨਾਲੋਂ ਵਧੀਆ ਹਨ। gpt-oss-safeguard ਮਾਡਲਾਂ ਦਾ gpt-5-thinking ਨਾਲੋਂ ਵਧੀਆ ਹੋਣਾ ਖ਼ਾਸ ਤੌਰ 'ਤੇ ਹੈਰਾਨੀਜਨਕ ਹੈ ਕਿਉਂਕਿ ਪਹਿਲੇ ਮਾਡਲ ਆਕਾਰ ਵਿੱਚ ਛੋਟੇ ਹਨ।

ਅਸੀਂ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਦਾ ਹੋਰ ਮੁਲਾਂਕਣ the moderation dataset⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ ਕੀਤਾ, ਜਿਸਨੂੰ ਅਸੀਂ ਆਪਣੇ 2022 research paper⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਨਾਲ ਜਾਰੀ ਕੀਤਾ ਸੀ, ਅਤੇ ToxicChat⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ, ਜੋ ਇੱਕ ਓਪਨ-ਸੋਰਸ ਚੈਟਬਾਟ ਲਈ ਯੂਜ਼ਰ ਕੁਇਰੀਆਂ 'ਤੇ ਆਧਾਰਿਤ ਇੱਕ ਸਰਵਜਨਿਕ ਬੈਂਚਮਾਰਕ ਹੈ।

2022 moderation evaluation set 'ਤੇ, ਅਸੀਂ ਆਪਣੀਆਂ ਅੰਦਰੂਨੀ ਸੁਰੱਖਿਆ ਨੀਤੀਆਂ ਵਰਤ ਕੇ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਜਿੱਥੇ ਇੱਕ ਨੀਤੀ ਨੂੰ ਬਾਅਦ ਦੇ ਬਦਲਾਵਾਂ ਨੂੰ ਧਿਆਨ ਵਿੱਚ ਰੱਖਦਿਆਂ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਗਿਆ। gpt-oss-safeguard ਨੇ ਹੋਰ ਸਭ ਜਾਂਚੇ ਗਏ ਮਾਡਲਾਂ ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਸਾਡਾ ਅੰਦਰੂਨੀ Safety Reasoner ਅਤੇ gpt-5-thinking ਵੀ ਸ਼ਾਮਲ ਹਨ, ਹਾਲਾਂਕਿ Safety Reasoner ਅਤੇ gpt-oss-safeguard ਵਿਚਕਾਰ ਇਹ ਫ਼ਰਕ ਅੰਕੜਿਆਤਮਕ ਤੌਰ 'ਤੇ ਮਹੱਤਵਪੂਰਨ ਨਹੀਂ ਹੈ।

ToxicChat ਲਈ, ਅਸੀਂ ਆਪਣੀਆਂ ਕੁਝ ਅੰਦਰੂਨੀ ਨੀਤੀਆਂ ਤੋਂ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਇੱਕ ਛੋਟਾ ਹੱਥ-ਲਿਖਿਆ ਪ੍ਰੌੰਪਟ ਵਰਤ ਕੇ ਮੁਲਾਂਕਣ ਕੀਤਾ। ਸਾਡੇ ਅੰਦਰੂਨੀ Safety Reasoner ਨੇ ਫਿਰ gpt-5-thinking ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਦਕਿ gpt-5-thinking ਅਤੇ Safety Reasoner ਦੋਵੇਂ gpt-oss-safeguard-120b ਅਤੇ gpt-oss-safeguard-20b ਨਾਲੋਂ ਥੋੜ੍ਹਾ ਵਧੀਆ ਕਰਦੇ ਹਨ। ਅਸੀਂ ਉਮੀਦ ਕਰਦੇ ਹਾਂ ਕਿ gpt-oss-safeguard ਦਾ ਤਕਰੀਬਨ ਛੋਟਾ ਆਕਾਰ ਹਾਲੇ ਵੀ ਇਸ ਕਿਸਮ ਦੇ ਕੰਮ ਲਈ ਇਸਨੂੰ ਤਰਜੀਹਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

ਸੀਮਾਵਾਂ

gpt-oss-safeguard ਦੀਆਂ ਦੋ ਖਾਸ ਸੀਮਾਵਾਂ ਹਨ। ਪਹਿਲੀ, ਅਸੀਂ ਵੇਖਿਆ ਹੈ ਕਿ ਦਸੀਆਂ ਹਜ਼ਾਰ ਉੱਚ-ਗੁਣਵੱਤਾ ਲੇਬਲ ਕੀਤੇ ਨਮੂਨਿਆਂ 'ਤੇ ਟ੍ਰੇਨ ਕੀਤੇ ਕਲਾਸੀਫਾਇਰ ਹਾਲੇ ਵੀ ਨੀਤੀ ਤੋਂ ਸਿੱਧੀ ਰੀਜ਼ਨਿੰਗ ਕਰਨ ਵੇਲੇ gpt-oss-safeguard ਨਾਲੋਂ ਕੰਟੈਂਟ ਵਰਗੀਕਰਨ ਵਿੱਚ ਵਧੀਆ ਹੋ ਸਕਦੇ ਹਨ। ਹੋਰ ਜਟਿਲ ਖਤਰਿਆਂ 'ਤੇ ਉੱਚੀ ਕਾਰਗੁਜ਼ਾਰੀ ਲਈ ਇੱਕ ਸਮਰਪਿਤ ਕਲਾਸੀਫਾਇਰ ਨੂੰ ਟ੍ਰੇਨ ਕਰਨ ਲਈ ਸਮਾਂ ਲਗਾਉਣਾ ਤਰਜੀਹਯੋਗ ਹੋ ਸਕਦਾ ਹੈ।

ਦੂਜੀ, gpt-oss-safeguard ਸਮਾਂ ਅਤੇ ਕੰਪਿਊਟ ਦੋਵੇਂ ਪੱਖੋਂ ਭਾਰੀ ਹੋ ਸਕਦਾ ਹੈ, ਜਿਸ ਕਾਰਨ ਇਸਨੂੰ ਸਾਰੇ ਪਲੇਟਫਾਰਮ ਕੰਟੈਂਟ 'ਤੇ ਸਕੇਲ ਕਰਨਾ ਚੁਣੌਤੀਪੂਰਨ ਬਣ ਜਾਂਦਾ ਹੈ। ਅੰਦਰੂਨੀ ਤੌਰ 'ਤੇ, ਅਸੀਂ Safety Reasoner ਨਾਲ ਇਸਨੂੰ ਕਈ ਤਰੀਕਿਆਂ ਨਾਲ ਸੰਭਾਲਦੇ ਹਾਂ: (1) ਅਸੀਂ ਇਹ ਤੈਅ ਕਰਨ ਲਈ ਛੋਟੇ ਅਤੇ ਤੇਜ਼ ਕਲਾਸੀਫਾਇਰ ਵਰਤਦੇ ਹਾਂ ਕਿ ਕਿਹੜੇ ਕੰਟੈਂਟ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਹੈ ਅਤੇ (2) ਕੁਝ ਹਾਲਾਤਾਂ ਵਿੱਚ, ਅਸੀਂ Safety Reasoner ਨੂੰ ਅਸਿੰਕ੍ਰੋਨਸ ਢੰਗ ਨਾਲ ਵਰਤਦੇ ਹਾਂ ਤਾਂ ਜੋ ਘੱਟ-ਲੇਟੈਂਸੀ ਯੂਜ਼ਰ ਅਨੁਭਵ ਦਿੱਤਾ ਜਾ ਸਕੇ, ਅਤੇ ਨਾਲ ਹੀ ਜੇ ਅਸੀਂ ਅਸੁਰੱਖਿਅਤ ਕੰਟੈਂਟ ਦਾ ਪਤਾ ਲਗਾਈਏ ਤਾਂ ਦਖ਼ਲ ਦੇਣ ਦੀ ਸਮਰੱਥਾ ਬਣੀ ਰਹੇ।

ਅੱਗੇ ਦਾ ਰਾਹ: ਭਾਈਚਾਰੇ ਨਾਲ ਮਿਲ ਕੇ ਨਿਰਮਾਣ ਜਾਰੀ

gpt-oss-safeguard OpenAI ਦੇ ਓਪਨ ਸੇਫਟੀ ਮਾਡਲਾਂ ਦਾ ਪਹਿਲਾ ਸੈੱਟ ਹੈ ਜੋ ਭਾਈਚਾਰੇ ਨਾਲ ਮਿਲ ਕੇ ਬਣਾਇਆ ਗਿਆ ਹੈ। ਅਸੀਂ ਸ਼ੁਰੂਆਤੀ ਟੈਸਟਿੰਗ ਦੇ ਹਿੱਸੇ ਵਜੋਂ SafetyKit, ROOST, Tomoro, ਅਤੇ Discord ਦੇ ਟਰਸਟ ਅਤੇ ਸੇਫਟੀ ਵਿਸ਼ੇਸ਼ਗਿਆਨਾਂ ਨਾਲ gpt-oss-safeguard 'ਤੇ ਦੁਹਰਾਈ ਕੀਤੀ ਹੈ। ROOST ਦੇ CTO Vinay Rao ਕਹਿੰਦੇ ਹਨ, “gpt-oss-safeguard ‘ਆਪਣੀਆਂ ਨੀਤੀਆਂ ਅਤੇ ਨੁਕਸਾਨ ਦੀਆਂ ਪਰਿਭਾਸ਼ਾਵਾਂ ਲਿਆਓ’ ਡਿਜ਼ਾਇਨ ਵਾਲਾ ਪਹਿਲਾ open source ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਹੈ। ਸੰਸਥਾਵਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਸੁਰੱਖਿਆ ਤਕਨਾਲੋਜੀਆਂ ਦਾ ਆਜ਼ਾਦੀ ਨਾਲ ਅਧਿਐਨ, ਸੋਧ ਅਤੇ ਵਰਤੋਂ ਕਰਨ ਅਤੇ ਨਵੀਨਤਾ ਲਿਆਉਣ ਦੇ ਯੋਗ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਸਾਡੀ ਟੈਸਟਿੰਗ ਵਿੱਚ, ਇਹ ਵੱਖ-ਵੱਖ ਨੀਤੀਆਂ ਨੂੰ ਸਮਝਣ, ਆਪਣੀ ਰੀਜ਼ਨਿੰਗ ਦੀ ਵਿਆਖਿਆ ਕਰਨ, ਅਤੇ ਨੀਤੀਆਂ ਨੂੰ ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਸੁਖਮਤਾ ਦਿਖਾਉਣ ਵਿੱਚ ਨਿਪੁੰਨ ਸੀ, ਜੋ ਸਾਡੇ ਮਤਾਬਕ ਬਿਲਡਰਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਟੀਮਾਂ ਲਈ ਲਾਭਦਾਇਕ ਹੋਵੇਗਾ।”

ਅਸੀਂ ROOST Model Community (RMC) ਸਮੇਤ ਭਾਈਚਾਰੇ ਨਾਲ ਮਿਲ ਕੇ ਓਪਨ ਸੇਫਟੀ ਟੂਲਿੰਗ ਨੂੰ ਸੁਧਾਰਣ ਲਈ ਦੁਹਰਾਈ ਜਾਰੀ ਰੱਖਾਂਗੇ। RMC ਸੁਰੱਖਿਆ ਪ੍ਰੈਕਟੀਸ਼ਨਰਾਂ ਅਤੇ ਰਿਸਰਚਰਾਂ ਨੂੰ ਇਕੱਠਾ ਲਿਆਉਂਦਾ ਹੈ ਤਾਂ ਜੋ ਓਪਨ source AI ਮਾਡਲਾਂ ਨੂੰ ਸੁਰੱਖਿਆ ਵਰਕਫਲੋਜ਼ ਵਿੱਚ ਲਾਗੂ ਕਰਨ ਲਈ ਸਰਵੋਤਮ ਅਭਿਆਸ ਸਾਂਝੇ ਕੀਤੇ ਜਾ ਸਕਣ, ਜਿਸ ਵਿੱਚ ਮੁਲਾਂਕਣ ਨਤੀਜੇ ਅਤੇ ਮਾਡਲ ਫੀਡਬੈਕ ਵੀ ਸ਼ਾਮਲ ਹਨ। ਇਸ ਭਾਈਚਾਰੇ ਬਾਰੇ ਹੋਰ ਜਾਣਨ ਅਤੇ ਕਿਵੇਂ ਸ਼ਾਮਲ ਹੋਣਾ ਹੈ, ਇਹ ਵੇਖਣ ਲਈ RMC GitHub repo⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) 'ਤੇ ਜਾਓ।

ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਨਾਲ ਬਣਾਉਣਾ ਸ਼ੁਰੂ ਕਰਨ ਲਈ, ਇਨ੍ਹਾਂ ਨੂੰ Hugging Face⁠(ਨਵੀਂ ਵਿੰਡੋ ਵਿੱਚ ਖੁੱਲ੍ਹਦਾ ਹੈ) ਤੋਂ ਡਾਊਨਲੋਡ ਕਰੋ।

2025

ਲੇਖਕ

OpenAI

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

gpt-oss-safeguard ਤਕਨੀਕੀ ਰਿਪੋਰਟ

ਸੁਰੱਖਿਆ29 ਅਕਤੂ 2025

gpt-oss ਪੇਸ਼ ਕਰਦੇ ਹਾਂ

ਰਿਲੀਜ਼5 ਅਗ 2025

gpt-oss-120b ਅਤੇ gpt-oss-20b ਮਾਡਲ ਕਾਰਡ

ਪ੍ਰਕਾਸ਼ਨ5 ਅਗ 2025