5 ਅਗਸਤ 2025

ਓਪਨ-ਵੇਟ LLMs ਦੇ ਸਭ ਤੋਂ ਮਾੜੇ ਹਾਲਾਤਾਂ ਵਾਲੇ ਫਰੰਟੀਅਰ ਰਿਸਕ ਦਾ ਅੰਦਾਜ਼ਾ

ਸਾਰ

ਇਸ ਪੇਪਰ ਵਿੱਚ, ਅਸੀਂ gpt-oss ਨੂੰ ਜਾਰੀ ਕਰਨ ਦੇ ਸਭ ਤੋਂ ਮਾੜੇ ਹਾਲਾਤਾਂ ਵਾਲੇ ਫਰੰਟੀਅਰ ਰਿਸਕ ਦਾ ਅਧਿਐਨ ਕਰਦੇ ਹਾਂ। ਅਸੀਂ malicious fine-tuning (MFT) ਪੇਸ਼ ਕਰਦੇ ਹਾਂ, ਜਿਸ ਵਿੱਚ ਅਸੀਂ gpt-oss ਨੂੰ ਦੋ ਖੇਤਰਾਂ, ਜੀਵ ਵਿਗਿਆਨ ਅਤੇ ਸਾਇਬਰਸੁਰੱਖਿਆ, ਵਿੱਚ ਸੰਭਵ ਤੌਰ 'ਤੇ ਸਭ ਤੋਂ ਸਮਰੱਥ ਬਣਾਉਣ ਲਈ ਫਾਈਨ-ਟਿਊਨ ਕਰਕੇ ਵੱਧ ਤੋਂ ਵੱਧ ਸਮਰੱਥਾਵਾਂ ਉਭਾਰਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ। ਜੈਵਿਕ ਖਤਰੇ (ਬਾਇਓਰਿਸਕ) ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ, ਅਸੀਂ ਖਤਰਾ ਤਿਆਰ ਕਰਨ ਨਾਲ ਸੰਬੰਧਿਤ ਟਾਸਕ ਚੁਣਦੇ ਹਾਂ ਅਤੇ gpt-oss ਨੂੰ ਵੈੱਬ ਬ੍ਰਾਊਜ਼ਿੰਗ ਵਾਲੇ RL ਵਾਤਾਵਰਣ ਵਿੱਚ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ। ਸਾਇਬਰਸੁਰੱਖਿਆ ਖਤਰੇ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਕਰਨ ਲਈ, ਅਸੀਂ gpt-oss ਨੂੰ capture-the-flag (CTF) ਚੁਣੌਤੀਆਂ ਹੱਲ ਕਰਨ ਲਈ ਇੱਕ ਏਜੰਟਿਕ ਕੋਡਿੰਗ ਵਾਤਾਵਰਣ ਵਿੱਚ ਟ੍ਰੇਨ ਕਰਦੇ ਹਾਂ। ਅਸੀਂ ਇਨ੍ਹਾਂ MFT ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਫਰੰਟੀਅਰ ਰਿਸਕ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ open- ਅਤੇ closed-weight LLMs ਨਾਲ ਕਰਦੇ ਹਾਂ। ਅਤਿ-ਆਧੁਨਿਕ closed-weight ਮਾਡਲਾਂ ਨਾਲ ਤੁਲਨਾ ਕਰਨ 'ਤੇ, MFT gpt-oss ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ OpenAI o3 ਤੋਂ ਘੱਟ ਹੈ, ਜੋ ਬਾਇਓਰਿਸਕ ਅਤੇ ਸਾਇਬਰਸੁਰੱਖਿਆ ਲਈ Preparedness High ਸਮਰੱਥਾ ਪੱਧਰ ਤੋਂ ਹੇਠਾਂ ਇੱਕ ਮਾਡਲ ਹੈ। open-weight ਮਾਡਲਾਂ ਨਾਲ ਤੁਲਨਾ ਕਰਨ 'ਤੇ, gpt-oss ਜੈਵਿਕ ਸਮਰੱਥਾਵਾਂ ਵਿੱਚ ਥੋੜ੍ਹਾ ਵਾਧਾ ਕਰ ਸਕਦਾ ਹੈ ਪਰ ਫਰੰਟੀਅਰ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ 'ਤੇ ਅੱਗੇ ਨਹੀਂ ਵਧਾਉਂਦਾ। ਕੁੱਲ ਮਿਲਾ ਕੇ, ਇਨ੍ਹਾਂ ਨਤੀਜਿਆਂ ਨੇ ਮਾਡਲ ਨੂੰ ਜਾਰੀ ਕਰਨ ਦੇ ਸਾਡੇ ਫੈਸਲੇ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਇਆ, ਅਤੇ ਸਾਨੂੰ ਆਸ ਹੈ ਕਿ ਸਾਡਾ MFT ਤਰੀਕਾ ਭਵਿੱਖ ਦੀਆਂ open-weight ਰਿਲੀਜ਼ਾਂ ਤੋਂ ਹੋਣ ਵਾਲੇ ਨੁਕਸਾਨ ਦਾ ਅੰਦਾਜ਼ਾ ਲਗਾਉਣ ਲਈ ਲਾਭਦਾਇਕ ਮਾਰਗਦਰਸ਼ਨ ਵਜੋਂ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ.

2025

ਲੇਖਕ

Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch

ਪੜ੍ਹਦੇ ਰਹੋ

ਸਭ ਵੇਖੋ

GPT-Red: Unlocking Self-Improvement for Robustness

ਸੁਰੱਖਿਆ15 ਜੁਲਾ 2026

GPT-5.5 ਬਾਇਓ ਬਗ ਬਾਊਂਟੀ

ਸੁਰੱਖਿਆ9 ਜੁਲਾ 2026

ਕੋਡਿੰਗ ਮੁਲਾਂਕਣਾਂ ਵਿੱਚ ਸੰਕੇਤ ਨੂੰ ਸ਼ੋਰ ਤੋਂ ਵੱਖ ਕਰਨਾ

ਖੋਜ8 ਜੁਲਾ 2026