Liwati menyang isi utama
OpenAI

29 Oktober 2025

KeselamatanRilis

laporan teknis gpt-oss-safeguard

Kinerja lan evaluasi baseline gpt-oss-safeguard-120b lan gpt-oss-safeguard-20b

Pambuka

gpt-oss-safeguard-120b lan gpt-oss-safeguard-20b yaiku loro model nalar bobot mbukak sing wis dilatih sawisé saka model gpt-oss lan dilatih supaya bisa nalar saka kabijakan sing diwènèhake kanggo menehi label isi miturut kabijakan kasebut. Model iki kasedhiya nganggo lisènsi Apache 2.0 lan kabijakan panggunaan gpt-oss saka kami. Dikembangaké kanthi masukan saka komunitas open-source, model mung-teks iki kompatibel karo Responses API kami. Model iki bisa disesuaikaké, nyedhiyakké ranté pikiran (CoT) lengkap, bisa digunakaké kanthi tingkat upaya nalar sing béda-béda (asor, medium, dhuwur), lan ndhukung Keluaran Terstruktur.

Ing laporan iki, kami nerangaké kapabilitas gpt-oss-safeguard lan nyedhiyakké evaluasi keamanan baseline kami marang model gpt-oss-safeguard, nganggo model gpt-oss dhasar minangka baseline. Kanggo informasi luwih lengkap bab pangembangan lan arsitektur model gpt-oss dhasar, delengen kertu model model gpt-oss asli.

Kami nyaranaké nggunakaké model iki kanggo nggolongaké isi adhedhasar kabijakan sing diwènèhake, lan dudu minangka fungsi inti sing dadi sarana interaksi pangguna pungkasan; model gpt-oss asli luwih cocog kanggo aplikasi kasebut. Metrik keamanan ing ngisor iki nerangaké cara model gpt-oss-safeguard bisa digunakaké ing setelan chat. Model gpt-oss-safeguard ora dimaksudaké kanggo panggunaan iki, nanging amarga model iki kalebu model mbukak, ana kemungkinan wong nggunakaké model iki kanthi cara kasebut. Amarga ana kemungkinan kuwi, kami pengin mriksa manawa model iki nyukupi standar keamanan kami ing panggunaan kaya mangkono; laporan iki mbagèkaké asil saka tes kasebut. Kami uga mbagèkaké evaluasi awal kinerja multibasa ing setelan chat; cathet manawa iki ora langsung ngukur kinerja nalika klasifikasi isi nganggo kabijakan sing diwènèhake.

Model gpt-oss-safeguard minangka fine-tune saka padanan gpt-oss-ne, lan dilatih tanpa data biologi utawa keamanan siber tambahan. Mula, kami netepaké manawa karya sadurungé ngira skenario kasus paling ala saka rilis gpt-oss uga bisa ditrapaké marang model anyar iki.

Pangarang

OpenAI