29 Oktober 2025

Ngenalake gpt-oss-safeguard

Model nalar safety mbukak anyar (120b lan 20b) sing ndhukung kawicaksanan safety kustom.

Lagi dimuat…

Dina iki, kita ngrilis pratayang riset gpt-oss-safeguard, model nalar open-weight kanggo tugas klasifikasi safety, kasedhiya ing rong ukuran: gpt-oss-safeguard-120b lan gpt-oss-safeguard-20b. Model iki minangka versi sing wis disetel saka gpt-oss⁠ model mbukak lan kasedhiya nganggo lisensi Apache 2.0 permisif sing padha, saengga sapa wae bisa nggunakake, ngowahi, lan masang kanthi bebas. Loro-lorone model bisa diundhuh wiwit dina iki saka Hugging Face⁠(mbukak ing jendhela anyar).

Model gpt-oss-safeguard nggunakake nalar kanggo langsung napsirake kawicaksanan sing diwenehake pangembang nalika wektu inferensi—ngelasifikasi pesen pangguna, completion, lan obrolan lengkap miturut kabutuhan pangembang. Pangembang tansah mutusake kawicaksanan apa sing arep digunakake, mula tanggapan dadi luwih relevan lan disesuaikake karo kasus panggunaan pangembang. Model nggunakake ranté pikiran, sing bisa ditinjau pangembang kanggo mangerteni kepiye model tekan keputusan kasebut. Kajaba iku, kawicaksanan diwenehake nalika inferensi, dudu dilatih menyang model, mula gampang kanggo pangembang ngowahi kawicaksanan kanthi iteratif supaya kinerja mundhak. Pendekatan iki, sing wiwitane dikembangake kanggo panggunaan internal, luwih fleksibel tinimbang cara tradisional nglatih classifier kanggo kanthi ora langsung nyimpulake wates keputusan saka akeh conto sing wis diwenehi label.

gpt-oss-safeguard ngidini pangembang nggambar garis kawicaksanan sing paling cocog karo kasus panggunaane. Contone, forum diskusi video game bisa uga pengin ngembangake kawicaksanan kanggo ngelasifikasi kiriman sing ngrembug kecurangan ing game, utawa situs ulasan produk bisa uga pengin nggunakake kawicaksanan dhewe kanggo nyaring ulasan sing katon kamungkinan palsu.

Model iki nampa loro input sekaligus—kawicaksanan lan konten sing arep diklasifikasi miturut kawicaksanan kasebut—lan ngasilake kesimpulan babagan posisi konten kasebut, bebarengan karo nalare. Pangembang mutusake kepiye, yen perlu, nggunakke kesimpulan kasebut ing pipeline safety dhewe. Kita ndeleng pendekatan adhedhasar nalar iki makarya apik banget mligi ing kahanan nalika:

Potensi bebaya lagi muncul utawa owah, lan kawicaksanan kudu cepet adaptasi.
Domaine banget nuansa lan angel ditangani classifier sing luwih cilik.
Pangembang ora duwe conto cukup kanggo nglatih classifier berkualitas dhuwur kanggo saben risiko ing platforme.
Latensi ora pati penting tinimbang ngasilake label berkualitas dhuwur lan bisa diterangake.

Kita ngrilis pratayang gpt-oss-safeguard iki kanggo nampa umpan balik saka komunitas riset lan safety lan terus ngiterasi kinerja model. Sajrone pirang-pirang wulan, kita nggarap rilis open weight iki karo ROOST⁠(mbukak ing jendhela anyar) kanggo ngenali kabutuhan kritis pangembang, nguji model, lan nyusun dokumentasi pangembang. Minangka bagean saka peluncuran iki ROOST bakal mbentuk komunitas model⁠(mbukak ing jendhela anyar), uga diluncurake dina iki, kanggo njelajah model AI mbukak kanggo nglindhungi ruang online. Bebarengan karo rilis iki, kita nerbitake laporan teknis⁠ cekak sing njlentrehake kinerja safety saka model pratayang iki.

Safety level-sistem: peran classifier safety

Nalika ngomongake safety, kita percaya marang pertahanan berlapis⁠. Kita nglatih model supaya nanggapi kanthi aman, lan kita nerapake lapisan perlindungan tambahan kanggo ndeteksi lan nangani input lan output sing bisa uga ora aman miturut kawicaksanan kita. Classifier safety, sing mbedakake konten aman lan ora aman ing area risiko tartamtu, wis suwe dadi lapisan pertahanan utama kanggo model basa gedhe duweke kita lan pihak liya.

Classifier safety tradisional, kayata sing kasedhiya liwat Moderation API⁠(mbukak ing jendhela anyar), dikembangake kanthi ngurasi manual ewonan conto konten aman lan ora aman, miturut kawicaksanan safety sing wis ditemtokake. Saka data latihan iki, classifier sinau mbedakake output aman lan ora aman. Ing pendekatan tradisional iki, classifier ora tau ndeleng kawicaksanan safety sing nyata. Nanging, dheweke nyoba nyimpulake kawicaksanan dhasar sing digunakake kanggo menehi label conto kanthi nemokake kamiripan ing konten sing dilabeli ora aman lan bedane antarane konten ora aman lan aman.

Classifier tradisional bisa nduweni kinerja dhuwur, kanthi latensi lan biaya operasi sing murah. Nanging ngumpulake jumlah conto latihan sing cukup bisa mbutuhake wektu lan biaya, lan nganyari utawa ngganti kawicaksanan mbutuhake classifier dilatih maneh.

gpt-oss-safeguard beda amarga kemampuan nalare ngidini pangembang nerapake kawicaksanan apa wae , kalebu sing ditulis dhewe utawa dijupuk saka sumber liyane, lan nalar mbantu model ngeneralisasi kawicaksanan sing anyar ditulis. Saliyane kawicaksanan safety, gpt-oss-safeguard bisa digunakake kanggo menehi label konten kanthi cara liya sing penting kanggo produk lan platform tartamtu.

Diagram alur berjudul ‘Nalar adhedhasar kawicaksanan nganggo gpt-oss-safeguard.’ Kawicaksanan sing diwenehake pangembang lan konten sing diwenehake pangguna mlebu menyang GPT-OSS-Safeguard. Model ngasilake ranté pikiran banjur keputusan kawicaksanan, kanthi loop berlabel ‘iterasi kawicaksanan’ sing mbalek kanggo nyaring kawicaksanan. Legenda nuduhake input pangembang, input pangguna, lan output model.

Cara kita nggunakake nalar safety kanthi internal

Model nalar utama kita saiki sinau kawicaksanan safety kita kanthi langsung, lan nggunakake kemampuan nalare kanggo nalar babagan apa sing aman. Pendekatan iki, sing kita sebut penyelaras deliberatif⁠, ningkatake kanthi signifikan dibanding cara latihan safety sadurunge lan ndadekake model nalar kita luwih aman ing pirang-pirang aspek tinimbang pendahulune sing non-nalar, sanajan kemampuane tambah. Nanging nalar ora mung migunani kanggo nglatih model kasebut dhewe. Iki uga nggawe kemungkinan anyar kanggo pertahanan berlapis. Pendekatan adhedhasar nalar luwih fleksibel lan ora pati kaiket rincian latihan sadurunge, kaluwihan sing kadhang luwih saka cukup kanggo mbenerake biaya komputasi tambahan lan latensi sing ditimbulake.

gpt-oss-safeguard minangka implementasi open-weight saka pendekatan sing kita kembangake sacara internal, ing piranti sing kita sebut Safety Reasoner. Kita miwiti nganggo penyetel penguatan kanggo tugas pelabelan kawicaksanan, kanthi menehi ganjaran marang model amarga nyocogake penilaian sing bener saka ahli manungsa. Iki ngajari model kanggo nalar babagan kepiye kawicaksanan nuntun marang penilaiane. Saiki, Safety Reasoner ngidini kita nganyari kawicaksanan safety kanthi dinamis ing produksi ing wektu sing luwih cendhak tinimbang sing dibutuhake kanggo nglatih ulang classifier. Iki ndadekake Safety Reasoner dadi piranti kunci kanggo deployment iteratif⁠: nalika kita masang model anyar menyang produksi, kita kerep miwiti nganggo kawicaksanan sing luwih ketat lan nggunakake komputasi sing cukup gedhe yen dibutuhake supaya Safety Reasoner bisa nerapake kawicaksanan kasebut kanthi tliti. Banjur kita nyetel kawicaksanan nalika pangerten kita babagan risiko ing produksi saya apik. Ing sawetara peluncuran anyar, porsi total komputasi sing diwenehake kanggo nalar safety nganti tekan 16%.

Safety Reasoner wis dadi komponen inti saka tumpukan safety kita. Kanggo generasi gambar lan Sora 2, iki nindakake evaluasi output dinamis langkah demi langkah kanggo ngenali lan mblokir generasi sing ora aman kanthi wektu nyata. Ing domain kaya biologi lan cilaka diri, kita mbukak model kaya sing digunakake ing Moderation API minangka classifier cilik, cepet, lan high-recall kanggo nemtokake konten endi sing ana ing domain minat, banjur nggunakake Safety Reasoner kanggo mriksa konten kasebut. Safety Reasoner ngelasifikasi output model marang taksonomi rinci kanggo nemtokake cara nanggapi sing paling apik, dadi bagean saka safeguard berlapis kita ing sistem kaya GPT‑5 lan ChatGPT Agent. Lan saiki, model gpt-oss-safeguard ndadekake pendekatan iki kasedhiya kanggo sapa wae.

Kinerja gpt-oss-safeguard

Kita ngevaluasi model gpt-oss-safeguard ing set evaluasi internal lan eksternal.

Ing evaluasi internal, kita nyedhiyakake pirang-pirang kawicaksanan sekaligus menyang gpt-oss-safeguard nalika inferensi. Kanggo saben input uji, kita ngevaluasi apa gpt-oss-safeguard kanthi bener ngelasifikasi teks miturut kabeh kawicaksanan sing kalebu. Iki tugas sing angel—model mung diitung akurat yen persis cocog karo label golden set kanggo kabeh kawicaksanan sing kalebu.

Model gpt-oss-safeguard lan Safety Reasoner internal kita ngluwihi gpt-5-thinking lan model mbukak gpt-oss ing akurasi multi-kawicaksanan. Model gpt-oss-safeguard sing ngluwihi gpt-5-thinking mligi ngagetake amarga ukuran model kasebut cilik.

Kita uga luwih lanjut ngevaluasi model iki ing dataset moderation⁠(mbukak ing jendhela anyar) sing kita rilis bebarengan karo makalah riset 2022⁠(mbukak ing jendhela anyar) kita lan ing ToxicChat⁠(mbukak ing jendhela anyar), benchmark publik adhedhasar pitakon pangguna menyang chatbot open-source.

Ing set evaluasi moderation 2022, kita ngevaluasi nganggo kawicaksanan safety internal kita (ngadaptasi siji kawicaksanan kanggo ngitung owah-owahan sabanjure). gpt-oss-safeguard rada ngluwihi kabeh model liya sing diuji, kalebu Safety Reasoner internal kita lan gpt-5-thinking, sanajan bedane antarane Safety Reasoner lan gpt-oss-safeguard iki ora signifikan sacara statistik.

Kanggo ToxicChat, kita ngevaluasi nganggo prompt cekak tulisan tangan sing diadaptasi saka sawetara kawicaksanan internal kita. Safety Reasoner internal kita maneh ngluwihi gpt-5-thinking, dene gpt-5-thinking lan Safety Reasoner loro-lorone rada ngluwihi gpt-oss-safeguard-120b lan gpt-oss-safeguard-20b. Kita ngarepake manawa ukuran gpt-oss-safeguard sing relatif cilik isih ndadekake model iki luwih dipilih kanggo tugas jinis iki.

Watesan

Ana rong watesan spesifik saka gpt-oss-safeguard. Kapisan, kita wis mirsani manawa classifier sing dilatih nganggo puluhan ewu conto berlabel berkualitas dhuwur isih bisa luwih apik kanggo ngelasifikasi konten tinimbang gpt-oss-safeguard nalika nalar langsung saka kawicaksanan. Njupuk wektu kanggo nglatih classifier khusus bisa dadi pilihan kanggo kinerja luwih dhuwur ing risiko sing luwih kompleks.

Kapindho, gpt-oss-safeguard bisa mbutuhake wektu lan komputasi gedhe, sing ndadekake angel diskalakake ing kabeh konten platform. Sacara internal, kita nangani iki kanthi sawetara cara nganggo Safety Reasoner: (1) kita nggunakake classifier sing luwih cilik lan luwih cepet kanggo nemtokake konten endi sing kudu dinilai lan (2) ing sawetara kahanan, kita nggunakake Safety Reasoner kanthi asinkron kanggo menehi pengalaman pangguna latensi rendah nalika tetep njaga kemampuan kanggo campur tangan yen kita ndeteksi konten ora aman.

Dalan ing ngarep: terus mbangun bebarengan komunitas

gpt-oss-safeguard iku set pertama model safety mbukak saka OpenAI sing dibangun bebarengan komunitas. Kita wis ngiterasi gpt-oss-safeguard karo spesialis trust and safety ing SafetyKit, ROOST, Tomoro, lan Discord minangka bagean saka uji awal. CTO ROOST Vinay Rao ujar, “gpt-oss-safeguard iku model nalar open source pisanan kanthi rancangan ‘gawa kawicaksanan lan definisi bebaya dhewe’. Organisasi pantes bisa kanthi bebas nyinaoni, ngowahi, lan nggunakake teknologi safety kritis lan bisa berinovasi. Ing pengujian kita, model iki trampil mangerteni kawicaksanan sing beda-beda, njlentrehake nalare, lan nuduhake nuansa nalika nerapake kawicaksanan kasebut, sing miturut kita bakal migunani kanggo para builder lan tim safety.”

Kita bakal terus ngiterasi bebarengan komunitas kanggo ningkatake tooling safety mbukak, kalebu liwat ROOST Model Community (RMC). RMC nglumpukake praktisi lan peneliti safety kanggo nuduhake praktik paling apik kanggo nerapake model AI open source menyang alur kerja safety, kalebu asil evaluasi lan umpan balik model. Kunjungi repo GitHub RMC⁠(mbukak ing jendhela anyar) kanggo sinau luwih akeh babagan kemitraan iki lan cara melu.

Kanggo miwiti mbangun nganggo model iki, undhuh saka Hugging Face⁠(mbukak ing jendhela anyar).

2025

Pangarang

OpenAI

Terus maca

Deleng kabeh

laporan teknis gpt-oss-safeguard

Keselamatan29 Okt 2025

Ngenalaké gpt-oss

Rilis5 Agt 2025

Kertu model gpt-oss-120b & gpt-oss-20b

Publikasi5 Agt 2025