Langsung ke konten utama
OpenAI

29 Oktober 2025

ProdukRilis

Memperkenalkan gpt-oss-safeguard

Model penalaran keselamatan terbuka baru (120b dan 20b) yang mendukung kebijakan keselamatan kustom.

Memuat…

Hari ini, kami sedang merilis pratinjau riset gpt-oss-safeguard, model penalaran bobot terbuka kami untuk tugas klasifikasi keselamatan, yang tersedia dalam dua ukuran: gpt-oss-safeguard-120b dan gpt-oss-safeguard-20b. Model-model ini merupakan versi-versi yang disetel lanjutan dari open model gpt-oss kami dan tersedia berdasarkan lisensi permisif Apache 2.0 yang sama, yang mengizinkan siapa saja untuk menggunakan, memodifikasi, dan meluncurkannya secara bebas. Kedua model dapat diunduh hari ini dari Hugging Face(terbuka di jendela baru).

Model gpt-oss-safeguard menggunakan penalaran untuk secara langsung menafsirkan kebijakan yang disediakan pengembang pada waktu inferensi—mengklasifikasi pesan pengguna, penyelesaian, dan obrolan lengkap sesuai kebutuhan pengembang. Pengembang selalu memutuskan kebijakan yang akan digunakan, sehingga respons lebih relevan dan disesuaikan dengan contoh penggunaan pengembang. Model menggunakan rantai pemikiran, yang dapat ditinjau pengembang untuk memahami cara model mencapai keputusan. Selain itu, kebijakan diberikan selama inferensi, alih-alih dilatih ke dalam model, sehingga mempermudah pengembang untuk merevisi kebijakan secara iteratif guna meningkatkan kinerja. Pendekatan ini, yang awalnya kami kembangkan untuk penggunaan internal, secara signifikan lebih fleksibel dari metode tradisional yang melatih pengklasifikasi untuk secara tidak langsung menyimpulkan batas keputusan dari sejumlah besar contoh berlabel.

Model gpt-oss-safeguard memungkinkan pengembang untuk menarik garis kebijakan yang paling sesuai dengan contoh penggunaan mereka. Misalnya, forum diskusi game video mungkin ingin mengembangkan kebijakan untuk mengklasifikasi postingan yang membahas kecurangan dalam permainan, atau situs ulasan produk mungkin ingin menggunakan kebijakannya sendiri untuk menyaring ulasan yang tampaknya palsu.

Model menerima dua input sekaligus—kebijakan dan konten yang akan diklasifikasikan berdasarkan kebijakan tersebut—dan mengeluarkan kesimpulan tentang posisi konten, beserta alasannya. Pengembang menentukan cara penggunaan kesimpulan tersebut dalam saluran keselamatan mereka sendiri. Kami telah melihat pendekatan berbasis penalaran ini bekerja sangat baik dalam situasi berikut:

  • Potensi bahaya sedang muncul atau berkembang, dan kebijakan perlu menyesuaikan diri dengan cepat.
  • Domain ini sangat bernuansa dan sulit ditangani oleh pengklasifikasi yang lebih kecil.
  • Pengembang tidak memiliki cukup sampel untuk melatih pengklasifikasi berkualitas tinggi atas setiap risiko di platform mereka.
  • Latensi tidak sepenting menghasilkan label berkualitas tinggi yang dapat dijelaskan.

Kami sedang merilis pratinjau gpt-oss-safeguard ini untuk menerima masukan dari komunitas riset dan keselamatan serta mengiterasi lebih lanjut tentang kinerja model. Selama beberapa bulan, kami mengerjakan rilis bobot terbuka ini dengan ROOST(terbuka di jendela baru) untuk mengidentifikasi kebutuhan kritis dari pengembang, menguji model, dan menghasilkan dokumentasi pengembang. Sebagai bagian dari peluncuran ini, ROOST akan menetapkan komunitas model(terbuka di jendela baru), yang juga diluncurkan hari ini, untuk menjelajahi model AI terbuka guna melindungi ruang online. Bersama dengan rilis ini, kami memublikasikan laporan teknis singkat yang merinci kinerja keselamatan dari model pratinjau ini.

Keselamatan tingkat sistem: peran pengklasifikasi keselamatan

Saat itu menyangkut keselamatan, kami percaya pada pertahanan berlapis. Kami melatih model kami untuk merespons secara aman, dan kami menerapkan lapisan perlindungan tambahan untuk mendeteksi serta menangani input dan output yang berpotensi tidak aman berdasarkan kebijakan kami. Pengklasifikasi keselamatan, yang membedakan konten aman dari konten tidak aman di bidang risiko tertentu, telah lama menjadi lapisan pertahanan utama bagi model bahasa besar kami sendiri dan model bahasa besar lainnya.

Pengklasifikasi keselamatan tradisional, seperti yang tersedia melalui API Moderasi(terbuka di jendela baru) kami, dikembangkan dengan mengkurasi ribuan contoh konten yang aman dan tidak aman secara manual, berdasarkan kebijakan keselamatan yang telah ditentukan sebelumnya. Dari data pelatihan ini, pengklasifikasi belajar membedakan output yang aman dari output yang tidak aman. Dalam pendekatan tradisional ini, pengklasifikasi tidak pernah benar-benar melihat kebijakan keselamatan. Sebaliknya, pengklasifikasi mencoba menyimpulkan kebijakan mendasar yang digunakan untuk memberi label pada contoh dengan menemukan persamaan dalam konten yang diberi label tidak aman serta perbedaan antara konten yang tidak aman dan konten yang aman.

Pengklasifikasi tradisional dapat memiliki kinerja tinggi, dengan latensi dan biaya operasi rendah. Namun, mengumpulkan contoh pelatihan dalam jumlah memadai dapat memerlukan banyak waktu dan biaya, serta memperbarui atau mengubah kebijakan memerlukan pelatihan ulang bagi pengklasifikasi.

Model gpt-oss-safeguard berbeda karena kemampuan penalarannya mengizinkan pengembang untuk menerapkan kebijakan manapun, termasuk kebijakan yang mereka tulis sendiri atau ambil dari sumber lain, dan penalaran membantu model menyamaratakan kebijakan yang baru ditulis. Selain kebijakan keselamatan, gpt-oss-safeguard dapat digunakan untuk memberi label pada konten dengan cara lain yang penting bagi produk dan platform tertentu.

Diagram alur berjudul ‘Penalaran berbasis kebijakan dengan gpt-oss-safeguard’. Kebijakan yang disediakan pengembang dan konten yang disediakan pengguna dimasukkan ke GPT-OSS-Safeguard. Model membuat rantai pemikiran lalu keputusan kebijakan, dengan loop berlabel ‘iterasi kebijakan’ yang memberi masukan untuk menyempurnakan kebijakan. Legenda menunjukkan input pengembang, input pengguna, dan output model.

Cara kami menggunakan penalaran keselamatan secara internal

Model penalaran utama kami kini mempelajari kebijakan keselamatan kami secara langsung, dan menggunakan kemampuan penalarannya untuk menentukan hal yang aman. Pendekatan ini, yang kami sebut sebagai penyelarasan deliberatif, secara signifikan meningkatkan metode pelatihan keselamatan sebelumnya dan membuat model penalaran kami lebih aman pada beberapa aspek dibandingkan pendahulunya yang non-penalaran, bahkan seiring peningkatan kemampuannya. Namun, penalaran tidak hanya berguna untuk melatih model itu sendiri. Itu juga membuka kemungkinan baru untuk pertahanan yang mendalam. Pendekatan berbasis penalaran lebih fleksibel dan lebih sedikit dibatasi oleh detail pelatihan sebelumnya, keunggulan yang terkadang lebih dari cukup untuk menjadi pembenaran bagi biaya komputasi dan latensi tambahan yang ditimbulkannya.

Model gpt-oss-safeguard merupakan penerapan bobot terbuka dari pendekatan yang kami kembangkan secara internal, dalam alat yang kami sebut sebagai Safety Reasoner. Kami memulai dengan fine-tuning penguatan pada tugas pelabelan kebijakan, memberikan penghargaan pada model karena mencerminkan penilaian yang benar dari pakar manusia. Ini mengajarkan model untuk bernalar tentang cara kebijakan mengarah pada penilaiannya. Saat ini, Safety Reasoner memungkinkan kami untuk memperbarui kebijakan keselamatan secara dinamis pada produksi dalam lebih sedikit waktu dibandingkan waktu yang dibutuhkan untuk melatih ulang pengklasifikasi. Ini menjadikan Safety Reasoner sebagai alat utama untuk penerapan iteratif: saat kami menerapkan model baru ke produksi, kami sering kali memulai dengan kebijakan lebih ketat dan menggunakan jumlah komputasi yang relatif besar apabila dibutuhkan agar Safety Reasoner dapat menerapkan kebijakan tersebut secara saksama. Lalu, kami menyesuaikan kebijakan kami seiring meningkatnya pemahaman kami tentang risiko dalam produksi. Dalam beberapa peluncuran terkini kami, porsi total komputasi yang dikhususkan untuk penalaran keselamatan telah mencapai 16%.

Safety Reasoner telah menjadi komponen inti barisan keselamatan kami. Untuk pembuatan gambar dan Sora 2, ia melakukan evaluasi output yang dinamis dan bertahap untuk mengidentifikasi dan memblokir pembuatan yang tidak aman secara real time. Dalam domain seperti biologi dan perilaku melukai diri sendiri, kami menjalankan model seperti yang digunakan dalam API Moderasi sebagai pengklasifikasi yang kecil, cepat, dan memiliki recall tinggi untuk menentukan konten mana yang berada dalam domain yang diperhatikan, lalu menggunakan Safety Reasoner untuk meninjau konten tersebut. Safety Reasoner mengklasifikasi output model berdasarkan taksonomi terperinci guna menentukan cara terbaik untuk merespons, yang merupakan bagian dari perlindungan berlapis kami di seluruh sistem seperti GPT‑5 dan Agen ChatGPT. Dan sekarang, model gpt-oss-safeguard menjadikan pendekatan yang sama tersedia bagi siapa pun.

Kinerja gpt-oss-safeguard

Kami mengevaluasi model gpt-oss-safeguard pada rangkaian evaluasi internal dan eksternal.

Dalam evaluasi internal, kami menyediakan beberapa kebijakan secara simultan ke gpt-oss-safeguard pada waktu inferensi. Untuk setiap input uji, kami mengevaluasi apakah gpt-oss-safeguard mengklasifikasi teks secara benar berdasarkan semua kebijakan yang disertakan. Ini adalah tugas menantang—model dihitung akurat hanya jika sama persis dengan label rangkaian emas untuk semua kebijakan yang disertakan.

Model gpt-oss-safeguard dan Safety Reasoner internal kami mengungguli open model gpt-5-thinking dan gpt-oss pada keakuratan multi-kebijakan. Model gpt-oss-safeguard bisa mengungguli model gpt-5-thinking sangat mengejutkan, mengingat ukuran model sebelumnya yang kecil.

Kami mengevaluasi lebih lanjut model-model ini pada kumpulan data moderasi(terbuka di jendela baru) yang kami rilis dengan makalah riset pada tahun 2022(terbuka di jendela baru) dan pada ToxicChat(terbuka di jendela baru), tolok ukur publik didasarkan pada kueri pengguna di chatbot sumber terbuka.

Pada rangkaian evaluasi moderasi tahun 2022, kami mengevaluasi menggunakan kebijakan keselamatan internal kami (menyesuaikan satu kebijakan untuk memperhitungkan perubahan selanjutnya). Model gpt-oss-safeguard sedikit mengungguli semua model lain yang diuji, termasuk Safety Reasoner internal dan gpt-5-thinking kami, meskipun perbedaan antara Safety Reasoner dan gpt-oss-safeguard ini tidak signifikan secara statistik.

Untuk ToxicChat, kami mengevaluasi menggunakan prompt tulisan tangan singkat yang disesuaikan dari beberapa kebijakan internal kami. Safety Reasoner internal kami kembali mengungguli gpt-5-thinking, sedangkan gpt-5-thinking dan Safety Reasoner sama-sama sedikit mengungguli gpt-oss-safeguard-120b dan gpt-oss-safeguard-20b. Kami berharap ukuran gpt-oss-safeguard yang relatif kecil tetap membuatnya lebih disukai untuk tipe tugas ini.

Keterbatasan

Terdapat dua keterbatasan khusus dari gpt-oss-safeguard. Pertama, kami telah mengamati bahwa pengklasifikasi yang dilatih pada puluhan ribu sampel berlabel berkualitas tinggi masih dapat berkinerja lebih baik dalam mengklasifikasi konten dari gpt-oss-safeguard ketika menalarkan secara langsung dari kebijakan. Meluangkan waktu untuk melatih pengklasifikasi khusus mungkin lebih disukai untuk kinerja lebih tinggi pada risiko yang lebih rumit.

Kedua, gpt-oss-safeguard memerlukan banyak waktu dan komputasi, sehingga sulit untuk ditingkatkan skalanya di semua konten platform. Secara internal, kami menangani ini dalam beberapa cara dengan Safety Reasoner: (1) kami menggunakan pengklasifikasi lebih kecil dan lebih cepat untuk menentukan konten yang akan dinilai dan (2) dalam beberapa keadaan, kami menggunakan Safety Reasoner secara asinkron untuk memberikan pengalaman pengguna dengan latensi rendah sekaligus mempertahankan kemampuan melakukan intervensi jika kami mendeteksi konten tidak aman.

Jalan ke depan: terus membangun bersama komunitas

Model gpt-oss-safeguard adalah rangkaian model keselamatan terbuka pertama dari OpenAI yang dibangun bersama komunitas. Kami telah melakukan iterasi pada gpt-oss-safeguard dengan spesialis kepercayaan dan keamanan di SafetyKit, ROOST, Tomoro, serta Discord sebagai bagian dari pengujian awal. CTO ROOST, Vinay Rao, berkata, “gpt-oss-safeguard merupakan model penalaran sumber terbuka pertama dengan desain ‘bawa kebijakan dan definisi kerugian Anda sendiri’. Organisasi berhak untuk secara bebas mempelajari, mengubah, dan menggunakan teknologi keselamatan yang kritis serta mampu berinovasi. Dalam pengujian kami, model ini terampil dalam memahami berbagai kebijakan, menjelaskan penalarannya, dan menunjukkan nuansa dalam menerapkan kebijakan, yang kami yakini akan bermanfaat bagi tim pembangun dan tim keselamatan.”

Kami akan terus melakukan iterasi dengan komunitas untuk meningkatkan perkakas keselamatan terbuka, termasuk melalui Komunitas Model ROOST (ROOST Model Community, RMC). RMC mempertemukan praktisi dan peneliti keselamatan untuk berbagi praktik terbaik guna menerapkan model AI sumber terbuka ke alur kerja keselamatan, termasuk hasil evaluasi dan masukan model. Kunjungi repo GitHub RMC(terbuka di jendela baru) untuk mempelajari selengkapnya tentang kemitraan ini dan cara untuk terlibat.

Untuk mulai membangun dengan model-model ini, unduh dari Hugging Face(terbuka di jendela baru).

Penulis

OpenAI