Langsung ke konten utama
OpenAI

29 Oktober 2025

KeselamatanRilis

Laporan Teknis

Evaluasi kinerja dan tolok ukur dasar untuk gpt-oss-safeguard-120b dan gpt-oss-safeguard-20b

Pengantar

gpt-oss-safeguard-120b dan gpt-oss-safeguard-20b adalah dua model penalaran open-weight yang dilatih ulang dari model gpt-oss dan dilatih untuk melakukan penalaran berdasarkan kebijakan tertentu guna memberi label pada konten sesuai kebijakan tersebut. Model-model ini tersedia di bawah lisensi Apache 2.0 dan mengikuti kebijakan penggunaan gpt-oss kami. Dikembangkan dengan umpan balik dari komunitas open-source, model berbasis teks ini kompatibel dengan API Respons kami. Model ini dapat dikustomisasi, mendukung rantai pemikiran (chain-of-thought, CoT) penuh, dapat digunakan dengan tingkat upaya penalaran yang berbeda (rendah, sedang, tinggi), dan mendukung Keluaran Terstruktur.

Dalam laporan ini, kami menjelaskan kapabilitas gpt-oss-safeguard dan menyediakan evaluasi keselamatan dasar terhadap model gpt-oss-safeguard, dengan menggunakan model gpt-oss dasar sebagai acuan. Untuk informasi lebih lanjut tentang pengembangan dan arsitektur model gpt-oss dasar, lihat kartu model gpt-oss asli.

Kami menyarankan agar model ini digunakan untuk mengklasifikasikan konten berdasarkan kebijakan tertentu, bukan sebagai fungsi inti yang berinteraksi dengan pengguna akhir; model gpt-oss asli lebih cocok untuk penerapan tersebut. Metrik keselamatan di bawah ini menjelaskan bagaimana model gpt-oss-safeguard berfungsi dalam pengaturan obrolan. Model gpt-oss-safeguard tidak dimaksudkan untuk penggunaan ini, tetapi karena model ini bersifat terbuka, seseorang tetap dapat menggunakannya dengan cara tersebut. Karena kemungkinan tersebut, kami ingin memverifikasi bahwa model ini memenuhi standar keselamatan kami dalam penggunaan seperti itu; dan laporan ini menyajikan hasil dari pengujian tersebut. Kami juga membagikan evaluasi awal kinerja multibahasa dalam konteks percakapan; perlu dicatat bahwa hal ini tidak secara langsung menilai kinerja saat berlangsungnya klasifikasi konten berdasarkan kebijakan tertentu.

Model gpt-oss-safeguard merupakan hasil fine-tuning dari model gpt-oss pendahulunya, dan dilatih tanpa data tambahan yang bersifat biologis maupun keamanan siber. Sebagai hasilnya, kami menyimpulkan bahwa penelitian sebelumnya yang memperkirakan skenario terburuk dari rilis gpt-oss tetap berlaku untuk model baru ini.

Penulis

OpenAI