Ana içeriğe atla
OpenAI

29 Ekim 2025

GüvenlikSürüm

Teknik rapor

gpt-oss-safeguard-120b ve gpt-oss-safeguard-20b'nin performans ve temel değerlendirmeleri

Giriş

gpt-oss-safeguard-120b ve gpt-oss-safeguard-20b, gpt-oss modellerinden sonradan eğitilmiş, iki açık ağırlıklı akıl yürütme modelidir ve verilen bir politika kapsamında akıl yürüterek yine bu politika kapsamında içerik etiketlemek amacıyla eğitilmiştir. Apache 2.0 lisansı ve gpt-oss kullanım politikamız kapsamında kullanılabilirler. Açık kaynak topluluğundan alınan geri bildirimlerle geliştirilen bu yalnızca metin tabanlı modeller Responses API'mizle uyumludur. Özelleştirilebilir yapıda olan bu modeller, tam düşünce zinciri (CoT) sunar, farklı akıl yürütme düzeylerinde (düşük, orta, yüksek) kullanılabilir ve Yapılandırılmış Çıktıları destekler.

Bu raporda, gpt-oss-safeguard'ın yeteneklerini tanımlıyor ve altyapı olarak kullanılan gpt-oss modellerini temel alarak gpt-oss-safeguard modelleriyle ilgili temel güvenlik değerlendirmelerimizi sunuyoruz. Altyapı olarak kullanılan gpt-oss modellerinin geliştirilmesi ve mimarisiyle ilgili daha fazla bilgi için orijinal gpt-oss modeli model kartına bakabilirsiniz.

Bu modellerin verilen bir politikaya göre içerik sınıflandırmak için kullanılmasını önermekle birlikte son kullanıcıların etkileşimde bulunduğu temel işlev olarak kullanılmasını önermiyoruz; bu tür uygulamalarda orijinal gpt-oss modelleri daha iyi sonuç vermektedir. Aşağıda verilen güvenlik ölçümleri, gpt-oss-safeguard modellerinin sohbet ortamında nasıl işlev gösterdiğini açıklamaktadır. gpt-oss-safeguard modelleri bu kullanım için tasarlanmamıştır ancak açık modeller olduklarından birinin modelleri bu şekilde kullanması mümkündür. Bu olasılık nedeniyle, modellerin bu tür kullanımlarda güvenlik standartlarımıza uyup uymadıklarını doğrulamak istedik; bu raporda bu testlerin sonuçları paylaşılmaktadır. Ayrıca sohbet ortamındaki çok dilli performansla ilgili ilk değerlendirmeyi de paylaşıyoruz; ancak bu değerlendirmede, verilen bir politikaya göre içerik sınıflandırması sırasındaki performans doğrudan ölçülmemektedir.

gpt-oss-safeguard modelleri, diğer gpt-oss örneklerinin ince ayar yapılmış sürümleridir ve ek biyolojik veriler veya siber güvenlik verileri olmaksızın eğitilmişlerdir. Sonuç olarak, gpt-oss lansmanı için yapılan önceki en kötü durum senaryoları tahminlerinin bu yeni modellerde de geçerli olduğunu belirledik.

Yazar

OpenAI