Ana içeriğe atla
OpenAI

29 Ekim 2025

ÜrünSürüm

Karşınızda gpt-oss-safeguard

Özel güvenlik kurallarını destekleyen, güvenlik konusunda akıl yürütebilen yeni open modeller (120b ve 20b).

Yükleniyor...

Bugün gpt-oss-safeguard’ın araştırma ön izlemesini yayınlıyoruz. YZ güvenliği ve sistem güvenliği için özel sınıflandırıcılar oluşturma imkânı tanıyan bu açık ağırlıklı akıl yürütme modelleri, gpt-oss-safeguard-120b ve gpt-oss-safeguard-20b olmak üzere iki farklı boyutta sunuluyor. gpt-oss open modellerimizin ince ayarlı versiyonları olan bu modeller de kısıtlayıcı olmayan Apache 2.0 lisansıyla sunuluyor; böylece herkes onları istediği gibi kullanıp değiştirerek devreye alabiliyor. İki model de bugün itibarıyla Hugging Face(yeni bir pencerede açılır) üzerinden indirilebilir.

gpt-oss-safeguard modelleri, geliştirici tarafından verilen politikayı çıkarım anında doğrudan yorumlamak için akıl yürütme özelliğini kullanıyor. Böylece kullanıcı mesajları, tamamlamalar ve sohbetlerin tamamı geliştiricinin ihtiyaçları doğrultusunda sınıflandırılabiliyor. Hangi politikanın kullanılacağını daima geliştirici belirliyor; bu da geliştiricinin kullanım örneğiyle ilgili ve ona uygun yanıtlar üretilmesini sağlıyor. Model düşünce zincirinden faydalandığı için, geliştirici bunu inceleyerek modelin nasıl karar verdiğini anlayabiliyor. Üstelik bu politika, modelin eğitimine dâhil edilmek yerine çıkarım sırasında veriliyor. Böylece geliştiricilerin, politikaları yinelemeli olarak iyileştirerek performansı artırması kolaylaşıyor. Başlangıçta dâhili kullanım için geliştirdiğimiz bu yaklaşım, bir sınıflandırıcıyı etiketlenmiş birçok örnek arasından dolaylı bir karar sınırı çıkarması için eğittiğimiz geleneksel yönteme kıyasla önemli ölçüde esneklik sunuyor.

gpt-oss-safeguard, geliştiricilerin kendi kullanım örneklerine en uygun politikayı belirlemesini sağlıyor. Örneğin, video oyunlarının tartışıldığı bir forum için oyun hilelerinden bahseden paylaşımların filtrelenmesini sağlayan kurallar geliştirilebiliyor ya da ürün değerlendirmelerine yer veren bir site, sahte gibi görünen değerlendirmelerin taranması için kendi politikasını kullanmak isteyebiliyor.

Model, bir politika ve bu politika doğrultusunda sınıflandırılacak içerikten oluşan iki girdiyi aynı anda alabiliyor. Ardından içeriğin hangi sınıflandırmaya gireceğine dair sonucu ve bu sonuca ulaşmak için kullandığı akıl yürütme sürecini çıktı olarak üretiyor. Geliştiriciler bu sonuçları kendi güvenlik süreçlerinde nasıl kullanacaklarına hatta kullanıp kullanmayacaklarına karar veriyor. Akıl yürütme temelli bu yaklaşımın özellikle iyi bir performans gösterdiği durumlar şunlar:

  • Zarar ihtimali ortaya çıkıyor veya gelişiyor, dolayısıyla politikaların hızla uyum sağlaması gerekiyor.
  • Söz konusu olan alan, küçük sınıflandırıcıları zorlayacak ince detaylar içeriyor.
  • Geliştiricilerin elinde, yüksek kaliteli bir sınıflandırıcıyı platformlarındaki her risk için eğitmelerine yetecek miktarda örnek bulunmuyor.
  • Gecikme süresi; yüksek kaliteli, açıklanabilir kararlar üretmek kadar önem taşımıyor.

gpt-oss-safeguard’ın bu ön izlemesini, araştırma ve güvenlik konularında çalışan topluluklardan geri bildirim almak ve model performansını yinelemeli olarak geliştirmek amacıyla kullanıma sunuyoruz. Geliştiricilerin elzem ihtiyaçlarını belirlemek, modeli test etmek ve geliştiricilere yönelik belgeler üretmek için, ROOST(yeni bir pencerede açılır) ile aylarca bu açık ağırlıklı modelin lansmanı üzerinde çalıştık. Bu lansman kapsamında ROOST, yine bugün devreye alınacak bir model topluluğu(yeni bir pencerede açılır) oluşturacak. Bu topluluk, çevrimiçi ortamları korumaya yardımcı olacak açık ağırlıklı yapay zeka modellerini araştıracak. Lansmanın yanı sıra, bu ön izleme modelinin güvenlik performansını detaylı bir şekilde açıklayan kısa bir teknik rapor da yayımlıyoruz.

Sistem düzeyinde güvenlik: güvenlik sınıflandırıcılarının rolü

Güvenlik söz konusu olduğunda, katmanlı savunma yaklaşımını benimsiyoruz. Modellerimizi güvenli yanıtlar vermeleri için eğitiyoruz. Ayrıca politikalarımız doğrultusunda zararlı olabilecek girdileri ve çıktıları tespit edip ele almak için ek savunma katmanları geliştiriyoruz. Belirli bir risk alanındaki güvenli ve zararlı içerikleri birbirlerinden ayırmaya yarayan güvenlik sınıflandırıcıları, uzun zamandır hem bizim modellerimiz hem de diğer büyük dil modelleri için temel bir savunma katmanı oluşturuyor.

Geleneksel güvenlik sınıflandırıcıları, örneğin Moderation API(yeni bir pencerede açılır)’mizde sunulanlar, güvenli ve zararlı içeriklere ilişkin binlerce örneğin önceden belirlenmiş güvenlik politikaları doğrultusunda manuel olarak toplanmasıyla geliştiriliyor. Sınıflandırıcı, bu eğitim verisi sayesinde güvenli ve zararlı çıktıları birbirinden ayırmayı öğreniyor. Bu geleneksel yaklaşımda, sınıflandırıcı aslında güvenlik politikasını hiç görmüyor. Bunun yerine, hem zararlı olarak etiketlenmiş içerikler arasındaki benzerlikleri hem de zararlı ve güvenli içerikler arasındaki farklılıkları bularak, bu örnekleri etiketlemek için kullanılan temel politika hakkında çıkarım yapmaya çalışıyor.

Geleneksel sınıflandırıcılar düşük gecikme süreleri ve işletme maliyetleriyle yüksek performans sunabiliyor. Ancak eğitim için yeterli miktarda örnek toplamak oldukça zahmetli ve maliyetli olabiliyor. Üstelik politikaların güncellenmesi ve değiştirilmesi için sınıflandırıcıyı yeniden eğitmek gerekiyor.

gpt-oss-safeguard ise farklı çalışıyor çünkü akıl yürütme özelliği, geliştiricilerin kendi yazdıkları veya başka kaynaklardan çektikleri herhangi bir politikayı uygulamalarını sağlıyor. Akıl yürütme özelliği, modellerin yeni yazılmış politikalar üzerinden genel kurallar belirlemesine yardımcı oluyor. gpt-oss-safeguard, güvenlik politikalarının yanı sıra içeriklerin belirli ürünler ve platformlar açısından önem taşıyan diğer şekillerde etiketlenmesi için de kullanılabiliyor.

‘gpt-oss-safeguard ile politika bazlı akıl yürütme’ başlıklı bir akış şeması. Geliştiriciler tarafından uygulanan politikalar ve kullanıcı tarafından girilen içerikler gpt-oss-safeguard’a aktarılıyor. Model, bir düşünce zinciri ve bir politika kararı üretiyor; ‘politika yineleme’ başlıklı bir döngü ise politikaları iyileştirmek için geri bildirim sağlıyor. Geliştirici girdileri, kullanıcı girdileri ve model çıktıları lejant üzerinde belirtiliyor.

Güvenlik konusunda akıl yürütmeyi kurum içinde nasıl kullanıyoruz?

Akıl yürütme özelliğine sahip temel modellerimiz, artık güvenlik politikalarımızı doğrudan öğreniyor ve nelerin güvenli olduğuna ilişkin akıl yürütebiliyor. Düşünerek uyumlandırma adını verdiğimiz bu yaklaşım, önceki güvenlik eğitimi yöntemlerimizi ciddi anlamda geliştiriyor. Üstelik akıl yürütme özelliğine sahip modellerimizin yetenekleri arttıkça, akıl yürütme yapmayan öncüllerine kıyasla birkaç açıdan daha güvenli hâle geliyorlar. Ancak akıl yürütme, sadece modellerin kendilerini eğitmekte kullanılmıyor. Katmanlı savunma için de yeni olanaklar da yaratıyor. Akıl yürütme temelli yaklaşımlar daha esnektir ve önceki eğitimlerinin detayları tarafından daha az sınırlandırılır. Bazen bu avantajlar, getirdikleri ek bilgi işlem maliyeti ve gecikme süresinin hakkını fazlasıyla verir.

gpt-oss-safeguard, kurum içinde geliştirdiğimiz ve Safety Reasoner (Güvenlik için Akıl Yürütme) adını verdiğimiz araçta kullanılan yaklaşımın açık ağırlıklarla uygulanmış hâlidir. Politikaları etiketleme görevlerinde takviyeli ince ayar tekniğini kullanarak işe başladık. Modelin kararları, uzmanların verdiği doğru kararlarla örtüştüğünde modeli ödüllendirdik. Böylece model, kararlarının politikalar tarafından nasıl belirlendiğine dair akıl yürütmeyi öğrendi. Safety Reasoner sayesinde artık güvenlik politikalarımızı üretim ortamında hızla güncelleyebiliyoruz. Üstelik bir sınıflandırıcıyı yeniden eğitmek için gereken süreden çok daha azını harcıyoruz. Bu da Safety Reasoner’ı yinelemeli dağıtım için önemli bir araca dönüştürüyor. Yeni modelleri üretime soktuğumuzda, genellikle daha katı politikalarla başlıyoruz ve Safety Reasoner’ın bu politikaları dikkatli bir şekilde uygulayabilmesi için göreceli olarak yoğun bilgi işlem gücünden faydalanıyoruz. Ardından üretimdeki risklere dair anlayışımız derinleştikçe politikalarımızı ayarlıyoruz. Yakın zamandaki lansmanlarımızın bazılarında, güvenlik odaklı akıl yürütmeye harcanan bilgi işlem gücü harcanan toplam miktarın %16’sıydı.

Safety Reasoner, güvenlik yapımızın temel bileşenlerinden biri hâline geldi. Görsel üretimi ve Sora 2 söz konusu olduğunda, Safety Reasoner çıktıları adım bazında hızla değerlendirerek zararlı üretimleri gerçek zamanlı olarak tespit edip engelliyor. Biyoloji ve kendine zarar verme gibi alanlarda, Moderation API’mizde kullanılanlara benzer modelleri küçük, hızlı ve yüksek hatırlama oranına sahip sınıflandırıcılar olarak çalıştırıyoruz. Böylece hangi içeriklerin belirli bir alan altında değerlendirileceğine karar verip, içerikleri değerlendirmek için Safety Reasoner’ı kullanıyoruz. Safety Reasoner, en doğru şekilde nasıl yanıtlayacağına karar vermek için model çıktılarını detaylı bir sınıflandırmaya göre filtreliyor. Bu, GPT‑5 ve ChatGPT Ajanı gibi sistemler genelindeki çok katmanlı güvenlik önlemlerimizin bir parçasını oluşturuyor. gpt-oss-safeguard modelleri artık bu yaklaşımı herkesin kullanımına sunuyor.

gpt-oss-safeguard’ın performansı nasıl?

gpt-oss-safeguard modellerini hem dâhili hem de harici değerlendirme setleriyle test ettik.

İç değerlendirmede, çıkarım anında gpt-oss-safeguard’a birçok politikayı eş zamanlı olarak verdik. Her bir test girdisi için, gpt-oss-safeguard’ın uygulanan tüm politikalara göre metni doğru bir şekilde sınıflandırıp sınıflandırmadığını değerlendiriyoruz. Bu zorlu görevde modelin başarılı sayılmasının tek şartı, uygulanan tüm politikalar için belirlenmiş referans etiketlerini bire bir karşılamasıdır.

gpt-oss-safeguard modellerimiz ve dâhili Safety Reasoner aracımız, birçok politikayı doğru uygulama konusunda gpt-5-thinking ve gpt-oss open modellerden daha iyi performans sergiliyor. gpt-oss-safeguard modellerinin küçük boyutları göz önüne alındığında, gpt-5-thinking’den daha iyi performans sergilemeleri oldukça şaşırtıcı.

Bu modelleri 2022 tarihli araştırma makalemizle(yeni bir pencerede açılır) birlikte yayınladığımız oryantasyon veri seti(yeni bir pencerede açılır) ve açık kaynaklı bir sohbet robotuna girilen kullanıcı sorgularına dayanan ToxicChat(yeni bir pencerede açılır) adlı genel kıyaslama üzerinden değerlendirmeyi sürdürdük.

2022 oryantasyon veri seti üzerinden yaptığımız değerlendirmede, kurum içi güvenlik politikalarımızı kullandık (sonrasındaki değişiklikleri yansıtmak amacıyla bir politikayı uyarladık). gpt-oss-safeguard; Safety Reasoner ve gpt-5-thinking de dâhil olmak üzere tüm test edilen modellerden nispeten daha iyi performans gösterdi. Ancak Safety Reasoner ve gpt-oss-safeguard arasında istatistiki olarak ciddi bir fark bulunmuyor.

ToxicChat değerlendirmemizde, bazı dâhili politikalarımızdan uyarlanan ve elle yazılmış kısa bir istem kullandık. Dâhili Safety Reasoner aracımız yine gpt-5-thinking’den daha iyi performans sergiledi. gpt-5-thinking ve Safety Reasoner ise gpt-oss-safeguard-120b ve gpt-oss-safeguard-20b’yi küçük bir farkla geride bıraktı. gpt-oss-safeguard’ın göreceli küçük boyutu nedeniyle hâlâ bu tür görevler için tercih edilebileceğini umuyoruz.

Sınırlamalar

gpt-oss-safeguard’ın özellikle dikkat edilmesi gereken iki sınırlaması var. İlk olarak, etiketlenen yüksek kaliteli on binlerce örnek üzerinden eğitilmiş sınıflandırıcıların, doğrudan politikalara göre akıl yürüten gpt-oss-safeguard’ı içerik sınıflandırma konusunda hâlâ geride bıraktığını gördük. Özel bir sınıflandırıcıyı eğitmeye zaman harcamak, daha karmaşık risklerde daha iyi performans için tercih edilebilir.

İkinci olarak, gpt-oss-safeguard’ın daha çok zaman ve bilgi işlem gücüne ihtiyaç duyması onu platformdaki tüm içerikler için ölçeklendirmeyi zorlaştırıyor. Kurum içinde, Safety Reasoner’ı kullanarak bu durumu farklı şekillerde ele alıyoruz: (1) Hangi içeriği değerlendireceğimizi belirlemek için daha küçük ve daha hızlı sınıflandırıcılar kullanıyoruz ve (2) bazı durumlarda Safety Reasoner’ı asenkron olarak kullanarak hem düşük gecikme süreli bir deneyim sunuyor hem de zararlı içerik tespit ettiğimizde müdahale edebiliyoruz.

Sonraki adım: birlikte geliştirmeye devam etmek

gpt-oss-safeguard, OpenAI’ın topluluğuyla birlikte geliştirdiği, güvenlik odaklı ilk açık kaynaklı model seti olma özelliği taşıyor. gpt-oss-safeguard’ı SafetyKit, ROOST, Tomoro bünyesindeki güvenilirlik ve güvenlik uzmanlarıyla yinelemeli olarak geliştirdik ; ayrıca erken aşama testlerinin bir kısmını Discord üzerinde gerçekleştirdik. ROOST’un Teknolojiden Sorumlu Başkanı Vinay Rao şunları söylüyor: “gpt-oss-safeguard, ‘kendi politikalarınızı ve zarar tanımlamalarınızı belirlemenizi sağlayan’ bir tasarıma sahip ilk açık kaynaklı akıl yürütme modeli. Kurumlar önemli güvenlik teknolojilerini istedikleri gibi inceleme, değiştirme, kullanma hakkına ve yenilik yapma özgürlüğüne sahip olmalıdır. Model, testlerimizde farklı politikaları anlama, akıl yürütme sürecini açıklama ve politikaları uygularken ince detaylara dikkat etme becerisi gösterdi. Bunun hem geliştiriciler hem de güvenlik ekipleri için faydalı olacağına inanıyoruz.”

Açık kaynaklı güvenlik araçlarını, ROOST Model Topluluğu (RMC) da dâhil olmak üzere topluluğumuzla yinelemeli olarak geliştirmeyi sürdüreceğiz. RMC, değerlendirme sonuçları ve model geri bildirimleri dâhil olmak üzere, açık kaynaklı YZ modellerini güvenlik süreçlerine entegre etmeye yönelik en iyi uygulamaları paylaşmak için güvenlik uzmanlarını ve araştırmacılarını bir araya getiriyor. Bu iş birliği ve onun bir parçası olmak hakkında daha fazla bilgi için RMC GitHub deposunu(yeni bir pencerede açılır) ziyaret edin.

Bu modellerle geliştirmeye başlamak için onları Hugging Face(yeni bir pencerede açılır) üzerinden indirin.

Yazar

OpenAI