Sert retlerden güvenli tamamlamalara: Çıktı odaklı güvenlik eğitimi
GPT‑5’in güvenli tamamlamalar özelliği, güvenlik kısıtlamaları dahilinde modelin yararlılığını maksimize eden yeni bir güvenlik eğitimi yaklaşımı. Ret bazlı eğitime kıyasla, özellikle çift kullanımlı alanlarda hem güvenliği hem yararlılığı arttırıyor.
Bir kullanıcı, havai fişek gösterisi yapmak için en az ne kadar enerji gerektiğini sorduğunda ChatGPT faydalı bir yanıt mı vermelidir? Kullanıcı, 4 Temmuz için bir gösteriye hazırlanıyor veya okuldaki araştırma projesi için hazırlık yapıyor olabilir. Veya patlayıcılar üretmeye çalışıyor da olabilir. Sonuç olarak faydalı bir yanıt vermek, kullanıcının (bariz) niyetine göre zararsız veya zararlı olabilir. Bu tür bir istem çift kullanımlıdır: Niyetin belli olmadığı bir soruya yanıt olarak verilen bilgiler iyi veya kötü amaçlarla kullanılabilir. Çift kullanımlı problemler özellikle biyoloji ve siber güvenlik gibi riskli alanlarda yaygın görülür.
Geçmişte, ChatGPT gibi üretim modelleri ret bazlı güvenlik eğitimlerine dayanıyordu: Model, kullanıcının istemini ya tamamıyla kabul ediyor ya da reddediyordu. Bu tür bir eğitim, alenen zararlı istemlerde gayet iyi çalışsa da havai fişek örneğinde olduğu gibi çift kullanımlı istemleri ele almakta zorlanabilir. Böyle bir durumda ret eğitimli bir model, istemin ne kadar zararlı olduğuna göre ikili karar verir. Bu doğrultuda ya istemi yanıtlar (kullanıcı bu bilgiyi kötü amaçla kullanmak istiyorsa potansiyel olarak tehlikelidir) ya da reddeder ve “Üzgünüm, bu konuda yardımcı olamam.” der (kullanıcı gerçekten havai fişek gösterisine hazırlanmaya çalışıyorsa yararsız olur).
GPT‑5 için yeni bir güvenlik eğitimi şekli sunduk: Güvenli tamamlamalar, modele mümkün olduğunda en yararlı yanıtı vermeyi öğretirken güvenlik sınırlamalarını korumaya devam ediyor. Bu yaklaşımın daha incelikli olduğunu ve çift kullanımlı sorularda daha iyi navigasyonu desteklediğini tespit ettik.
İstem
OpenAI o3 (ret eğitimi)
GPT-5 (güvenli tamamlamalar eğitimi)
OpenAI o3 ve GPT‑5’in havai fişek ateşleme talimatlarına ilişkin çift kullanımlı zorlayıcı bir isteme verdiği yanıtlar. Ret bazlı eğitilen o3, niyetten fazlaca uzaklaşıyor: İstemi iyi niyetli olarak değerlendiriyor ve soruya tamamen uyuyor. Bunun aksine güvenli tamamlamalarla eğitilen GPT‑5 ise neden tam uyamayacağını açıklıyor ve sadece uygun kılavuzları kontrol etmesini önererek kullanıcıya üst seviyede rehberlik sunuyor.
Güvenli tamamlamalar, güvenlik eğitiminde bir modelin çıktı güvenliğini merkeze alıyor; kullanıcının girdisine göre bir ret sınırı belirlemiyor. Bu, somut olarak iki eğitim parametresiyle uygulanıyor:
- Güvenlik kısıtlaması: Eğitim sonrası süreçte güvenli tamamlama ödülü, güvenlik politikalarımızı ihlal eden model yanıtlarını cezalandırıyor (ihlalin önem seviyesine göre cezalar daha ağır oluyor).
- Yararlılığın maksimizasyonu: Güvenli model yanıtları için, modeli yararlılık seviyesine göre ödüllendiriyoruz: ya kullanıcının belirttiği amaca göre doğrudan ya da yararlı ve güvenli alternatiflerle bilgilendirici bir ret sunarak dolaylı biçimde.
Güvenli tamamlamaları GPT‑5’e (hem akıl yürütme hem de sohbet modellerine) entegre ettik ve ret bazlı eğitimle karşılaştırıldığında güvenli tamamlama eğitiminin aynı anda hem güvenliği hem yararlılığı önemli ölçüde geliştirdiğini tespit ettik. OpenAI o3 ile adil bir şekilde karşılaştırmak amacıyla, GPT‑5’in düşünme performansını o3’e kıyasla raporladık. Üretim modelleri ve kontrollü deneylerin karşılaştırmalarında, güvenli tamamlamaların özellikle de çift kullanımlı sorulara çok uygun olduğunu gördük. Aşağıdaki grafikte, güvenli yanıtlar için güvenlik skoru ile ortalama yararlılık skoru karşılaştırılmaktadır.
Niyete göre güvenlik ve yarar sağlayan güvenli yanıtlar (OpenAI o3 ile karşılaştırmalı GPT‑5 düşünme performansı, gpt5-r olarak etiketlenmiştir). GPT‑5 düşünme performansı, OpenAI o3 ile kıyaslandığında hem daha güvenli hem daha yararlıdır.
İkili "uy/reddet" kararının terk edilmesiyle ve güvenli tamamlama eğitimi sayesinde modellerimiz, uyumlu olsalar bile, güvensiz olabilecek içeriklerde daha koruyucu davranmaya teşvik ediliyor. Deneylerimiz sırasında şunu gördük: Güvenli tamamlama modelleri bir hata yaptığında, güvenli olmayan çıktılarının risk seviyesi, ret eğitimli modellere kıyasla daha düşük oluyor.
Güvenli olmayan yanıtlar için zarar şiddeti analizi (o3 ile karşılaştırmalı GPT‑5 düşünme performansı, gpt5-r olarak etiketlenmiştir). GPT‑5 düşünme performansı, o3 ile kıyaslandığında daha az riskli hatalar yapmaktadır.
Güvenlik uğruna yararlılığı feda etmek kolay olabilir. Her şeyi reddeden bir model güvenli olabilir. Ama biz, modellerimizin aynı anda güvenli ve yararlı olmasını istiyoruz. Araştırmalardaki temel zorluk bu her iki hedefi de iyileştirmenin bir yolunu bulmak. GPT‑4 için yararlılık ve güvenlik açısından bir değiş tokuş yöntemi olarak Kural Bazlı Ödüller özelliğini geliştirdik. Şimdi de güvenli tamamlamalar, bu iki hedefin daha derin entegrasyonu için yapay zekânın artan yeteneklerinden faydalanarak GPT‑5’i bir adım ileri taşıyor. Model yanıtlarının güvenliğine odaklanmanın, giderek daha karmaşık hâle gelen güvenlikle ilgili zorluklarla başa çıkmak açısından sağlam bir temel oluşturacağına inanıyoruz. Zorlayıcı durumları daha iyi anlaması ve daha incelikli ve dikkatli yanıtlar vermesi için modeli eğitmeye devam ederek bu araştırmaları sürdürmeyi planlıyoruz.


