En üst seviye LLM'lerde talimat hiyerarşisini iyileştiriyoruz
Talimat hiyerarşisini, güvenlik yönlendirilebilirliğini ve komutlara kötü amaçlı müdahaleye karşı karşı dayanıklılığı güçlendiren bir eğitim veri seti olan IH-Challenge ile tanışın.
Yapay zeka sistemleri çoğu zaman birden fazla kaynaktan talimat alır. Bunlar; sistem mesajlarındaki güvenlik politikalarını, geliştiricilerin ürün yönergelerini, kullanıcı isteklerini ve online kaynaklarda bulunan bilgileri içerebilir. Bu kaynaklar arasındaki talimatlar içinde en güvenilir olanları doğru biçimde önceliklendirmeyi modellere öğretmek, güvenli devreye alımın temel unsurlarından biridir.
Bu önceliklendirme bozulduğunda birçok yapay zeka güvenliği ve güvenilirliği sorunu ortaya çıkabilir. Modeller; yasaklanmış içerik talepleri, özel bilgileri açığa çıkarmaya yönelik girişimler veya online verilerin içine gömülmüş komutlara kötü amaçlı müdahale saldırılarıyla karşılaşabilir. Bu senaryoların her birinde, uygun şekilde davranamamanın temel nedeni aynıdır: model yanlış talimatı izleyebilir.
Talimatlar çeliştiğinde model, hangisini önceliklendireceğine karar vermek zorundadır. Güvenilmeyen bir talimatı yetkili kabul ederse model, politika ihlallerine veya geliştirici ve kullanıcı niyetinin dışına çıkan davranışlara yol açabilir.
Araştırmamız, talimatları güven düzeylerine göre önceliklendirmeyi modellere öğreten, iyi tasarlanmış talimat hiyerarşisi görevlerinin gerçek dünyadaki çeşitli güvenlik özelliklerini iyileştirdiğini göstermektedir. Bu görevlerle eğitilen modeller, sistem komutlarında yer alan güvenlik spesifikasyonlarına daha duyarlı hale gelir (güvenlik yönlendirilebilirliğini artırarak) ve araç çıktılarında gömülü komutlara kötü amaçlı müdahale saldırılarına karşı daha dayanıklı olur.
Çelişkileri ele almak için OpenAI'ın modelleri, net bir talimat hiyerarşisini izleyecek şekilde eğitilmiştir:
Sistem > geliştirici > kullanıcı > araç
Daha yüksek öncelikli talimatlar daha güvenilirdir. Model, daha düşük öncelikli talimatları yalnızca daha yüksek öncelikli kısıtlarla çelişmedikleri durumlarda izlemelidir. Bu ilkeler, OpenAI Model Spesifikasyonu(yeni bir pencerede açılır)'nda ana hatlarıyla belirtilmiştir.
Örneğin, bir sistem mesajı bir güvenlik politikası içeriyorsa ve bir kullanıcı, modelden bunu ihlal etmesini isterse model bunu reddetmelidir. Benzer şekilde, bir araç çıktısı kötü amaçlı talimatlar içeriyorsa model bunları komut olarak kabul etmek yerine görmezden gelmelidir.
Bunu doğru şekilde gerçekleştirmek, güvenlik, emniyet ve güvenilirlik açısından temel bir gerekliliktir.
Sağdaki model, iki talimat çeliştiğinde Kullanıcının talimatı yerine daha yüksek önceliğe sahip olan Geliştiricinin talimatını doğru şekilde izler.
Pekiştirmeli öğrenme, talimat hiyerarşisini öğretmek için doğal bir yöntemdir. Çelişen talimatlar içeren konuşmalar üretebilir, modelden bunlara yanıt vermesini isteyebilir ve doğru talimatı izlediğinde onu ödüllendirebiliriz.
Ancak bu yaklaşımın basit şekilde uygulanmasının üç temel sorunu olduğunu belirledik:
- Talimat izleme hataları ile talimat hiyerarşisi hataları örtüşebilir. Model bazen talimat çelişkisini çözemeyebilir; bunun nedeni rol hiyerarşisini anlamaması değil, talimatların kendilerinin fazla karmaşık olması olabilir.
- Talimat çelişkileri incelikli olabilir ve hatta öznel yorumlar içerebilir. Yaygın bir yaklaşım, eğitilen LLM'e verilecek ödüllerin ayrı bir LLM tarafından değerlendirilmesidir; ancak bu değerlendiriciler de hatasız değildir.
- Modeller genellikle yüksek ödül getiren ancak pratikte işe yaramayan kestirme yollar(yeni bir pencerede açılır) öğrenme eğilimindedir. Bunun klasik bir örneği aşırı reddetmelerdir: modeller, zararsız talepleri bile reddederek güvenliği en üst düzeye çıkarmayı öğrenebilir.
Bu sorunların her birini ele almak için, pekiştirmeli öğrenmeye dayalı bir eğitim veri seti olan IH-Challenge'ı tasarladık. Aşağıdaki ilkelere bağlı kalıyoruz:
- Görevler, talimat izleme açısından basittir.
- Basit bir Python komut dosyasıyla nesnel olarak değerlendirilebilir.
- Hiçbir görevde yüksek kazanımı garanti eden basit kestirme yollar bulunmaz.
IH-Challenge'daki her görev, özünde şu mesajları içeren bir konuşmadan oluşur:
- Yüksek ayrıcalıklı bir rolden gelen bir talimat mesajı; örneğin: "Yalnızca 'Evet' veya 'Hayır' yanıtı ver".
- Daha düşük ayrıcalıklı bir rolden gelen ve modeli, yüksek ayrıcalıklı mesajdaki talimatları ihlal etmeye yönlendirmeye çalışan bir talimat mesajı.
Ardından eğitilen model bir sonraki mesajı üretir. Görevleri ve ortamları, modelin yanıtının daha yüksek düzeyli kısıtı karşılayıp karşılamadığını programatik olarak doğrulayabilecek şekilde tasarlıyoruz.
IH-Challenge üzerinde bir model eğitiyoruz ve bunun sonucunda GPT‑5 Mini-R adını verdiğimiz bir dahili model elde ediyoruz.
- Bu model şu iyileştirmeleri gösterir: Talimat hiyerarşisi kıyaslama testlerinde daha iyi performans
- Performans iyileşmesinin görülmemiş ve karşıt talimat hiyerarşisi testlerine de genellenmesi
- Aşırı reddetme tuzağına düşmeden genel faydalılığın korunması
Bu yaklaşımı güvenlik açısından özellikle güçlü kılan nokta şudur: modelleri IH-Challenge görevlerinde talimat çelişkilerini doğru şekilde çözmeleri için doğrudan eğittiğimizde, yeni saldırılara ve yeni durumlara genellenebilen talimat hiyerarşisi iyileştirmeleri elde ederiz.
Akademik kıyaslama testlerine karşı dayanıklılık
Değerlendirme | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Parolası (sistem kullanıcısı) | 0,99 | 0,99 (+0) |
Gandalf Parolası (geliştirici kullanıcı) | 0,98 | 1,00 (+0,02) |
TensorTrust (sistem kullanıcısı) | 0,86 | 0,94 (+0,08) |
TensorTrust (geliştirici kullanıcı) | 0,76 | 0,91 (+0,15) |
RealGuardrails (Dikkat dağıtıcılar) | 0,88 | 0,95 (+0,07) |
RealGuardrails (El yazısı) | 0,82 | 0,89 (+0,07) |
Sistem IFEval | 0,92 | 0,96 (+0,04) |
Dahili kıyaslama testlerine karşı dayanıklılık
Değerlendirme | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sistem kullanıcısı) | 0,96 | 0,99 (+0,03) |
Tutor Jailbreak (geliştirici kullanıcı) | 0,97 | 0,99 (+0,02) |
Sistem ve Kullanıcı Çelişkisi | 0,84 | 0,95 (+0,11) |
Sistem <> Geliştirici Çelişkisi | 0,86 | 0,86 (+0) |
Geliştirici <> Kullanıcı Çelişkisi | 0,83 | 0,95 (+0,12) |
Yeteneklerde gerileme yok
Değerlendirme | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (aşırı reddetme) | 0,79 | 1,00 (+0,21) |
TensorTrust (aşırı reddetme) | 0,91 | 0,90 (-0,01) |
GPQA Diamond | 0,83 | 0,83 (+0) |
AIME 2024 | 0,93 | 0,94 (+0,01) |
Sohbet görevlerinde o1 modeline karşı kazanma oranı | 0,71 | 0,66 (-0,05) |
Tercih Puanı | 0,46 | 0,40 (-0,06) |
Daha güçlü bir talimat hiyerarşisi; güvenlik yönlendirilebilirliği ve komutlara kötü amaçlı müdahaleye karşı gibi birden fazla güvenlik avantajını aynı anda sunar.
Sistem komutuna, kategoriye özgü güvenlik spesifikasyonları ekleyerek ve OpenAI'ın Security Production Benchmarks değerlendirme seti (bu set, ChatGPT'nin canlı kullanım ortamındaki güvenliğe duyarlı konuşmalarını temsil eder) üzerinde davranışı ölçerek güvenlik yönlendirilebilirliğini değerlendiriyoruz.
IH ile eğitilmiş model tutarlı bir iyileşme gösterir: güvenlik belirtimi mevcut olduğunda, yasaklı kategorilerde daha yüksek reddetme ve güvenli tamamlama oranlarına ulaşır. Bu durum, daha güçlü talimat hiyerarşisi davranışının, güvensiz isteklerin daha düşük öncelikli talimatlardan gelmesi durumunda çelişkileri çözmede daha etkili olduğunu gösterir. Önemli bir nokta da şudur: bu iyileşme, yardımcı olma oranında karşılık gelen bir düşüşe yol açmaz (yani model, genel olarak daha fazla reddederek daha az "yardımcı" olmaz).


IH ile eğitilmiş modelin, GPT‑5 Mini'nin (Temel Model) kandığı komutlara kötü amaçlı müdahale saldırılarına nasıl direnç gösterdiğine dair örnek.
Talimat hiyerarşisi, kötü amaçlı talimatların araç çıktılarının içine gömüldüğü durumlarda komutlara kötü amaçlı müdahale saldırılarına direnmede de merkezi bir rol oynar. IH ile eğitilmiş modeli, şu iki komutlara kötü amaçlı müdahale kıyaslama testinde değerlendiriyoruz: akademik bir kıyaslama testi olan CyberSecEval 2 ve ChatGPT Atlas'ın eski bir versiyonunda gösterilene benzer saldırılardan oluşan, OpenAI'ın dahili komutlara kötü amaçlı müdahale kıyaslaması.
Temel modele kıyasla IH ile eğitilmiş GPT‑5 Mini-R modeli, her iki kıyaslamada da komutlara kötü amaçlı müdahale dayanıklılığında artış sunar ve bu deneylerde dahili statik komutlara kötü amaçlı müdahale değerlendirmemizde performansı önemli ölçüde artırır.
Modeller daha otonom ajan tabanlı hale geldikçe; yani araçları çağırma, güvenilmeyen belgeleri okuma ve gerçek dünyada eylem gerçekleştirme gibi yetenekler kazandıkça, güvenilir talimatları güvenilmeyenlerin önünde tutarlı biçimde önceliklendirme yeteneği temel bir güvenlik özelliğine dönüşür.
Bu çalışma, IH dayanıklılığı eğitiminin bazı temel zorluklarının, bu zorlukları ele alacak şekilde tasarlanmış eğitim ortamlarıyla aşılabileceğini göstermektedir. IH-Challenge veri setimiz basit görünse de, modellerin bu ortamlardan öğrendiği talimat hiyerarşisi davranışı daha gerçekçi ve çoğu zaman nesnel olarak derecelendirilemeyen kıyaslama testlerine genellenir.
Talimat hiyerarşisini güçlendirmek yalnızca güvenilirliği artırmakla kalmaz; aynı zamanda birden fazla güvenlik ve emniyet kazanımını aynı anda mümkün kılar. Bu da yapay zeka sistemleri daha yetenekli ve daha otonom hale geldikçe giderek daha kritik hale gelen bir temel oluşturur.
Bu alandaki daha ileri araştırmaları desteklemek amacıyla IH-Challenge veri kümesini burada(yeni bir pencerede açılır) yayınlıyoruz.


