Ana içeriğe atla
OpenAI

22 Aralık 2025

Güvenlik

ChatGPT Atlas'ı komut enjeksiyonu saldırılarına karşı sürekli olarak güçlendiriyoruz

Takviyeli öğrenme ile desteklenen otomatik kırmızı ekip, gerçek dünyadaki ajan istismarlarını, yaygın olarak kullanılmaya başlanmadan önce proaktif olarak keşfetmemize ve düzeltmemize yardımcı oluyor.

Yükleniyor...

ChatGPT Atlas'taki ajan modu, bugüne kadar yayınladığımız en genel amaçlı otonom ajan özelliklerinden biridir. Bu modda tarayıcı ajanı web sayfalarını görüntüler ve tarayıcınızda tıpkı sizin gibi hareket eder, tıklar ve tuş vuruşları yapar. Bu, ChatGPT'nin aynı alanı, bağlamı ve verileri kullanarak günlük iş akışlarınızın çoğunda doğrudan çalışmasına olanak tanır.

Tarayıcı ajanı işleri halletmenize yardımcı olurken aynı zamanda düşmanca saldırıların daha değerli bir hedefi haline gelir. Bu durum, yapay zeka güvenliğini özellikle önemli kılıyor. ChatGPT Atlas'ı piyasaya sürmeden çok önce, özellikle bu yeni "tarayıcıdaki ajan" paradigmasını hedef alan yeni tehditlere karşı savunma mekanizmaları oluşturmaya ve güçlendirmeye devam ettik. Komut enjeksiyonu, ChatGPT Atlas'ın sizin adınıza güvenli bir şekilde çalışabilmesi için aktif olarak savunduğumuz en önemli risklerden biridir. 

Bu çalışmalar kapsamında Atlas'ın tarayıcı ajanına yeni bir düşmanca eğitilmiş model ve güçlendirilmiş çevresel güvenlik önlemleri içeren bir güvenlik güncellemesi sunduk. Bu güncelleme, dahili otomatik kırmızı ekip çalışmalarıyla ortaya çıkarılan yeni bir komut enjeksiyonu saldırı sınıfı nedeniyle yapıldı.

Bu yazıda, web tabanlı ajanlar için komut enjeksiyonu riskinin nasıl ortaya çıkabileceğini açıklıyoruz ve yeni saldırıları sürekli olarak keşfetmek ve hızlı bir şekilde önlemler almak için geliştirdiğimiz hızlı yanıt döngüsünü paylaşıyoruz. Bu döngü, yakın zamanda yapılan bir güvenlik güncellemesiyle gösterilmektedir.

Komut enjeksiyonunu uzun vadeli bir yapay zeka güvenlik sorunu olarak görüyoruz ve buna karşı savunmalarımızı sürekli güçlendirmemiz gerekecek (tıpkı insanları hedef alan sürekli gelişen çevrimiçi dolandırıcılıklar gibi). En son hızlı yanıt döngümüz, bu yolculukta kritik bir araç olarak erken umut vaat ediyor: yeni saldırı stratejilerini dış dünyada ortaya çıkmadan önce içerde keşfediyoruz. Uzun vadeli vizyonumuz, (1) modellerimize beyaz kutu erişimimizi, (2) savunma mekanizmalarımızı derinlemesine anlamamızı ve (3) hesaplama ölçeğimizi tam olarak kullanarak dış saldırganların bir adım önünde olmak, istismarları daha erken tespit etmek, önlemleri daha hızlı uygulamak ve döngüyü sürekli olarak sıkılaştırmaktır. Komut enjeksiyonunu ele almak için yeni teknikler üzerine yapılan öncü araştırmalar ve diğer güvenlik kontrollerine artan yatırımlarla birleştiğinde, bu bileşik döngü saldırıları giderek daha zor ve maliyetli hale getirerek, gerçek dünyadaki komut enjeksiyonu riskini önemli ölçüde azaltabilir. Nihai hedefimiz, ChatGPT otonom ajanına, son derece yetkin ve güvenlik bilincine sahip bir meslektaşınıza veya arkadaşınıza güvendiğiniz gibi tarayıcınızı kullanabileceğine güvenmenizdir.

Ajan güvenliğinde açık bir tehdit olarak komut enjeksiyonu

Komut enjeksiyonu saldırısı, yapay zeka ajanlarını, ajanın işlediği içeriğe kötü niyetli talimatlar yerleştirerek hedef alır. Bu talimatlar, ajanın davranışını geçersiz kılmak veya yeniden yönlendirmek için tasarlanmıştır; ajanın davranışını, kullanıcının niyetinden ziyade saldırganın niyetini takip edecek şekilde ele geçirir.

ChatGPT Atlas içindeki tarayıcı ajanı için, komut enjeksiyonu, geleneksel web güvenlik risklerinin (kullanıcı hatası veya yazılım açıkları gibi) ötesinde yeni bir tehdit vektörü oluşturur. İnsanları oltalamak veya tarayıcının sistem açıklarını istismar etmek yerine, saldırgan tarayıcı içinde çalışan ajanı hedef alır.

Varsayımsal bir örnek olarak, bir saldırgan, bir ajanın kullanıcının talebini görmezden gelmesini ve bunun yerine hassas vergi belgelerini saldırganın kontrolündeki bir e-posta adresine iletmesini sağlamak amacıyla kötü niyetli bir e-posta gönderebilir. Bir kullanıcı, ajandan okunmamış e-postaları gözden geçirmesini ve ana noktaları özetlemesini isterse, ajan bu süreçte kötü niyetli e-postayı işleyebilir. Enjekte edilen talimatları takip ederse, görev dışına çıkabilir ve yanlışlıkla hassas bilgileri paylaşabilir.

Bu sadece belirli bir senaryodur. Tarayıcı ajanlarını faydalı kılan aynı genel özellik, riskleri de artırır: Otonom ajan, e-postalar ve ekler, takvim davetiyeleri, paylaşılan belgeler, forumlar, sosyal medya gönderileri ve rastgele web sayfaları gibi pratikte sınırsız bir etki alanında güvenilmeyen talimatlarla karşılaşabilir. Otonom ajan, bir kullanıcının tarayıcıda yapabileceği birçok eylemi gerçekleştirebildiğinden, başarılı bir saldırının etkisi teorik olarak aynı derecede geniş olabilir: Hassas bir e-postayı iletmek, para göndermek, buluttaki dosyaları düzenlemek veya silmek ve daha fazlası.

Önceki bir gönderimizde paylaştığımız gibi, komut enjeksiyonuna karşı savunmada birden fazla güvenlik katmanı aracılığıyla ilerleme kaydettik. Ancak, komut enjeksiyonu otonom ajan güvenliği için çözülmemiş bir zorluk olmaya devam ediyor ve önümüzdeki yıllarda üzerinde çalışmaya devam etmeyi bekliyoruz.

Uçtan uca ve yüksek hesaplama gücüne sahip takviyeli öğrenme ile otomatik komut enjeksiyonu saldırılarının tespiti

Savunmalarımızı güçlendirmek amacıyla, üretimdeki ajan sistemlerine karşı yeni komut enjeksiyonu saldırılarını sürekli olarak araştırıyoruz. Bu saldırıları tespit etmek, sağlam önlemler geliştirmek için gerekli bir ön koşuldur: Gerçek dünya risklerini anlamamıza yardımcı olur, savunmalarımızdaki boşlukları ortaya çıkarır ve somut yamalar yapmamızı sağlar.

Bunu geniş ölçekte gerçekleştirmek için, bir LLM tabanlı otomatik saldırgan geliştirdik ve bunu tarayıcı ajanına başarılı bir şekilde saldırabilecek komut enjeksiyonu saldırılarını tespit etmek üzere eğittik. Bu saldırganı uçtan uca takviyeli öğrenme ile eğittik, böylece kendi başarı ve başarısızlıklarından öğrenerek kırmızı takım becerilerini geliştirebiliyor. Ayrıca, "gönderilmeden önce deneme" yapmasına izin veriyoruz, bu sayede, düşünce zinciri akıl yürütmesi sırasında saldırganın bir aday enjeksiyonu önerip bunu harici bir simülatöre gönderebilir. Simülatör, hedef alınan kurban ajanının (savunucu) enjeksiyonla karşılaştığında nasıl davranacağını simüle eden karşı olgusal bir senaryo yürütür ve kurban ajanının tam akıl yürütme ve eylem izini sunar. Saldırgan, bu izi geri bildirim olarak kullanır, saldırıyı yineleyip simülasyonu yeniden çalıştırır ve nihai saldırıya karar vermeden önce bu döngüyü defalarca tekrarlar. Bu, tek bir geçme/kalma sinyaline kıyasla saldırgana daha zengin bağlam içi geri bildirim sağlar. Bu aynı zamanda saldırganın test aşamasındaki bilgi işlem kapasitesini de artırır. Ayrıca, savunucunun (dış kullanıcılara açıklamadığımız) akıl yürütme izlerine ayrıcalıklı erişim, iç saldırganımıza asimetrik bir avantaj sağlar ve bu da dış düşmanları geride bırakma olasılığını artırır.

Açık modda bir web sayfası taslağı, parlak bir geçişli arka plan üzerinde yüzen geometrik şekillerle etkileşime giren stilize bir robot kolunu gösteren ve takviyeli öğrenmeyi tasvir eden bir tasarım.

Neden takviyeli öğrenme (RL)? Otomatik saldırganı eğitmek amacıyla takviyeli öğrenmeyi seçmemizin birçok nedeni var:

  1. Uzun vadeli ve süreksiz saldırgan hedefleri optimize etme. Amacımız, ajanı gerçek dünyada meydana gelebilecek karmaşık karşıt görevleri (örneğin, e-posta gönderme, banka işlemleri) gerçekleştirmesi için kandırabilecek komut enjeksiyonu saldırılarını aramaktır. Bu düşmanca görevler doğası gereği uzun vadeli olup çevre ile etkileşim ve akıl yürütmenin birçok adımını gerektirir ve başarı sinyalleri seyrek ve gecikmelidir. Takviyeli öğrenme, bu seyrek ve gecikmeli ödül yapısına uygun şekilde çalışır.
  2. Öncü LLM yeteneklerinden faydalanma. Öncü LLM'leri doğrudan otomatik kırmızı ekip oyuncuları olarak eğittik, bu nedenle saldırgan, modeldeki akıl yürütme ve planlama iyileştirmelerinden doğrudan yararlanır. Temel modeller güçlendikçe, saldırgan da doğal olarak daha yetenekli hale gelir. Bu da, modellerimiz geliştikçe savunmamız üzerinde baskı oluşturmanın ölçeklenebilir bir yoluna dönüşür.
  3. Hesaplama kapasitesini ölçeklendirme ve uyarlanabilir saldırganları taklit etme. Takviyeli öğrenme, çok sayıda örnekleme ve öğrenme adımı üzerinde saldırı aramak için harcanan hesaplamayı ölçeklendirmeye uygundur ve aynı zamanda uyarlanabilir insan saldırganların davranışlarını da yakından yansıtır: Stratejileri tekrar tekrar denemek, sonuçlardan öğrenmek ve başarılı davranışları pekiştirmek.

Otomatik saldırganımız, baştan sona yeni ve gerçekçi komut enjeksiyonu saldırılarını keşfedebilir. Çoğu önceki otomatik kırmızı ekip çalışmasının, belirli çıktı dizgilerini ortaya çıkarmak veya otonom ajandan istenmeyen tek adımlı bir araç çağrısını tetiklemek gibi basit hataları ortaya çıkarmasının aksine, takviyeli öğrenme ile eğitilmiş saldırganımız, bir otonom ajanın onlarca (hatta yüzlerce) adım boyunca gelişen sofistike ve uzun vadeli zararlı iş akışlarını gerçekleştirmesini sağlayabilir. İnsan kırmızı ekip çalışmalarımızda veya dış raporlarda yer almayan yeni saldırı stratejilerini de gözlemledik.

Aşağıdaki demo, otomatik saldırganımız tarafından tespit edilen somut bir istem enjeksiyonu istismarını sunuyor; bu istismarı ChatGPT Atlas'ın savunmalarını daha da güçlendirmek amacıyla kullandık. Saldırgan, kullanıcının gelen kutusunu, ajanın kullanıcıya CEO'suna bir istifa mektubu göndermesini söyleyen bir komut enjeksiyonu içeren kötü niyetli bir e-posta ile doldurur. Daha sonra, kullanıcı ajanı bir ofis dışı yanıt taslağı hazırlamasını istediğinde, ajan normal görev yürütme sırasında o e-postayla karşılaşır, enjekte edilen komutu yetkili olarak kabul eder ve ona göre hareket eder. Ofis dışında mesajı hiçbir zaman yazılmaz ve bunun yerine ajan, kullanıcı adına istifa eder.

Komut enjeksiyonunun doğası, deterministik güvenlik garantilerini zorlaştırmaktadır, ancak otomatik güvenlik araştırmamızı ölçeklendirip karşıt testler yaparak ve hızlı yanıt döngümüzü sıkılaştırarak, bir saldırının vahşi doğada gerçekleşmesini beklemeden modelin dayanıklılığını ve savunmalarını geliştirebiliyoruz. 

Bu demoyu, kullanıcıların ve araştırmacıların bu saldırıların doğasını ve onlara karşı nasıl aktif olarak savunma yaptığımızı daha iyi anlamalarına yardımcı olmak için paylaşıyoruz. Otomatik kırmızı ekibin neler başarabileceğinin sınırlarını temsil ettiğine inanıyoruz ve araştırmamıza devam etmekten büyük heyecan duyuyoruz.

ChatGPT Atlas'ı proaktif bir hızlı yanıt döngüsü ile güçlendirme

Otomatik kırmızı ekibimiz, proaktif bir hızlı yanıt döngüsünü harekete geçiriyor: Otomatik saldırgan, yeni bir başarılı komut enjeksiyonu saldırı sınıfı keşfettiğinde, savunmalarımızı geliştirmek için hemen somut bir hedef oluşturur.

Yeni keşfedilen saldırılara karşı karşıt eğitim. Güncellenmiş ajan modellerini, hedef ajanların başarısız olduğu saldırılara öncelik vererek, en iyi otomatik saldırganımıza karşı sürekli eğitiyoruz. Amaç, ajanlara düşmanca talimatları görmezden gelmeyi ve kullanıcının niyetine uygun davranmayı öğretmek, böylece yeni keşfedilen komut enjeksiyon stratejilerine karşı direnci artırmaktır. Bu yaklaşım, yeni ve yüksek güçlü saldırılara karşı dayanıklılığı doğrudan model kontrol noktasına işler. Örneğin, son zamanlarda otomatikleştirilen kırmızı ekip çalışması, tüm ChatGPT Atlas kullanıcılarına halihazırda sunulmuş olan, düşmanca eğitilmiş yeni bir tarayıcı ajanı kontrol noktası oluşturdu. Bu, kullanıcılarımızı yeni tür saldırılara karşı daha iyi korumamıza yardımcı olur.

Saldırı izlerini kullanarak daha geniş savunma yığınını geliştirme. Otomatik kırmızı ekibimizin keşfettiği pek çok saldırı yolu, sadece modelde değil, modelin dışındaki alanlarda da gelişim fırsatlarına işaret ediyor. İzleme, model bağlamına eklenen güvenlik talimatları ve sistem düzeyindeki korumalar bunlara birer örnektir. Bu bulgular, yalnızca ajan kontrol noktası değil, tüm savunma yığını üzerinde yineleme yapmamıza olanak tanır.

Aktif saldırılara yanıt verme. Bu döngü, aktif saldırılara daha iyi yanıt vermek için de yardımcı olabilir. Küresel varlığımızda potansiyel saldırıları incelerken, dış tehdit unsurlarının kullandığı teknik ve taktikleri alıp bu döngüye dahil edebilir, faaliyetlerini taklit edebilir ve platformumuz genelinde savunma değişikliklerini yönlendirebiliriz.

Gelecek Vizyonu: Otonom ajan güvenliğinde uzun vadeli duruşumuz

Kırmızı ekip ajanlarını güçlendirme yeteneğimizi artırmak ve bu çalışmanın bazı kısımlarını otomatikleştirmek için en yetenekli modellerimizi kullanmak, keşif-tamir döngüsünü ölçeklendirerek Atlas tarayıcı ajanını daha sağlam hale getirir. Bu çalışma, güvenlik alanındaki aşina olduğumuz bir gerçeği bir kez daha kanıtlıyor: Güçlü korumanın formülü, gerçek sistemleri sürekli baskı testine tabi tutmak, başarısızlıklara yanıt vermek ve kalıcı düzeltmeler yapmaktır.

Düşmanların sürekli uyum sağlamasını bekliyoruz. Komut enjeksiyonu, web üzerindeki dolandırıcılıklar ve sosyal mühendislik gibi, muhtemelen hiçbir zaman tamamen "çözülemeyecek". Ancak, proaktif ve son derece duyarlı bir hızlı yanıt döngüsünün zamanla gerçek dünya riskini önemli ölçüde azaltmaya devam edebileceği konusunda iyimseriz. Otomatik saldırı keşfini düşmanca eğitim ve sistem düzeyinde güvenlik önlemleriyle birleştirerek, yeni saldırı kalıplarını daha erken tespit edebilir, boşlukları daha hızlı kapatabilir ve sömürü maliyetini sürekli artırabiliriz.

ChatGPT Atlas'taki ajan modu güçlüdür ve güvenlik tehdit yüzeyini de genişletir. Bu dengeyi net bir şekilde görmek, sorumlu bir şekilde geliştirmenin bir parçasıdır. Amacımız, her yinelemede Atlas'ı anlamlı bir şekilde daha güvenli hale getirmektir: modelin dayanıklılığını artırmak, çevresel savunma yapısını güçlendirmek ve ortaya çıkan kötüye kullanım kalıplarını izlemektir.

Araştırma ve uygulama alanlarında yatırım yapmaya devam edecek, daha iyi otomatik kırmızı ekip yöntemleri geliştirecek, katmanlı önlemler alacağız ve öğrendikçe hızlı bir şekilde yineleme yapacağız. Elimizden geldiğince daha geniş bir toplulukla da paylaşacağız.

Ajanların güvenli kullanımı için öneriler

Atlas'ı sistem düzeyinde güçlendirmeye devam ederken, kullanıcıların ajanları kullanırken riski azaltmak için atabileceği adımlar bulunmaktadır. 

Mümkün olduğunda oturum açmış kullanıcıların erişimini sınırlayın. Kullanıcıların, Atlas'ta ajan kullanırken, görev için oturum açtıkları web sitelerine erişim gerekmiyorsa veya görev sırasında oturum açtıkları belirli sitelere erişimi sınırlamak istiyorlarsa, oturum açılmamış moddan(yeni bir pencerede açılır) yararlanmalarını önermeye devam ediyoruz. 

Onay taleplerini dikkatlice gözden geçirin. Bazı önemli eylemler, örneğin bir satın alma işlemini tamamlama veya e-posta gönderme gibi, için ajanlar ilerlemeden önce onayınızı almak üzere tasarlanmıştır. Bir ajan sizden bir eylemi onaylamanızı istediğinde, eylemin doğru olduğundan ve paylaşılan bilgilerin o bağlam için uygun olduğundan emin olmak için bir an durup doğrula.

Ajanlara mümkün olduğunda açık talimatlar verin. "E-postalarımı incele ve gerekli önlemleri al" gibi çok genel talimatlardan kaçının. Geniş bir hareket alanı, güvenlik önlemleri mevcut olsa bile, gizli veya kötü niyetli içeriğin ajanı etkilemesini kolaylaştırır. Ajana belirli ve iyi tanımlanmış görevler vermek daha güvenlidir. Bu sayede, riski ortadan kalkmasa da saldırıların gerçekleştirilmesi zorlaşır.

Ajanlar, günlük görevlerde güvenilir ortaklar haline gelmek istiyorlarsa, açık web'in etkinleştirdiği manipülasyon türlerine karşı dayanıklı olmalıdır. Komut enjeksiyonuna karşı güçlendirme, uzun vadeli bir taahhüttür ve önceliklerimiz arasında üst sıralarda yer alır. Bu çalışma hakkında yakında daha fazla bilgi paylaşacağız.

Yazar

OpenAI