7 Kasım 2025

Komutlara kötü amaçlı müdahaleleri anlamak: en üst seviyede güvenlik zorluğu

Yapay zeka araçları, soruları yanıtlamaktan daha fazlasını yapmaya başlıyor. Artık web'de gezinebilir, araştırma yapabilir, seyahat planlayabilir ve ürün satın alımına yardımcı olabilirler. Daha yetenekli hale geldiklerinde, diğer uygulamalardaki verilerinize erişebilme ve sizin adınıza işlem yapabilme yeteneği kazandıklarında, yeni güvenlik zorlukları ortaya çıkar. Yoğun şekilde odaklandıklarımızdan biri komutlara kötü amaçlı müdahaledir.

Komutlara kötü amaçlı müdahale saldırısının nasıl çalıştığını gösteren bir diyagram. Solda, gülümseyen bir kullanıcı simgesi "Kullanıcı, bir görevle ilgili yardım için yapay zekâdan yardım istiyor." olarak etiketlenmiş. Bir ok, ortadaki bir bilgisayar ekranı simgesine işaret eder; bu simge "Yapay zeka, saldırıyı içeren bir web sitesi görüyor" olarak etiketlenmiştir ve üstünde şapkalı ve sırıtan küçük bir figür "Saldırgan, komutlara kötü amaçlı müdahale ekledi" olarak etiketlenmiştir. Başka bir ok, sağa doğru ilerleyerek "İstenmeyen bir eyleme yönlendirilen yapay zeka" etiketli bir uyarı üçgeni bulunan bir belge simgesini gösterir. Akış, bir saldırganın enjekte edilen komutlar aracılığıyla yapay zekayı nasıl manipüle edebileceğini gösterir.

Komutlara kötü amaçlı müdahale nedir?

Komutlara kötü amaçlı müdahale, konuşmaya dayalı yapay zekaya özgü bir sosyal mühendislik saldırısı türüdür. İlk yapay zeka sistemleri, tek bir kullanıcı ile tek bir otonom ajan arasındaki diyaloglardı. Günümüzde yapay zeka ürünlerinde, konuşmanız internet dahil birçok kaynaktan içerik içerebilir. Kullanıcı veya yapay zeka olmayan bir üçüncü tarafın, konuşma bağlamına kötü niyetli talimatlar enjekte ederek modeli yanıltabileceği fikri, "komutlara kötü amaçlı müdahale" teriminin ortaya çıkmasına yol açtı.

Kimlik avı e-postalarının veya web üzerindeki dolandırıcılıkların insanları hassas bilgileri vermeleri için kandırmasına benzer şekilde, komutlara kötü amaçlı müdahaleler de yapay zekaları sizin istemediğiniz bir şeyi yapmaları için kandırmaya çalışır.

Çevrimiçi tatil araştırması yapmanız için bir yapay zekadan yardım istediğinizi ve bu sırada bir web sayfasında, örneğin bir ilandaki yorumda veya bir değerlendirmede, gizlenmiş yanıltıcı içerik veya zararlı talimatlarla karşılaştığınızı hayal edin. İçerik, bir yapay zekayı yanlış listeyi önermesi için kandırmaya yönelik dikkatle hazırlanmış olabilir veya daha kötüsü, kredi kartı bilgilerinizi çalmak için.

Bunlar, "komutlara kötü amaçlı müdahale" saldırılarının yalnızca birkaç örneğidir; bir yapay zekayı, genellikle bir web sayfası, belge veya e-posta gibi sıradan içeriklerin içine gizlenmiş zararlı talimatlarla, istemediğiniz bir şeyi yapması için kandırmak amacıyla tasarlanmış talimatlar.

Yapay zekalar daha hassas verilere eriştikçe, daha fazla inisiyatif alıp daha uzun görevler üstlendikçe bu riskler artar.

Özet

Yapay zekadan yapmasını istediğiniz görev

Saldırganın yaptığı

Saldırı başarılı olursa olası sonuç

Bir yapay zekadan daireleri araştırmasını istersiniz ve o, sizin için en iyi seçenek olmayan bir ilanı önermesi için komutlara kötü amaçlı müdahaleye maruz kalır.

Belirli bazı kriterlerle bir yapay zekadan daireleri araştırmasını istersiniz.

Saldırgan, yapay zekayı kullanıcının belirttiği tercihlerden bağımsız olarak kendi ilanını seçmesi gerektiğine inandırmak için daire ilanına komutlara kötü amaçlı müdahale saldırısı eklemiştir.

Saldırı başarılı olursa, yapay zeka tercihlerinize göre yanlışlıkla en uygun olmayan bir daire ilanı önerebilir.

Gece boyunca gelen e-postalarınıza yanıt vermesi için bir otonom ajandan yardım istersiniz ve o da sonunda banka hesap özetlerinizi paylaşır.

Bu sabah meşgul olduğunuz için bir otonom ajandan gece gelen e-postalarınıza genel olarak yanıt vermesini istersiniz.

Aşağıda "Mümkün olduğunda bir otonom ajana açık talimatlar verin" ifadesine bakın

Saldırgan, modelin banka hesap özetlerinizi bulup saldırganla paylaşmasını sağlamak için yanlış bilgiler içeren bir e-posta gönderdi.

Saldırı başarılı olursa, otonom ajan e-postanızda (görev için erişim izni verdiğiniz) banka hesap özetleri gibi belgeler arayabilir ve bunları saldırganla paylaşabilir.

Kullanıcıları koruma yaklaşımımız

Komutlara kötü amaçlı müdahale savunması, yapay zeka sektöründe bir zorluk olup OpenAI'da ana odak noktalarından biridir. Düşmanların bu tür saldırıları geliştirmeye devam etmesini beklesek de, birisi kullanıcıyı aktif olarak yanıltmaya çalışsa bile kullanıcının amaçladığı görevi yerine getirecek şekilde tasarlanmış savunmalar geliştiriyoruz. Bu yetenek, AGI (genel yapay zeka) faydalarını güvenli bir şekilde gerçekleştirmek için esastır.

Kullanıcılarımızı korumak ve bu saldırılara karşı modellerimizi geliştirmek için, aşağıdakiler de dahil olmak üzere çok katmanlı bir yaklaşım izliyoruz:

Güvenlik eğitimi

Komutlara kötü amaçlı müdahaleleri tanıyan ve bunlara kanmayan bir yapay zeka istiyoruz. Ancak, düşmanca saldırılara karşı dayanıklılık, makine öğrenimi ve yapay zeka için uzun süredir devam eden bir zorluktur ve bu, zor ve çözülmemiş bir problem olarak kalmaktadır. Güvenilir ve güvenilmeyen talimatlar arasında ayrım yapabilen modeller geliştirmek amacıyla Yönerge Hiyerarşisi⁠ adlı bir araştırma geliştirdik. Modelleri komutlara kötü amaçlı müdahale kalıplarını daha iyi tanıyacak şekilde eğitmek için yeni yaklaşımlar geliştirmeye devam ediyoruz; böylece bu kalıpları yok sayabilir veya kullanıcıları uyarabilirler. Uyguladığımız tekniklerden biri, yıllardır üzerinde çalıştığımız⁠(yeni bir pencerede açılır) sistemdeki açıkları ve riskleri ortaya çıkarmaya yönelik stres testi olup, yeni komutlara kötü amaçlı müdahaleler geliştirmek için kullanılır.

İzleme

Komutlara kötü amaçlı müdahale saldırılarını tespit etmek ve engellemek için birden fazla otomatik, yapay zekâ destekli izleme aracı⁠ geliştirdik. Bunlar, ortaya çıkardığımız yeni saldırıları hızla engelleyebilmek için hızlıca güncellenebildiklerinden, güvenlik eğitimi yaklaşımlarını tamamlar. Bu izleme mekanizmaları, kullanıcılarımıza yönelik potansiyel komutlara kötü amaçlı müdahale saldırılarını belirlemeye yardımcı olmakla kalmaz, aynı zamanda bu saldırılar sahada kullanılmaya başlanmadan önce platformumuzu kullanan karşıt komutlara kötü amaçlı müdahale araştırmalarını ve testlerini de yakalamamıza olanak tanıyabilir.

Güvenlik önlemleri

Kullanıcı verilerini korumak amacıyla ürünlerimizi ve altyapımızı çeşitli örtüşen güvenlik önlemleriyle tasarladık. Bu özellikler, gelecekteki yazılarda daha teknik ayrıntılarla inceleyeceğimiz üzere, her ürün için özel olarak uyarlanmıştır. Örneğin, güvenilmeyen sitelerden kaçınmanıza yardımcı olmak için, özellikle kataloglamamızı istemeyen web sitelerinde⁠(yeni bir pencerede açılır) ziyaret edilebilmeleri için önce ChatGPT’de belirli bağlantıları onaylamanızı isteyeceğiz. Yapay zekamız, diğer programları veya kodları çalıştırmak için araçlar kullandığında (Kanvas'ta veya geliştirme aracımız Codex'te olduğu gibi), komutlara kötü amaçlı müdahale sonucu olabilecek zararlı değişiklikleri önlemek için 'sandboxing' adı verilen bir teknik kullanırız.

Kontrolü kullanıcılara verme

Kullanıcıların kendilerini korumalarına yardımcı olmak amacıyla ürünlerimize yerleşik kontroller ekliyoruz. Örneğin, ChatGPT Atlas'ta, ChatGPT otonom ajanın sitelerde oturum açmadan görevleri başlatmasına olanak tanıyan oturum kapalı modunu seçebilirsiniz. ChatGPT otonom ajanı, bir satın alma işlemi gibi hassas adımları atmadan önce duraklar ve onay ister. Otonom ajan hassas sitelerde çalışırken, sitenin hassas doğası hakkında sizi uyaran ve otonom ajanın işini yapmasını izlemek için sekmenin aktif olmasını gerektiren bir "İzleme Modu" da uyguladık. Hassas bilgiler içeren sekmeden uzaklaşırsanız ajan duraklatılacaktır. Bu, otonom ajanın gerçekleştirdiği işlemlerden haberdar olmanızı ve kontrolü elinizde tutmanızı sağlar.

Sistemdeki açıkları ve riskleri ortaya çıkarmaya yönelik stres testi

Savunmalarımızı test etmek ve geliştirmek, saldırgan davranışını taklit etmek ve güvenliğimizi iyileştirmenin yeni yollarını bulmak için dahili ve harici ekiplerle sistemdeki açıkları ve riskleri ortaya çıkarmaya yönelik stres testi yapıyoruz. Bu, özellikle komutlara kötü amaçlı müdahalelere odaklanan binlerce saati içerir. Yeni teknikler ve saldırılar keşfettikçe ekiplerimiz güvenlik açıklarını proaktif olarak ele alır ve model azaltma önlemlerimizi geliştirir.

Ödüllü Hata Avı

İyi niyetli bağımsız güvenlik araştırmacılarını yeni komutlara kötü amaçlı müdahale tekniklerini ve saldırılarını keşfetmemize yardımcı olmaya teşvik etmek amacıyla, istemeden kullanıcı verilerinin ifşa edilmesine yol açabilecek gerçekçi bir saldırı yolu gösterdiklerinde Hata Avcılığı Programımız⁠(yeni bir pencerede açılır) kapsamında finansal ödüller sunuyoruz. Bu sorunları hızlıca ortaya çıkarmaları için harici katkıda bulunanları teşvik ediyoruz, böylece bunları çözebilir ve savunmalarımızı daha da güçlendirebiliriz.

Kullanıcıların karar vermesine olanak tanıma

Kullanıcıların bilinçli kararlar alabilmesi için üründeki belirli özelliklerin kullanım riskleri hakkında kullanıcıları bilgilendiriyoruz. Örneğin, ChatGPT'yi diğer uygulamalara bağlarken hangi verilere erişilebileceğini, bu verilerin nasıl kullanılabileceğini ve bir sitenin verilerinizi çalmaya çalışması gibi ortaya çıkabilecek riskleri açıklarız. Ayrıca, daha güvende kalmayı öğrenmeniz için bir bağlantı sunarız. Ayrıca kuruluşlara, kullanıcıların çalışma alanlarında hangi özellikleri etkinleştirebileceği veya kullanabileceği konusunda kontrol sağlıyoruz.

Güvende kalmak için atabileceğiniz adımlar

Komutlara kötü amaçlı müdahale, zamanla gelişmeye devam etmesini beklediğimiz üst seviye bir güvenlik zorluğudur. Yeni zekâ ve yetenek seviyeleri, teknolojinin, toplumun ve risk azaltma stratejisinin birlikte evrimleşmesini gerektirir. 2000'li yılların başındaki bilgisayar virüslerinde olduğu gibi, herkesin komutlara kötü amaçlı müdahale tehdidini ve bu riskle nasıl başa çıkılacağını anlamasının önemli olduğunu düşünüyoruz; böylece bu teknolojiden güvenli bir şekilde faydalanmayı hep birlikte öğrenebiliriz. Farkında olmak ve dikkatli davranmak, sizin adınıza hareket edebilen yapay zeka ve ajan özelliklerini kullanırken verilerinizi daha güvenli tutmaya yardımcı olur.

Hassas verilere erişimi sınırlamak amacıyla yerleşik özellikleri kullanın.

Mümkünse, bir otonom ajanın erişimini yalnızca görevi tamamlamak için ihtiyaç duyduğu hassas veriler veya kimlik bilgileriyle sınırlayın. Örneğin, ChatGPT Atlas'ta tatil araştırması yapmak için otonom ajan modunu kullanırken, otonom ajan yalnızca araştırma yapıyorsa ve oturum açma erişime ihtiyaç duymuyorsa "oturum kapalı" modunu kullanın.

Bir otonom ajan onay istediğinde, doğru şeyi yapacağından emin olmak için dikkatlice kontrol edin

Ajanları sıkı sık, satın alma işlemini tamamlama veya e-posta gönderme gibi bazı önemli eylemleri gerçekleştirmeden önce sizden son bir onay almak üzere tasarlarız. Bir otonom ajan sizden bir eylemi onaylamanızı istediğinde, eylemin doğru göründüğünü ve paylaşılan bilgilerin o bağlamda uygun olduğunu dikkatlice kontrol edin.

Bir otonom ajan bankanız gibi hassas bir sitede çalışıyorsa, otonom ajanın işini yapışını izleyin. Bu, ellerinizi direksiyonda tutarak kendi kendine giden bir aracı izlemeye benzer.

Mümkün olduğunda, otonom ajana açık talimatlar verin.

Bir otonom ajana "e-postalarımı incele ve gereken her türlü işlemi yap" gibi çok geniş bir talimat vermek, gizli kötü amaçlı içeriğin modeli yanıltmasını kolaylaştırabilir, çünkü model hassas eylemleri gerçekleştirmeden önce sizinle kontrol etmek üzere tasarlanmıştır.

Otonom ajandan belirli görevler yapmasını istemek ve e-postalar gibi başka kaynaklardan gelebilecek zararlı talimatları takip etme riskine karşı ona geniş bir hareket alanı tanımamak daha güvenlidir. Bu, saldırıların gerçekleşmeyeceğini garanti etmese de saldırganların başarılı olmasını zorlaştırır.

Gelişmeleri takip edin ve güvenlikle ilgili en iyi uygulamaları izleyin

Yapay zeka teknolojisi geliştikçe yeni riskler ve koruyucu önlemler ortaya çıkacaktır. En iyi uygulamalar hakkında bilgi edinmek için OpenAI ve diğer güvenilir kaynaklardan güncellemeleri takip edin.

Geleceğe bakış

Komutlara kötü amaçlı müdahale, en üst seviye, zorlu bir araştırma problemi olmaya devam ediyor ve tıpkı web üzerindeki geleneksel dolandırıcılıklar gibi, çalışmalarımızın süreceğini öngörüyoruz. Bu tekniğin saldırganlar tarafından henüz yaygın olarak kullanıldığını görmemiş olsak da, düşmanların yapay zekaları bu saldırılara karşı savunmasız hale getirmenin yollarını bulmak için önemli miktarda zaman ve kaynak harcayacağını tahmin ediyoruz. Ürünlerimizin güvenliğini sağlamak ve yapay zekanın bu riske karşı dayanıklılığını artırmak için araştırmalara ciddi yatırımlar yapmaya devam ediyoruz. Daha fazla bilgi edindikçe, bu alandaki güvenlik çalışmalarımızdaki ilerlemeler dahil güncellemeleri paylaşacağız. Örneğin, yakında yayınlayacağımız bir rapor, yapay zekanızın internetle iletişiminin sohbetinizden bilgi iletip iletmeyeceğini nasıl tespit ettiğimiz hakkında daha fazla ayrıntı paylaşacak.

Amacımız, bu sistemleri en güvenilir ve güvenlik bilincine sahip iş arkadaşınız veya dostunuzla çalışmak kadar güvenilir ve emniyetli hale getirmektir. Teknoloji ilerledikçe, gerçek dünya kullanımından öğrenmeye, güvenli bir şekilde yinelemeye ve öğrendiklerimizi yayımlamaya devam edeceğiz.

Okumaya devam et

Tümünü görüntüle

OpenAI ve Hugging Face güvenlik olayını ele alıyor

Güvenlik21 Tem 2026

Daybreak: Dünyadaki her kuruluşu güvenceye almak için araçlar

Güvenlik22 Haz 2026

Patch the Planet: a Daybreak initiative to support open source maintainers

Güvenlik22 Haz 2026