Güvenlik ekosistemimizi bağımsız testlerle güçlendiriyoruz
Öncü yapay zekâ için üçüncü taraf değerlendirmelerine yaklaşımımız.
OpenAI olarak öncü yapay zekânın güvenlik ekosistemini güçlendirmede bağımsız ve güvenilir üçüncü taraf değerlendirmelerinin kritik bir rol oynadığına inanıyoruz. Üçüncü taraf değerlendirmeleri, öncü modeller üzerinde yürütülür ve amacı, kritik güvenlik yetenekleri ve riskin azaltılması hakkındaki iddiaları doğrulamak veya bunlara ek kanıt sağlamaktır. Bu değerlendirmeler, güvenlik iddialarının doğrulanmasına, kör noktalara karşı koruma sağlanmasına ve yetenekler ile riskler konusunda şeffaflığın artırılmasına yardımcı olur. Öncü modellerimizi test etmek için bağımsız uzmanları davet ederek yetenek değerlendirmelerimizin ve güvenlik önlemlerimizin ne kadar kapsamlı olduğunu göstermeyi ve daha geniş güvenlik ekosisteminin gelişmesine yardımcı olmayı hedefliyoruz.
OpenAI, GPT‑4’ün lansmanından bu yana modellerimizi test etmek ve değerlendirmek amacıyla çeşitli dış ortaklarla iş birliği yapmıştır. Genel olarak üçüncü taraf iş birliklerimiz üç şekilde gerçekleşir:
- Biyogüvenlik, siber güvenlik, yapay zekânın kendini geliştirmesi ve planlama gibi temel öncü yeteneklerin ve risk alanlarının bağımsız değerlendirmeleri
- Riski nasıl değerlendirdiğimizi ve yorumladığımızı inceleyen yöntem incelemeleri
- Uzmanların modeli gerçek dünyadaki konu uzmanı görevlerinde doğrudan değerlendirdiği ve yeteneklerini ve ilgili güvenlik önlemlerini değerlendirebilmemiz için yapılandırılmış girdi sağladığı konu uzmanı incelemeleri1
Bu blog, bu bağımsız değerlendirme biçimlerinin her birini nasıl kullandığımızı, neden önemli olduklarını, kullanıma sokma kararlarını nasıl şekillendirdiklerini ve bu iş birliklerini yapılandırmak için kullandığımız ilkeleri ana hatlarıyla açıklamaktadır. Şeffaf olmak adına, üçüncü taraf testçilerle olan iş birliklerimizi yöneten gizlilik ve yayın koşulları hakkında da daha fazla bilgi paylaşıyoruz.
Üçüncü taraf değerlendiriciler, iç çalışmalarımıza bağımsız bir değerlendirme katmanı ekleyerek titizliği artırır ve kendi kendini doğrulamaya karşı ek korumalar sağlar. Bu değerlendiricilerin sunduğu sonuçlar, kendi değerlendirmelerimize ek kanıtlar sunarak güçlü sistemlerin kullanıma sokulması kararlarının sorumlu ve bilinçli bir şekilde verilebilmesine yardımcı olur.
Üçüncü taraf değerlendirmelerini, dayanıklı bir güvenlik ekosistemi oluşturmanın bir parçası olarak da görüyoruz. Ekiplerimiz yetenek ve risk alanlarında kapsamlı dâhilî testler yürütse de bağımsız kuruluşlar, ek bakış açıları ve yöntemsel yaklaşımlar sunuyor. Bizimle birlikte düzenli olarak öncü modelleri değerlendirebilecek, nitelikli değerlendirici kuruluşlardan oluşan çeşitli bir grubu desteklemek için çalışıyoruz.
Son olarak bu girdilerin, güvenlik sürecimizi nasıl şekillendirdiği konusunda şeffaf olmayı hedefliyoruz. Üçüncü taraf değerlendirmelerini düzenli olarak kamuoyuna açıklıyoruz. Örneğin, kullanıma sokma öncesi değerlendirmelerin özetlerini sistem kartlarına ekleyerek ve değerlendirme kuruluşlarının gizlilik ve doğruluk incelemesinden sonra daha ayrıntılı çalışmalar yayınlamalarına destek olarak bunu yapıyoruz. Bu şeffaflık, dış girdilerin yetenek değerlendirmelerimizi ve güvenlik önlemlerimizi nasıl şekillendirdiğini göstererek güven oluşturuyor.
Güvenilir erişim, şeffaflık ve bilgi paylaşımı üzerine kurulu, sürdürülebilir ilişkiler, tüm ekosistemin ortaya çıkan risklerin daima bir adım önünde olmasına yardımcı olur ve daha güçlü standartlar ile öncü yapay zekâ sistemleri için daha bilinçli idare sağlamak amacıyla gereken, uyarlanabilir ve eyleme geçirilebilir değerlendirmelerin geliştirilmesini sağlar.
GPT‑4(yeni bir pencerede açılır) lansmanından itibaren erken model kontrol noktalarında kullanıma sokmadan önce bağımsız değerlendirmeleri destekledik. O zamandan bu yana önemli öncü yeteneklere ve risk alanlarına yönelik değerlendirmelerde derin uzmanlığa sahip çeşitli üçüncü taraf kuruluşlarla iş birliğimizi artırdık. Bağımsız laboratuvar çalışmalarını, dış ekiplerin belirli bir öncü yetenekle ilgili bir iddia veya değerlendirme ortaya koymak için kendi yöntemlerini uyguladıkları açık uçlu testler olarak tanımlıyoruz.
Örneğin GPT‑5 için OpenAI; uzun vadeli otonomi, entrika, aldatma ve denetimi devre dışı bırakma, deney laboratuvarı planlama fizibilitesi ve saldırgan siber güvenlik değerlendirmeleri gibi temel risk alanlarında çeşitli dış yetenek değerlendirmelerini koordine etmiştir.
Bu bağımsız değerlendirmeler, OpenAI’ın Hazırlık Çerçevesi’ne uygun olarak yürütülen değerlendirmeleri destekler ve METR’nin zaman değerlendirmesi(yeni bir pencerede açılır) veya SecureBio’nun Viroloji Yetenekleri Sorun Giderme (VCT)(yeni bir pencerede açılır) değerlendirmesi gibi kıyaslama ölçütlerini içerir.
Bu değerlendirmeleri desteklemek amacıyla erken model kontrol noktalarına güvenli erişim, gördüğümüz yetenek iyileştirmelerini somutlaştırmak için seçilmiş değerlendirme sonuçları, gerektiğinde sıfır veri saklama ve daha az risk azaltma içeren modeller sağladık. Örneğin, siber güvenlik ve biyogüvenlik alanlarında test yapan kuruluşlar, altta yatan yetenekleri araştırmak için modelleri hem risk azaltma önlemleri ile hem de risk azaltma önlemleri olmadan test etmiştir. Diğer bazı kuruluşlar, modelin akıl yürütme izlerini inceleyebilmeleri için doğrudan düşünce zinciri erişimi almıştır. Bu artan şeffaflık adımı, değerlendiricilerin yalnızca düşünce zincirinin okunmasıyla fark edilebilecek kasıtlı düşük performans sergileme2 veya entrikacı davranış vakalarını tespit etmelerine olanak sağlamıştır. Bu erişim, gerekli güvenlik kontrolleri dâhilinde sağlanmıştır ve model yetenekleri ve test ihtiyaçları geliştikçe bu kontrolleri güncellemeye devam ediyoruz.
Bazı bağlamlarda bağımsız değerlendiriciler, yöntemsel inceleme sağlamak için ideal bir konuma sahiptir ve bu da öncü laboratuvarların risk değerlendirmesinde temel aldığı çerçeveler ve kanıtlar için ek bakış açıları sağlar. Örneğin GPT‑oss lansmanı sırasında Açık ağırlıklı LLM’lerin en kötü durum sınır risklerinin tahmini başlıklı bölümde açıklanan açık ağırlıklı modeller için en kötü durum yeteneklerini tahmin etmek amacıyla düşmanca belirlenmiş ince ayarlar kullandık. Temel güvenlik sorusu, kötü niyetli bir aktörün Hazırlık Çerçevemiz kapsamında biyolojik veya siber gibi alanlarda Yüksek yeteneğe ulaşmak için modeli ince ayar yapıp yapamayacağıydı. Bu, yoğun kaynağa ihtiyaç duyan düşmanca ince ayar gerektirdiğinden dolayı benzer çalışmaları kendimiz tekrarlamak yerine dâhilî yöntemlerimizi ve sonuçlarımızı gözden geçirip önerilerde bulunmaları için üçüncü taraf değerlendiricileri davet ettik.
Bunun için değerlendirme sunumlarının paylaşılmasıyla, düşmanca ince ayar yaklaşımına ilişkin ayrıntıların paylaşılmasıyla ve en kötü durum sınır riskleri için yöntemlerin ve değerlendirmelerin iyileştirilmesine yönelik yapılandırılmış önerilerin toplanmasıyla ilgili haftalar süren bir süreç gerekli oldu. Değerlendiricilerden gelen geri bildirimler, nihai düşmanca ince ayar sürecinde değişikliklere yol açtı ve yöntemsel onayın değerini gösterdi. Gpt-oss için hangi maddeleri benimsediğimizi tanıtım belgesine ve sistem kartına kaydettik ve benimsemediklerimizin gerekçelerini de sağladık.
Burada bağımsız değerlendirmelerden ziyade yöntem incelemesi uygundu: Değerlendirmelerde büyük yapay zekâ laboratuvarlarının dışında yaygın olarak bulunmayan altyapı ve teknik uzmanlık gerektiren, büyük ölçekli, en kötü durum deneyleri yürütülüyordu. Bu, bağımsız değerlendirmelerin doğrudan en kötü durum senaryolarına ilişkin analizlere muhtemelen yol açamayacağı ve bağımsız değerlendiricilerin, iddiaların doğrulanmasına odaklanmasının daha verimli olduğu anlamına geliyordu. Bağımsız değerlendiriciler, öneri geri bildirim döngüsünün bir parçası olarak ele alınan kararla ilgili boşlukları vurgulayarak yöntemleri ve kanıtları gözden geçirdi(yeni bir pencerede açılır). Erişim veya altyapı gereksinimlerinin, üçüncü bir tarafın değerlendirmeleri doğrudan yürütmesini güçleştirdiği ya da dış değerlendirmelerin henüz bulunmadığı diğer alanlarda da bu yaklaşımı kullanmayı umuyoruz.
Dış uzmanların katılımını sağlamanın bir başka yolu da uzmanların modeli doğrudan değerlendirdiği ve yeteneklerine ilişkin değerlendirmemize anketler aracılığıyla yapılandırılmış girdi sağladığı konu uzmanı incelemeleridir. Bunlar, belirli güvenlik önlemlerini stres testine tabi tutmayı amaçlayan kırmızı takım testlerinden farklıdır. Bu, statik değerlendirmelerin tek başına yakalayamayacağı uzman yargısını ve gerçek dünya bağlamını yansıtan, alan adı özelinde analizleri kullanarak Hazırlık Çerçevesi değerlendirmelerini desteklememize olanak tanır. Örneğin konu uzmanlarından oluşan bir paneli, ChatGPT Ajanı ve GPT‑5 için kendi uçtan uca biyolojik senaryolarını denemek üzere yalnızca yararlı bir modeli3 kullanmaya davet ettik. Modelin, kendileri gibi bir uzmanı, daha az deneyimli bir acemiye kıyasla ne kadar geliştirebileceğini, senaryolarında sağladığı rehberliğin faydalılığına göre değerlendirdiler. Amaç, sistemin motive olmuş bir acemiyi, yetkin bir uygulamaya bariz bir şekilde ne kadar yaklaştırabileceği konusunda ek girdi toplamaktı: Konu uzmanları, kendi oluşturdukları gerçekçi iş akışları altında "acemi geliştirme" iddialarımızı stres testine tabi tuttu ve modelin hangi noktalarda esaslı yardım sağladığı ve hangi noktalarda pek yardımcı olmayan özetler sunduğu konusunda ayrıntılı geri bildirim verdi. Bu uzman inceleme çalışması, bu modellerin kullanıma sokulmasına yönelik genel değerlendirmenin bir parçası olarak dâhil edilmiş ve her iki lansman için de sistem kartlarında paylaşılmıştır.
Şeffaf olmak adına, üçüncü taraf değerlendiricilerin bizimle çalışırken kabul ettiği ve iş birliğimize rehberlik eden ilkeler hakkında daha fazla bilgi paylaşıyoruz:
- Dikkatli gizlilik sınırlarıyla şeffaflık: Üçüncü taraf değerlendiriciler, değerlendirmelerini desteklemek amacıyla gizli, kamuya açık olmayan bilgilerin paylaşılmasını mümkün kılmak için gizlilik sözleşmeleri imzalar. Bu gönderinin Ek bölümünde, yayın haklarını ve inceleme beklentilerini ana hatlarıyla açıklayan, üçüncü taraf değerlendiricilerle yapılan sözleşmelerden ilgili alıntılara yer verdik. Şeffaflık ilkesiyle çalışıyor ve gizli bilgileri veya fikri mülkiyeti tehlikeye atmadan güvenlikle ilgili değerlendirmelerin daha iyi anlaşılmasını sağlayan yayınları mümkün kılmaya çalışıyoruz. Bu kapsamda hem gizliliği hem de gerçeklere dayalı doğruluğu sağlamak için üçüncü taraf değerlendirmelerinden gelen yayınları gözden geçiriyor ve onaylıyoruz. Geçtiğimiz birkaç yıl içinde bazı üçüncü taraf değerlendiriciler, sistem kartlarında değerlendirme özetlerimizin yayınıyla birlikte kendi çalışmalarını yayınladı. Gizlilik ve doğruluk açısından inceledikten sonra yayınlanan bazı çalışmalara örnekler şunlardır: [METR GPT‑5 raporu (yeni bir pencerede açılır), OpenAI o1 hakkında Apollo Research raporu(yeni bir pencerede açılır), Düzensiz GPT‑5 Değerlendirmesi(yeni bir pencerede açılır)]
- Düşünceli bilgi ifşası ve güvenli, hassas erişim: Kamuya açık veya üretime hazır olması amaçlanan modellere bilgi ve erişimi varsayılan olarak sağlıyoruz. Değerlendirmeler yalnızca yararlı modellere veya kamuya açık olmayan bilgilere daha derin erişim gerektirdiğinde bu erişimi sağlıyoruz. OpenAI, kritik güvenlik soruları için gerektiğinde üçüncü taraf değerlendiricilere bu erişim biçimlerini sağlamıştır. Bu tür hassas erişimler sıkı güvenlik önlemleri gerektirir ve model yetenekleri ile test ihtiyaçları geliştikçe bu kontrolleri güncellemeye devam ediyoruz.
- Dengeli finansal teşvikler: Üçüncü taraf değerlendirme ekosisteminin iyi finanse edilmesi ve sürdürülebilir olması gerektiğine inanıyoruz. Bu nedenle tüm üçüncü taraf değerlendiricilerimize ödeme teklif ediyoruz ve bazıları, kurumsal felsefelerine bağlı olarak bunu reddetmeyi tercih ediyor. Tazminat türleri arasında iş için doğrudan ödeme ve/veya API kredileri veya başka yollarla model kullanım maliyetlerinin sübvanse edilmesi yer alıyor. Ödemeler asla üçüncü taraf değerlendirmesinin sonuçlarına bağlı olarak yapılmamaktadır.
Bu faktörler, üçüncü taraf değerlendirmelerinin hem hassas bilgileri korumasına hem de güvenlikte şeffaflığı artırmasına ve üçüncü taraf değerlendiricilerin harcadığı zaman karşılığında ücret alması için yollar oluşturmasına yardımcı olur.
İleriye baktığımızda öncü yapay zekâ sistemlerinin güvenilir ve karar alma açısından önemli değerlendirmelerini gerçekleştirebilecek kuruluşlardan oluşan ekosistemin güçlendirilmesine devam edilmesi gerektiğini görüyoruz. Etkili bir üçüncü taraf değerlendirmesi; uzmanlık, istikrarlı finansman ve yöntemsel titizlik gerektirir. Nitelikli değerlendirici kuruluşlara yapılan sürekli yatırımlar, ölçüm biliminin ilerlemesi ve hassas erişim için güvenlik, değerlendirmelerin model yeteneklerindeki gelişmelerle uyumlu kalabilmesi için gereklidir.
Üçüncü taraf değerlendirmeleri, güvenlik çalışmalarımıza dışarıdan bir bakış açısı getirebilmemizi sağlar ve diğer mekanizmalarla birlikte çalışır. Ayrıca yapılandırılmış kırmızı takım testleri ve kolektif uyum projeleri aracılığıyla dış uzmanlarla işbirliği yapıyoruz, ABD’de CAISI ve Birleşik Krallık’ta AISI ile çalışıyoruz ve ruh sağlığı ve kullanıcı refahı konusundaki çalışmalarımıza rehberlik etmeleri için Küresel Hekim Ağımız ve İyi Yaşam ve Yapay Zekâ Uzmanlar Konseyimiz gibi danışma gruplarıyla iş birliği yapıyoruz. Bu çabalar, farklı uzmanlık biçimlerine katkıda bulunur ve gelişmiş yapay zekâ sistemlerinin değerlendirilmesi ve yönetilmesi için daha geniş ve daha güvenilir bir temel sağlar.
Kullanıma sokma öncesi değerlendirmelerde bizimle iş birliği yapan üçüncü taraflarla yaptığımız anlaşmalardan örnek alıntılar aşağıda yer almaktadır.
Yazar
Dipnotlar
- 1
Bu, güvenlik önlemlerini ayrıntılı bir şekilde stres testine tabi tutmayı ve değerlendirme geliştirme için veri sağlamayı amaçlayan kırmızı takım çalışmalarından farklıdır.
- 2
Bir model, değerlendirildiğini veya test edildiğini algıladığında kasıtlı olarak düşük performans gösterirse veya gerçek yeteneklerini gizlerse.
- 3
Yalnızca yararlı modeller, istek zararlı olsa bile her talebe yanıt verir. Bunlar, bu davranışı sağlayan eğitim sonrası yöntemlerle oluşturulmaktadır.


