19 Kasım 2025

Güvenlik ekosistemimizi bağımsız testlerle güçlendiriyoruz

Öncü yapay zekâ için üçüncü taraf değerlendirmelerine yaklaşımımız.

Yükleniyor...

OpenAI olarak öncü yapay zekânın güvenlik ekosistemini güçlendirmede bağımsız ve güvenilir üçüncü taraf değerlendirmelerinin kritik bir rol oynadığına inanıyoruz. Üçüncü taraf değerlendirmeleri, öncü modeller üzerinde yürütülür ve amacı, kritik güvenlik yetenekleri ve riskin azaltılması hakkındaki iddiaları doğrulamak veya bunlara ek kanıt sağlamaktır. Bu değerlendirmeler, güvenlik iddialarının doğrulanmasına, kör noktalara karşı koruma sağlanmasına ve yetenekler ile riskler konusunda şeffaflığın artırılmasına yardımcı olur. Öncü modellerimizi test etmek için bağımsız uzmanları davet ederek yetenek değerlendirmelerimizin ve güvenlik önlemlerimizin ne kadar kapsamlı olduğunu göstermeyi ve daha geniş güvenlik ekosisteminin gelişmesine yardımcı olmayı hedefliyoruz.

OpenAI, GPT‑4’ün lansmanından bu yana modellerimizi test etmek ve değerlendirmek amacıyla çeşitli dış ortaklarla iş birliği yapmıştır. Genel olarak üçüncü taraf iş birliklerimiz üç şekilde gerçekleşir:

Biyogüvenlik, siber güvenlik, yapay zekânın kendini geliştirmesi ve planlama gibi temel öncü yeteneklerin ve risk alanlarının bağımsız değerlendirmeleri
Riski nasıl değerlendirdiğimizi ve yorumladığımızı inceleyen yöntem incelemeleri
Uzmanların modeli gerçek dünyadaki konu uzmanı görevlerinde doğrudan değerlendirdiği ve yeteneklerini ve ilgili güvenlik önlemlerini değerlendirebilmemiz için yapılandırılmış girdi sağladığı konu uzmanı incelemeleri¹

Bu blog, bu bağımsız değerlendirme biçimlerinin her birini nasıl kullandığımızı, neden önemli olduklarını, kullanıma sokma kararlarını nasıl şekillendirdiklerini ve bu iş birliklerini yapılandırmak için kullandığımız ilkeleri ana hatlarıyla açıklamaktadır. Şeffaf olmak adına, üçüncü taraf testçilerle olan iş birliklerimizi yöneten gizlilik ve yayın koşulları hakkında da daha fazla bilgi paylaşıyoruz.

Bu, neden önemlidir?

Üçüncü taraf değerlendiriciler, iç çalışmalarımıza bağımsız bir değerlendirme katmanı ekleyerek titizliği artırır ve kendi kendini doğrulamaya karşı ek korumalar sağlar. Bu değerlendiricilerin sunduğu sonuçlar, kendi değerlendirmelerimize ek kanıtlar sunarak güçlü sistemlerin kullanıma sokulması kararlarının sorumlu ve bilinçli bir şekilde verilebilmesine yardımcı olur.

Üçüncü taraf değerlendirmelerini, dayanıklı bir güvenlik ekosistemi oluşturmanın⁠ bir parçası olarak da görüyoruz. Ekiplerimiz yetenek ve risk alanlarında kapsamlı dâhilî testler yürütse de bağımsız kuruluşlar, ek bakış açıları ve yöntemsel yaklaşımlar sunuyor. Bizimle birlikte düzenli olarak öncü modelleri değerlendirebilecek, nitelikli değerlendirici kuruluşlardan oluşan çeşitli bir grubu desteklemek için çalışıyoruz.

Son olarak bu girdilerin, güvenlik sürecimizi nasıl şekillendirdiği konusunda şeffaf olmayı hedefliyoruz. Üçüncü taraf değerlendirmelerini düzenli olarak kamuoyuna açıklıyoruz. Örneğin, kullanıma sokma öncesi değerlendirmelerin özetlerini sistem kartlarına ekleyerek ve değerlendirme kuruluşlarının gizlilik ve doğruluk incelemesinden sonra daha ayrıntılı çalışmalar yayınlamalarına destek olarak bunu yapıyoruz. Bu şeffaflık, dış girdilerin yetenek değerlendirmelerimizi ve güvenlik önlemlerimizi nasıl şekillendirdiğini göstererek güven oluşturuyor.

Güvenilir erişim, şeffaflık ve bilgi paylaşımı üzerine kurulu, sürdürülebilir ilişkiler, tüm ekosistemin ortaya çıkan risklerin daima bir adım önünde olmasına yardımcı olur ve daha güçlü standartlar ile öncü yapay zekâ sistemleri için daha bilinçli idare sağlamak amacıyla gereken, uyarlanabilir ve eyleme geçirilebilir değerlendirmelerin geliştirilmesini sağlar.

Bağımsız laboratuvarlar tarafından yapılan değerlendirmeler

GPT‑4⁠(yeni bir pencerede açılır) lansmanından itibaren erken model kontrol noktalarında kullanıma sokmadan önce bağımsız değerlendirmeleri destekledik. O zamandan bu yana önemli öncü yeteneklere ve risk alanlarına yönelik değerlendirmelerde derin uzmanlığa sahip çeşitli üçüncü taraf kuruluşlarla iş birliğimizi artırdık. Bağımsız laboratuvar çalışmalarını, dış ekiplerin belirli bir öncü yetenekle ilgili bir iddia veya değerlendirme ortaya koymak için kendi yöntemlerini uyguladıkları açık uçlu testler olarak tanımlıyoruz.

Örneğin GPT‑5⁠ için OpenAI; uzun vadeli otonomi, entrika, aldatma ve denetimi devre dışı bırakma, deney laboratuvarı planlama fizibilitesi ve saldırgan siber güvenlik değerlendirmeleri gibi temel risk alanlarında çeşitli dış yetenek değerlendirmelerini koordine etmiştir.

Bu bağımsız değerlendirmeler, OpenAI’ın Hazırlık Çerçevesi’ne uygun olarak yürütülen değerlendirmeleri destekler ve METR’nin zaman değerlendirmesi⁠(yeni bir pencerede açılır) veya SecureBio’nun Viroloji Yetenekleri Sorun Giderme (VCT)⁠(yeni bir pencerede açılır) değerlendirmesi gibi kıyaslama ölçütlerini içerir.

Bu değerlendirmeleri desteklemek amacıyla erken model kontrol noktalarına güvenli erişim, gördüğümüz yetenek iyileştirmelerini somutlaştırmak için seçilmiş değerlendirme sonuçları, gerektiğinde sıfır veri saklama ve daha az risk azaltma içeren modeller sağladık. Örneğin, siber güvenlik ve biyogüvenlik alanlarında test yapan kuruluşlar, altta yatan yetenekleri araştırmak için modelleri hem risk azaltma önlemleri ile hem de risk azaltma önlemleri olmadan test etmiştir. Diğer bazı kuruluşlar, modelin akıl yürütme izlerini inceleyebilmeleri için doğrudan düşünce zinciri erişimi almıştır. Bu artan şeffaflık adımı, değerlendiricilerin yalnızca düşünce zincirinin okunmasıyla fark edilebilecek kasıtlı düşük performans sergileme² veya entrikacı davranış vakalarını tespit etmelerine olanak sağlamıştır. Bu erişim, gerekli güvenlik kontrolleri dâhilinde sağlanmıştır ve model yetenekleri ve test ihtiyaçları geliştikçe bu kontrolleri güncellemeye devam ediyoruz.

Yöntem incelemesi

Bazı bağlamlarda bağımsız değerlendiriciler, yöntemsel inceleme sağlamak için ideal bir konuma sahiptir ve bu da öncü laboratuvarların risk değerlendirmesinde temel aldığı çerçeveler ve kanıtlar için ek bakış açıları sağlar. Örneğin GPT‑oss⁠ lansmanı sırasında Açık ağırlıklı LLM’lerin en kötü durum sınır risklerinin tahmini⁠ başlıklı bölümde açıklanan açık ağırlıklı modeller için en kötü durum yeteneklerini tahmin etmek amacıyla düşmanca belirlenmiş ince ayarlar kullandık. Temel güvenlik sorusu, kötü niyetli bir aktörün Hazırlık Çerçevemiz kapsamında biyolojik veya siber gibi alanlarda Yüksek yeteneğe ulaşmak için modeli ince ayar yapıp yapamayacağıydı. Bu, yoğun kaynağa ihtiyaç duyan düşmanca ince ayar gerektirdiğinden dolayı benzer çalışmaları kendimiz tekrarlamak yerine dâhilî yöntemlerimizi ve sonuçlarımızı gözden geçirip önerilerde bulunmaları için üçüncü taraf değerlendiricileri davet ettik.

Bunun için değerlendirme sunumlarının paylaşılmasıyla, düşmanca ince ayar yaklaşımına ilişkin ayrıntıların paylaşılmasıyla ve en kötü durum sınır riskleri için yöntemlerin ve değerlendirmelerin iyileştirilmesine yönelik yapılandırılmış önerilerin toplanmasıyla ilgili haftalar süren bir süreç gerekli oldu. Değerlendiricilerden gelen geri bildirimler, nihai düşmanca ince ayar sürecinde değişikliklere yol açtı ve yöntemsel onayın değerini gösterdi. Gpt-oss için hangi maddeleri benimsediğimizi tanıtım belgesine ve sistem kartına kaydettik ve benimsemediklerimizin gerekçelerini de sağladık.

Burada bağımsız değerlendirmelerden ziyade yöntem incelemesi uygundu: Değerlendirmelerde büyük yapay zekâ laboratuvarlarının dışında yaygın olarak bulunmayan altyapı ve teknik uzmanlık gerektiren, büyük ölçekli, en kötü durum deneyleri yürütülüyordu. Bu, bağımsız değerlendirmelerin doğrudan en kötü durum senaryolarına ilişkin analizlere muhtemelen yol açamayacağı ve bağımsız değerlendiricilerin, iddiaların doğrulanmasına odaklanmasının daha verimli olduğu anlamına geliyordu. Bağımsız değerlendiriciler, öneri geri bildirim döngüsünün bir parçası olarak ele alınan kararla ilgili boşlukları vurgulayarak yöntemleri ve kanıtları gözden geçirdi⁠(yeni bir pencerede açılır). Erişim veya altyapı gereksinimlerinin, üçüncü bir tarafın değerlendirmeleri doğrudan yürütmesini güçleştirdiği ya da dış değerlendirmelerin henüz bulunmadığı diğer alanlarda da bu yaklaşımı kullanmayı umuyoruz.

Konu uzmanı incelemesi

Dış uzmanların katılımını sağlamanın bir başka yolu da uzmanların modeli doğrudan değerlendirdiği ve yeteneklerine ilişkin değerlendirmemize anketler aracılığıyla yapılandırılmış girdi sağladığı konu uzmanı incelemeleridir. Bunlar, belirli güvenlik önlemlerini stres testine tabi tutmayı amaçlayan kırmızı takım testlerinden⁠ farklıdır. Bu, statik değerlendirmelerin tek başına yakalayamayacağı uzman yargısını ve gerçek dünya bağlamını yansıtan, alan adı özelinde analizleri kullanarak Hazırlık Çerçevesi değerlendirmelerini desteklememize olanak tanır. Örneğin konu uzmanlarından oluşan bir paneli, ChatGPT Ajanı ve GPT‑5 için kendi uçtan uca biyolojik senaryolarını denemek üzere yalnızca yararlı bir modeli³ kullanmaya davet ettik. Modelin, kendileri gibi bir uzmanı, daha az deneyimli bir acemiye kıyasla ne kadar geliştirebileceğini, senaryolarında sağladığı rehberliğin faydalılığına göre değerlendirdiler. Amaç, sistemin motive olmuş bir acemiyi, yetkin bir uygulamaya bariz bir şekilde ne kadar yaklaştırabileceği konusunda ek girdi toplamaktı: Konu uzmanları, kendi oluşturdukları gerçekçi iş akışları altında "acemi geliştirme" iddialarımızı stres testine tabi tuttu ve modelin hangi noktalarda esaslı yardım sağladığı ve hangi noktalarda pek yardımcı olmayan özetler sunduğu konusunda ayrıntılı geri bildirim verdi. Bu uzman inceleme çalışması, bu modellerin kullanıma sokulmasına yönelik genel değerlendirmenin bir parçası olarak dâhil edilmiş ve her iki lansman için de sistem kartlarında paylaşılmıştır.

Değerlendirme için üçüncü taraflarla iş birliğini başarılı kılan nedir?

Şeffaf olmak adına, üçüncü taraf değerlendiricilerin bizimle çalışırken kabul ettiği ve iş birliğimize rehberlik eden ilkeler hakkında daha fazla bilgi paylaşıyoruz:

Dikkatli gizlilik sınırlarıyla şeffaflık: Üçüncü taraf değerlendiriciler, değerlendirmelerini desteklemek amacıyla gizli, kamuya açık olmayan bilgilerin paylaşılmasını mümkün kılmak için gizlilik sözleşmeleri imzalar. Bu gönderinin Ek⁠ bölümünde, yayın haklarını ve inceleme beklentilerini ana hatlarıyla açıklayan, üçüncü taraf değerlendiricilerle yapılan sözleşmelerden ilgili alıntılara yer verdik. Şeffaflık ilkesiyle çalışıyor ve gizli bilgileri veya fikri mülkiyeti tehlikeye atmadan güvenlikle ilgili değerlendirmelerin daha iyi anlaşılmasını sağlayan yayınları mümkün kılmaya çalışıyoruz. Bu kapsamda hem gizliliği hem de gerçeklere dayalı doğruluğu sağlamak için üçüncü taraf değerlendirmelerinden gelen yayınları gözden geçiriyor ve onaylıyoruz. Geçtiğimiz birkaç yıl içinde bazı üçüncü taraf değerlendiriciler, sistem kartlarında değerlendirme özetlerimizin yayınıyla birlikte kendi çalışmalarını yayınladı. Gizlilik ve doğruluk açısından inceledikten sonra yayınlanan bazı çalışmalara örnekler şunlardır: [METR GPT‑5 raporu ⁠(yeni bir pencerede açılır), OpenAI o1 hakkında Apollo Research raporu⁠(yeni bir pencerede açılır), Düzensiz GPT‑5 Değerlendirmesi⁠(yeni bir pencerede açılır)]
Düşünceli bilgi ifşası ve güvenli, hassas erişim: Kamuya açık veya üretime hazır olması amaçlanan modellere bilgi ve erişimi varsayılan olarak sağlıyoruz. Değerlendirmeler yalnızca yararlı modellere veya kamuya açık olmayan bilgilere daha derin erişim gerektirdiğinde bu erişimi sağlıyoruz. OpenAI, kritik güvenlik soruları için gerektiğinde üçüncü taraf değerlendiricilere bu erişim biçimlerini sağlamıştır. Bu tür hassas erişimler sıkı güvenlik önlemleri gerektirir ve model yetenekleri ile test ihtiyaçları geliştikçe bu kontrolleri güncellemeye devam ediyoruz.
Dengeli finansal teşvikler: Üçüncü taraf değerlendirme ekosisteminin iyi finanse edilmesi ve sürdürülebilir olması gerektiğine inanıyoruz. Bu nedenle tüm üçüncü taraf değerlendiricilerimize ödeme teklif ediyoruz ve bazıları, kurumsal felsefelerine bağlı olarak bunu reddetmeyi tercih ediyor. Tazminat türleri arasında iş için doğrudan ödeme ve/veya API kredileri veya başka yollarla model kullanım maliyetlerinin sübvanse edilmesi yer alıyor. Ödemeler asla üçüncü taraf değerlendirmesinin sonuçlarına bağlı olarak yapılmamaktadır.

Bu faktörler, üçüncü taraf değerlendirmelerinin hem hassas bilgileri korumasına hem de güvenlikte şeffaflığı artırmasına ve üçüncü taraf değerlendiricilerin harcadığı zaman karşılığında ücret alması için yollar oluşturmasına yardımcı olur.

Geleceğe bakış

İleriye baktığımızda öncü yapay zekâ sistemlerinin güvenilir ve karar alma açısından önemli değerlendirmelerini gerçekleştirebilecek kuruluşlardan oluşan ekosistemin güçlendirilmesine devam edilmesi gerektiğini görüyoruz. Etkili bir üçüncü taraf değerlendirmesi; uzmanlık, istikrarlı finansman ve yöntemsel titizlik gerektirir. Nitelikli değerlendirici kuruluşlara yapılan sürekli yatırımlar, ölçüm biliminin ilerlemesi ve hassas erişim için güvenlik, değerlendirmelerin model yeteneklerindeki gelişmelerle uyumlu kalabilmesi için gereklidir.

Üçüncü taraf değerlendirmeleri, güvenlik çalışmalarımıza dışarıdan bir bakış açısı getirebilmemizi sağlar ve diğer mekanizmalarla birlikte çalışır. Ayrıca yapılandırılmış kırmızı takım testleri ve kolektif uyum projeleri⁠ aracılığıyla dış uzmanlarla işbirliği yapıyoruz, ABD’de CAISI ve Birleşik Krallık’ta AISI⁠ ile çalışıyoruz ve ruh sağlığı ve kullanıcı refahı konusundaki çalışmalarımıza rehberlik etmeleri için Küresel Hekim Ağımız⁠ ve İyi Yaşam ve Yapay Zekâ Uzmanlar Konseyimiz⁠ gibi danışma gruplarıyla iş birliği yapıyoruz. Bu çabalar, farklı uzmanlık biçimlerine katkıda bulunur ve gelişmiş yapay zekâ sistemlerinin değerlendirilmesi ve yönetilmesi için daha geniş ve daha güvenilir bir temel sağlar.

Ek

Kullanıma sokma öncesi değerlendirmelerde bizimle iş birliği yapan üçüncü taraflarla yaptığımız anlaşmalardan örnek alıntılar aşağıda yer almaktadır.

Research Publications: [...] Hereunder, Supplier hereby retains, or OpenAI licenses back to Supplier, as applicable, the right to use the Supplier Work Product created or discovered by Supplier for research, academic publication, scientific and/or educational purposes, provided such uses (a) are not commercial in nature, (b) do not disclose OpenAI’s Confidential Information (except as expressly permitted in advance by OpenAI in writing) and (c) are submitted to OpenAI for review and approval in writing prior to any publication or disclosure. OpenAI’s “Confidential Information” includes without limitation OpenAI’s Non-Public Models and outputs thereof, including any Supplier Work Product that was created or discovered through use of the. Non-Public Models. “Non-Public Models” means OpenAI’s artificial intelligence and machine learning models, including versions and snapshots thereof, that have not been released to the general public at the time of Supplier’s proposed publication date.

Confidential Information. For purposes of this Agreement, “Confidential Information” means and will include: (i) any information, materials or knowledge regarding OpenAI and its business, financial condition, products, programming techniques, customers, suppliers, technology or research and development that is disclosed to Supplier or to which Supplier has or obtains access in connection with performing Services; (ii) the Supplier Work Product; and (iii) the terms and conditions of this Agreement. Confidential Information will not include any information that: (a) is or becomes part of the public domain through no fault of Supplier or any representative or agent of Supplier; (b) is demonstrated by Supplier to have been rightfully in Supplier’s possession at the time of disclosure, without restriction as to use or disclosure; or (c) Supplier rightfully receives from a third party who has the right to disclose it and who provides it without restriction as to use or disclosure. Supplier agrees to hold all Confidential Information in strict confidence, not to use it in any way, commercially or otherwise, other than to perform Services for OpenAI, and not to disclose it to others. Supplier further agrees to take all actions reasonably necessary to protect the confidentiality of all Confidential Information including, without limitation, implementing and enforcing procedures to minimize the possibility of unauthorized use or disclosure of Confidential Information.

Without granting any right or license, the Disclosing Party agrees that the foregoing shall not apply with respect to (a) any information after 2 years following the disclosure thereof, except for any information that is a trade secret, which shall remain subject to the confidentiality obligations of this Agreement for as long as it is a trade secret, (b) any information included in a Researcher’s noncommercial research or academic publication to the extent such information is either (i) approved in writing by OpenAI prior to publication or (ii) resulting from the version of OpenAI Technology that has been made generally available to the public by OpenAI (and not, for the avoidance of doubt, any information, results, or output from version of the OpenAI Technology that were not made generally available to the public); or (c) any information that the Receiving Party can document (i) is or becomes (through no improper action or inaction by the Receiving Party or any affiliate, agent, consultant or employee of the Receiving Party) generally available to the public, (ii) was in its possession or known by it without restriction prior to receipt from the Disclosing Party, (iii) was rightfully disclosed to it by a third party without restriction, or (iv) was independently developed without use of any Proprietary Information of the Disclosing Party by officers, directors, employees, consultants, representatives, advisors or affiliates of the Receiving Party who have had no access to any such Proprietary Information. The Receiving Party may make disclosures required by law or court order provided the Receiving Party uses diligent reasonable efforts to limit disclosure and to obtain confidential treatment or a protective order and allows the Disclosing Party to participate in the proceeding.

2025

Yazar

OpenAI

Dipnotlar

1
Bu, güvenlik önlemlerini ayrıntılı bir şekilde stres testine tabi tutmayı ve değerlendirme geliştirme için veri sağlamayı amaçlayan kırmızı takım çalışmalarından farklıdır.
2
Bir model, değerlendirildiğini veya test edildiğini algıladığında kasıtlı olarak düşük performans gösterirse veya gerçek yeteneklerini gizlerse.
3
Yalnızca yararlı modeller, istek zararlı olsa bile her talebe yanıt verir. Bunlar, bu davranışı sağlayan eğitim sonrası yöntemlerle oluşturulmaktadır.

Okumaya devam et

Tümünü görüntüle

Safety and alignment in an era of long-horizon models

Güvenlik20 Tem 2026

Why teens deserve access to safe AI — card image

Gençler neden güvenli yapay zekaya erişebilmeli

Güvenlik16 Tem 2026

GPT-Red: Dayanıklılık için Öz İyileştirmeyi Başlatmak

Güvenlik15 Tem 2026