Güvenilir üçüncü taraf değerlendirmeleri için ortak bir yol haritası
Frontier modeller için güvenlik önlemleri ve yeteneklerin etkili bağımsız değerlendirmelerinde önemli olanlar.
Bağımsız, güvenilir üçüncü taraf değerlendirmeleri, güvenlik ekosistemini güçlendirmede kritik bir rol oynar. Bu değerlendirmeler, kritik yetenekler ve güvenlik azaltımları hakkındaki iddialara ek kanıt sağlamak için frontier modeller üzerinde yürütülür. Bu yazıda, şimdiye kadar öğrendiğimiz dersleri paylaşıyor ve alandaki gelişen standartları şekillendirmeye yardımcı olmasını umduğumuz şekilde frontier modelleri geçerli biçimde değerlendirebilecek değerlendirmeler tasarlamaya yönelik yaklaşımlar öneriyoruz.
Daha önce birçok değerlendirme, modelleri sohbet botları gibi ele alıyordu: değerlendirme, modele sanki soru soran bir kullanıcıymış gibi komut veriyor, model yanıtlıyor ve bir değerlendirici çıktıyı yargılıyordu. Günümüzün frontier modelleri çok daha fazlasını yapabiliyor: araç kullanabiliyor, birçok adım boyunca bilgiyi takip edebiliyor ve daha büyük bir iş akışı içinde hareket edebiliyor. Bu da performansın yalnızca modele değil, görevin gerçekleştiği ortama ve eylemlerini kolaylaştıran kuruluma da bağlı olduğu anlamına geliyor. “Harness” adını verdiğimiz bu çevreleyici kurulum, sistemin performansının; araçları nasıl kullandığı, bilgiyi nasıl takip ettiği veya hatalardan nasıl toparlandığı dahil olmak üzere temel yönlerini değiştirebilir.
Bu, değerlendirmelerin nasıl yürütülmesi gerektiğini ve okuyucuların değerlendirme raporlarında ne araması gerektiğini değiştiriyor. Bize göre en yararlı raporlar, sonucun kendisinin ötesinde iki şeyi açıkça tanımlar: Birincisi, değerlendirme kurulumunun hangi iddiayı test etmek için tasarlandığını belirtir; ikincisi ise değerlendirme sonucunun geçerli olduğuna dair mevcut kanıtları paylaşır.
Değerlendirmelerde test edilen iddialar genellikle üç kategoriden birine girer1:
- Yetenek ortaya çıkarma: Bir model, değerlendirilen yeteneği makul biçimde ortaya koyabilir mi?
- Güvenlik önlemi performansı: Test edilen güvenlik önlemleri, değerlendirilen davranışa veya saldırıya karşı ne kadar sağlam?
- Karşılaştırma: Farklı modeller eşdeğer koşullar altında nasıl performans gösteriyor?
Değerlendirme raporlarının ayrıca, değerlendiricilerin bir sonucun geçerliliğini etkileyebilecek etkileri nasıl kontrol ettiğini de açıklaması gerekir. Bunlar şunları içerir:
- Ödül hilesi: Sistemin, değerlendirmenin ölçmeyi amaçladığı davranışı göstermeden kredi almasına yol açacak şekilde görevdeki veya puanlayıcıdaki kısayollardan yararlanması.
- Reddetmeler: Test edilen davranışı gizleyecek biçimlerde reddetme.
- Kontaminasyon: Değerlendirme görevleri, yanıtları veya yakın varyantları eğitim verilerinde yer aldığı ya da gezinme gibi yollarla değerlendirme sırasında bulunabildiği için olduğundan iyi performans gösterme.
- Bozuk problemler: Görevler geçersiz olduğu için düşük performans gösterme. Nedenler arasında adil olmayan puanlama (ör. doğru yanıtın belirtilmemiş uygulama ayrıntıları gerektirmesi) ve çözülemez ortamlar (ör. kritik dosyaların eksik olması veya güvenilmez araçlar) yer alabilir.
- Sandbagging: Değerlendirildiğinin farkında olduğunu gösterdiğinde kasıtlı olarak düşük performans sergileme.
Harness’in rolünün, özellikle daha uzun yörüngelerde hareket eden sistemler için çok önemli olduğunu gözlemledik. Modeller araç kullanabildiğinde, durumu koruyabildiğinde ve birçok adım boyunca hatalardan toparlanabildiğinde, harness gözlemlenen performans düzeyini değiştirebilir ve hatta değerlendirilen yeteneğin değerlendirmede hiç ortaya çıkıp çıkmayacağını belirleyebilir. Örneğin, durumu koruyan ve başarısız eylemleri yeniden deneyen bir harness, aynı modelin daha basit bir harness’te hiç tamamlayamadığı çok adımlı bir görevi bitirmesine olanak tanıyabilir.
Aşağıdaki tabloda, değerlendiricilerin öne sürmek isteyebileceği üç tür iddiayı ve her birinin gerektirdiğine inandığımız harness’i ayırıyoruz.
Değerlendirmenin desteklemeye çalıştığı iddia | Uygun harness seçimi | Raporlanacak kanıtlar |
Güçlü ortaya çıkarma altında yetenek: Kurulum, güvenilir biçimde en güçlü performansı ortaya çıkaracak şekilde tasarlandığında Sistem A, X türündeki görevleri tamamlayabilir. | Harness, araçlar, iskele yapıları ve yetkin bir kullanıcının makul biçimde kullanacağı bütçe dahil olmak üzere, sistem için en güçlü güvenilir ortaya çıkarma kurulumunu kullanın. | Harness ve araç kurulumu, ortaya çıkarma rehberliği, izin verilen bütçe/çaba, token/maliyet/süre ve kurulumun iddia edilen yetenek için neden güvenilir bir vekil olduğu. Sistemler farklı optimize edilmiş kurulumlar altında karşılaştırılıyorsa, bunu sistemler arası veya güçlü ortaya çıkarma karşılaştırması olarak etiketleyin. |
Kontrollü karşılaştırma: Sistem A, paylaşılan bir değerlendirme kurulumu altında Sistem B’den daha iyi performans gösterir. | Görevleri, puanlamayı ve bütçeyi sabit tutun. Ya paylaşılan bir harness/araç kurulumu ya da karşılaştırılan sistemler için makul maksimum ortaya çıkarma sağlayacak şekilde önceden seçilmiş sabit bir standartlaştırılmış harness kümesi kullanın. | Paylaşılan görev kümesi, araçlar, puanlama yöntemi, harness, bütçe, token verimliliği/maliyeti ve bilinen sınırlamalar. Kodlama otonom ajanı değerlendirmelerinde, Codex CLI gibi açık kaynaklı bir harness sistemler arasında sabit bir ajan döngüsü ve araç arayüzü sağlayabilir. Maksimum ortaya çıkarma için ideal yaklaşım, her görev ve sistem için özel bir harness’i optimize etmek olurdu; ancak bunu yapmak bugün pratikte uygulanabilir değil. |
Ortaya çıkarılmış saldırı altında güvenlik önlemi sağlamlığı: Sistem A’nın güvenlik önlemleri, ilgili model davranışı veya ortaya çıkarılmış saldırı için yeterlidir. | İlgili saldırgan model altında en güçlü güvenilir saldırıyı ortaya çıkarmak için tasarlanmış bir güvenlik önlemi test kurulumu kullanın. | Değerlendiricilerin ilgili model davranışını nasıl tanımladığı, test edilen güvenlik önlemi yapılandırması, ortaya çıkarma stratejisi, bunu yürütmek için kullanılan harness ve izin verilen bütçe veya çaba. |
Yetenek iddiaları, onları destekleyen ortaya çıkarma kadar güçlüdür: değerlendiricilerin, göreve ve değerlendirmenin ölçmeye çalıştığı yeteneğe en uygun harness’i seçmesi gerekir. Standartlaştırılmış bir harness, sistemleri aynı koşullar altında karşılaştırmak için doğru olabilir; ancak modelin görevi yerine getirmesine yardımcı olan belirli harness özelliklerini dışarıda bıraktığında yeteneği olduğundan düşük gösterebilir. Örneğin, GPT‑5.5'in OpenAI'ın siber aralıklarındaki performansı, uzun ve çok adımlı araç kullanımını gerektiren görevlerde bir harness seçiminin ölçülen yeteneği nasıl somut biçimde değiştirebildiğini gösteriyor: etkileşim uzadıkça görevle ilgili bağlamı korumak için harness sıkıştırma kullandığında model daha iyi performans gösteriyor. Bu, belirli modeller için sıkıştırmayı dışarıda bırakan bir harness’in performansı yeterince ortaya çıkaramayacağını gösteriyor.
Daha yüksek başarı oranları daha iyidir
Yayımlanmış diğer değerlendirmeler2 de harness ve bütçe seçimlerinin değerlendirme sonuçlarını değiştirdiğini gösteriyor. Test zamanı hesaplamasını artırmak, bir değerlendirmenin hangi yeteneği ortaya çıkardığını önemli ölçüde değiştirebilir; özellikle de başarıyı doğrulamanın kolay olduğu, birçok siber görev gibi alanlarda. UK AISI’nin siber aralık değerlendirmesinde(yeni bir pencerede açılır), bütçenin 10 milyon token'dan 100 milyon token'a çıkarılması performansı %59’a kadar artırdı ve performans test edilen en yüksek bütçede bile artmaya devam ediyordu. Bunu ayrıntılandırmak değerlendirmeyi daha yorumlanabilir kılar: okuyuculara sonucun test edilen ortaya çıkarma kurulumuna nasıl bağlı olduğunu gösterir. Performans ek bütçeyle hâlâ iyileşiyorsa, puan ölçülmüş bir yetenek tavanı olarak değil, o harness ve bütçe altındaki performans olarak tanımlanmalıdır. Yetenek, çoğu zaman bir kez ve sonsuza dek temiz biçimde ölçülebilecek sabit bir nicelikten ziyade kaynağa bağlıdır. Başarının tekrarlanan denemeler boyunca ölçülebildiği durumlarda, raporlar yalnızca sabit bir token bütçesindeki başarı oranını değil, başarılı çözüm başına beklenen maliyeti de dikkate almalıdır. Bu, ciddiyetin yorumlanmasını kolaylaştırabilir: düşük bir başarı oranı bile, tekrarlanan denemelerin maliyeti ilgili tehdit modeli içinde kalıyorsa pratikte anlamlı olabilir. Yetenek iddiaları için, önlenebilir yetersiz ortaya çıkarma bir ölçüm hatasıdır: harness veya bütçe sistemin başka türlü üretebileceği davranışı sergilemesini engelliyorsa, puan iddia edilen yeteneği ölçmez. Değerlendiricilerin ortaya çıkarmayı uygulanabilir olduğu ölçüde ileri götürdüğü ve performansın hâlâ iyileştiği durumlarda, raporlar bunu açıkça söylemeli ve sonucun yalnızca bir alt sınır tahmini olduğunu netleştirmelidir.
Güvenlik önlemi testi, özel harness’ler dahil saldırganların erişebildiği kaynakları hesaba katmadığında, bir saldırının başarılı olup olamayacağını ve ne kadar ciddi olabileceğini olduğundan düşük gösterebilir. UK AISI’nin GPT‑5.5 siber değerlendirmesinde(yeni bir pencerede açılır), uzman red team çalışmaları OpenAI'ın sağladığı kötü amaçlı sorgular boyunca, çok turlu ajanik ortamlarda da dahil olmak üzere, ihlal edici siber içerik ortaya çıkaran evrensel bir jailbreak buldu. Modelin saldırı performansını güçlendirmek için özel bir harness oluşturmak üzere Codex kullandılar: yeniden kullanılabilir bir güvenlik önlemi aşma örüntüsünü etkileşime gömdü, bu örüntüyü turlar ve bloklar boyunca korudu ve OpenAI'ın sağladığı kötü amaçlı siber sorgulara uyguladı. Güvenlik önlemi testi saldırgana uygun olmalıdır. İddia uzman kötüye kullanıma karşı sağlamlıkla ilgiliyse, test tanımlı bir bütçe altında, bu stratejiyi korumak ve yeniden kullanmak için gereken herhangi bir harness dahil, en güçlü güvenilir uçtan uca saldırı stratejisini değerlendirmelidir. Aksi takdirde sonuçlar yanlış kalibre olma riski taşır: yalnızca daha basit komutlara direnç hakkında daha dar bir iddiayı destekleyebilir, ortaya çıkarma yöntemi operasyonelleştirildiğinde hem saldırının ne kadar ciddi hâle geldiğini hem de başarı olasılığını kaçırabilir ve ayrıca çok fazla bütçe verilirse bir sorunun olasılığını veya ciddiyetini olduğundan yüksek gösterebilir.
Standartlaştırılmış harness karşılaştırmalarının yeri ve zamanı vardır, ancak değerlendiriciler tutarlı bir harness kümesi kullanmanın neden uygun olduğunu ve bunun hangi iddiayı destekleyebileceğini açıkça belirtmelidir. METR’nin zaman ufku değerlendirmesi(yeni bir pencerede açılır), daha geniş ve uygun biçimde sabitlenmiş bir değerlendirme kurulumuna örnektir: değerlendirdiği sistemler arasında karşılaştırılabilir sonuçlar üretmek için tasarlanmıştır. METR ortak bir sonuç tanımlar: bir yapay zekâ otonom ajanının belirli bir güvenilirlik düzeyinde başarılı olmasının öngörüldüğü insan görevi tipik süresi. Birlikte raporlanan her tahmin grubunda, paylaşılan bir görev paketi, puanlama yöntemi, uyarlama yöntemi ve Triframe ve ReAct(yeni bir pencerede açılır) gibi yeniden kullanılabilir küçük bir iskele kümesi uygular. METR görev paketini genişletip değerlendirme altyapısını Vivaria adlı bir çerçeveden Inspect adlı bir çerçeveye taşıdığında, değişikliği raporladı (Time Horizon 1.1 güncellemesi(yeni bir pencerede açılır)) ve modelleri yeni değerlendirme kurulumu altında yeniden değerlendirdi. Standartlaştırılmış bir değerlendirme kurulumunun, tutarlı bir harness kümesi dahil, değeri budur: okuyucuların puanlardaki farkın ölçüm kurulumundaki bir değişikliği değil, gerçekten karşılaştırılan sistemler arasındaki farkı yansıttığından emin olmasını sağlayabilir.
Üçüncü taraf değerlendirme raporlarının, değerlendirme kurulumlarının ne tür bir iddiayı desteklemeyi amaçladığını belirtmesini; test edilen şeyin bu daha geniş iddiayı ne kadar yansıttığını açıklamasını; sonucu şekillendiren harness seçimlerini tanımlamasını; bu seçimlerin değerlendirmeler arasında ne zaman değiştiğini ayrıntılandırmasını; ve sonucun nasıl üretildiğini ve iddiaya ne kadar genellendiğini göstermek için destekleyici kanıtlar içermesini öneriyoruz.
Modeller daha yetkin hâle geldikçe, değerlendirme puanlarını yanlış yorumlamak kolaylaşıyor. Gerçek yeteneklere kıyasla, bir model değerlendirildiğini fark edip stratejik olarak düşük performans gösterirse değerlendirme puanları yapay biçimde düşebilir. Model görevde, komutta, puanlayıcıda veya harness’te bir kısayoldan yararlanırsa puanlar şişebilir. Ayrıca kontaminasyon (modelin görevi çözmeden yanıtı zaten bilmesi veya bulabilmesi) ya da belirsiz, yanlış puanlanan, çözülemez veya istenmeyen kısayollara açık “bozuk” problemler nedeniyle de çarpıtılabilirler. Bu nedenle değerlendirme raporları, manşet puanları bu risklerin tartışılmasıyla birlikte sunmalıdır; böylece okuyucular puanların amaçlanan davranışı yansıtıp yansıtmadığını değerlendirebilir.
Harness’ler, bütçeler, araçlar, puanlama kuralları, izleyiciler ve inceleme prosedürleri; bir ajanın amaçlanan görevi çözüp çözmediğini, ondan kaçınıp kaçınmadığını, onu ezberleyip ezberlemediğini veya etrafından bir yol bulup bulmadığını etkiler. Güvenilir bir rapor bu kontrolleri görünür kılar: değerlendiriciler, bir değerlendirme her yürütüldüğünde bu davranışlar için örnekleri incelemelidir.
Ödül hilesi
Ödül hilesi, amaçlanan yeteneği yansıtmayan yollarla yüksek değerlendirme puanları elde etmek anlamına gelir. Buradaki kaygı, sistemin değerlendirmenin ölçmeyi amaçladığı işi yaparak değil, görevden, puanlayıcıdan, komuttan veya harness’ten yararlanarak kredi almasıdır. METR’nin GPT 5.4 değerlendirmesi(yeni bir pencerede açılır), bunun neden önemli olduğunu gösteriyor: model ilk bakışta yaklaşık 13 saatlik bir zaman ufku olarak kaydedilecek bir oranda görevlerde başarılı olsa da, insan incelemesi bu başarıların bazılarının ödül hilesinden kaynaklandığını gösterdi ve yalnızca ödül hilesi içermeyen örnekleri hesaba katacak şekilde sonuçlar revize edildiğinde tahmin yaklaşık 6 saate düştü. Değerlendiriciler bu tür düzeltmelere ihtiyaç olup olmadığını değerlendirmeli ve gerektiğinde bunları açıkça raporlamalıdır: okuyucular hangi görünürdeki başarıların neden geçersiz sayıldığını ve sonucun bu yargıya ne kadar bağlı olduğunu görebildiğinde, bir yetenek tahmini çok daha yararlı olur.

Reddetmeler
Modeller, güvenlik önlemleri nedeniyle yetenek değerlendirmelerinde düşük performans da gösterebilir. Bir model, değerlendirme görevlerini tamamlamak yerine reddettiği için, yapabildiğinden daha düşük değerlendirme performansına sahip olabilir. Bu nedenle raporlar, reddetmelerin değerlendirme sonuçlarının bir parçası olup olmadığını ve öyleyse bunlar nedeniyle kaç örneğin bozulduğunu açıklamalıdır.
Kontaminasyon
Kontaminasyon en çok herkese açık veya yeniden kullanılan kıyaslamalar için önemlidir. Görevler, yanıtlar veya yakın varyantlar eğitim verilerinde yer alıyorsa ya da gezinme kullanan bir otonom ajan tarafından bulunabiliyorsa, performans model performansından ziyade ezberlemeyi veya geri getirmeyi yansıtabilir. Değerlendiriciler mümkün olduğunda özel veya yeni oluşturulmuş görevleri tercih etmeli ve modellerin çözmeden önce göreve özgü ayrıntıları yeniden üretip üretmediğini test etmelidir.
Bozuk problemler
Bozuk problemler, örneğin yanlışlıkla çözülemeyen bir problem gibi durumları içerir. Bozuk problemler yeterince yaygındır(yeni bir pencerede açılır); bu nedenle standart bir geçerlilik riski olarak ele alınmalıdır. Bunlar arasında yanlış temel gerçek, belirsiz komutlar, eksik dosyalar, kararsız hizmetler, adil olmayan puanlama ölçütleri ve gizli yanıt dosyaları veya temel gerçek yamasını içeren depo geçmişi gibi kısayolları açığa çıkaran ortamlar bulunur.
Sandbagging
Bir model veya sistem tarafından yapılan sandbagging, güçlü performansın bir hedefle çatışacağı durumlarda stratejik olarak düşük performans göstermesi anlamına gelir. Apollo’nun GPT‑5.5 değerlendirmesi(yeni bir pencerede açılır), modelin yüksek değerlendirme puanlarının unlearning’i tetikleyebileceğini veya dağıtıma almayı engelleyebileceğini anladığı bir bağlam oluşturarak bunu test etti. GPT‑5.5 yine de doğru yanıt verdi; bu da stratejik düşük performansa dair davranışsal kanıtın az olduğunu düşündürüyor3. Ancak akıl yürütme izlerine ilişkin incelemeleri önemli bir bağlam ekledi: Apollo, sandbagging koşulu örneklerinin %52’sinde orta veya daha yüksek düzeyde hizalama-değerlendirme farkındalığı işaretleri buldu; karşıolgusal örneklerde bu oran %0’dı. Bu kanıt sonucun yorumunu karmaşıklaştırıyor, ancak nihayetinde okuyuculara daha fazla sinyal veriyor: okuyucular hem güven verici davranışsal sonucu hem de onu aşırı yorumlamada temkinli olmak için nedeni görebiliyor.
Güçlü iddialar, hem davranışı ortaya çıkaracak doğru harness’i hem de sonucun sağlam olduğunu gösterecek geçerlilik kontrollerini gerektirir. Harness’lerin ve geçerlilik kontrollerinin değerlendirme sonucunun bir parçası olduğu yönündeki görüşümüz, üçüncü taraf değerlendirmelerini pratikte nasıl desteklediğimizi şekillendiriyor:
- Değerlendiricilerle belirli maksimum ortaya çıkarma rehberliği paylaşıyoruz.
- Yetenek değerlendiricilerinden, OpenAI modelleri için ortak bir taban olarak Codex kullanmalarını istiyoruz: testler, yalnızca sadeleştirilmiş bir model arayüzü üzerinden değil, en azından kullanıcıların muhtemelen güveneceği aynı ajanik arayüz üzerinden bir temel çalıştırmalıdır.
- Ayrıca aldatma, sandbagging veya değerlendirme farkındalığını değerlendirmek için gerektiğinde akıl yürütme izlerini ve diğer ara çıktıları da erişime açıyoruz. METR ve Apollo, GPT‑5’ten bu yana OpenAI değerlendirmelerinde bu erişimi kullandı.
- Son olarak, bağlam yönetimi ve araç erişiminden yeniden deneme davranışına, puanlamaya ve kaynak bütçelerine kadar, harness seçimlerinin sonuçları ne zaman ve nasıl maddi biçimde değiştirdiğini daha derinlemesine anlamaya yönelik araştırmalara öncelik veriyoruz.
Bu öneriler yalnızca tek tek değerlendirme raporlarını iyileştirmeyi değil, aynı zamanda frontier yapay zekâ değerlendirmesi ve raporlaması için gelişen ulusal (yeni bir pencerede açılır)ve uluslararası (yeni bir pencerede açılır)standartları da bilgilendirmeyi amaçlıyor. İleriye dönük olarak, üçüncü taraf değerlendirme standartları; karar vericilerin belirli değerlendirmelerin hangi iddiaları desteklediğini, hangi sistemin test edildiğini, sonucun nasıl ortaya çıkarıldığını ve değerlendiricilerin geçerliliği nasıl kontrol ettiğini anlayabilmesi için yeterli ayrıntıyı zorunlu kılmalıdır. Ajanik yeteneklerin önemli olduğu görevlerde test edilen frontier sistemler için ayrıntılar şunları içermelidir (güvenlik veya gizlilik kaygılarına tabi olarak):
- İddia: değerlendirmenin sistemleri karşılaştırıp karşılaştırmadığı, bir yetenek tavanını tahmin edip etmediği veya güvenlik önlemlerini test edip etmediği.
- Değerlendirme içeriği: okuyucuların değerlendirmenin gerçekte hangi becerileri, davranışları veya başarısızlık modlarını test ettiğini anlayabilmesi için görevler veya görev dağılımı hakkında yeterli ayrıntı.
- Test edilen sistem: model, akıl yürütme ayarı, araç erişimi, harness ve güvenlik önlemleri.
- Bütçe: tur sayısı, token’lar, denemeler/yeniden denemeler, geçen süre, çıkarım maliyeti ve uygun olduğunda başarılı çözüm başına beklenen maliyet.
- Ortaya çıkarma yöntemleri: sonucu ortaya çıkarmak için kullanılan harness seçimleri ve test edilen şeyin öne sürülen daha geniş iddiayı ne kadar yansıttığı.
- Geçerlilik kontrolleri: değerlendiricilerin ödül hilesi, değerlendirme farkındalığı, kontaminasyon, reddetmeler, sandbagging ve sonucu zayıflatabilecek diğer davranışları nasıl aradığı; doğrulanmış vakaların puanlamayı veya yorumu nasıl etkilediği dahil.
Harness seçimlerini veya geçerlilik kontrollerini dışarıda bırakan standartlar, bir sistemin neler yapabildiğini olduğundan düşük gösterebilir ya da bir güvenlik iddiasına duyulan güveni olduğundan yüksek gösterebilir. Güçlü harness’ler ve ortaya çıkarma yöntemleri geliştirmek hâlâ açık bir araştırma alanıdır ve daha fazla inceleme ile yatırımın odağı olmalıdır.
Yazar
Sözlük
Bu yazıda bir dizi teknik terim kullandığımız için, aşağıda neyi kastettiğimizi sade bir dille açıklayan bir sözlük ekledik:
Ajanik sistem: Yalnızca bir komuta tek bir yanıt döndürmek yerine, araçlar kullanarak, görev durumunu koruyarak ve bir ortamda eylemde bulunarak bir görevi birden çok adım boyunca yürütebilen sistem.
Değerlendirme: Değerlendirme verileri, belge incelemesi, görüşme, süreç incelemesi ve diğer ilgili çıktılara dayanabilen; kanıtların bir iddiayı, risk sonucunu veya güvence pozisyonunu destekleyip desteklemediğine dair daha geniş bir yargı.
Sıkıştırma: Uzun çalıştırmalar sırasında görevle ilgili bağlamı koruma yöntemi.
Yapılandırma: model adının ötesinde, tam olarak test edilen sistem ve değerlendirme koşulları.
Kontaminasyon: Değerlendirme görevleri, yanıtları veya yakın varyantları bir modelin eğitim verilerinde yer aldığında ya da değerlendirme sırasında bulunabilir olduğunda (ör. gezinme gibi araçlarla), performans modelin gerçek genelleme düzeyini olduğundan yüksek gösterir.
Ortaya çıkarma: Bir değerlendirme sırasında bir sistemden bir yeteneği veya davranışı ortaya çıkarmaya çalışma süreci.
Ortam: Bir sistemin test edildiği görev ortamı. Buna, bir değerlendirme sırasında otonom ajanın etkileşime girdiği ve değiştirdiği terminal ortamı veya video oyunu gibi dış durumlar da dahildir.
Evaluation: Bir değerlendirme içindeki belirli test veya ölçüm.
Değerlendirme farkındalığı: Değerlendirme farkındalığı, bir modelin değerlendirildiğini fark etmesi ya da fark ediyor gibi görünmesi ve bu bağlama yanıt olarak davranışını potansiyel olarak ayarlaması anlamına gelir. Bu, modelin açıkça test edildiği üzerine akıl yürütmesi, değerlendirmenin amacını çıkarsaması veya sonucun nasıl yargılanacağını ya da dağıtıma alınıp alınmayacağını etkilemesini beklediği için davranışını değiştirmesi şeklinde görünebilir.
Harness: Bir modelin görevi yerine getirmesini sağlayan, modele dönük yapı: komutlar, araçlar, arayüzler, kontrol mantığı, bellek, yeniden denemeler, doğrulayıcılar ve modelin etrafındaki diğer destekleyici yapılar.
Maksimum ortaya çıkarma: Sistemi yalnızca standartlaştırılmış bir harness üzerinden bir kez çalıştırmak yerine, tanımlı bir bütçe altında bir sistemin üretebileceği en güçlü güvenilir performansı veya başarısızlık modunu bulmayı amaçlayan test.
Akıl yürütme izleri: Bir test sırasında modelin ara akıl yürütmesinin kayıtları.
Ödül hilesi: Değerlendiricinin amacının dışındaki bir kısayol veya davranışla yüksek puan elde etmek.
Güvenlik önlemleri: Bir modelin veya ürünün etrafında uygulanan filtreler, izleyiciler, engelleme sistemleri ve diğer korumalar.
Sandbagging: Sonucu zayıflatacak şekilde bir değerlendirmede stratejik olarak düşük performans gösterme.
Puanlama: Performansın nasıl ölçüleceğine veya bir görevin başarılı olup olmadığına karar vermek için kullanılan yöntem.
Standartlaştırılmış harness: Sonuçlardaki farkların test edilen modele atfedilmesi daha kolay olsun diye, belirli bir model veya göreve göre özelleştirilmek yerine sistemler arasında aynı tutulan harness.
Zaman ufku: Bir sistemin belirtilen bir güvenilirlikle tamamlayabildiği görev uzunluğu; çoğu zaman aynı görevin bir insanın ne kadar sürede yapacağı olarak ifade edilir.
Araç erişimi: Değerlendirme sırasında modelin kullanabildiği dış araçlar.
Yörüngeler: Bir sistemin bir görev üzerinde çalışırken izlediği adım adım yollar.
Evrensel jailbreak: Bir sistemin birçok komut veya görevde güvenlik önlemlerini aşmasına neden olan tek bir saldırı örüntüsü.
Dipnotlar
- 1
Bu yazı, üçüncü tarafların hizasızlık veya eğilimle ilgili iddiaları nasıl değerlendirmesi gerektiğini çözmeye çalışmıyor. Özellikle daha uzun zaman ufuklu davranışları destekleyen harness’lerin, değerlendiricilerin izlemesi gereken istenmeyen davranış türlerini de değiştirebilmesi nedeniyle, harness seçimlerinin bu değerlendirmeleri nasıl etkilediğini anlamak için daha fazla çalışmaya ihtiyaç var.
- 2
HAL(yeni bir pencerede açılır), otonom ajan değerlendirmelerinden ek bir örnek sunuyor: CORE-Bench(yeni bir pencerede açılır) üzerinde, harness’in Claude Code olarak değiştirilmesi aynı kıyaslamada hem ölçülen performansı hem de maliyet profilini değiştirdi. Diğer herkese açık örnekler arasında SWE-agent(yeni bir pencerede açılır), SeeAct(yeni bir pencerede açılır), ScienceAgentBench(yeni bir pencerede açılır), CORE-Bench(yeni bir pencerede açılır) ve Inspect Cyber(yeni bir pencerede açılır) yer alır; her biri okuyuculara puanı hangi arayüzün veya harness’in ürettiğini söyler.
- 3
Her iki Sandbagging QA varyantında da %100, stratejik aldatma sandbagging görevinde ise %99,6 puan aldı.


