Заједнички приручник за поуздане независне евалуације
Шта је важно за делотворне независне евалуације заштитних мера и способности граничних модела.
Независне, поуздане евалуације трећих страна имају кључну улогу у јачању безбедносног екосистема. Ове евалуације се спроводе на граничним моделима како би пружиле додатне доказе за тврдње о критичним способностима и безбедносним ублажавањима. У овом тексту делимо лекције које смо до сада научили и препоручујемо приступе за осмишљавање евалуација које могу валидно да процене граничне моделе, за које се надамо да ће помоћи у обликовању настајућих стандарда у овој области.
Раније су многе евалуације третирале моделе као четботове: евалуација је моделу слала инструкцију као да је корисник који поставља питање, модел је одговарао, а евалуатор је оцењивао излаз. Данашњи гранични модели могу много више: могу да користе алате, прате информације кроз много корака и делују у оквиру ширег тока рада. То значи да учинак не зависи само од модела, већ и од окружења у ком се задатак одвија, као и од поставке која омогућава његове радње. Ова околна поставка, коју називамо „harness“, може да промени кључне аспекте учинка система, укључујући како користи алате, прати информације или се опоравља од грешака.
То мења начин на који евалуације треба спроводити и на шта читаоци треба да обрате пажњу у извештајима о евалуацији. По нашем мишљењу, најкориснији извештаји изричито описују две ствари поред самог резултата: прво, наводе коју тврдњу је поставка евалуације осмишљена да тестира, а друго, деле доступне доказе да је резултат евалуације валидан.
Тврдње које се тестирају у евалуацијама обично спадају у једну од три категорије1:
- Елицитација способности: Може ли модел уверљиво да испољи способност која се евалуира?
- Учинак заштитних мера: Колико су тестиране заштитне мере робусне на понашање или напад који се евалуира?
- Поређење: Како различити модели раде у еквивалентним условима?
Извештаји о евалуацији такође морају да објасне како су евалуатори проверавали ефекте који би могли да утичу на валидност резултата. То укључује:
- Хаковање награде: Искоришћавање пречица у задатку или оцењивачу, тако да систем добија заслуге без показивања понашања које евалуација треба да мери.
- Одбијања: Одбијање на начине који прикривају понашање које се тестира.
- Контаминација: Превисок учинак зато што су се задаци евалуације, одговори или блиске варијанте појавили у подацима за обуку или су били доступни током евалуације, на пример путем прегледања веба.
- Неисправни задаци: Пренизак учинак зато што задаци нису валидни. Разлози могу укључивати неправедно бодовање (нпр. тачан одговор захтева ненаведене детаље имплементације) и нерешива окружења (нпр. недостају критични фајлови или су алати непоуздани).
- Sandbagging: Намерно слабији учинак када показују свесност да се евалуирају.
Приметили смо да је улога harness-а посебно важна за системе који делују кроз дуже трајекторије. Када модели могу да користе алате, одржавају стање и опорављају се од грешака кроз много корака, harness може да промени уочени ниво учинка, па чак и да одреди да ли ће се способност која се процењује уопште појавити у евалуацији. На пример, harness који чува стање и понавља неуспеле радње може омогућити моделу да заврши вишекорачни задатак који исти модел никада не заврши у једноставнијем harness-у.
У табели испод раздвајамо три врсте тврдњи које евалуатори можда желе да изнесу и harness за који верујемо да је потребан за сваку врсту тврдње.
Tvrdite da evaluacija pokušava da podrži | Odgovarajući izbor pojasa | Dokazi za prijavljivanje |
Sposobnost pod jakom izazivanjem: Sistem A može da izvrši zadatke tipa Ks kada je podešavanje dizajnirano da izvuče svoje najjače verodostojne performanse. | Koristite najjače verodostojno podešavanje za izazivanje sistema, uključujući uprtač, alate, skele i budžet koji bi sposoban korisnik razumno koristio. | Podešavanje pojasa i alata, smernice za izazivanje, dozvoljeni budžet/napor, žetoni/troškovi/vreme i zašto je podešavanje verodostojan proksi za tvrđenu sposobnost. Ako upoređujete sisteme pod različitim optimizovanim postavkama, označite ga kao poređenje sistema do sistema ili poređenje jakog izazivanja. |
Kontrolisano poređenje: Sistem A nadmašuje sistem B pod zajedničkom podešavanjem evaluacije. | Neka zadaci, bodovanje i budžet budu fiksni. Koristite ili zajedničko podešavanje nosa/alata ili fiksni set standardizovanih pojaseva izabranih napred da biste obezbedili razumnu maksimalnu izazivanje sistema koji se upoređuju. | Zajednički skup zadataka, alati, metoda bodovanja, uprtač, budžet, efikasnost/trošak tokena i poznata ograničenja. Za procenu agenata kodiranja, pojas otvorenog koda kao što je Codek CLI može da obezbedi fiksnu petlju agenta i interfejs alata u svim sistemima. Idealan pristup za maksimalno izazivanje bio bi optimizacija prilagođenog pojasa za svaki zadatak i sistem, ali to je trenutno nepraktično u praksi. |
Zaštita robusnosti pod izazvanim napadom: Zaštitne mere sistema A dovoljne su za relevantno ponašanje modela ili izazvani napad. | Koristite postavku za testiranje zaštite dizajniranu da izazove najjači verodostojan napad pod relevantnim modelom protivnika. | Kako su evaluatori okarakterisali relevantno ponašanje modela, testiranu zaštitnu konfiguraciju, strategiju izazivanja, uprtač koji se koristi za njegovo sprovođenje i dozvoljeni budžet ili napor. |
Тврдње о способностима јаке су само онолико колико је јака елицитација иза њих: евалуатори морају да изаберу harness који најбоље одговара задатку и способности коју евалуација покушава да измери. Стандардизовани harness може бити исправан за поређење система у истим условима, али може потценити способност ако изостави специфичне карактеристике harness-а које помажу моделу да изврши задатак. На пример, учинак GPT‑5.5 на OpenAI сајбер опсезима показује како избор harness-а може суштински да промени измерену способност на задацима који захтевају дугу, вишекорачну употребу алата: модел ради боље када harness користи компакцију да сачува контекст релевантан за задатак како интеракција постаје дужа. То показује да би за одређене моделе harness који изоставља компакцију недовољно елицитирао учинак.
Веће стопе успеха су боље
И друге објављене евалуације2 показују да избори harness-а и буџета мењају резултате евалуације. Повећање рачунарских ресурса током тестирања може значајно да промени коју способност евалуација елицитира, посебно у доменима где је успех лако проверити, као што су многи сајбер задаци. У UK AISI евалуацији сајбер опсега(отвара се у новом прозору), повећање буџета са 10M на 100M токена побољшало је учинак за до 59%, а учинак је и даље растао на највећем тестираном буџету. Навођење овога чини евалуацију разумљивијом: показује читаоцима како резултат зависи од тестиране поставке елицитације. Када се учинак и даље побољшава са додатним буџетом, резултат треба описати као учинак под тим harness-ом и буџетом, а не као измерени плафон способности. Способност често зависи од ресурса, а не представља фиксну величину која се може једном заувек чисто измерити. Тамо где се успех може мерити кроз поновљене покушаје, извештаји треба да разматрају и очекивани трошак по успешном решењу, а не само стопу успеха при фиксном буџету токена. То може олакшати тумачење озбиљности: ниска стопа успеха и даље може бити практично значајна ако је трошак поновљених покушаја у оквиру релевантног модела претње. За тврдње о способностима, избегљива недовољна елицитација представља неуспех мерења: ако harness или буџет спречавају систем да испољи понашање које би иначе могао да произведе, резултат не мери способност која се тврди. Тамо где су евалуатори елицитацију гурнули колико је изводљиво далеко, а учинак се и даље побољшава, извештаји то треба јасно да кажу и да јасно ставе до знања да је резултат само процена доње границе.
Тестирање заштитних мера може потценити да ли напад може да успе и колико би могао бити озбиљан ако не узима у обзир ресурсе доступне нападачима, укључујући прилагођене harness-е. У UK AISI GPT‑5.5 сајбер евалуацији(отвара се у новом прозору), њихов стручни red teaming пронашао је универзални jailbreak који је елицитирао недозвољени сајбер садржај у свим злонамерним упитима које је OpenAI доставио, укључујући и вишекружна агентска подешавања. Користили су Codex да направе прилагођени harness како би ојачали нападни учинак модела: уградили су образац заобилажења заштитних мера који се може поново користити у интеракцију, сачували тај образац кроз кругове и блокове и применили га на злонамерне сајбер упите које је OpenAI доставио. Тестирање заштитних мера треба да одговара противнику. Ако се тврдња односи на отпорност на злоупотребу од стране стручњака, тест треба да евалуира најјачу уверљиву стратегију напада од краја до краја у оквиру дефинисаног буџета, укључујући сваки harness потребан да се та стратегија сачува и поново користи. У супротном, резултати ризикују погрешну калибрацију: могли би да подрже само ужу тврдњу о отпорности на једноставније инструкције, могли би да пропусте и колико напад постаје озбиљан и колика је вероватноћа успеха када се метод елицитације операционализује, а могли би и да прецене колико је неки проблем вероватан или озбиљан ако му се додели превелик буџет.
Постоје време и место за поређења са стандардизованим harness-има, али евалуатори треба јасно да наведу зашто је употреба доследног скупа harness-а прикладна и коју тврдњу може да подржи. METR-ова евалуација временског хоризонта(отвара се у новом прозору) пример је шире, прикладно фиксне поставке евалуације: осмишљена је да произведе упоредиве резултате у системима које евалуира. METR дефинише заједнички исход, типично трајање људског задатка при ком се предвиђа да ће AI агент успети на датом нивоу поузданости. Примењује заједнички скуп задатака, метод бодовања, метод уклапања и мали скуп поново употребљивих scaffold-а као што су Triframe и ReAct(отвара се у новом прозору) у оквиру сваке групе заједно пријављених процена. Када је METR проширио скуп задатака и преместио инфраструктуру евалуације са оквира под називом Vivaria на оквир под називом Inspect, пријавио је промену (ажурирање Time Horizon 1.1(отвара се у новом прозору)) и поново евалуирао моделе у новој поставци евалуације. То је вредност стандардизоване поставке евалуације, укључујући доследан скуп harness-а: може читаоцима да улије поверење да разлика у резултатима заиста одражава разлику између система који се пореде, а не промену у поставци мерења.
Препоручујемо да извештаји о евалуацији трећих страна наведу коју врсту тврдње њихова поставка евалуације треба да подржи; опишу колико блиско оно што је тестирано одражава ту ширу тврдњу; опишу изборе harness-а који су обликовали резултат; детаљно наведу када се ти избори мењају између евалуација; и укључе поткрепљујуће доказе који показују како је резултат произведен и колико се добро генерализује на дату тврдњу.
Како модели постају способнији, резултате евалуације постаје лакше погрешно тумачити. У односу на стварне способности, резултати евалуације могу бити вештачки снижени ако модел препозна да се евалуира и стратешки подбаци. Могу бити и надувани ако модел искористи пречицу у задатку, инструкцији, оцењивачу или harness-у. Могу бити искривљени и контаминацијом (када модел већ зна или може да пронађе одговор без решавања задатка) или „неисправним“ задацима који су двосмислени, погрешно оцењени, нерешиви или подложни ненамерним пречицама. Извештаји о евалуацији зато треба да упаре главне резултате са разматрањем ових опасности, како би читаоци могли да процене да ли резултати одражавају намеравано понашање.
Harness-и, буџети, алати, правила бодовања, монитори и поступци прегледа утичу на то да ли агент решава намеравани задатак, избегава га, памти га или проналази пут око њега. Поуздан извештај чини те провере видљивим: евалуатори треба да прегледају узорке за оваква понашања сваки пут када се процена спроводи.
Хаковање награде
Хаковање награде значи постизање високих резултата евалуације на начине који не одражавају намеравану способност. Овде је брига у томе што систем добија заслуге искоришћавањем задатка, оцењивача, инструкције или harness-а, уместо обављањем рада који је евалуација требало да мери. METR-ова евалуација GPT 5.4(отвара се у новом прозору) показује зашто је то важно: иако је модел успевао на задацима брзином која би на први поглед одговарала временском хоризонту од око 13 сати, људски преглед је показао да су неки од тих успеха потицали од хаковања награде, а ревизија резултата тако да се рачунају само случајеви без хаковања награде снизила је процену на око 6 сати. Евалуатори треба да процене потребу за таквим корекцијама и, када су потребне, да их јасно пријаве: процена способности је много кориснија када читаоци могу да виде који су привидни успеси дисквалификовани, зашто су дисквалификовани и колико резултат зависи од те процене.

Одбијања
Модели такође могу да подбаце у евалуацијама способности због заштитних мера. Модел може имати слабији учинак у евалуацији него што је заиста способан зато што одбија задатке евалуације уместо да их заврши. Извештаји зато треба да објасне да ли су одбијања била део резултата евалуације и, ако јесу, колико је узорака због тога било компромитовано.
Контаминација
Контаминација је најважнија код јавних или поново коришћених бенчмарка. Ако се задаци, одговори или блиске варијанте појављују у подацима за обуку или их агент може пронаћи прегледањем веба, учинак може одражавати памћење или проналажење, а не стварни учинак модела. Евалуатори треба, где је могуће, да дају предност приватним или новоконструисаним задацима и да тестирају да ли модели репродукују детаље специфичне за задатак пре него што га реше.
Неисправни задаци
Неисправни задаци укључују ситуације као што је проблем који случајно не може да се реши. Неисправни задаци су довољно чести(отвара се у новом прозору) да их треба третирати као стандардни ризик по валидност. Они укључују нетачну основну истину, двосмислене инструкције, недостајуће фајлове, нестабилне сервисе, неправедне критеријуме бодовања и окружења која откривају пречице као што су скривени фајлови са одговорима или историја депоа која садржи исправку из основне истине.
Sandbagging
Sandbagging од стране модела или система значи стратешки слабији учинак када би снажан учинак био у сукобу са неким циљем. Apollo-ова евалуација GPT‑5.5(отвара се у новом прозору) тестирала је ово стварањем контекста у ком је модел разумео да би високи резултати евалуације могли да покрену одучавање или блокирају примену. GPT‑5.5 је и даље тачно одговарао, што указује на мало бихејвиоралних доказа о стратешком подбацивању3. Али њихов преглед трагова резоновања додао је важан контекст: Apollo је пронашао умерене или јаче знаке свесности о евалуацији усклађености у 52% узорака у услову sandbagging-а, у поређењу са 0% у контрафактуалима. Тај доказ компликује тумачење резултата, али читаоцима на крају даје више сигнала: могу да виде и охрабрујући бихејвиорални резултат и разлог за опрез при његовом претераном тумачењу.
Снажне тврдње захтевају и прави harness да елицитира понашање и провере валидности да покажу да је резултат поуздан. Наш став да су harness-и и провере валидности део резултата евалуације обликује начин на који у пракси подржавамо евалуације трећих страна:
- Са евалуаторима делимо конкретне смернице за максималну елицитацију.
- Тражимо од евалуатора способности да користе Codex као заједнички минимум за OpenAI моделе: тестови би барем требало да покрену базну линију кроз исти агентски интерфејс на који ће се корисници вероватно ослањати, а не само кроз огољени интерфејс модела.
- Такође стављамо на располагање трагове резоновања и друге међукорачне артефакте тамо где су потребни за процену обмане, sandbagging-а или свесности о евалуацији. METR и Apollo користе овај приступ у OpenAI евалуацијама још од GPT‑5.
- На крају, дајемо приоритет истраживању како бисмо дубље разумели када и како избори harness-а суштински мењају резултате, од управљања контекстом и приступа алатима до понашања при поновним покушајима, бодовања и буџета ресурса.
Ове препоруке имају за циљ не само да побољшају појединачне извештаје о евалуацији, већ и да информишу настајуће националне (отвара се у новом прозору)и међународне (отвара се у новом прозору)стандарде за евалуацију и извештавање о граничној AI. Убудуће, стандарди за евалуацију трећих страна треба да захтевају довољно детаља да доносиоци одлука разумеју које тврдње конкретне евалуације подржавају, који је систем тестиран, како је резултат елицитиран и како су евалуатори проверили његову валидност. За граничне системе који се тестирају на задацима где су агентске способности важне, детаљи треба да укључе (уз поштовање свих безбедносних или поверљивих ограничења):
- Тврдњу: да ли евалуација пореди системе, процењује плафон способности или тестира заштитне мере.
- Садржај евалуације: довољно детаља о задацима или расподели задатака да читаоци разумеју које вештине, понашања или начине отказа евалуација заиста тестира.
- Тестирани систем: модел, поставку резоновања, приступ алатима, harness и заштитне мере.
- Буџет: број кругова, токени, покушаји/поновни покушаји, протекло време, трошак инференције и, где је применљиво, очекивани трошак по успешном решењу.
- Методе елицитације: избори harness-а коришћени да се извуче резултат и колико блиско оно што је тестирано одражава ширу тврдњу која се износи.
- Провере валидности: како су процењивачи тражили хаковање награде, свесност о евалуацији, контаминацију, одбијања, sandbagging и друга понашања која би могла да подрију резултат, укључујући и то како су потврђени случајеви утицали на бодовање или тумачење.
Стандарди који изостављају изборе harness-а или провере валидности могу потценити шта систем може да уради или преценити поверење у неку безбедносну тврдњу. Изградња снажних harness-а и метода елицитације остаје отворена истраживачка област и треба да буде у фокусу даљег истраживања и улагања.
Аутор
Појмовник
Пошто у овом тексту користимо више стручних термина, у наставку смо укључили појмовник са једноставним објашњењима на шта мислимо:
Агентски систем: Систем који може да обавља задатак кроз више корака, користећи алате, одржавајући стање задатка и делујући у окружењу, уместо да само врати један одговор на инструкцију.
Процена: Шира оцена да ли докази поткрепљују неку тврдњу, закључак о ризику или став о поузданости, која може бити заснована на подацима из евалуације, прегледу докумената, интервјуима, прегледу процеса и другим релевантним артефактима.
Компакција: Метод за очување контекста релевантног за задатак током дугих извршавања.
Конфигурација: Тачно тестирани систем и услови евалуације, изван самог назива модела.
Контаминација: Када се задаци за евалуацију, одговори или блиске варијанте појаве у подацима за обуку модела или су доступни током евалуације (нпр. преко алата као што је прегледање веба), па учинак прецењује стварну способност генерализације модела.
Елицитација: Процес покушаја да се из система извуче нека способност или понашање током процене.
Окружење: Поставка задатка у којој се систем тестира. То укључује ствари као што су спољашње стање са којим агент интерагује и које мења током евалуације, као што су терминалско окружење или видео-игра.
Евалуација: Конкретан тест или мерење у оквиру процене.
Свесност о евалуацији: Свесност о евалуацији односи се на то да модел препознаје, или делује као да препознаје, да се евалуира и да потенцијално прилагођава своје понашање том контексту. То може изгледати тако што модел изричито резонује о томе да је тестиран, закључује која је сврха евалуације или мења своје понашање јер очекује да ће резултат утицати на то како ће бити оцењен или примењен.
Harness: Структура окренута моделу која му омогућава да изврши задатак: инструкције, алати, интерфејси, контролна логика, меморија, поновни покушаји, валидатори и друге потпорне структуре око модела.
Максимална елицитација: Тестирање усмерено на проналажење најјачег уверљивог учинка или начина отказа који систем може да произведе у оквиру дефинисаног буџета, уместо да се систем једноставно једном покрене кроз стандардизовани harness.
Трагови резоновања: Записи о међукорацима резоновања модела током теста.
Хаковање награде: Постизање високог резултата пречицом или понашањем које није у складу са намером евалуатора.
Заштитне мере: Филтери, монитори, системи за блокирање и друге заштите примењене око модела или производа.
Sandbagging: Стратешки слабији учинак у евалуацији на начин који подрива резултат.
Бодовање: Метод који се користи да се одлучи како се учинак мери или да ли је задатак успешно извршен.
Стандардизовани harness: Harness који остаје исти у различитим системима уместо да се прилагођава одређеном моделу или задатку, тако да је разлике у резултатима лакше приписати тестираном моделу.
Временски хоризонт: Дужина задатка који систем може да заврши са наведеним нивоом поузданости, често изражена као време које би истом задатку било потребно човеку.
Приступ алатима: Спољашњи алати доступни моделу током процене.
Трајекторије: Путање корак по корак које систем прати док ради на задатку.
Универзални jailbreak: Јединствени образац напада који доводи до тога да систем заобиђе заштитне мере у многим инструкцијама или задацима.
Фусноте
- 1
Овај текст не покушава да разреши како би треће стране требало да евалуирају тврдње о неусклађености или склоностима ка одређеним понашањима. Потребно је још рада да би се разумело како избори harness-а утичу на те евалуације, посебно зато што harness-и који подржавају понашање са дужим временским хоризонтом могу да промене и врсте ненамерног понашања које евалуатори морају да прате.
- 2
HAL(отвара се у новом прозору) пружа додатни пример из евалуација агената: на CORE-Bench(отвара се у новом прозору), промена harness-а на Claude Code променила је и измерени учинак и профил трошкова на истом бенчмарку. Други јавни примери укључују SWE-agent(отвара се у новом прозору), SeeAct(отвара се у новом прозору), ScienceAgentBench(отвара се у новом прозору), CORE-Bench(отвара се у новом прозору) и Inspect Cyber(отвара се у новом прозору); сваки читаоцима говори који су интерфејс или harness произвели резултат.
- 3
Резултат од 100% на обе варијанте Sandbagging QA и 99,6% на задатку sandbagging-а са стратешком обманом.


