Заеднички прирачник за доверливи евалуации од трети страни
Што е важно за ефективни независни евалуации на заштитни механизми и способности кај гранични модели.
Независните, доверливи евалуации од трети страни играат критична улога во зајакнувањето на безбедносниот екосистем. Овие евалуации се спроведуваат на гранични модели за да обезбедат дополнителни докази за тврдења за критични способности и мерките за безбедност. Во овој текст, ги споделуваме лекциите што досега ги научивме и препорачуваме пристапи за дизајнирање евалуации што можат валидно да ги проценат граничните модели, за кои се надеваме дека ќе помогнат во обликувањето на новите стандарди во оваа област.
Порано, многу евалуации ги третираа моделите како четботови: евалуацијата му задаваше промпт на моделот како да е корисник што поставува прашање, моделот одговараше, а евалуатор го оценуваше излезот. Денешните гранични модели можат многу повеќе: можат да користат алатки, да следат информации низ многу чекори и да дејствуваат во рамки на поширок работен тек. Ова значи дека перформансите не зависат само од моделот, туку и од средината во која се одвива задачата, како и од поставката што ги олеснува неговите дејства. Оваа околна поставка, која ја нарекуваме „harness“, може да промени клучни аспекти на перформансите на системот, вклучително и како користи алатки, следи информации или се опоравува од грешки.
Ова менува како треба да се спроведуваат евалуациите и што читателите треба да бараат во извештаите за евалуација. Според нас, најкорисните извештаи експлицитно опишуваат две работи покрај самиот резултат: прво, наведуваат кое тврдење поставката на евалуацијата била дизајнирана да го тестира, и второ, ги споделуваат достапните докази дека резултатот од евалуацијата е валиден.
Тврдењата што се тестираат во евалуации обично спаѓаат во една од три категории1:
- Елицитација на способности: Дали моделот веродостојно може да ја произведе способноста што се евалуира?
- Перформанси на заштитни механизми: Колку се робусни тестираните заштитни мерки против однесувањето или нападот што се евалуира?
- Споредба: Како различни модели се однесуваат под исти услови?
Извештаите за евалуација исто така треба да објаснат како евалуаторите проверувале ефекти што би можеле да влијаат на валидноста на резултатот. Тие вклучуваат:
- Хакирање на наградата: Искористување кратенки во задачата или оценувачот, така што системот добива поени без да го покаже однесувањето што евалуацијата треба да го мери.
- Одбивања: Одбивање на начини што го прикриваат однесувањето што се тестира.
- Контаминација: Претерано добри резултати затоа што задачите од евалуацијата, одговорите или нивни блиски варијанти се појавиле во податоците за тренирање или биле достапни за време на евалуацијата, како на пример преку прелистување.
- Неисправни задачи: Слаби перформанси затоа што задачите се неважечки. Причините може да вклучуваат неправедно бодување (на пр., точниот одговор бара ненаведени детали за имплементација) и нерешливи средини (на пр., недостасуваат критични датотеки или алатките се несигурни).
- Sandbagging: Намерно постигнување послаби резултати кога постои свесност дека се изведува евалуација.
Забележавме дека улогата на harness-от е особено важна за системи што дејствуваат низ подолги траектории. Кога моделите можат да користат алатки, да одржуваат состојба и да се опоравуваат од грешки низ многу чекори, harness-от може да го промени забележеното ниво на перформанси, па дури и да одреди дали способноста што се проценува воопшто ќе се појави во евалуацијата. На пример, harness што зачувува состојба и повторува неуспешни дејства може да му овозможи на модел да заврши повеќечекорна задача што истиот модел никогаш не ја завршува во поедноставен harness.
Во табелата подолу, издвојуваме три вида тврдења што евалуаторите можеби ќе сакаат да ги изнесат и harness-от за кој веруваме дека секој вид тврдење го бара.
Тврдење што евалуацијата се обидува да го поддржи | Соодветен избор на harness | Докази што треба да се пријават |
Способност под силна елицитација: Систем A може да заврши задачи од тип X кога поставката е дизајнирана да ја извлече неговата најсилна веродостојна перформанса. | Користете ја најсилната веродостојна поставка за елицитација за системот, вклучувајќи ги harness-от, алатките, потпорната структура и буџетот што разумно би ги користел способен корисник. | Поставката на harness-от и алатките, насоките за елицитација, дозволениот буџет/напор, токени/трошок/време и зошто поставката е веродостоен прокси за тврдената способност. Ако споредувате системи под различни оптимизирани поставки, означете го тоа како споредба систем-со-систем или споредба со силна елицитација. |
Контролирана споредба: Систем A има подобри перформанси од Систем B под заедничка поставка за евалуација. | Одржувајте ги задачите, бодувањето и буџетот фиксни. Користете или заедничка поставка на harness/алатки или фиксен сет стандартизирани harness-и избрани однапред за да обезбедат разумна максимална елицитација за системите што се споредуваат. | Заедничкиот сет задачи, алатки, метод на бодување, harness, буџет, ефикасност/трошок по токен и познати ограничувања. За евалуации на кодирачки агенти, harness со отворен код како Codex CLI може да обезбеди фиксен агентски циклус и интерфејс за алатки низ различни системи. Идеалниот пристап за максимална елицитација би бил да се оптимизира посебен harness за секоја задача и систем, но тоа во моментов е непрактично за реална примена. |
Робусност на заштитни механизми под елицитиран напад: Заштитните механизми на Систем A се доволни за релевантното однесување на моделот или елицитираниот напад. | Користете поставка за тестирање на заштитни механизми дизајнирана да го извлече најсилниот веродостоен напад според релевантниот модел на противник. | Како евалуаторите го карактеризирале релевантното однесување на моделот, конфигурацијата на заштитните механизми што се тестирале, стратегијата за елицитација, harness-от што се користел за нејзино спроведување и дозволениот буџет или напор. |
Тврдењата за способност се силни само колку што е силна елицитацијата зад нив: евалуаторите треба да го изберат harness-от што најдобро одговара на задачата и на способноста што евалуацијата се обидува да ја измери. Стандардизиран harness може да биде соодветен за споредување системи под идентични услови, но може да ја потцени способноста кога изоставува конкретни функции на harness што му помагаат на моделот да ја изврши задачата. На пример, перформансите на GPT‑5.5 на cyber range задачите на OpenAI покажува како изборот на harness може суштински да ја промени измерената способност на задачи што бараат долга, повеќечекорна употреба на алатки: моделот се покажува подобро кога harness-от користи компакција за да зачува контекстот релевантен за задачата како што интеракцијата станува подолга. Ова покажува дека за одредени модели, harness што изоставува компакција би ги извлекол недоволно перформансите.
Повисоките стапки на успех се подобри
И други објавени евалуации2 исто така покажуваат дека изборите на harness и буџет ги менуваат резултатите од евалуацијата. Зголемувањето на пресметката за време на тестирање може значително да промени која способност ја извлекува евалуацијата, особено во домени каде успехот лесно се проверува, како многу сајбер задачи. Во евалуацијата на кибернетскиот „cyber range“ на UK AISI,(се отвора во нов прозорец), зголемувањето на буџетот од 10M на 100M токени ги подобри перформансите до 59%, а перформансите сè уште растеа и на највисокиот тестиран буџет. Деталното опишување на ова ја прави евалуацијата полесна за толкување: им покажува на читателите како резултатот зависи од тестираната поставка за елицитација. Кога перформансата сè уште се подобрува со дополнителен буџет, резултатот треба да се опише како перформанса под тој harness и буџет, а не како измерен плафон на способност. Способноста често зависи од ресурсите, наместо да биде фиксна величина што може чисто да се измери еднаш засекогаш. Онаму каде успехот може да се мери низ повторени обиди, извештаите треба да го разгледаат и очекуваниот трошок по успешно решавање, а не само стапката на успех при фиксен буџет на токени. Ова може да ја олесни интерпретацијата на сериозноста: ниска стапка на успех сепак може да биде практично значајна ако трошокот на повторени обиди е во рамки на релевантниот модел на закана. За тврдења за способности, избегливата недоволна елицитација е неуспех во мерењето: ако harness-от или буџетот го спречуваат системот да покаже однесување што инаку би можел да го произведе, резултатот не ја мери тврдената способност. Онаму каде евалуаторите ја оттуркале елицитацијата колку што е изводливо и перформансата сè уште се подобрува, извештаите треба тоа јасно да го кажат и да појаснат дека резултатот е само проценка на долна граница.
Тестирањето на заштитните механизми да ја потцени веројатноста за успешност на еден напад, и колку сериозен би можел да биде, ако не ги земе предвид ресурсите достапни на напаѓачите, вклучително и приспособените harness-и. Во cyber евалуацијата на GPT‑5.5 на UK AISI(се отвора во нов прозорец), нивниот експертски red teaming откри универзален jailbreak што извлече прекршувачка сајбер содржина низ злонамерните барања што ги обезбеди OpenAI, вклучително и во повеќекратни агентски поставки. Тие користеа Codex за да создадат приспособен harness за зајакнување на нападната перформанса на моделот: тој вгради повторно употреблив образец за заобиколување на заштитни механизми во интеракцијата, го зачува тој образец низ потези и блокови и го примени низ злонамерните сајбер барања што ги обезбеди OpenAI. Тестирањето на заштитни механизми треба да одговара на противникот. Ако тврдењето е за робусност кон злоупотреба од експерт, тестот треба да ја евалуира најсилната веродостојна целосна стратегија на напад под дефиниран буџет, вклучително и секој harness потребен за зачувување и повторна употреба на таа стратегија. Во спротивно, резултатите ризикуваат погрешна калибрација: би можеле да поддржат само потесно тврдење за отпорност на поедноставно промптирање, би можеле да пропуштат и колку сериозен станува нападот и неговата веројатност за успех штом методот на елицитација се операционализира, а би можеле и да преценат колку е веројатен или сериозен проблемот ако му се даде преголем буџет.
Постојат ситуации за споредби со стандардирани harness-и кои се соодветни и корисни, но евалуаторите треба експлицитно да кажат зошто е соодветно да се користи конзистентен сет harness-и и кое тврдење тоа може да го поддржи. евалуацијата на временски хоризонт на METR(се отвора во нов прозорец) е пример за поширока, соодветно фиксирана поставка за евалуација: таа е дизајнирана да произведе споредливи резултати низ системите што ги евалуира. METR дефинира заедничка мерка на исход: типичното времетраење на задача што ја извршува човек, при кое се предвидува дека еден AI агент ќе постигне успех со одредено ниво на доверливост. Применува заеднички пакет задачи, метод на бодување, метод на вклопување и мал сет повторно употребливи scaffolds како Triframe и ReAct(се отвора во нов прозорец) во рамки на секоја група заедно пријавени проценки. Кога METR го прошири пакетот задачи и ја премести инфраструктурата за евалуација од рамка наречена Vivaria во друга наречена Inspect, ја пријави промената (ажурирање Time Horizon 1.1(се отвора во нов прозорец)) и повторно ги евалуираше моделите под новата поставка за евалуација. Тоа е вредноста на стандардирана поставка за евалуација, вклучително и конзистентен сет harness-и: може да им даде доверба на читателите дека разликата во резултатите навистина одразува разлика меѓу споредуваните системи, наместо промена во поставката на мерењето.
Препорачуваме извештаите за евалуација од трети страни да наведат каков вид тврдење нивната поставка за евалуација треба да поддржи; да објаснат во која мера она што е тестирано го одразува тоа пошироко тврдење; да ги опишат изборите на harness што влијаеле врз резултатот; да наведат кога тие избори се менуваат меѓу различни евалуации; и да приложат придружни докази што покажуваат како е добиен резултатот и до кој степен тој може да се генерализира на поширокото тврдење што се оценува.
Како што моделите стануваат понапредни, резултатите од евалуациите стануваат полесни за погрешно толкување. Во однос на реалните способности, резултатите од евалуација може вештачки да се намалат ако моделот препознае дека е евалуиран и стратешки потфрла. Тие може да се и вештачки зголемени ако моделот искористи кратенка во задачата, промптот, оценувачот или harness-от. Тие исто така може да се искриват поради контаминација (кога моделот веќе знае или може да најде одговор без да ја реши задачата) или од „неисправни“ задачи што се двосмислени, погрешно бодирани, нерешливи или подложни на ненамерни заобиколувања. Затоа, извештаите за евалуација треба покрај главните резултати да вклучуваат и дискусија за овие ризици, за читателите да можат да проценат дали резултатите навистина го одразуваат посакуваното однесување.
Harness-и, буџети, алатки, правила за бодување, монитори и процедури за преглед — сето тоа влијае на тоа дали агент решава наменета задача, ја избегнува, ја меморира или наоѓа начин да ја заобиколи. Доверлив извештај ги прави тие проверки видливи: евалуаторите треба да прегледуваат примероци за овие однесувања секојпат кога се спроведува проценка.
Манипулирање со наградата
Манипулирање со наградата значи постигнување високи резултати на евалуација на начини што не ја одразуваат наменетата способност. Тука загриженоста е дека системот добива заслуга со искористување на задачата, оценувачот, промптот или harness-от, наместо со извршување на работата што евалуацијата требало да ја мери. Евалуацијата на GPT 5.4 од METR(се отвора во нов прозорец) покажува зошто ова е важно: иако моделот успеал на задачи со стапка што на прв поглед би се регистрирала како временски хоризонт од приближно 13 часа, човечкиот преглед покажал дека дел од тие успеси дошле од манипулирање со наградата, а ревидирањето на резултатите за да се земат предвид само случаите без такво манипулирање ја намалило проценката на околу 6 часа. Евалуаторите треба да ја проценат потребата од такви прилагодувања и, кога се потребни, јасно да ги пријават: проценка на способност е многу покорисна кога читателите можат да видат кои привидни успеси биле дисквалификувани, зошто биле дисквалификувани и колку резултатот зависи од таа проценка.

Одбивања
Моделите исто така може можат да покажат и послаби резултати на евалуации на способности поради заштитните механизми. Модел може да има пониска перформанса на евалуација отколку што е способен, затоа што одбива задачи за евалуација наместо да ги заврши. Затоа извештаите треба да објаснат дали одбивањата биле дел од резултатите од евалуацијата и ако да, колку примероци биле компромитирани поради нив.
Контаминација
Контаминацијата е најважна за јавни или повторно користени бенчмаркови. Ако задачи, одговори или блиски варијанти се појавуваат во податоците за тренирање или може да ги најде агент со прелистување, перформансата може да одразува меморирање или пребарување, наместо перформанса на моделот. Евалуаторите треба, каде што е можно, да претпочитаат приватни или новоконструирани задачи и да тестираат дали моделите репродуцираат детали специфични за задачата пред да ја решат.
Неисправни задачи
Неисправните задачи вклучуваат ситуации како проблем проблем што случајно не може да биде решен. Неиправните задичи се доволно чести(се отвора во нов прозорец) за да треба да се третираат како стандарден ризик за валидноста. Тие вклучуваат неточна основна вистина, двосмислени промптови, недостасувачки датотеки, нестабилни сервиси, неправедни критериуми за бодување и средини што откриваат кратенки како скриени датотеки со одговори или историја на репозиториум што ја содржи закрпата со основната вистина.
Sandbagging
Sandbagging од модел или систем значи стратешко потфрлање кога силната перформанса би била во судир со некоја цел. Евалуацијата на GPT‑5.5 од Apollo(се отвора во нов прозорец) го тестираше ова со создавање контекст во кој моделот разбираше дека високите резултати на евалуација може да предизвикаат одучување или да го блокираат распоредувањето. GPT‑5.5 сепак одговори точно, што укажува на малку бихевиорални докази за стратешко потфрлање3. Но нивниот преглед на трагите на расудување додаде важен контекст: Apollo најде умерени или посилни знаци на свесност за евалуација на усогласеност во 52% од примероците под услови на sandbagging, во споредба со 0% во контрафактуали. Тој доказ ја усложнува интерпретацијата на резултатот, но на крај им дава повеќе сигнал на читателите: тие можат да го видат и охрабрувачкиот бихевиорален резултат и причината да бидат внимателни со неговото претерано толкување.
Силните тврдења бараат и вистински harness за да се извлече однесувањето и проверки на валидност за да се покаже дека резултатот е исправен. Нашиот став дека harness-ите и проверките на валидност се дел од резултатот од евалуацијата влијае врз начинот на кој во пракса ги поддржуваме евалуациите спроведени од трети страни:
- Споделуваме конкретни насоки за максимална елицитација со евалуаторите.
- Бараме од евалуаторите на способности да го користат Codex како заедничка основа за OpenAI моделите: тестовите најмалку треба да вклучуваат базна проверка преку истиот агентски интерфејс на кој корисниците најверојатно ќе се потпираат, наместо да се спроведуваат само преку поедноставен интерфејс на моделот со ограничени функции.
- Исто така ги ставаме на располагање трагите на расудување и други меѓуартефакти таму каде што се потребни за да се проценат измама, sandbagging или свесност за евалуација. METR и Apollo го користат овој пристап во евалуациите на OpenAI уште од GPT‑5.
- Конечно, даваме приоритет на истражување за подлабоко разбирање кога и како изборите на harness суштински ги менуваат резултатите, од управување со контекст и пристап до алатки до однесување при повторни обиди, бодување и буџети на ресурси.
Овие препораки не се наменети само да ги подобрат поединечните извештаи за евалуација, туку и да ги информираат новите национални (се отвора во нов прозорец)и меѓународни (се отвора во нов прозорец)стандарди за евалуација и известување за гранични системи за AI . Во иднина, стандардите за евалуација од трети страни треба да бараат доволно детали за носителите на одлуки да разберат кои тврдења ги поддржуваат конкретните евалуации, кој систем бил тестиран, како бил извлечен резултатот и како евалуаторите ја провериле неговата валидност. За граничните системи што се тестираат на задачи каде агентските способности се важни, деталите треба да вклучуваат под услов на какви било безбедносни или доверливи ограничувања):
- Тврдењето: дали евалуацијата споредува системи, проценува горна граница на способностите или тестира безбедносни механизми.
- Содржина на евалуацијата: доволно детали за задачите или распределбата на задачи за читателите да разберат кои вештини, однесувања или режими на неуспех евалуацијата навистина ги тестира.
- Тестираниот систем: моделот, поставката за расудување, пристапот до алатки, harness-от и заштитните мeханизми.
- Буџетот: број на интеракции, токени, обиди/повторни обиди, реално време, трошок за инференција и, каде што е применливо, очекуван трошок по успешно решен проблем.
- Методи на елицитација: изборите на harness што се користеле за да се извлече резултатот и колку блиску тестиранoто го одразува поширокото тврдење што се изнесува.
- Проверки на валидност: како проценувачите барале манипулирање со наградата, свесност за евалуација, контаминација, одбивања, sandbagging и други однесувања што би можеле да го поткопаат резултатот, вклучително и како потврдените случаи влијаеле на бодувањето или интерпретацијата.
Стандарди што ги изоставуваат изборите на harness или проверките на валидност може да потценат што системот може да направи или да ја преценат довербата во тврдењата за неговата безбедност. Градењето силни harness-и и методи на елицитација останува отворена истражувачка област и треба да биде фокус на понатамошно истражување и инвестиции.
Автор
Поимник
Бидејќи во оваа објава користиме повеќе стручни термини, подолу приложивме поимник со едноставни објаснувања за нивното значење:
Агентски систем: Систем што може да извршува задача низ повеќе чекори, користејќи алатки, одржувајќи ја состојбата на задачата и дејствувајќи во одредена средина, наместо само да врати еден единствен одговор на даден промпт.
Проценка: Поширока оценка за тоа дали доказите поддржуваат одредено тврдење, заклучок за ризик или позиција на уверување, при што може да се заснова на податоци од евалуација, преглед на документи, интервјуа, анализа на процеси и други релевантни материјали.
Компакција: Метод за зачувување на контекстот релевантен за задачата при подолготрајно извршување.
Конфигурација: Точно тестиран систем и услови на евалуација, надвор од името на моделот.
Контаминација: Кога задачи за евалуација, одговори или блиски варијанти се појавуваат во податоците за тренирање на моделот или можат да се откријат за време на евалуацијата (на пр., преку алатки како прелистување), со што перформансите ја преценуваат вистинската способност на моделот за генерализација.
Елицитација: Процес на обид да се извлече одредена способност или однесување од систем за време на проценка.
Средина: Поставката на задачата во која се тестира еден систем. Ова вклучува работи како надворешната состојба со која агентот комуницира и која ја менува за време на евалуација, како терминалска средина или видеоигра.
Евалуација: Конкретен тест или мерење што се спроведува во рамките на една проценка.
Свесност за евалуација: Свесноста за евалуација се однесува на тоа моделот да препознае, или да изгледа дека препознава, дека е евалуиран и потенцијално да го приспособи своето однесување како одговор на тој контекст. Ова може да изгледа како моделот експлицитно да расудува дека е тестиран, да ја заклучува целта на евалуацијата или да го менува своето однесување затоа што очекува резултатот да влијае на тоа како ќе биде оценет или распореден за употреба.
Harness: Структура насочена кон моделот што му овозможува на моделот да изврши одредена задача: промпти, алатки, интерфејси, контролна логика, меморија, механизми за повторни обиди, валидатори и други придружни компоненти што го поддржуваат функционирањето на моделот.
Максимална елицитација: Тестирање насочено кон откривање на најсилното веродостојно ниво на перформанси или режим на грешка што еден систем може да го покаже во рамки на дефиниран буџет, наместо едноставно да се изврши системот еднаш низ стандардизиран harness (тест-рамка).
Траги на расудување: Записи од меѓуфазното расудување на моделот за време на тестирање.
Манипулирање со наградата: Постигнување висок резултат преку кратенка или однесување надвор од намерата на евалуаторот.
Заштитни мерки: Филтри, системи за надзор, механизми за блокирање и други заштитни мерки што се применуваат околу модел или производ.
Sandbagging: Стратешко намерно прикажување послаби перформанси при евалуација, со цел да се искриви или потцени реалниот резултат.
Бодување: Метод што се користи за одредување како се мери перформансата или дали задачата е успешно завршена.
Стандардизиран harness: Harness што се користи непроменет за различни системи, наместо да се приспособува на конкретен модел или задача, со цел разликите во резултатите полесно да можат да се припишат на самиот тестиран модел.
Временски хоризонт: Времетраење на задача што системот може успешно да ја извршува со зададена сигурност, најчесто мерено според времето што би му било потребно на човек за истата задача.
Пристап до алатки:Збир на надворешни алатки што моделот може да ги користи во текот на проценката.
Траектории: Патеки на извршување што го опишуваат редоследот на чекорите на системот во текот на една задача.
Универзален jailbreak: Единечен образец на напад што предизвикува системот да ги заобиколи своите заштитни механизми кај голем број на промпти или задачи.
Фусноти
- 1
Овој пасус не се обидува да одреди како трети страни треба да евалуираат тврдења поврзани со неусогласеност или склоности. Потребна е дополнителна работа за да се разбере како изборите на harness влијаат врз тие евалуации, особено затоа што harness-и што овозможуваат подолгорочно однесување може исто така да ги променат видовите ненамерно однесување што евалуаторите треба да ги следат.
- 2
HAL(се отвора во нов прозорец) дава дополнителен пример од евалуации на агенти: на CORE-Bench(се отвора во нов прозорец), промената на harness во Claude Code ги измени и измерените перформанси и профилот на трошоци на истиот бенчмарк. Други јавни примери вклучуваат SWE-agent(се отвора во нов прозорец), SeeAct(се отвора во нов прозорец), ScienceAgentBench(се отвора во нов прозорец), CORE-Bench(се отвора во нов прозорец) и Inspect Cyber(се отвора во нов прозорец); секој им кажува на читателите кој интерфејс или harness го произвел резултатот.
- 3
Постигнување резултат од 100% на двете варијанти на Sandbagging QA и 99,6% на задачата за sandbagging поврзана со стратешка измама.


