Общ наръчник за надеждни оценки от трети страни
Какво е важно за ефективни независими оценки на предпазни мерки и способности при frontier модели.
Независимите, надеждни оценки от трети страни играят критична роля за укрепването на екосистемата за безопасност. Тези оценки се провеждат върху frontier модели, за да предоставят допълнителни доказателства за твърдения относно критични способности и мерки за безопасност. В тази публикация споделяме уроците, които сме научили досега, и препоръчваме подходи за проектиране на оценки, които могат валидно да оценяват frontier модели и които, надяваме се, ще помогнат за оформянето на възникващите стандарти в тази област.
По-рано много оценки третираха моделите като чатботове: оценяването подаваше подкана към модел, сякаш е потребител, който задава въпрос, моделът отговаряше, а оценител преценяваше резултата. Днешните frontier модели могат много повече: те могат да използват инструменти, да проследяват информация през много стъпки и да действат в рамките на по-голям работен поток. Това означава, че представянето зависи не само от модела, но и от средата, в която се изпълнява задачата, както и от настройката, която улеснява действията му. Тази обкръжаваща настройка, която наричаме „harness“, може да промени ключови аспекти от представянето на системата, включително как използва инструменти, как проследява информация или как се възстановява от грешки.
Това променя начина, по който трябва да се провеждат оценяванията, и какво читателите трябва да търсят в докладите за оценяване. Според нас най-полезните доклади изрично описват две неща отвъд самия резултат: първо, уточняват какво твърдение е била проектирана да тества настройката за оценяване, и второ, споделят наличните доказателства, че резултатът от оценяването е валиден.
Твърденията, тествани в оценяванията, обикновено попадат в една от три категории1:
- Елицитиране на способности: Може ли модел правдоподобно да прояви оценяваната способност?
- Представяне на предпазните мерки: Колко устойчиви са тестваните предпазни мерки срещу оценяваното поведение или атака?
- Сравнение: Как се представят различни модели при еквивалентни условия?
Докладите за оценяване също трябва да обясняват как оценителите са проверявали за ефекти, които могат да повлияят на валидността на резултата. Те включват:
- Манипулиране на наградата: Използване на преки пътища в задачата или оценителя, така че системата да получи признание, без да демонстрира поведението, което оценяването трябва да измери.
- Откази: Отказване по начини, които прикриват тестваното поведение.
- Контаминация: Прекалено добро представяне, защото задачи за оценяване, отговори или близки варианти са присъствали в обучителните данни или са били откриваеми по време на оценяването, например чрез браузване.
- Неработещи задачи: По-слабо представяне, защото задачите са невалидни. Причините могат да включват несправедливо оценяване (напр. правилният отговор изисква непосочени детайли по имплементацията) и нерешими среди (напр. липсващи критични файлове или ненадеждни инструменти).
- Умишлено занижаване на представянето: Умишлено по-слабо представяне, когато се проявява осъзнаване, че се извършва оценяване.
Наблюдаваме, че ролята на harness-а е особено важна за системи, които действат по по-дълги траектории. Когато моделите могат да използват инструменти, да поддържат състояние и да се възстановяват от грешки през много стъпки, harness-ът може да промени наблюдаваното ниво на представяне и дори да определи дали оценяваната способност изобщо ще се прояви в оценяването. Например harness, който запазва състоянието и прави нови опити след неуспешни действия, може да позволи на модел да завърши многостъпкова задача, която същият модел никога не завършва в по-прост harness.
В таблицата по-долу разграничаваме три вида твърдения, които оценителите може да искат да направят, и harness-а, който според нас изисква всеки вид твърдение.
Твърдението, което оценяването се опитва да подкрепи | Подходящ избор на harness | Доказателства за докладване |
Елицитиране на способност при силна елицитация: Система A може да изпълнява задачи от тип X, когато настройката е проектирана така, че да изведе най-силното ѝ правдоподобно представяне. | Използвайте най-силната правдоподобна настройка за елицитация за системата, включително harness-а, инструментите, подпомагащата структура и бюджета, които един способен потребител разумно би използвал. | Настройката на harness-а и инструментите, насоките за елицитация, разрешеният бюджет/усилие, токени/разход/време и защо тази настройка е правдоподобен заместител на заявената способност. Ако сравнявате системи при различни оптимизирани настройки, обозначете това като сравнение система към система или сравнение при силна елицитация. |
Контролирано сравнение: Система A превъзхожда Система B при споделена настройка за оценяване. | Запазете задачите, оценяването на резултата и бюджета фиксирани. Използвайте или споделена настройка на harness/инструменти, или фиксиран набор от стандартизирани harness-и, избрани предварително, за да осигурят разумна максимална елицитация за сравняваните системи. | Споделеният набор от задачи, инструментите, методът за оценяване, harness-ът, бюджетът, ефективността/цената на токените и известните ограничения. За оценявания на кодиращи агенти harness с отворен код като Codex CLI може да осигури фиксиран агентен цикъл и интерфейс за инструменти в различните системи. Идеалният подход за максимална елицитация би бил да се оптимизира специално изграден harness за всяка задача и система, но на практика това засега е непрактично. |
Устойчивост на предпазните мерки при елицитирана атака: Предпазните мерки на Система A са достатъчни за релевантното поведение на модела или елицитираната атака. | Използвайте настройка за тестване на предпазни мерки, проектирана да елицитира най-силната правдоподобна атака при съответния модел на противник. | Как оценителите са характеризирали релевантното поведение на модела, тестваната конфигурация на предпазните мерки, стратегията за елицитация, harness-а, използван за изпълнението ѝ, и разрешения бюджет или усилие. |
Твърденията за способности са толкова силни, колкото е силна елицитацията зад тях: оценителите трябва да изберат harness-а, който най-добре съответства на задачата и на способността, която оценяването се опитва да измери. Стандартизираният harness може да е правилният избор за сравняване на системи при идентични условия, но може да подцени способността, когато пропуска конкретни характеристики на harness-а, които помагат на модела да изпълни задачата. Например представянето на GPT‑5.5 в кибер диапазоните на OpenAI показва как изборът на harness може съществено да промени измерената способност при задачи, които изискват дълга, многостъпкова употреба на инструменти: моделът се представя по-добре, когато harness-ът използва компактиране, за да запази релевантния за задачата контекст, докато взаимодействието се удължава. Това показва, че за определени модели harness, който пропуска компактирането, би довел до недостатъчна елицитация на представянето.
По-високите нива на успех са по-добри
Други публикувани оценки2 също показват, че изборът на harness и бюджет променя резултатите от оценяването. Увеличаването на изчисленията по време на тест може значително да промени каква способност оценяването елицитира, особено в области, където успехът лесно се проверява, като много кибер задачи. В оценяването на кибер диапазона на UK AISI(отваря се в нов прозорец) увеличаването на бюджета от 10M на 100M токена подобрява представянето с до 59%, а представянето продължава да се подобрява и при най-високия тестван бюджет. Описването на това прави оценяването по-лесно за тълкуване: то показва на читателите как резултатът зависи от тестваната настройка за елицитация. Когато представянето продължава да се подобрява с допълнителен бюджет, резултатът трябва да се описва като представяне при този harness и бюджет, а не като измерен таван на способността. Способността често зависи от ресурсите, а не е фиксирана величина, която може да бъде чисто измерена веднъж завинаги. Когато успехът може да се измерва през многократни опити, докладите трябва да разглеждат и очакваната цена за едно успешно решение, а не само процента на успех при фиксиран бюджет от токени. Това може да улесни тълкуването на сериозността: нисък процент на успех все пак може да е практически значим, ако цената на многократните опити е в рамките на съответния модел на заплаха. За твърденията за способности предотвратимата недостатъчна елицитация е провал на измерването: ако harness-ът или бюджетът пречат на системата да прояви поведение, което иначе би могла да покаже, резултатът не измерва заявената способност. Когато оценителите са довели елицитацията толкова далеч, колкото е практически възможно, и представянето все още се подобрява, докладите трябва ясно да го посочват и да изясняват, че резултатът е само оценка на долна граница.
Тестването на предпазни мерки може да подцени дали една атака може да успее и колко тежка би могла да бъде, ако не отчита ресурсите, с които разполагат нападателите, включително персонализирани harness-и. В кибер оценяването на GPT‑5.5 от UK AISI(отваря се в нов прозорец) тяхното експертно red teaming откри универсален jailbreak, който елицитира нарушаващо правилата кибер съдържание при злонамерените заявки, предоставени от OpenAI, включително в многоходови агентни настройки. Те използваха Codex, за да създадат персонализиран harness и да засилят атакуващото представяне на модела: той вграждаше повторно използваем модел за заобикаляне на предпазни мерки във взаимодействието, запазваше този модел през ходове и блокове и го прилагаше към злонамерените кибер заявки, предоставени от OpenAI. Тестването на предпазни мерки трябва да съответства на противника. Ако твърдението е за устойчивост срещу злоупотреба от експерт, тестът трябва да оценява най-силната правдоподобна цялостна стратегия за атака в рамките на определен бюджет, включително всеки harness, необходим за запазване и повторна употреба на тази стратегия. В противен случай резултатите рискуват да бъдат зле калибрирани: те биха могли да подкрепят само по-тясно твърдение за устойчивост към по-прости подкани, да пропуснат както колко тежка става атаката, така и вероятността за успех, след като методът за елицитация бъде операционализиран, и също така биха могли да надценят колко вероятен или тежък е проблемът, ако му се даде прекалено голям бюджет.
Има време и място за сравнения със стандартизирани harness-и, но оценителите трябва изрично да посочват защо използването на последователен набор от harness-и е подходящо и какво твърдение може да подкрепи. Оценяването на времевия хоризонт на METR(отваря се в нов прозорец) е пример за по-широка, подходящо фиксирана настройка за оценяване: тя е проектирана да дава съпоставими резултати между системите, които оценява. METR дефинира общ резултат — типичната продължителност на човешка задача, при която се прогнозира, че AI Агент ще успее при дадено ниво на надеждност. Тя прилага споделен набор от задачи, метод за оценяване, метод за напасване и малък набор от повторно използваеми scaffolds като Triframe и ReAct(отваря се в нов прозорец) във всяка група от оценки, докладвани заедно. Когато METR разшири набора от задачи и премести инфраструктурата за оценяване от рамка, наречена Vivaria, към такава, наречена Inspect, тя отчете промяната (актуализация Time Horizon 1.1(отваря се в нов прозорец)) и преоцени моделите при новата настройка за оценяване. Това е стойността на стандартизираната настройка за оценяване, включително последователен набор от harness-и: тя може да даде на читателите увереност, че разликата в резултатите наистина отразява разлика между сравняваните системи, а не промяна в настройката на измерването.
Препоръчваме докладите за оценки от трети страни да посочват какъв вид твърдение е предназначена да подкрепи тяхната настройка за оценяване; да описват доколко тясно тестваното отразява това по-широко твърдение; да описват избора на harness, който е оформил резултата; да уточняват кога този избор се променя между оценяванията; и да включват подкрепящи доказателства, които показват как е получен резултатът и доколко добре се обобщава към твърдението.
С повишаването на способностите на моделите резултатите от оценяванията стават по-лесни за погрешно тълкуване. Спрямо реалните способности резултатите от оценяването могат изкуствено да бъдат занижени, ако моделът разпознае, че е оценяван, и стратегически се представи по-слабо. Те могат да бъдат завишени, ако моделът използва пряк път в задачата, подканата, оценителя или harness-а. Те могат също да бъдат изкривени от контаминация (когато моделът вече знае или може да намери отговор, без да решава задачата) или от „неработещи“ задачи, които са двусмислени, неправилно оценени, нерешими или уязвими към непреднамерени преки пътища. Затова докладите за оценяване трябва да съчетават водещите резултати с обсъждане на тези рискове, така че читателите да могат да преценят дали резултатите отразяват целеното поведение.
Harness-и, бюджети, инструменти, правила за оценяване, монитори и процедури за преглед влияят върху това дали един Агент решава предвидената задача, избягва я, запаметява я или намира път около нея. Надеждният доклад прави тези проверки видими: оценителите трябва да преглеждат извадки за такова поведение всеки път, когато се провежда оценка.
Манипулиране на наградата
Манипулирането на наградата означава постигане на високи резултати при оценяване по начини, които не отразяват целената способност. Тук притеснението е, че системата получава признание, като използва задачата, оценителя, подканата или harness-а, вместо като извършва работата, която оценяването е трябвало да измери. Оценяването на GPT 5.4 от METR(отваря се в нов прозорец) показва защо това е важно: въпреки че моделът е успявал по задачи с честота, която първоначално би се отчела като времеви хоризонт от приблизително 13 часа, човешкият преглед е показал, че част от тези успехи са дошли от манипулиране на наградата, а преразглеждането на резултатите така, че да се отчетат само случаите без манипулиране на наградата, е понижило оценката до около 6 часа. Оценителите трябва да преценяват необходимостта от такива корекции и, когато са нужни, да ги докладват ясно: оценката на способността е много по-полезна, когато читателите могат да видят кои привидни успехи са били дисквалифицирани, защо са били дисквалифицирани и доколко резултатът зависи от тази преценка.

Откази
Моделите могат също да се представят по-слабо при оценки на способности заради предпазни мерки. Модел може да има по-ниско представяне при оценяване, отколкото е способен да покаже, защото отказва задачите за оценяване, вместо да ги изпълни. Затова докладите трябва да обясняват дали отказите са били част от резултатите от оценяването и ако да — колко извадки са били компрометирани заради тях.
Контаминация
Контаминацията е най-важна при публични или повторно използвани бенчмаркове. Ако задачи, отговори или близки варианти присъстват в обучителните данни или могат да бъдат намерени от Агент с браузване, представянето може да отразява запаметяване или извличане, а не представянето на модела. Оценителите трябва, когато е възможно, да предпочитат частни или новосъздадени задачи и да проверяват дали моделите възпроизвеждат специфични за задачата детайли, преди да я решат.
Неработещи задачи
Неработещите задачи включват ситуации като задача, която по невнимание не може да бъде решена. Неработещите задачи са достатъчно често срещани(отваря се в нов прозорец), за да бъдат третирани като стандартен риск за валидността. Те включват неправилна базова истина, двусмислени подкани, липсващи файлове, нестабилни услуги, несправедливи критерии за оценяване и среди, които разкриват преки пътища като скрити файлове с отговори или история на хранилище, съдържаща корекцията от базовата истина.
Умишлено занижаване на представянето
Умишленото занижаване на представянето от модел или система означава стратегическо по-слабо представяне, когато силното представяне би влязло в конфликт с някаква цел. Оценяването на GPT‑5.5 от Apollo(отваря се в нов прозорец) тества това, като създаде контекст, в който моделът разбираше, че високите резултати от оценяването могат да предизвикат отучаване или да блокират внедряването. GPT‑5.5 все пак отговаряше правилно, което подсказва малко поведенчески доказателства за стратегическо по-слабо представяне3. Но техният преглед на следите от структурирано анализиране добави важен контекст: Apollo откри умерени или по-силни признаци на осъзнаване на оценяване на подравняването в 52% от извадките при условие за sandbagging, в сравнение с 0% при контрафактическите случаи. Тези доказателства усложняват тълкуването на резултата, но в крайна сметка дават на читателите повече сигнал: те могат да видят както успокояващия поведенчески резултат, така и причината да бъдат предпазливи с прекомерното му тълкуване.
Силните твърдения изискват както правилния harness за елицитиране на поведението, така и проверки за валидност, които да покажат, че резултатът е надежден. Нашето виждане, че harness-ите и проверките за валидност са част от резултата от оценяването, оформя начина, по който на практика подкрепяме оценки от трети страни:
- Споделяме конкретни насоки за максимална елицитация с оценителите.
- Искаме от оценителите на способности да използват Codex като обща минимална база за моделите на OpenAI: тестовете трябва поне да пускат базова линия през същия агентен интерфейс, на който потребителите вероятно ще разчитат, а не само през опростен интерфейс на модела.
- Също така предоставяме следи от структурирано анализиране и други междинни артефакти там, където са нужни за оценка на измама, sandbagging или осъзнаване на оценяването. METR и Apollo използват този достъп в оценяванията на OpenAI от GPT‑5 насам.
- Накрая, даваме приоритет на изследвания, за да разберем по-задълбочено кога и как изборът на harness съществено променя резултатите — от управлението на контекста и достъпа до инструменти до поведението при повторни опити, оценяването и бюджетите за ресурси.
Тези препоръки са предназначени не само да подобрят отделните доклади за оценяване, но и да информират възникващите национални (отваря се в нов прозорец)и международни (отваря се в нов прозорец)стандарти за оценяване и докладване на frontier ИИ. Занапред стандартите за оценки от трети страни трябва да изискват достатъчно подробности, за да могат вземащите решения да разберат какви твърдения подкрепят конкретните оценки, каква система е била тествана, как е бил елицитиран резултатът и как оценителите са проверили неговата валидност. За frontier системи, които се тестват по задачи, при които агентните способности имат значение, подробностите трябва да включват (при спазване на всички съображения за сигурност или поверителност):
- Твърдението: дали оценяването сравнява системи, оценява таван на способност или тества предпазни мерки.
- Съдържание на оценяването: достатъчно подробности за задачите или разпределението на задачите, за да могат читателите да разберат какви умения, поведения или режими на отказ оценяването всъщност тества.
- Тестваната система: моделът, настройката за структурирано анализиране, достъпът до инструменти, harness-ът и предпазните мерки.
- Бюджетът: ходове, токени, опити/повторни опити, реално изминало време, цена на инференцията и, когато е приложимо, очаквана цена за едно успешно решение.
- Методи за елицитация: изборът на harness, използван за извеждане на резултата, и доколко тясно тестваното отразява по-широкото твърдение, което се прави.
- Проверки за валидност: как оценителите са търсили манипулиране на наградата, осъзнаване на оценяването, контаминация, откази, sandbagging и други поведения, които могат да подкопаят резултата, включително как потвърдените случаи са повлияли на оценяването или тълкуването.
Стандарти, които пропускат избора на harness или проверките за валидност, могат да подценят какво може да прави една система или да надценят увереността в твърдение за безопасност. Изграждането на силни harness-и и методи за елицитация остава отворена изследователска област и трябва да бъде фокус на по-нататъшно проучване и инвестиции.
Автор
Речник
Тъй като в тази публикация използваме редица специализирани термини, по-долу сме включили речник с обяснения на достъпен език за това, което имаме предвид:
Агентна система: Система, която може да изпълнява задача в множество стъпки, като използва инструменти, поддържа състоянието на задачата и действа в среда, вместо само да връща единичен отговор на подкана.
Оценка: По-широка преценка дали доказателствата подкрепят твърдение, заключение за риск или позиция за увереност, която може да се основава на данни от оценяване, преглед на документи, интервю, преглед на процеси и други релевантни артефакти.
Компактиране: Метод за запазване на релевантния за задачата контекст при дълги изпълнения.
Конфигурация: Точно тестваната система и условията на оценяване, отвъд името на модела.
Контаминация: Когато задачи за оценяване, отговори или близки варианти се появяват в обучителните данни на даден модел или могат да бъдат открити по време на оценяването (напр. чрез инструменти като браузване), което кара представянето да надценява истинската способност на модела за обобщаване.
Елицитация: Процес на опит да се изведе дадена способност или поведение от система по време на оценка.
Среда: Контекстът на задачата, в който се тества дадена система. Това включва неща като външното състояние, с което Агентът взаимодейства и което променя по време на оценяване, например терминална среда или видеоигра.
Оценяване: Конкретен тест или измерване в рамките на една оценка.
Осъзнаване на оценяването: Осъзнаването на оценяването се отнася до това моделът да разпознава или да изглежда, че разпознава, че е оценяван, и потенциално да коригира поведението си в отговор на този контекст. Това може да изглежда като моделът изрично да разсъждава, че е тестван, да извежда целта на оценяването или да променя поведението си, защото очаква резултатът да повлияе на начина, по който ще бъде преценен или внедрен.
Harness: Структурата, насочена към модела, която му позволява да изпълни задача: подкани, инструменти, интерфейси, управляваща логика, памет, повторни опити, валидатори и други поддържащи структури около модела.
Максимална елицитация: Тестване, насочено към откриване на най-силното правдоподобно представяне или режим на отказ, което една система може да покаже в рамките на определен бюджет, вместо просто системата да бъде пусната веднъж през стандартизиран harness.
Следи от структурирано анализиране: Записи на междинното структурирано анализиране на модела по време на тест.
Манипулиране на наградата: Постигане на висок резултат чрез пряк път или поведение извън намерението на оценителя.
Предпазни мерки: Филтри, монитори, блокиращи системи и други защити, прилагани около модел или продукт.
Умишлено занижаване на представянето: Стратегическо по-слабо представяне при оценяване по начин, който подкопава резултата.
Оценяване на резултата: Метод, използван за определяне как се измерва представянето или дали дадена задача е успешна.
Стандартизиран harness: Harness, който се запазва еднакъв за различните системи, вместо да се персонализира за конкретен модел или задача, така че разликите в резултатите да могат по-лесно да се отдадат на тествания модел.
Времеви хоризонт: Продължителността на задача, която една система може да изпълни с определена надеждност, често изразена като това колко време би отнела същата задача на човек.
Достъп до инструменти: Външни инструменти, достъпни за модела по време на оценката.
Траектории: Пътищата стъпка по стъпка, които една система следва, докато изпълнява задача.
Универсален jailbreak: Единен модел на атака, който кара система да заобиколи предпазните мерки при много подкани или задачи.
Бележки под линия
- 1
Тази публикация не се опитва да реши как трети страни трябва да оценяват твърдения, свързани с несъответствие или склонност към определено поведение. Необходима е още работа, за да се разбере как изборът на harness влияе върху тези оценки, особено защото harness-и, които поддържат поведение с по-дълъг времеви хоризонт, може също да променят видовете непреднамерено поведение, които оценителите трябва да наблюдават.
- 2
HAL(отваря се в нов прозорец) предоставя допълнителен пример от оценявания на агенти: при CORE-Bench(отваря се в нов прозорец) промяната на harness към Claude Code промени както измереното представяне, така и профила на разходите при един и същ бенчмарк. Други публични примери включват SWE-agent(отваря се в нов прозорец), SeeAct(отваря се в нов прозорец), ScienceAgentBench(отваря се в нов прозорец), CORE-Bench(отваря се в нов прозорец) и Inspect Cyber(отваря се в нов прозорец); всеки от тях казва на читателите какъв интерфейс или harness е дал резултата.
- 3
Постигане на 100% и при двата варианта на Sandbagging QA и 99,6% при задачата за стратегическа измама чрез sandbagging.


