29 мая 2026 г.

Общий практический подход к надёжным сторонним оценкам

Что важно для эффективных независимых оценок защитных мер и возможностей передовых моделей.

Загрузка…

Независимые, заслуживающие доверия оценки со стороны третьих лиц играют критически важную роль⁠ в укреплении экосистемы безопасности. Эти оценки проводятся на передовых моделях, чтобы предоставить дополнительные доказательства для утверждений о критически важных возможностях и мерах по снижению рисков безопасности. В этом посте мы делимся уроками, которые извлекли на данный момент, и рекомендуем подходы к проектированию оценок, способных валидно оценивать передовые модели, которые, как мы надеемся, помогут формированию возникающих стандартов в этой области.

Раньше во многих оценках модели рассматривались как чат-боты: система оценки обращалась к модели так, будто пользователь задаёт вопрос, модель отвечала, а оценщик оценивал результат. Сегодня передовые модели умеют гораздо больше: они могут использовать инструменты, отслеживать информацию на протяжении многих шагов и действовать в рамках более крупного рабочего процесса. Это значит, что результативность зависит не только от модели, но и от среды, в которой выполняется задача, а также от настройки, которая помогает модели действовать. Такая внешняя настройка — мы называем её «обвязкой» (harness) — может менять ключевые аспекты работы системы: например, как она использует инструменты, отслеживает информацию или восстанавливается после ошибок.

Диаграмма, сравнивающая рабочий процесс «промпт—ответ» с агентным рабочим процессом задачи и показывающая, как циклы управления, инструменты, контекст, бюджет и защитные меры обеспечивают автономное выполнение задачи.

Это меняет и то, как нужно проводить оценки, и то, на что читателям следует обращать внимание в отчётах об оценке. На наш взгляд, самые полезные отчёты явно описывают две вещи помимо самого результата: во-первых, какое утверждение должна была проверить настройка оценки, и во-вторых, какие имеются доказательства валидности результата оценки.

Утверждения, проверяемые в оценках, обычно относятся к одной из трёх категорий¹:

Выявление возможностей: Может ли модель правдоподобно продемонстрировать оцениваемую способность?
Эффективность защитных мер: Насколько устойчивы протестированные защитные меры к оцениваемому поведению или атаке?
Сравнение: Как разные модели работают в эквивалентных условиях?

Отчёты об оценке также должны объяснять, как оценщики проверяли эффекты, которые могли повлиять на валидность результата. К ним относятся:

Взлом вознаграждения: Использование обходных путей в задаче или механизме скоринга, из-за чего система получает зачёт, не демонстрируя поведение, которое должна измерять оценка.
Отказы: Отказ отвечать таким образом, что это скрывает тестируемое поведение.
Контаминация: Завышенные результаты, потому что задачи оценки, ответы или близкие варианты присутствовали в обучающих данных или могли быть найдены во время оценки, например при поиске в интернете.
Некорректные задачи: Заниженные результаты из-за того, что сами задачи некорректны. Причинами могут быть несправедливые критерии оценки (например, когда правильный ответ требует неуказанных деталей реализации) или нерешаемые среды (например, отсутствуют критически важные файлы или инструменты работают ненадёжно).
Намеренное занижение возможностей: Намеренное занижение результатов, когда система демонстрирует осведомлённость о том, что её оценивают.

Выбор правильной обвязки для оценки критически важен для оптимальных результатов

Мы наблюдали, что роль обвязки особенно важна для систем, которые действуют на более длинных траекториях. Когда модели могут использовать инструменты, поддерживать состояние и восстанавливаться после ошибок на протяжении многих шагов, обвязка может менять наблюдаемый уровень результативности и даже определять, проявится ли оцениваемая способность в оценке вообще. Например, обвязка, которая сохраняет состояние и повторяет неудачные действия, может позволить модели завершить многошаговую задачу, которую та же модель не завершает в более простой обвязке.

В таблице ниже мы выделяем три типа утверждений, которые могут делать оценщики, и обвязку, которая, по нашему мнению, требуется для каждого из них.

Утверждение, которое должна подтверждать оценка	Подходящий выбор обвязки	Доказательства для публикации
Возможности при максимальном выявлении: Система A может выполнять задачи типа X, если настройка оценки предназначена для выявления её максимально сильных правдоподобных возможностей.	Используйте наиболее сильную и правдоподобную конфигурацию выявления для системы, включая обвязку, инструменты, вспомогательные механизмы и бюджет, которые мог бы разумно использовать квалифицированный пользователь.	Обвязка и настройка инструментов, рекомендации по выявлению, разрешённый бюджет или объём усилий, токены, стоимость и время, а также почему эта настройка является правдоподобным приближением к заявленной способности. Если сравниваешь системы с разными оптимизированными настройками, обозначай это как сравнение между системами или сравнение с сильным вызовом.
Контролируемое сравнение: Система A превосходит систему B при системе совместной оценки.	Сохраняйте неизменными задачи, метод скоринга и бюджет. Используйте либо общую настройку обвязки и инструментов, либо фиксированный набор стандартизированных обвязок, выбранный заранее, чтобы обеспечить разумное максимальное выявление для сравниваемых систем.	Общий набор задач, инструменты, метод оценки, обвязка, бюджет, эффективность использования токенов и их стоимость, а также известные ограничения. В оценках агентов для программирования открытая обвязка, такая как Codex CLI, может обеспечивать фиксированный цикл агента и единый интерфейс инструментов для разных систем. Для максимального выявления оптимальным подходом была бы настройка специализированной обвязки для каждой задачи и каждой системы, однако на практике это пока нереализуемо.
Защита устойчивости при вызванной атаке: меры защиты системы A достаточны для поведения соответствующей модели или вызванной атаки.	Используйте систему защитного тестирования, предназначенную для выявления самой сильной и достоверной атаки в рамках соответствующей модели противника.	Как оценщики описали релевантное поведение модели, протестированную конфигурацию защитных мер, стратегию выявления, обвязку, с помощью которой она применялась, а также разрешённый бюджет или объём усилий.

Утверждения о возможностях настолько сильны, насколько сильно стоящее за ними выявление: оценщикам нужно выбирать обвязку, которая лучше всего соответствует задаче и способности, которую оценка пытается измерить. Стандартизированная обвязка может быть правильной для сравнения систем в идентичных условиях, но она может занижать способность, если в ней отсутствуют конкретные функции обвязки, помогающие модели выполнить задачу. Например, результаты GPT‑5.5 на кибердиапазонах OpenAI показывают, как выбор обвязки может существенно изменить измеряемую способность в задачах, требующих длительного многошагового использования инструментов: модель показывает лучшие результаты, когда обвязка использует сжатие⁠ для сохранения контекста, релевантного задаче, по мере увеличения времени взаимодействия. Это показывает, что для некоторых моделей обвязка без сжатия контекста будет недостаточно выявлять производительность.

Чем выше доля успеха, тем лучше

Другие опубликованные оценки² также показывают, что выбор обвязки и бюджета меняет результаты оценки. Увеличение вычислений во время теста может существенно изменить то, какую способность выявляет оценка, особенно в областях, где успех легко проверить, например во многих киберзадачах. В оценке кибердиапазона UK AISI⁠(открывается в новом окне) увеличение бюджета с 10M до 100M токенов улучшило результаты до 59%, и производительность продолжала расти даже на самом высоком протестированном бюджете. Указание этого делает оценку более интерпретируемой: оно показывает читателям, как результат зависит от протестированной настройки выявления. Если производительность продолжает расти при увеличении бюджета, результат следует описывать как производительность при данной обвязке и бюджете, а не как измеренный потолок способности. Способность часто зависит от ресурсов, а не является фиксированной величиной, которую можно чисто измерить раз и навсегда. Там, где успех можно измерять по повторным попыткам, в отчётах также следует учитывать ожидаемую стоимость одного успешного решения, а не только долю успеха при фиксированном бюджете токенов. Это может облегчить интерпретацию серьёзности: низкая доля успеха всё ещё может быть практически значимой, если стоимость повторных попыток укладывается в релевантную модель угроз. Для утверждений о возможностях устранимое недовыявление — это ошибка измерения: если обвязка или бюджет мешают системе продемонстрировать поведение, которое она иначе могла бы показать, то результат не измеряет заявляемую способность. Там, где оценщики продвинули выявление настолько далеко, насколько это практически возможно, а производительность всё ещё растёт, отчёты должны ясно это указывать и подчёркивать, что результат является лишь нижней оценкой.

Тестирование защитных мер может занижать вероятность успешности атаки и её потенциальную серьёзность, если не учитывать ресурсы, доступные атакующим, включая индивидуальные обвязки. В кибероценке GPT‑5.5 от UK AISI⁠(открывается в новом окне) их экспертный red teaming обнаружил универсальный jailbreak, который выявлял нарушающий правила киберконтент по всем вредоносным запросам, предоставленным OpenAI, в том числе в многоходовых агентных сценариях. Они использовали Codex для создания индивидуальной обвязки, чтобы усилить атакующую производительность модели: он встраивал повторно используемый шаблон обхода защитных мер во взаимодействие, сохранял этот шаблон между ходами и блоками и применял его ко всем вредоносным киберзапросам, предоставленным OpenAI. Тестирование защитных мер должно соответствовать противнику. Если утверждение касается устойчивости к злоупотреблению со стороны эксперта, тест должен оценивать самую сильную правдоподобную сквозную стратегию атаки в рамках заданного бюджета, включая любую обвязку, необходимую для сохранения и повторного использования этой стратегии. Иначе результаты рискуют быть некорректно откалиброванными: они могут поддерживать лишь более узкое утверждение об устойчивости к более простому промптингу, могут упустить и серьёзность атаки, и вероятность её успеха после операционализации метода выявления, а также могут завысить вероятность или серьёзность проблемы, если дать слишком большой бюджет.

Для сравнений со стандартизированными обвязками есть своё время и место, но оценщики должны явно объяснять, почему использование согласованного набора обвязок уместно и какое утверждение оно может поддержать. Оценка временного горизонта от METR⁠(открывается в новом окне) — пример более широкой, корректно фиксированной настройки оценки: она спроектирована так, чтобы давать сопоставимые результаты для оцениваемых систем. METR определяет общий исход — типичную длительность человеческой задачи, при которой, как прогнозируется, ИИ-агент добьётся успеха с заданным уровнем надёжности. В каждом пакете совместно публикуемых оценок она использует общий набор задач, метод оценки, метод аппроксимации и небольшой набор повторно используемых вспомогательных схем, таких как Triframe и ReAct⁠(открывается в новом окне). Когда METR расширила набор задач и перенесла инфраструктуру оценки из фреймворка Vivaria во фреймворк Inspect, она сообщила об этом изменении (обновление Time Horizon 1.1⁠(открывается в новом окне)) и заново оценила модели в новой настройке оценки. В этом и состоит ценность стандартизированной настройки оценки, включая согласованный набор обвязки: она может дать читателям уверенность, что различие в результатах действительно отражает различие между сравниваемыми системами, а не изменение в настройке измерения.

Мы рекомендуем, чтобы отчёты о сторонних оценках указывали, какой тип утверждения должна поддерживать их настройка оценки; описывали, насколько близко протестированное отражает это более широкое утверждение; описывали выбор обвязки, сформировавшей результат; подробно указывали, когда этот выбор меняется между оценками; и включали подтверждающие данные, показывающие, как был получен результат и насколько хорошо он обобщается на заявляемое утверждение.

Оценивайте валидность, проверяя известные риски, которые могут искажать результаты

По мере того как модели становятся более способными, результаты оценок становится легче неверно интерпретировать. По сравнению с реальными возможностями результаты оценки могут быть искусственно занижены, если модель распознаёт, что её оценивают, и стратегически занижает результат. Они могут быть завышены, если модель использует обходной путь в задаче, промпте, скоринге или обвязке. Они также могут искажаться контаминацией (когда модель уже знает ответ или может найти его, не решая задачу) либо «сломанных» задачами, которые неоднозначны, неправильно оцениваются, нерешаемы или уязвимы к непреднамеренным обходным путям. Поэтому отчёты об оценке должны сопровождать ключевые результаты обсуждением этих рисков, чтобы читатели могли оценить, отражают ли результаты предполагаемое поведение.

Обвязки, бюджеты, инструменты, правила скоринга, мониторы и процедуры проверки — всё это влияет на то, решает ли агент предполагаемую задачу, избегает её, воспроизводит по памяти или находит обходной путь. Надёжный отчёт делает такие проверки видимыми: оценщики должны просматривать примеры на предмет такого поведения каждый раз, когда проводится оценка.

Взлом вознаграждения

Взлом вознаграждения означает достижение высоких результатов оценки способами, которые не отражают предполагаемую способность. Здесь проблема в том, что система получает зачёт, используя особенности задачи, механизма скоринга, промпта или обвязки, а не выполняя работу, которую должна была измерить оценка. Оценка GPT 5.4 от METR⁠(открывается в новом окне) показывает, почему это важно: хотя модель успешно выполняла задачи с частотой, которая при первом приближении соответствовала бы временному горизонту примерно в 13 часов, проверка людьми показала, что часть этих успехов была достигнута за счёт взлома вознаграждения, и пересмотр результатов с учётом только случаев без взлома вознаграждения снизил оценку примерно до 6 часов. Оценщики должны оценивать необходимость таких корректировок и, когда они нужны, ясно о них сообщать: оценка способности гораздо полезнее, когда читатели видят, какие кажущиеся успехи были исключены, почему они были исключены и насколько результат зависит от этого суждения.

График, показывающий производительность модели ИИ во времени, с линией тренда и доверительными интервалами.

Отказы

Модели также могут показывать заниженные результаты в оценках возможностей из-за защитных мер. Модель может показывать в оценке более низкий результат, чем позволяет её способность, из-за отказа выполнять задачи оценки вместо их завершения. Поэтому в отчётах следует объяснять, были ли отказы частью результатов оценки, и если да, то сколько примеров было из-за них скомпрометировано.

Контаминация

Контаминация наиболее важна для публичных или повторно используемых бенчмарков⁠. Если задачи, ответы или их близкие варианты присутствуют в обучающих данных либо могут быть найдены агентом при поиске в интернете, результат может отражать запоминание или поиск информации, а не реальные возможности модели. По возможности оценщикам следует отдавать предпочтение закрытым или специально созданным задачам и проверять, воспроизводит ли модель специфические для задачи детали ещё до её решения.

Некорректные задачи

Некорректные задачи включают, например, случаи, когда задача непреднамеренно оказывается нерешаемой. Некорректные задачи встречаются достаточно часто⁠(открывается в новом окне), чтобы считать их стандартным риском для валидности. К ним относятся неверные эталонные данные (ground truth), неоднозначные промпты, отсутствующие файлы, нестабильные сервисы, несправедливые критерии оценки и среды, открывающие обходные пути, например скрытые файлы с ответами или история репозитория, содержащая эталонное исправление.

Намеренное занижение возможностей

Намеренное занижение возможностей со стороны модели или системы означает стратегическое занижение результатов, когда сильная производительность противоречила бы какой-либо цели. Оценка GPT‑5.5⁠(открывается в новом окне) от Apollo проверяла это, создавая контекст, в котором модель понимала, что высокие результаты оценки могут привести к удалению выученной информации или заблокировать развёртывание. GPT‑5.5 всё равно отвечала правильно, что указывает на слабые поведенческие признаки стратегического занижения результатов³. Но их анализ трасс рассуждений добавил важный контекст: Apollo обнаружила умеренные или более сильные признаки осведомлённости об оценке выравнивания в 52% примеров в условиях намеренного занижения возможностей по сравнению с 0% в контрфактических условиях. Эти данные усложняют интерпретацию результата, но в конечном счёте дают читателям больше сигнала: они видят и обнадёживающий поведенческий результат, и причину осторожно относиться к его чрезмерной интерпретации.

Как мы поддерживаем более сильные оценки

Сильные утверждения требуют как подходящей обвязки для выявления поведения, так и проверок валидности, которые показывают, что результат обоснован. Наш подход, согласно которому обвязка и проверки валидности являются частью результата оценки, определяет то, как мы на практике поддерживаем сторонние оценки:

Мы делимся с оценщиками конкретными рекомендациями по максимальному выявлению.
Мы просим оценщиков возможностей использовать Codex как общий минимальный уровень для моделей OpenAI: тесты должны как минимум запускать базовый вариант через тот же агентный интерфейс, на который, вероятно, будут полагаться пользователи, а не только через упрощённый интерфейс модели.
Мы также предоставляем трассы рассуждений и другие промежуточные артефакты там, где они нужны для оценки обмана, намеренного занижения возможностей или осведомлённости об оценке. METR и Apollo используют этот доступ в оценках OpenAI со времён GPT‑5.
Наконец, мы уделяем приоритетное внимание исследованиям, чтобы глубже понять, когда и как выбор обвязки существенно меняет результаты — от управления контекстом и доступа к инструментам до поведения при повторах, скоринга и ресурсных бюджетов.

Что это означает для стандартов оценки и будущих направлений исследований

Эти рекомендации предназначены не только для улучшения отдельных отчётов об оценке, но и для информирования формирующихся национальных ⁠(открывается в новом окне)и международных ⁠(открывается в новом окне)стандартов оценки и отчётности по передовому ИИ. В дальнейшем стандарты сторонней оценки должны требовать достаточно подробностей, чтобы лица, принимающие решения, понимали, какие утверждения поддерживают конкретные оценки, какая система тестировалась, как был получен результат и как оценщики проверяли его валидность. Для передовых систем, тестируемых на задачах, где важны агентные возможности, такие детали должны включать (с учётом любых соображений безопасности или конфиденциальности):

Утверждение: предназначена ли оценка для сравнения разных систем, оценки предела возможностей или проверки защитных мер.
Содержание оценки: достаточно подробностей о задачах или распределении задач, чтобы читатели понимали, какие навыки, виды поведения или режимы отказа оценка фактически тестирует.
Тестируемая система: модель, настройка рассуждений, доступ к инструментам, обвязка и защитные меры.
Бюджет: число ходов, токенов, попыток и повторных попыток, фактически затраченное время, стоимость инференса и, где применимо, ожидаемая стоимость одного успешного решения.
Методы выявления: выбор обвязки, использованной для получения результата, и насколько близко протестированное отражает более широкое заявляемое утверждение.
Проверки валидности: как оценщики искали взлом вознаграждения, осведомлённость об оценке, контаминацию, отказы, намеренное занижение возможностей и другие виды поведения, которые могли подорвать результат, включая то, как подтверждённые случаи повлияли на скоринг или интерпретацию.

Стандарты, которые не учитывают выбор обвязки или проверки валидности, могут занижать то, что система способна делать, или завышать уверенность в утверждении о безопасности. Создание сильных обвязок и методов выявления остаётся открытой областью исследований и должно быть в центре дальнейшего изучения и инвестиций.

2026

Автор

OpenAI

Глоссарий

Поскольку в этом посте мы используем ряд специальных терминов, ниже мы включили глоссарий с простым объяснением того, что мы имеем в виду:

Агентная система: Система, которая может выполнять задачу в несколько шагов, используя инструменты, сохраняя состояние задачи и действуя в среде, а не только возвращая один ответ на промпт.
Оценка: Более широкое суждение о том, подтверждают ли доказательства утверждение, вывод о риске или позицию об обеспеченности, которое может основываться на данных оценивания, анализе документов, интервью, проверке процессов и других релевантных артефактах.
Сжатие контекста: Метод сохранения контекста, релевантного задаче, во время длительных прогонов.
Конфигурация: Точно протестированная система и условия оценки, помимо названия модели.
Контаминация: Ситуация, когда задачи оценки, ответы или близкие варианты появляются в обучающих данных модели или могут быть найдены во время оценки (например, через инструменты вроде браузинга), из-за чего результаты завышают реальную способность модели к обобщению.
Выявление: Процесс попытки извлечь из системы способность или поведение в ходе оценки.
Среда: Контекст задачи, в котором тестируется система. Сюда входят, например, внешнее состояние, с которым агент взаимодействует и которое изменяет во время оценки, например терминальная среда или видеоигра.
Оценивание: Конкретный тест или измерение в рамках оценки.
Осведомлённость об оценке: Осведомлённость об оценке означает, что модель распознаёт или, по-видимому, распознаёт, что её оценивают, и потенциально корректирует своё поведение в ответ на этот контекст. Это может выглядеть так, что модель явно рассуждает о том, что её тестируют, выводит цель оценки или меняет своё поведение, потому что ожидает, что результат повлияет на то, как её будут оценивать или развёртывать.
Обвязка (Harness): Ориентированная на модель структура, которая позволяет модели выполнять задачу: промпты, инструменты, интерфейсы, управляющая логика, память, повторы попыток, валидаторы и другие поддерживающие структуры вокруг модели.
Максимальное выявление: Тестирование, направленное на поиск максимально сильной правдоподобной производительности или режима отказа, который система может показать в рамках заданного бюджета, а не просто однократный прогон системы через стандартизированную обвязку.
Трассы рассуждений: Записи промежуточных рассуждений модели во время теста.
Взлом вознаграждения: Получение высокого балла за счёт обходного пути или поведения вне замысла оценщика.
Защитные меры: Фильтры, мониторы, блокирующие системы и другие меры защиты, применяемые вокруг модели или продукта.
Намеренное занижение возможностей (Sandbagging): Стратегическое занижение результатов в ходе оценки таким образом, что это подрывает итоговый результат.
Скоринг: Метод, используемый для определения того, как измеряется результативность или была ли задача успешно выполнена.
Стандартизированная обвязка: Обвязка, которая сохраняется одинаковой для разных систем, а не настраивается под конкретную модель или задачу, чтобы различия в результатах было легче отнести к тестируемой модели.
Временной горизонт: Длина задачи, которую система может выполнить с заданной надёжностью; часто выражается через то, сколько времени та же задача заняла бы у человека.
Доступ к инструментам: Внешние инструменты, доступные модели во время оценки.
Траектории: Пошаговые пути, по которым система идёт при выполнении задачи.
Универсальный jailbreak: Единый шаблон атаки, который заставляет систему обходить защитные меры во множестве промптов или задач.

Сноски

1
Этот пост не пытается решить, как третьим сторонам следует оценивать утверждения о несоответствии целям или склонностях модели. Нужна дополнительная работа, чтобы понять, как выбор обвязки влияет на такие оценки, особенно потому, что обвязки, поддерживающие более длинный временной горизонт поведения, могут также менять виды непреднамеренного поведения, за которыми оценщикам нужно следить.
2
HAL⁠(открывается в новом окне) даёт дополнительный пример из оценок агентов: в CORE-Bench⁠(открывается в новом окне) замена обвязки на Claude Code изменила и измеренную производительность, и профиль затрат на одном и том же бенчмарке. Среди других публичных примеров — SWE-agent⁠(открывается в новом окне), SeeAct⁠(открывается в новом окне), ScienceAgentBench⁠(открывается в новом окне), CORE-Bench⁠(открывается в новом окне) и Inspect Cyber⁠(открывается в новом окне); каждый из них сообщает читателям, какой интерфейс или обвязка дали этот результат.
3
100% на обоих вариантах Sandbagging QA и 99,6% на задаче намеренного занижения возможностей со стратегическим обманом.

Читать далее

Просмотреть все

Safety and alignment in an era of long-horizon models

Безопасность20 июл. 2026 г.

Why teens deserve access to safe AI

Безопасность16 июл. 2026 г.

GPT-Red: самоулучшение ради устойчивости

Безопасность15 июл. 2026 г.