Прогнозирование поведения модели до выпуска с помощью симуляции развертывания
Использование реалистичных контекстов разговоров для более точной оценки нежелательного поведения модели до выпуска.
Перед выпуском новой модели лабораториям нужно понимать не только, что она может делать, но и как она, вероятно, будет вести себя при реальном использовании, включая ситуации, где она может создавать новые риски. Это становится еще важнее по мере роста возможностей. В рамках проверки безопасности перед развертыванием мы используем целевые оценки, red-teaming и другие проверки, чтобы понять поведение модели. Теперь мы начали использовать метод симуляции развертываний модели до того, как они произойдут; он добавляет дополнительный сигнал: похожий на развертывание предварительный просмотр того, как модель-кандидат может вести себя до того, как попадет к пользователям.
Симуляция развертывания (Deployment Simulation) — это метод симуляции будущего развертывания до того, как оно произойдет. Мы делаем это, воспроизводя предыдущие разговоры с новой моделью-кандидатом в режиме, сохраняющем конфиденциальность. Это позволяет нам до выпуска изучать, как новая модель отвечает в реалистичных контекстах, в том числе появляются ли новые нежелательные поведения и как часто они могут возникать.
В нескольких развертываниях моделей Thinking серии GPT‑5 Симуляция развертывания повысила точность наших оценок частоты нежелательного поведения модели, помогла выявить новые формы несогласованности до выпуска и снизить риск того, что модели смогут понять, что их тестируют. Мы также применили этот метод к сложным агентным развертываниям и показали, что он может выходить за рамки стандартного чата, применяться к более сложным агентным средам с использованием инструментов, а также использоваться для оценки рисков перед внутренними развертываниями моделей.
Мы уже использовали выводы Симуляции развертывания при разработке моделей, чтобы выявлять слепые зоны в традиционных оценках и определять меры снижения рисков и решения о развертывании. По мере того как мы упрощаем запуск этого конвейера, мы ожидаем, что он будет играть более важную роль в дальнейшем процессе разработки моделей.
Оценки перед развертыванием, используемые в отрасли, обычно состоят из сочетания синтетических, написанных вручную или производственных промптов, специально выбранных как сложные, высокорисковые или состязательные. У таких оценок обычно было две взаимосвязанные цели: оценить, как модель отвечает при стресс-тестировании в ситуациях, которые с очень малой вероятностью возникнут в трафике развертывания, и получить общее понимание нежелательного поведения модели, включая поиск новых типов нежелательного поведения и прогноз их частоты во время развертывания.
Хотя традиционные оценки остаются критически важными для первой цели, Симуляция развертывания представляет собой значительный шаг вперед в отношении второй цели для рисков, не относящихся к хвостовым (в наших экспериментах нельзя ожидать, что наш подход измерит поведения, встречающиеся реже чем 1 раз на 200 000 сообщений). Сила Симуляции развертывания в том, что она обходит некоторые ключевые проблемы традиционных оценок:
- Покрытие: трудно быть уверенными, что оценочные промпты охватят все возможные типы нежелательного поведения модели. Измерение новых типов нежелательного поведения требует создания новых оценок и знания того, какие виды вреда нужно измерять. Это может требовать много времени и труда, а оценки со временем могут насыщаться.
- Смещения отбора: традиционные оценки обычно строятся с учетом конкретных типов нежелательного поведения модели и выбираются так, что смещаются в сторону контекстов, уже встречавшихся ранее. Это может делать их оценки менее информативными о частоте таких случаев во всей широте распределения развертывания.
- Распознаваемость тестов моделями: модели все чаще способны определять, что их тестируют, что может искажать их поведение и наши последующие измерения их безопасности. Хотя многие традиционные оценки, которые мы используем в OpenAI, также взяты из производственного трафика и не страдают от этой проблемы, это распространенная обеспокоенность для многих традиционных оценок, используемых в отрасли.
Основная техника Симуляции развертывания проста: мы берем недавние разговоры из развертывания, удаляем исходный ответ ассистента от более старой модели и заново генерируем его с помощью модели-кандидата, которую планируется выпустить. Мы оцениваем завершения, ища новые режимы отказа, и оцениваем частоту нежелательного поведения во время развертывания на основе частоты в этом похожем на развертывание распределении. Мы можем выполнять те же измерения после выпуска на реальном трафике развертывания, что позволяет нам проверять наши прогнозы перед развертыванием.
Симуляция развертывания существенно смягчает три ограничения, перечисленные выше: смещение выборки устраняется за счет использования распределения оценочных промптов, репрезентативного для недавнего использования. Симуляция развертывания с репрезентативными промптами также может снизить опасения по поводу покрытия: мы получаем более широкое покрытие нежелательного поведения модели, просто симулируя больше трафика. Этот компромисс между вычислениями и покрытием важен, потому что он заставляет качество этой оси оценки риска масштабироваться с вычислениями, а не с ручными усилиями, необходимыми для создания большего числа оценок. Кроме того, модели, по-видимому, не способны отличать разговоры, полученные через симуляцию развертывания, от реального трафика развертывания.
Рисунок 1: Обзор нашего конвейера Симуляции развертывания
Область | Традиционные оценки | Симуляция развертывания |
Покрытие | Лучше для рисков с низкой распространенностью, но высокой серьезностью, для которых мы хотим гарантировать покрытие | Лучше для понимания спектра рисков, которые мы, вероятно, увидим в трафике развертывания |
Репрезентативность / смещение | Сосредоточены на оценке целевых прошлых или прогнозируемых рисков, даже для поведений с крайне низкой распространенностью в развертывании | Репрезентативна для рисков, которые встречаются выше определенного уровня распространенности в текущем трафике развертывания |
Осведомленность об оценке | Потенциально очевидные признаки теста (например, при синтетических данных), если оценки не создаются на данных развертывания | Контекст, похожий на реальное развертывание, по-видимому, существенно снижает осведомленность об оценке |
Усилия | Пользовательские распределения промптов и настройки требуют значительно больше ручных усилий | Требует единовременных затрат на инфраструктуру, а затем повторно использует префиксы из развертывания и оценщики известных нежелательных поведений |
Общее сравнение традиционных оценок и Симуляции развертывания
Чтобы оценить Симуляцию развертывания, мы предварительно зарегистрировали прогнозы частоты 20 типов нежелательного поведения во время развертывания для GPT‑5.4 Thinking. Мы также провели ретроспективные исследования по другим развертываниям моделей Thinking серии GPT‑5. Поведения модели, которые мы анализируем, охватывают как несогласованность, так и категории запрещенного контента, о которых мы сообщали в системных карточках (например, когда модель лжет об инструментах или выводит запрещенный сексуальный контент). Хотя в этих результатах мы отслеживаем только 20 категорий нежелательного поведения модели и ищем только новые несогласованные поведения, Симуляция развертывания — это общая техника, которую можно применить для симуляции любого свойства модели во время развертывания.
Производственный трафик, который мы использовали, также был взят из моделей Thinking серии GPT‑5. Перед запуском оценок мы автоматически удалили идентификаторы, связанные с аккаунтами, и идентифицируемую информацию. В соответствии с нашей политикой конфиденциальности мы анализировали только трафик ChatGPT от пользователей, которые разрешают использовать свои данные для улучшения моделей. Мы сообщаем только агрегированные результаты этих оценок. В общей сложности мы проанализировали примерно 1,3 миллиона деидентифицированных разговоров в развертываниях от GPT‑5 Thinking до GPT‑5.4 за период с августа 2025 года по март 2026 года.
Мы оцениваем качество оценки рисков перед развертыванием, полученной с помощью Симуляции развертывания, тремя основными способами:
- Покрытие таксономии: выявил ли аудит после выпуска какие-либо важные несогласованные поведения, отсутствовавшие в нашей исходной таксономии плохого поведения?
- Точность направления: правильно ли симуляция предсказала, вырастет или снизится распространенность известных поведений при развертывании?
- Калибровка частот: были ли наши оценки перед развертыванием близки к частотам, которые мы позже наблюдали в развертывании? Хорошая калибровка частот требует большего, чем точность направления, поэтому это самый высокий возможный стандарт качества.
Мы также измеряем, насколько модели способны понять, что находятся в оценке во время Симуляции развертывания, и проверяем устойчивость метода к разным формам трафика развертывания и сложным сценариям использования инструментов.
В развертываниях Thinking серии GPT‑5 Симуляция развертывания превзошла базовые подходы со сложными промптами при определении фактической частоты риска, смогла выявить «взлом калькулятора» до выпуска и, по-видимому, была потенциально неотличима для модели от развертывания.
Обзор наших прогнозов. Визуализацию всех прогнозов для развертываний моделей Thinking серии GPT‑5 см. на рисунке 2. Прогнозы для GPT‑5.4 Thinking были предварительно зарегистрированы, тогда как остальные были ретроактивными прогнозами. В совокупности наши прогнозы имели медианную мультипликативную ошибку 1,5x (например, если частота нежелательного поведения составляет 10 на 100 тыс., это соответствовало бы оценке частоты 15 или 6,67 на 100 тыс.). Хотя хвостовые ошибки нашего метода могут быть примерно в 10 раз больше, мы ожидаем, что их можно существенно снизить при дальнейших улучшениях нашего конвейера симуляции, как обсуждается ниже.
Рисунок 2. Прогнозы частоты нежелательного поведения во время развертывания, полученные с помощью Симуляции развертывания на основе данных предыдущего развертывания. Обозначение 5.1 → 5 означает, что мы ресемплируем ответы GPT‑5.1 на префиксах из GPT‑5, то есть симулируем развертывание GPT‑5.1 на основе данных GPT‑5. Самая высокая частота несогласованного поведения в GPT‑5.1 пришлась на «взлом калькулятора» в GPT‑5.1; который мы уже обсуждали ранее(открывается в новом окне).
Сравнение прогнозов Симуляции развертывания с базовыми подходами. Наиболее важные категории, которые нужно правильно оценить для оценки рисков перед развертыванием, — это те, где после развертывания модели наблюдаются большие изменения частоты (например, >= 1,5x). На этом подмножестве Симуляция развертывания существенно лучше базовых подходов как в предсказании того, вырастет или снизится распространенность определенного нежелательного поведения при развертывании модели (рисунок 3, слева), так и в оценке его точной частоты во время развертывания (рисунок 3, справа). Мы используем два основных базовых подхода: базовый подход Challenging Prompts (Сложные промпты), который мы сейчас используем для системных карточек и решений о запуске, и наивный подход, где частоты из предыдущего развертывания используются как оценки для новой модели.
Рисунок 3. Симуляция развертывания лучше статических оценок предсказывает как направление изменений частоты (слева), так и точные производственные частоты (справа).
Источники ошибки симуляции в нашем конвейере. Мы также изучили текущие источники ошибок в нашем конвейере. В частности, большие хвостовые ошибки делают конвейер менее надежным для решений о развертывании: например, когда мы видим большой прогнозируемый рост нежелательного поведения определенного типа, если известно, что конвейер хотя бы изредка дает большие ошибки, это вызывает сомнение, является ли эта оценка надежной или артефактом конвейера. Есть два основных источника возможной ошибки:
- Ошибка точности среды ресемплинга: чтобы точно оценивать производственные частоты, наш конвейер симуляции должен быть максимально реалистичным. Отчасти это инженерная проблема (семплирование из модели с использованием тех же конвейеров, что применяются для производственного трафика), а отчасти интересная задача для инструментов, которым нужен доступ на чтение/запись к внешним ресурсам, постоянно меняющимся (например, веб-поиск или взаимодействие с локальными файлами). Мы можем изолировать ошибку точности симуляции, сравнив прогнозы из фактического развертывания и его симуляции (то есть симулируя развертывание уже развернутой модели).
- Ошибка сдвига распределения промптов: серьезная проблема Симуляции развертывания состоит в том, что развертывание любой модели вызовет сдвиг распределения входов, особенно если пользователи адаптируются к новым возможностям модели. Мы изолируем ошибку распределения промптов, сравнивая оценки при симуляции развертывания с использованием недавних промптов и промптов из реализованного развертывания.
Как видно на рисунке 4, мы обнаружили, что большая доля ошибки в нашем конвейере — особенно для хвостовых ошибок — сейчас обусловлена точностью симуляции. Это хорошая новость, поскольку мы ожидаем, что точность симуляции в целом проще улучшать, чем сокращать сдвиг распределения промптов. Мы также обнаружили, что ошибку сдвига распределения промптов можно снизить, используя самые свежие данные из предыдущего развертывания. Более подробную информацию можно найти в исследовательской статье.
Рисунок 4: Точность среды ресемплинга, по-видимому, является крупнейшим источником ошибки в наших оценках, особенно для самых экстремальных ошибок.
Автоматизированный аудит нашел единственную новую несогласованность, внесенную в этих развертываниях. В изученном нами окне развертывания наш конвейер автоматизированного аудита на основе симулированных развертываний выявил бы «взлом калькулятора» до выпуска; это была единственная новая несогласованность, которую мы обнаружили в проанализированном трафике ChatGPT. «Взлом калькулятора» — это форма взлома вознаграждения, при которой модель использует браузерный инструмент как калькулятор, представляя действие как поиск. Это не значит, что крупномасштабный аудит поймает каждый новый сбой, но показывает, почему важны реалистичные контексты: они могут вызывать поведения, которые более узкие наборы оценок могут никогда не выявить напрямую, даже если их не было в исходном трафике, использованном для запуска симуляции.
Еще одно преимущество использования контекстов, похожих на развертывание, заключается в том, что они могут снижать искажения, возникающие, когда модели распознают, что их тестируют. В предыдущих исследованиях мы, а также другие(открывается в новом окне) обнаружили, что модели часто осознают, когда их тестируют. Например, модели могут рассуждать в своей цепочке рассуждений (CoT) о том, на чем их тестируют, что может понравиться оценщику и — если они ведут себя неправильно — поймают ли их. Это создает проблему для оценок выравнивания: если модель ведет себя хорошо только потому, что думает, что ее тестируют, как нам обрести уверенность, что она будет вести себя безопасно, когда узнает, что уже развернута?
Мы показываем, что Симуляция развертывания существенно снижает уровни осведомленности об оценке, проявляемые моделями, по сравнению с традиционными оценками, не основанными на реальных данных развертывания. Мы измеряем осведомленность об оценке тремя способами: просим модель классифицировать, была ли траектория из производства или из оценки, отслеживаем цепочку рассуждений (CoT) на предмет явных утверждений о том, что ее оценивают на выравнивание, а также на предмет метагейминга(открывается в новом окне): любых рассуждений о надзоре. Симулированный трафик развертывания близко соответствовал реальному трафику развертывания по всем трем метрикам. Например, GPT‑5.2 помечала реальный производственный трафик как похожий на оценку в 5,4% случаев, а симулированный трафик — в 5,1% случаев, тогда как традиционные оценки (такие как SWE-Bench или MonorepoBench, состоящие в основном из синтетических примеров) классифицировались как оценки почти в 100% случаев.
Рисунок 5. Сравнение осведомленности об оценке: реальный производственный трафик и симулированный трафик показывают похожие уровни обнаружения оценки, вербализованной осведомленности об оценке выравнивания и метагейминга, тогда как традиционные наборы данных для оценок дают намного более высокие показатели.
Чтобы проверить, может ли метод выходить за рамки стандартных режимов чата, мы также изучили симуляцию развертываний для сложных сред агентного программирования. В частности, мы используем 120 000 внутренних агентных траекторий сотрудников из GPT‑5.4, чтобы симулировать внутреннее развертывание кодирующих агентов на основе GPT‑5.5. Это служит двум целям: показывает, как симуляцию развертывания можно также использовать для оценки рисков внутренних развертываний, и демонстрирует, что можно добиться высокой точности симуляции даже в агентных средах благодаря тщательной симуляции инструментов.
Выше мы обсуждали, что точность симуляции — один из основных источников ошибки в нашем текущем конвейере. Одна из трудностей в создании реалистичных симуляций развертывания состоит в том, что инструменты должны действовать реалистично, даже когда им нужен доступ на чтение/запись к внешним ресурсам, которые постоянно меняются (например, веб-поиск или взаимодействие с локальными файлами).
Это особенно сложно для сред вроде агентных развертываний: одна траектория агента может зависеть от сотен вызовов инструментов, состояния репозитория, сетевых ответов или временных сбоев. Это делает ресемплинг с реальным доступом к инструментам одновременно сложным и потенциально опасным. В связи с этим вместо применения вызовов инструментов к живым системам мы симулируем их с помощью другой LLM. Мы показываем, что предоставление этой LLM дополнительных возможностей необходимо для реалистичности, а значит, и для качества оценки.
Мы даем модели-симулятору инструментов исходный rollout последнего хода, репозиторий на момент разговора, базу данных пар вызовов инструментов и ответов, а также коннекторы только для чтения. В тесте, где дискриминатор пытался отличить симулированные rollout от реальных, реалистичность выросла с доли побед 11,6% до 49,5%, почти до уровня случайного выбора в 50%.
Рисунок 6: Реалистичность ресемплинга можно сделать почти неотличимой от реального семплирования даже в насыщенных инструментами средах, если симулировать вызовы инструментов с расширенными возможностями.
Как дополнительное свидетельство точности симуляции, при симуляции трафика GPT‑5.4 Codex thinking с помощью GPT‑5.4 уровни несогласованности практически находятся в пределах доверительных интервалов. Напротив, в нашем тестировании перед развертыванием GPT‑5.5 была менее согласованной в большинстве категорий.
Рисунок 7: При симуляции инструментов частоты поведения для разговоров, ресемплированных с GPT‑5.4, и фактического производственного трафика GPT‑5.4 весьма похожи — это указывает на высокую точность среды ресемплинга. Дополнительный контекст по категориям см. в системной карточке GPT‑5.5(открывается в новом окне).
Эти результаты показывают, что Симуляция развертывания может распространяться на сложные агентные среды, если окружающая инструментальная среда симулируется с достаточной точностью.
Естественный вопрос — могут ли внешние аудиторы получить часть тех же преимуществ без доступа к приватному производственному трафику. Мы проверили это на 100 000 разговоров WildChat, использованных как префиксы. WildChat был менее точным, чем недавние производственные данные OpenAI, но все же информативным: у недавних производственных данных средняя мультипликативная ошибка была ниже, чем у WildChat (1,75× против 2,44×), при этом WildChat часто оставался примерно в пределах 3× от производственных частот и определял лучшую модель с частотой выше случайной. Мы рассматриваем оценки в стиле WildChat как перспективное дополнение к Симуляции развертывания, запускаемой разработчиками. Больше результатов по этому вопросу см. в сопутствующей публикации в блоге Alignment(открывается в новом окне).
Симуляция развертывания — это дополнение, а не замена состязательным оценкам, red-teaming и целевому анализу хвостовых рисков. Обнаружение некоторых нежелательных поведений модели опирается на наблюдаемость цепочки рассуждений (CoT): если будущие модели будут рассуждать менее разборчиво, опускать ключевые шаги или научатся скрывать намерение, мы можем не суметь обнаруживать эти формы нежелательного поведения. Кроме того, поскольку производственные данные являются приватными, разработчики сейчас имеют более широкий доступ к репрезентативным контекстам, чем внешние аудиторы. Более качественные публичные наборы данных могли бы сократить этот разрыв.
Симуляция развертывания наиболее полезна для поведений, которые встречаются достаточно часто, чтобы появляться в семплированных префиксах. Сбой, который происходит один раз на десять миллионов разговоров, вряд ли будет обнаружен в прогоне на выборке из миллиона примеров, поэтому состязательные оценки, red-teaming и целевой анализ хвостовых рисков остаются необходимыми. Сейчас мы сосредоточены на симуляции одного ответа ассистента, поскольку в предварительных экспериментах не нашли значимых улучшений наших оценок при симуляции нескольких ходов. В будущем это может стать важным направлением для повышения точности симуляции.
Метод также зависит от распределения префиксов — смеси разговоров, которые ресемплируются. Исторический трафик может не соответствовать тому, как пользователи взаимодействуют с более способной моделью после крупного изменения продукта, выпуска нового инструмента, мирового события или сезонного сдвига. Анализ в полной статье показывает, что эту проблему можно смягчить, используя самые свежие доступные данные.
Симуляция развертывания — это новый подход к оценке рисков перед развертыванием, который помогает передовым лабораториям и оценщикам прогнозировать, как языковые модели могут вести себя в реальном мире, и понимать риски, которые они создают, до развертывания. Он дополняет существующие оценки безопасности, red-teaming и целевой анализ, добавляя более похожий на производство слой прогнозирования, который может улучшать оценки поведения при развертывании, снижать эффекты осведомленности об оценке и делать прогнозы перед развертыванием проверяемыми после выпуска. При использовании вместе с традиционными оценками Симуляция развертывания может сделать оценку рисков моделей более реалистичной, более количественной и более полезной для решений о развертывании.


