Моделям рассуждений сложно управлять своими цепочками рассуждений — и это хорошо
Почему это ограничение передовых моделей вселяет уверенность в безопасности ИИ.
По мере того как ИИ‑агенты становятся способны выполнять всё более сложные и автономные задачи, особенно важно сохранять надёжный контроль за их поведением. В соответствии с нашим принципом поэтапного развёртывания мы изучаем, как системы ведут себя в реальных условиях, и постоянно дорабатываем меры защиты по мере роста их возможностей. Чтобы поддерживать этот подход, наш подход к безопасности использует многоуровневую защиту: несколько взаимодополняющих слоёв, таких как обучение с учётом безопасности, поведенческое тестирование, агентный код‑ревью(открывается в новом окне) и мониторинг цепочки рассуждений (CoT). Мониторинг CoT анализирует шаги рассуждений, которые агенты генерируют при выполнении задач. Эти следы рассуждений могут давать ценные сигналы как на этапе обучения, так и при развёртывании, помогая системам мониторинга выявлять, когда поведение агента может быть небезопасным или расходиться с целями пользователя.
Сейчас мы видим, что рассуждения моделей в целом интерпретируемы и их легко мониторить. Однако в будущем наблюдаемость может ухудшиться по ряду причин(открывается в новом окне). Здесь мы фокусируемся на одном из таких сценариев: если агенты научатся намеренно менять или скрывать свои рассуждения, зная, что за ними наблюдают, оценки могут завышать представление о том, насколько система согласованна и безопасна, а системы мониторинга могут становиться менее надёжными.
В этой работе мы изучаем, способны ли текущие модели рассуждений управлять своей цепочкой рассуждений так, чтобы снижать наблюдаемость. Понимание этой способности важно, чтобы мониторинг CoT оставался надёжной мерой защиты по мере роста возможностей ИИ‑систем. Мы обнаружили, что текущим моделям рассуждений трудно управлять своими CoT, даже когда им прямо говорят, что за ними наблюдают. Хотя управляемость выше у более крупных моделей, она снижается, когда от моделей требуют более длинных рассуждений и когда они проходят дополнительное постобучение. Наши результаты показывают, что управляемость CoT вряд ли уже сейчас создаёт серьёзный риск для мониторинга CoT, хотя по мере развития моделей важно продолжать оценки.
Цепочка рассуждений (CoT) — это промежуточные шаги рассуждений, которые ИИ‑агент генерирует при решении задачи. Эти следы рассуждений могут давать полезные сигналы безопасности, помогая системам мониторинга оценивать, насколько поведение агента безопасно и согласовано с целями.
Управляемость CoT — это способность модели рассуждений управлять свойствами своей CoT так, чтобы снижать наблюдаемость. Измерить эту способность во всём многообразии реалистичных стимулов к обходу мониторинга, с которыми мы можем столкнуться на практике, сложно. Поэтому мы используем практический суррогат: измеряем способность модели следовать пользовательским инструкциям относительно её CoT. Например, мы проверяем, может ли модель выполнять инструкции, которые затрагивают её внутренние рассуждения — такие как использование только строчных букв, избегание определённых ключевых слов или добавление заданных фраз, — а не просто менять видимый вывод.
Чтобы изучить это, мы представляем CoT-Control — открытый набор оценок для измерения управляемости CoT у моделей рассуждений. CoT-Control включает более 13 000 задач, построенных на основе известных бенчмарков: GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified. Каждая задача создаётся путём сочетания бенчмарк‑задачи с одной инструкцией для CoT — например, избегать определённых ключевых слов, связанных с задачей, использовать только строчные буквы или добавлять заданное слово в конец каждого предложения.
Мы провели оценки для 13 моделей рассуждений и обнаружили, что всем им сложно надёжно управлять своими CoT. Мы измеряем управляемость как долю следов рассуждений, в которых модель успешно выполняет наши инструкции для CoT. Для передовых моделей оценки управляемости CoT низкие: от 0,1% и не превышают 15,4% ни для одной из протестированных нами текущих передовых моделей.
Эта неспособность не связана с непониманием задачи: модели часто прямо отмечают в своей CoT, что не выполняют данные им инструкции для CoT, и — даже осознав это — продолжают их нарушать. Такое неожиданно низкое качество — хорошая новость для мониторинга CoT: это говорит о том, что моделям, вероятно, так же сложно скрывать свои рассуждения, чтобы обойти наши системы мониторинга.
Способность нескольких передовых моделей управлять своими ответами и CoT. Более низкая управляемость CoT связана с более высокой наблюдаемостью и, следовательно, большей безопасностью.
Примеры сбоев при управлении CoT
Вопросы переформулированы и сокращены.
GPT-5.2 Thinking
GPT‑5.2 Thinking понимает, что ей нельзя использовать запрещённое слово (красным), но затем, паникуя из‑за того, что уже его использовала, повторяет его ещё 4 раза.
Хотя мы видим, что управляемость растёт с размером модели, мы также обнаружили, что она быстро снижается по мере увеличения объёма постобучения и вычислений во время инференса. Если смотреть на две семейства моделей с открытыми весами, более крупные модели несколько лучше управляют своими цепочками рассуждений, но этот эффект ослабевает на больших размерах. Однако когда мы позволяем моделям «думать» дольше, им становится сложнее контролировать эти цепочки рассуждений. Похожий тренд мы увидели при обучении с подкреплением модели OLMo-3-7B-RL-Zero-Math: её оценка управляемости за время обучения упала более чем в десять раз.
В моделях с открытыми весами управляемость растёт с масштабом, но ухудшается при более длинных рассуждениях и большем объёме обучения с подкреплением.
Чтобы смоделировать реалистичные стимулы к обходу мониторинга, мы измеряем управляемость, когда моделям сообщают, что за их CoT ведётся наблюдение или что их оценивают. Это немного, но заметно повышает управляемость. Мы также используем автоматическую оптимизацию промптов, чтобы находить промпты, вызывающие высокую управляемость. Хотя оптимизатор может повысить управляемость на обучающем наборе, эти улучшения плохо переносятся на новые типы инструкций (например, требование не использовать пробелы между словами).
Управляемость CoT измеряется в условиях противодействия. «Осведомлённость о мониторинге» означает настройки, в которых мы сообщаем моделям, что за их CoT наблюдают. «Осведомлённость об оценке» означает настройки, в которых мы сообщаем моделям, что их оценивают по управляемости CoT.
Задачи в CoT-Control — это практические суррогаты: идеальная оценка управляемости CoT включала бы проверку того, могут ли модели, которые естественным образом преследуют несогласованные цели, управлять своей CoT, чтобы обходить мониторинг. Вместо этого мы оцениваем способность агентов управлять своими CoT, измеряя их способность следовать инструкциям о CoT. Кроме того, модели лучше контролируют одни свойства CoT, чем другие, а CoT-Control может как завышать, так и занижать управляемость, поскольку измеряет лишь узкий набор типов управляемости.
Низкая управляемость CoT — это достоинство, а не недостаток. Низкая управляемость текущих моделей рассуждений делает мониторинг CoT более надёжной мерой защиты. В то же время мы пока не понимаем, почему управляемость текущих моделей рассуждений низкая — и сохранится ли это свойство по мере роста их возможностей. Поэтому оценки управляемости CoT можно рассматривать как «канареечную» метрику: ранний сигнал о том, что модели начинают лучше формировать или скрывать свои рассуждения.
Наши результаты показывают, что управляемость CoT вряд ли уже сейчас создаёт серьёзный риск для мониторинга CoT. Однако низкой управляемости само по себе недостаточно, чтобы гарантировать высокую наблюдаемость: она может ухудшаться и по другим причинам, например из‑за прямого оптимизационного давления на CoT.
Чтобы отслеживать эти динамики со временем, мы начнём публиковать показатели управляемости CoT вместе с наблюдаемостью CoT в системных карточках для будущих передовых моделей, начиная с GPT‑5.4 Thinking, продолжая нашу практику не оказывать прямое оптимизационное давление на CoT передовых моделей рассуждений.
Авторы
Tomek Korbak, Micah Carroll, Bowen Baker, Ian Kivlichan


