Моделите със структурирано анализиране трудно контролират своето логическо мислене и това е добре
Защо едно ограничение на авангардните модели е обнадеждаващо за безопасността на ИИ.
Тъй като агентите с ИИ стават способни да изпълняват все по-сложни и автономни задачи, поддържането на надежден надзор върху тяхното поведение става все по-важно. В съответствие с нашия принцип на итеративно внедряване изучаваме как системите се държат в реални условия и непрекъснато усъвършенстваме защитните мерки с напредването на възможностите. В подкрепа на това, нашият подход към безопасността използва защита в дълбочина, с множество допълващи се слоеве на защита, като например обучение по безопасност, поведенческо тестване, преглед на агентен код(отваря се в нов прозорец) и наблюдение на логическо мислене (CoT). Наблюдението на логическото мислене анализира стъпките на структурирано анализиране, които агентите генерират, докато изпълняват задачи. Тези следи от структурирано анализиране могат да предоставят ценни сигнали както по време на обучение, така и при внедряване, като помагат на системите за мониторинг да идентифицират кога поведението на агент може да е опасно или несъответстващо на целите, които потребителят е имал предвид.
Днес установяваме, че структурираното анализиране на моделите като цяло подлежи на тълкуване и е лесно за наблюдение. Въпреки това, в бъдеще наблюдаемостта може да се разпадне по различни причини(отваря се в нов прозорец). Тук се фокусираме върху един такъв вариант: ако агентите станат способни умишлено да преформатират или прикриват своето структурирано анализиране, когато знаят, че са наблюдавани, оценките биха могли да надценят съгласуваността или безопасността на една система, а системите за наблюдение биха могли да станат по-малко надеждни.
В тази работа изследваме дали настоящите модели със структурирано анализиране са способни да контролират своето логическо мислене по начини, които намаляват наблюдаемостта. Разбирането на възможността това да се случи е важно, за да се гарантира, че наблюдението на мисленето остава надеждна защитна мярка, докато системите с ИИ стават по-способни. Установяваме, че настоящите модели със структурирано анализиране изпитват затруднения да контролират своите мисловни вериги, дори когато им се казва, че са наблюдавани. Въпреки че управляемостта е по-висока при по-големите модели, тя намалява, когато от моделите се изисква да разсъждават по-дълго и когато преминават през допълнително последващо обучение. Нашите резултати предполагат, че управляемостта на мисленето е малко вероятно към момента да представлява основен риск за наблюдаемостта на веригата, макар че продължаващата оценка ще бъде важна с напредването на моделите.
Логическото мислене се отнася до междинните стъпки на структурирано анализиране, които един агент с ИИ генерира, докато решава задача. Тези следи от структурирано анализиране могат да предоставят полезни сигнали за безопасност, като помагат на системите за наблюдение да оценят дали поведението на агента е безопасно или съгласувано.
Управляемостта на логическото мислене е способността на модел със структурирано анализиране да контролира свойства на своето логическо мислене по начини, които намаляват наблюдаемостта. Измерването на тази способност в рамките на пълния спектър от реалистични стимули за заобикаляне на наблюдателите, които можем да очакваме на практика, е предизвикателство. Вместо това използваме практичен заместител: измерваме способността на модела да следва потребителски инструкции относно своето логическо мислене. Например тестваме дали един модел може да следва инструкции, които влияят на неговото вътрешно структурирано анализиране – като например да използва само малки букви, да избягва определени ключови думи или да добавя конкретни изрази – вместо просто да променя видимия си изход.
За да проучим това, представяме CoT-Control, пакет за оценяване с отворен код за измерване на управляемостта на логическото мислене на модели със структурирано анализиране. CoT-Control включва над 13 000 задачи, изградени на базата на утвърдени еталони: GPQA, MMLU-Pro, HLE, BFCL и SWE-Bench Verified. Всяка задача се създава чрез съчетаване на еталон задача с една инструкция за логическо мислене (CoT), като например избягване на определени ключови думи, свързани със задачата, в логическо мислене (CoT), използване само на малки букви или добавяне на дадена дума към всяко изречение.
Провеждаме оценки на 13 модела със структурирано анализиране и установяваме, че всички те изпитват затруднения да контролират надеждно своето логическо мислене. Измерваме управляемостта като дял от следите от структурирано анализиране, при които моделът успешно спазва нашите инструкции за логическо мислене. При всички авангардни модели оценките за контролируемост на CoT са ниски, варират от 0,1% и не надвишават 15,4% за нито един текущ авангарден модел, който тествахме.
Тази неспособност не произтича от неразбиране на задачата: моделите често разпознават в своето логическо мислене, че не успяват да се съобразят с инструкциите за мислене, които са им били дадени, и – дори след това осъзнаване – все пак продължават да се провалят. Това изненадващо ниско представяне е добра новина за наблюдаемостта на логическото мислене: то подсказва, че моделите може по подобен начин да нямат способността да прикриват своето структурирано анализиране, за да избегнат нашите наблюдатели.
Способността на множество авангардни модели да контролират своите изходи и логическото си мислене. По-ниската управляемост на мисленето е свързана с по-висока наблюдаемост и следователно с по-висока безопасност.
Примери за неуспехи в управляемостта на логическото мислене (CoT)
Въпросите са перифразирани за краткост.
GPT-5.2 Thinking
GPT‑5.2 Thinking осъзнава, че не е трябвало да използва забранената дума (червено), след което продължава да я използва още 4 пъти, докато изпада в паника, че вече я е използвал.
Въпреки че виждаме, че управляемостта се увеличава с размера на модела, също така установяваме, че тя бързо намалява с количеството изчислителна мощ след последващото обучение и по време на тестване. Разглеждайки две семейства модели с отворено тегло, по-големите модели бяха донякъде по-добри в контрола на своето логическо мислене, макар че ефектът отслабваше при по-големите размери. Но когато оставим моделите да мислят по-дълго, те стават по-малко способни да контролират това логическо мислене. Наблюдавахме подобна тенденция при RL обучението на OLMo-3-7B-RL-Zero-Math: оценката му за контролируемост спадна с повече от десет пъти в хода на обучението.
Управляемостта се увеличава с мащаба при моделите с отворено тегло, но се влошава при по-дълго структурирано анализиране и повече обучение с RL.
За да симулираме реалистични стимули за избягване на наблюдение, измерваме управляемостта , когато на моделите им се казва, че са наблюдавани или оценявани. Това леко (но забележимо) увеличава възможността за контрол. Също така използваме автоматизирана оптимизация на подкани, за да намираме подкани, които предизвикват висока управляемост. Въпреки че оптимизаторът може да увеличи управляемостта върху обучаващ набор, тези подобрения се отразяват слабо на нови типове указания (като например изискване да няма интервали между думите).
Управляемостта на логическото мислене при състезателни условия. „Осъзнатост за наблюдение“ се отнася до настройки, при които информираме моделите, че тяхното мислене е под наблюдение. „Осведоменост за оценяване“ обозначава настройки, при които информираме моделите, че се оценяват за контролируемост на логическото мислене.
Задачите в CoT-Control са практични проксита: идеалната оценка на управляемостта на логическото мислене би включвала тестване дали модели, които естествено преследват несъгласувани цели, могат да контролират своя CoT, за да избегнат наблюдение. Вместо това оценяваме способността на агентите да контролират своите мисловни вериги, като измерваме способността им да следват инструкции относно своята мисленето си. Освен това, моделите могат да контролират някои характеристики на своето мислене по-добре от други, а CoT-Control може да надценява или подценява управляемостта, като измерва само тесен набор от типове управляемост.
Ниската управляемост на мисленето е характеристика, а не грешка. Ниската контролируемост на настоящите модели със структурирано анализиране прави наблюдението на мисленето по-надеждно като предпазна мярка. В същото време все още не разбираме защо управляемостта на настоящите модели със структурирано анализиране е ниска – или дали това свойство ще се запази, когато моделите станат по-способни. Следователно оценките за управляемост на логическото мислене могат да се разглеждат като „оценка тип канарче“: ранен предупредителен знак дали моделите стават по-добри в оформянето или прикриването на своето структурирано анализиране.
Нашите резултати предполагат, че контролируемостта на логическото мислене е малко вероятно към момента да представлява основен риск за наблюдаемостта над него. Въпреки това, ниската контролируемост сама по себе си не е достатъчна, за да гарантира висока наблюдаемост, тъй като наблюдаемостта все пак може да се влоши поради други механизми, като например директен оптимизационен натиск върху мисловните вериги.
За да помогнем за проследяването на тази динамика във времето, ще започнем да отчитаме управляемостта на мисловната верига наред с наблюдаемостта ѝ в карти на системата за бъдещи авангардни модели, започвайки с GPT‑5.4 Thinking, надграждайки върху нашия текущ ангажимент да не прилагаме оптимизационен натиск директно върху мисловната верига на авангардни модели със структурирано анализиране.
Автори
Tomek Korbak, Micah Carroll, Bowen Baker и Ian Kivlichan


