Предвидување на однесувањето на моделот пред објавување преку симулирање распоредување
Користење реалистични контексти на разговор за подобра проценка на несаканото однесување на моделот пред објавување.
Пред објавување нов модел, лабораториите треба да разберат не само што може да направи, туку и како веројатно ќе се однесува во реална употреба, вклучително и каде може да внесе нови ризици. Ова станува уште поважно како што растат способностите. Како дел од нашиот безбедносен преглед пред распоредување, користиме насочени евалуации, red-teaming и други проверки за да го разбереме однесувањето на моделот. Сега почнавме да користиме метод за симулирање распоредувања на модели пред да се случат, што додава комплементарен сигнал: преглед сличен на распоредување за тоа како кандидат-моделот може да се однесува пред да стигне до корисниците.
Симулација на распоредување е метод за симулирање идно распоредување пред тоа да се случи. Тоа го правиме со повторно пуштање претходни разговори на начин што ја зачувува приватноста, со нов кандидат-модел. Ова ни овозможува да проучиме како новиот модел одговара во реалистични контексти пред објавување, вклучително и дали се појавуваат нови несакани однесувања и колку често може да се јават.
Низ повеќе распоредувања на Thinking од серијата GPT‑5, Симулација на распоредување ги подобри нашите проценки за стапките на несакано однесување на моделот, помогна да се откријат нови форми на неусогласеност пред објавување и помогна да се намали ризикот моделите да можат да препознаат дека се тестираат. Методот го применивме и на предизвикувачки агентски пуштања, покажувајќи дека може да се прошири надвор од стандардниот разговор кон посложени агентски поставки со користење алатки, а може да се користи и за процена на ризик пред внатрешни распоредувања на модели.
Веќе користевме сознанија од Симулација на распоредување за време на развој на модели за да идентификуваме слепи точки во традиционалните евалуации и да информираме ублажувања и одлуки за распоредување. Како што го правиме цевководот полесен за извршување, очекуваме тој да има поголема улога во идниот процес на развој на модели.
Евалуациите пред распоредување што се користат низ индустријата генерално се состојат од мешавина од синтетички, рачно напишани или продукциски промптови намерно избрани да бидат тешки, со висока сериозност или адверсаријални. Овие евалуации генерално имаат две испреплетени цели: да проценат како моделот одговара кога е под стрес-тест во ситуации со многу мала шанса да се појават во сообраќајот при распоредување, и да се добие општо разбирање за несаканите однесувања на моделот, вклучително наоѓање нови несакани однесувања и предвидување на нивните фреквенции при распоредување.
Иако традиционалните евалуации остануваат клучни за првата цел, Симулација на распоредување претставува значаен чекор напред во однос на втората цел за нетерминални ризици (во нашите експерименти, од нашиот пристап не може да се очекува да мери однесувања што се јавуваат со фреквенција помала од 1 во 200.000 пораки). Силата на Симулација на распоредување произлегува од заобиколување на некои основни предизвици кај традиционалните евалуации:
- Покриеност: тешко е да се биде уверен дека евалуациските промптови ќе ги покријат сите можни типови несакано однесување на моделот. Мерењето нови типови несакано однесување бара создавање нови евалуации и знаење кои штети да се мерат. Ова може да бара многу време и труд, а евалуациите со текот на времето може да се заситат.
- Пристрасности при избор: традиционалните евалуации генерално се градат со конкретни несакани однесувања на моделот на ум, избрани на начини што ги пристрасуваат кон контексти што претходно се случиле. Ова може да ги направи нивните проценки помалку информативни за инциденцата на таквите однесувања низ целата ширина на распределбата при распоредување.
- Препознатливост како тестови од моделите: моделите сè повеќе можат да утврдат дека се тестираат, што може да го изобличи нивното однесување и нашите последователни мерења на нивната безбедност. Иако многу од традиционалните евалуации што ги користиме во OpenAI исто така се извлечени од продукциски сообраќај и не страдаат од овој проблем, ова е честа грижа за многу традиционални евалуации што се користат низ индустријата.
Главната техника зад Симулација на распоредување е едноставна: земаме неодамнешни разговори од распоредување, го отстрануваме оригиналниот одговор на асистентот од постариот модел и го регенерираме со кандидат-модел што треба да се објави. Ги евалуираме довршувањата пребарувајќи нови режими на неуспех и ја проценуваме фреквенцијата на несакано однесување при распоредување врз основа на фреквенцијата во оваа распределба слична на распоредување. Истите мерења можеме да ги извршиме по објавување врз реален сообраќај при распоредување, што ни овозможува да ги потврдиме нашите прогнози пред распоредување.
Симулација на распоредување значително ги ублажува трите ограничувања наведени погоре: пристрасноста при земање примероци се решава со користење распределба на евалуациски промптови што е репрезентативна за неодамнешната употреба. Симулација на распоредување со репрезентативни промптови може да ги ублажи и грижите за покриеноста: добиваме поголема покриеност на несаканите однесувања на моделот едноставно со симулирање повеќе сообраќај. Овој компромис меѓу пресметување и покриеност е важен, бидејќи овозможува квалитетот на оваа оска на процена на ризик да скалира со пресметувањето, наместо со рачниот напор потребен за изградба на повеќе евалуации. Исто така, изгледа дека моделите не можат да разликуваат меѓу разговори добиени преку симулација на распоредување и реален сообраќај при распоредување.
Слика 1: Преглед на нашиот цевковод за Симулација на распоредување
Област | Традиционални евалуации | Симулација на распоредување |
Покриеност | Подобро за ризици со ниска преваленца, но со голема сериозност за кои сакаме да бидеме сигурни дека имаме покритие | Подобро за разбирање на спектарот на ризици што веројатно ќе ги видиме во сообраќајот за распоредување |
Репрезентативност / пристрасност | Фокусиран на евалуација на целни минати или предвидени ризици, дури и за однесувања кои имаат екстремно ниска преваленца при распоредување | Претставник на ризици што се јавуваат над одредена преваленца во тековниот сообраќај за распоредување |
Свесност за евалуација | Потенцијално очигледни тест знаци (на пр., со синтетички податоци), освен ако не се креираат евалуации со податоци за распоредување | Контекстот сличен на распоредување се чини дека значително ја намалува свеста за евалуација. |
Напор | Прилагодените распределби и поставувања на потсетници бараат значително повеќе рачен напор | Потребен е еднократен трошок за инфраструктура, а потоа повторно се користат префикси од распоредување и оценувачи од познати несакани однесувања. |
Споредба на високо ниво меѓу традиционални евалуации и Симулација на распоредување
За да ја евалуираме Симулација на распоредување, претходно регистриравме предвидувања за фреквенцијата при распоредување на 20 типови несакано однесување за GPT‑5.4 Thinking. Извршивме и ретроспективни студии низ други распоредувања на Thinking модели од серијата GPT‑5. Однесувањата на моделот што ги анализираме опфаќаат и неусогласеност и категории на недозволена содржина за кои известувавме во системски картички (на пр. моделот лаже за алатки или изнесува недозволена сексуална содржина). Иако за овие резултати следиме само 20 категории несакано однесување на моделот и бараме само нови неусогласени однесувања, Симулација на распоредување е општа техника што може да се примени за симулирање кое било својство на моделот при распоредување.
Продукцискиот сообраќај што го користевме исто така беше од Thinking модели од серијата GPT‑5. Пред да ги извршиме нашите евалуации, автоматски ги отстранивме идентификаторите поврзани со сметки и препознатливите информации. Во согласност со нашата политика на приватност, анализиравме само ChatGPT сообраќај од корисници што дозволуваат нивните податоци да се користат за подобрувања на моделот. Известуваме само збирни наоди од овие евалуации. Вкупно, анализиравме приближно 1,3 милиони деидентификувани разговори низ распоредувања од GPT‑5 Thinking до GPT‑5.4, во периодот од август 2025 до март 2026.
Квалитетот на процената на ризик пред распоредување произведена од Симулација на распоредување го евалуираме на три главни начини:
- Покриеност на таксономијата: дали ревизијата по објавувањето откри важни неусогласени однесувања што недостасуваа во нашата почетна таксономија на лошо однесување?
- Насочна точност: дали симулацијата правилно предвиде дали распространетоста при распоредување ќе се зголеми или намали за познати однесувања?
- Калибрација на стапки: дали нашите проценки пред распоредување беа блиску до стапките што подоцна ги набљудувавме при распоредување? Постигнувањето добра калибрација на стапките бара повеќе од насочна точност, што го прави ова највисок можен стандард за квалитет.
Исто така мериме колку моделите можат да препознаат дека се во евалуација за време на Симулација на распоредување, и тестираме колку е робустен методот на различни форми на сообраќај при распоредување и на предизвикувачки поставки за користење алатки.
Низ распоредувањата на Thinking од серијата GPT‑5, Симулација на распоредување ги надмина основните линии со предизвикувачки промптови во утврдување на реалната стапка на ризик, успеа да открие хакирање калкулатор пред објавување и изгледаше потенцијално неразличлива од распоредување за моделот.
Преглед на нашите предвидувања. За визуелизација на сите предвидувања за распоредувања на Thinking модели од серијата GPT‑5, видете ја Слика 2. Предвидувањата за GPT‑5.4 Thinking беа претходно регистрирани, додека другите беа ретроактивни предвидувања. Збирно, нашите предвидувања имаа медијална мултипликативна грешка од 1,5x (на пр. ако стапката на несакано однесување е 10 на 100k, ова би одговарало на проценка на стапка од 15 или 6,67 на 100k). Иако крајните грешки на нашиот метод може да бидат приближно 10x поголеми, очекуваме дека може значително да се намалат со понатамошни подобрувања на нашиот симулациски цевковод, како што се дискутира подолу.
Слика 2. Предвидувања на фреквенцијата со Симулација на распоредување за несакано однесување при распоредување врз основа на претходни податоци од распоредување. Ознаката 5.1 → 5 значи дека повторно земаме примероци од префикси од GPT‑5 со GPT‑5.1, односно го симулираме распоредувањето на GPT‑5.1 врз основа на податоци од GPT‑5. Највисоката стапка на неусогласено однесување беше „хакирање калкулатор“ во GPT‑5.1, за што разговаравме претходно(се отвора во нов прозорец).
Споредба на предвидувањата од Симулација на распоредување со основни линии. Најважните категории за правилна проценка при процени на ризик пред распоредување се оние што имаат големи промени во инциденцата по распоредувањето на моделот (на пр. >= 1,5x). На ова подмножество, Симулација на распоредување е значително подобра од основните линии и во предвидување дали одредено несакано однесување ќе се зголеми или намали по распространетост со распоредувањето на моделот (Слика 3, лево), и во проценување на неговата точна инциденца при распоредување (Слика 3, десно). Користиме две главни основни линии: основна линија со Предизвикувачки промптови што моментално ја користиме за системски картички и одлуки за лансирање, и наивна основна линија што ги користи стапките од претходното распоредување како проценки за новиот модел.
Слика 3. Симулација на распоредување ги предвидува и насоката на промените во инциденцата (лево) и точните продукциски стапки (десно) подобро од статичните евалуации.
Извори на симулациска грешка во нашиот цевковод. Ги проучивме и тековните извори на грешка во нашиот цевковод. Конкретно, големите крајни грешки го прават цевководот помалку доверлив за одлуки за распоредување: на пример, кога се гледа големо предвидено зголемување на несакано однесување од одреден тип, ако е познато дека цевководот има дури и повремени големи грешки, тоа буди сомнеж дали ова е доверлива проценка или артефакт на цевководот. Постојат два главни извора на можна грешка:
- Грешка во верноста на средината за повторно земање примероци: за точно да ги процениме продукциските стапки, нашиот симулациски цевковод треба да биде што е можно пореалистичен. Ова е делумно инженерски проблем (земање примероци од моделот со истите цевководи што се користат за продукциски сообраќај), а делумно интересен предизвик за алатки на кои им треба пристап за читање/пишување до надворешни ресурси што постојано се менуваат (на пр. веб-пребарувања или интеракција со локални датотеки). Можеме да ја изолираме грешката во верноста на симулацијата со споредување предвидувања од реално распоредување и неговата симулација (односно, симулирање на распоредувањето на веќе распореден модел).
- Грешка од поместување на распределбата на промптови: голема грижа кај Симулација на распоредување е дека распоредувањето на кој било модел ќе предизвика распределбено поместување во влезовите, особено ако корисниците се приспособат на новите можности на моделот. Ја изолираме грешката во распределбата на промптови со споредување проценки кога се симулира распоредувањето користејќи неодамнешни промптови наспроти промптови од оствареното распоредување.
Како што се гледа на Слика 4, откриваме дека голем дел од грешката во нашиот цевковод—особено за крајните грешки—моментално се должи на верноста на симулацијата. Ова е добра вест, бидејќи очекуваме верноста на симулацијата генерално полесно да се подобри отколку да се намали поместувањето на распределбата на промптови. Исто така откриваме дека грешката од поместување на распределбата на промптови може да се намали со користење на најновите податоци од претходното распоредување. Повеќе детали може да се најдат во истражувачкиот труд.
Слика 4: Верноста на средината за повторно земање примероци изгледа е најголемиот извор на грешка во нашите проценки, особено за најекстремните грешки.
Автоматизираната ревизија ја пронајде единствената нова неусогласеност внесена во овие распоредувања. Во прозорецот на распоредување што го проучувавме, нашиот автоматизиран ревизорски цевковод заснован на симулирани распоредувања би го открил „хакирањето калкулатор“ пред објавување, што беше единствената нова неусогласеност што ја идентификувавме во анализираниот ChatGPT сообраќај. Хакирањето калкулатор е форма на хакирање награда што вклучува моделот да користи алатка за прелистувач како калкулатор, додека дејството го претставува како пребарување. Ова не значи дека ревизијата во голем обем ќе го фати секој нов неуспех, но покажува зошто реалистичните контексти се важни: тие можат да предизвикаат однесувања што потесните евалуациски множества можеби никогаш нема директно да ги откријат, дури и ако не биле присутни во оригиналниот сообраќај користен за започнување на симулацијата.
Друга предност од користењето контексти слични на распоредување е што може да ги намалат изобличувањата што настануваат кога моделите препознаваат дека се тестираат. Во претходни истражувања, ние, како и други(се отвора во нов прозорец), откривме дека моделите често се свесни кога се тестираат. На пример, моделите може да расудуваат во својот синџир на размислување за тоа на што се тестираат, што би му се допаднало на евалуаторот и – ако се однесуваат лошо – дали ќе бидат фатени. Ова претставува проблем за евалуациите на усогласување: ако моделот се однесува добро само затоа што мисли дека се тестира, како да изградиме доверба дека ќе се однесува безбедно откако ќе дознае дека е распореден?
Покажуваме дека Симулација на распоредување значително ги намалува нивоата на свесност за евалуација што ги покажуваат моделите во однос на традиционалните евалуации што не се засновани на реални податоци од распоредување. Свесноста за евалуација ја мериме на три начини: со барање од модел да класифицира дали траекторија доаѓа од продукција или евалуација, следење на синџирот на размислување за експлицитни изјави дека се евалуира за усогласување, како и за метагејминг(се отвора во нов прозорец): секое расудување за надзор. Симулираниот сообраќај при распоредување тесно се совпадна со реалниот сообраќај при распоредување според сите три мерки. На пример, GPT‑5.2 означи реален продукциски сообраќај како сличен на евалуација во 5,4% од случаите и симулиран сообраќај во 5,1% од случаите, додека традиционалните евалуации (како SWE-Bench или MonorepoBench, кои се составени главно од синтетички примери) беа класифицирани како евалуации речиси 100% од времето.
Слика 5. Споредба на свесност за евалуација: реалниот продукциски сообраќај и симулираниот сообраќај покажуваат слични стапки за откривање евалуација, вербализирана свесност за евалуација на усогласување и метагејминг, додека традиционалните евалуациски податочни множества пријавуваат многу повисоки стапки.
За да тестираме дали методот може да се прошири надвор од стандардните режими на разговор, проучивме и симулирање распоредувања за предизвикувачки поставки за кодирање со агент. Конкретно, користиме 120.000 внатрешни агентски траектории на вработени од GPT‑5.4 за да го симулираме внатрешното распоредување на агенти за кодирање засновани на GPT‑5.5. Ова служи за две цели: покажува како симулацијата на распоредување може да се користи и за процена на ризик за внатрешни распоредувања, и демонстрира дека е можно верноста на симулацијата да биде висока дури и во агентски поставки преку внимателна симулација на алатки.
Погоре дискутиравме дека верноста на симулацијата е еден од главните извори на грешка во нашиот тековен цевковод. Еден од предизвиците во правење реалистични симулации на распоредување е што бара алатките да дејствуваат на реалистични начини, дури и кога им треба пристап за читање/пишување до надворешни ресурси што постојано се менуваат (на пр. веб-пребарувања или интеракција со локални датотеки).
Ова е особено предизвикувачко за поставки како агентски распоредувања: една траекторија на агент може да зависи од стотици повици на алатки, состојба на репозиториум, мрежни одговори или минливи неуспеси. Ова го прави повторното земање примероци со реален пристап до алатки и предизвикувачко и потенцијално опасно. Поради тоа, наместо да применуваме повици на алатки врз живи системи, ги симулираме со друг големи јазични модели (LLM). Покажуваме дека давањето дополнителни можности на овој големи јазични модели (LLM) е суштинско за реализмот, а со тоа и за квалитетот на проценката.
На моделот-симулатор на алатки му го даваме оригиналното финално пуштање, репозиториумот од времето на разговорот, база на податоци со парови повик-на-алатка/одговор и конектори само за читање. Во тест каде дискриминатор се обиде да разликува симулирани од реални пуштања, реализмот се подобри од стапка на победа од 11,6% на 49,5%, блиску до нивото на случајност од 50%.
Слика 6: Реализмот на повторно земање примероци може да се направи речиси неразличлив од реално земање примероци дури и во поставки со многу алатки, кога повиците на алатки се симулираат со зголемени можности.
Како дополнителен доказ за верноста на симулацијата, кога се симулира GPT‑5.4 Codex thinking сообраќај со GPT‑5.4, стапките на неусогласеност се, приближно, во рамките на интервалите на грешка. Наспроти тоа, во нашето тестирање пред распоредување GPT‑5.5 беше повеќе неусогласен во повеќето категории.
Слика 7: Со симулација на алатки, стапките на однесување за разговори повторно земени со GPT‑5.4 и реалниот GPT‑5.4 продукциски сообраќај се прилично слични – што укажува на висока верност на средината за повторно земање примероци. Видете ја системската картичка за GPT‑5.5(се отвора во нов прозорец) за повеќе контекст за категориите.
Овие резултати сугерираат дека Симулација на распоредување може да се прошири на сложени агентски поставки кога околната средина на алатки се симулира со доволна верност.
Природно прашање е дали надворешните ревизори можат да добијат дел од истите придобивки без пристап до приватен продукциски сообраќај. Ова го тестиравме со 100.000 WildChat разговори користени како префикси. WildChat беше помалку точен од неодамнешните продукциски податоци на OpenAI, но сепак информативен: неодамнешните продукциски податоци имаа пониска просечна мултипликативна грешка од WildChat (1,75× наспроти 2,44×), додека WildChat често остануваше во рамките на приближно 3× од продукциските стапки и го идентификуваше подобриот модел со стапки над случајноста. Евалуациите во стилот на WildChat ги гледаме како ветувачко дополнување на Симулација на распоредување што ја извршуваат развивачите. Видете ја оваа придружна објава на блогот Alignment(се отвора во нов прозорец) за повеќе резултати по ова прашање.
Симулација на распоредување е дополнување, а не замена, за адверсаријални евалуации, red-teaming и насочена анализа на крајни ризици. Откривањето на некои несакани однесувања на моделот се потпира на следливоста на синџирот на размислување: ако идните модели расудуваат помалку читливо, изоставуваат клучни чекори или научат да ја прикриваат намерата, можеби нема да можеме да ги откриеме овие форми на несакано однесување. Понатаму, бидејќи продукциските податоци се приватни, развивачите моментално имаат посилен пристап до репрезентативни контексти отколку надворешните ревизори. Подобри јавни податочни множества би можеле да го намалат тој јаз.
Симулација на распоредување е најкорисна за однесувања што се јавуваат доволно често за да се појават во земените префикси. Неуспех што се јавува еднаш во десет милиони разговори веројатно нема да се открие во извршување со милион примероци, па адверсаријалните евалуации, red-teaming и насочената анализа на крајни ризици остануваат неопходни. Моментално се фокусираме на симулирање еден одговор на асистентот, бидејќи во прелиминарните експерименти не најдовме значајни подобрувања на нашите проценки со симулирање повеќе потези. Ова може да биде важна област за подобрување на верноста на симулацијата во иднина.
Методот зависи и од распределбата на префикси—мешавината од разговори што повторно се земаат како примероци. Историскиот сообраќај можеби нема да се совпадне со начинот на кој корисниците комуницираат со поспособен модел по голема промена на производот, ново издание на алатка, светски настан или сезонско поместување. Анализата во целосниот труд сугерира дека овој проблем може да се ублажи со користење на најновите достапни податоци.
Симулацијата на распоредување е нов пристап кон процена на ризик пред распоредување што им помага на граничните лаборатории и евалуатори да предвидат како јазичните модели може да се однесуваат во реалниот свет и да ги разберат ризиците што ги носат пред распоредување. Таа ги дополнува постојните безбедносни евалуации, red-teaming и насочената анализа со додавање слој на предвидување посличен на продукција, што може да ги подобри проценките за однесување при распоредување, да ги намали ефектите од свесност за евалуација и да ги направи предвидувањата пред распоредување проверливи по објавување. Користена заедно со традиционални евалуации, Симулација на распоредување може да помогне процената на ризик од модели да стане пореалистична, поквантитативна и покорисна за одлуки за распоредување.


