2026. gada 16. jūnijs

Modeļa uzvedības prognozēšana pirms izlaišanas, simulējot izvietošanu

Reālistisku sarunu kontekstu izmantošana, lai labāk aplēstu nevēlamu modeļa uzvedību pirms izlaišanas.

Ievads

Pirms jauna modeļa izlaišanas laboratorijām ir jāsaprot ne tikai tas, ko tas spēj paveikt, bet arī kā tas, visticamāk, uzvedīsies reālā lietošanā, ieskaitot kur tas varētu radīt jaunus riskus. Tas kļūst vēl svarīgāk, pieaugot tā spējām. Pirmsizvietošanas drošības pārskatā mēs izmantojam mērķētus izvērtējumus, sarkanās komandas testēšanu un citas pārbaudes, lai izprastu modeļa uzvedību. Tagad esam sākuši izmantot metodi modeļu izvietošanas simulēšanai pirms tās notiek; tā pievieno papildu signālu: izvietošanai līdzīgu priekšskatījumu par to, kā kandidātmodelis varētu uzvesties, pirms tas nonāk pie lietotājiem.

Izvietošanas simulācija ir metode nākotnes izvietošanas simulēšanai pirms tā notiek. Mēs to darām, privātumu saglabājošā veidā atkārtoti atskaņojot iepriekšējās sarunas ar jaunu kandidātmodeli. Tas ļauj mums pirms izlaišanas pētīt, kā jaunais modelis reaģē reālistiskos kontekstos, tostarp vai parādās jauna nevēlama uzvedība un cik bieži tā var rasties.

Vairākās GPT‑5 sērijas Thinking izvietošanās Izvietošanas simulācija uzlaboja mūsu aplēses par nevēlamas modeļa uzvedības rādītājiem, palīdzēja pirms izlaišanas atklāt jaunus nesaskaņotības veidus un mazināja risku, ka modeļi varētu saprast, ka tiek testēti. Mēs metodi piemērojām arī sarežģītām aģentiskām izlaišanām, parādot, ka tā var pārsniegt standarta tērzēšanas robežas un aptvert sarežģītākus aģentu iestatījumus ar rīku izmantošanu, kā arī tikt izmantota risku novērtēšanai pirms iekšējām modeļu izvietošanām.

Mēs jau esam izmantojuši Izvietošanas simulācijas atziņas modeļa izstrādē, lai identificētu tradicionālo izvērtējumu aklās zonas un informētu mazināšanas pasākumus un izvietošanas lēmumus. Padarot konveijeru vieglāk palaižamu, mēs sagaidām, ka tam būs lielāka loma nākotnes modeļu izstrādes procesā.

Kā darbojas Izvietošanas simulācija

Pirmsizvietošanas izvērtējumi nozarē parasti sastāv no sintētisku, manuāli rakstītu vai ražošanas uzvedņu kombinācijas, kas apzināti atlasītas kā sarežģītas, ar augstu smaguma pakāpi vai adversariālas. Šiem izvērtējumiem parasti ir bijuši divi savstarpēji saistīti mērķi: novērtēt, kā modelis reaģē stresa testos situācijās, kurām ir ļoti maza iespēja parādīties izvietošanas datplūsmā, un iegūt vispārēju izpratni par nevēlamu modeļa uzvedību, tostarp atrast jaunu nevēlamu uzvedību un prognozēt tās biežumu izvietošanas laikā.

Lai gan tradicionālie izvērtējumi joprojām ir būtiski pirmajam mērķim, Izvietošanas simulācija ir nozīmīgs solis uz priekšu attiecībā uz otro mērķi ārpus garās astes riskiem (mūsu eksperimentos no mūsu pieejas nevar gaidīt, ka tā izmērīs uzvedību, kas notiek retāk nekā 1 reizi 200 000 ziņojumos). Izvietošanas simulācijas spēks izriet no dažu tradicionālo izvērtējumu pamatizaicinājumu apiešanas:

Pārklājums: ir grūti būt pārliecinātiem, ka izvērtēšanas uzvednes aptvers visus iespējamos nevēlamas modeļa uzvedības veidus. Jaunu nevēlamas uzvedības veidu mērīšanai ir jāveido jauni izvērtējumi un jāzina, kādus kaitējumus mērīt. Tas var prasīt daudz laika un darba, un izvērtējumi laika gaitā var piesātināties.
Atlases aizspriedumi: tradicionālie izvērtējumi parasti tiek veidoti ar konkrētām nevēlamām modeļa uzvedībām prātā, atlasot tos veidos, kas nosver uz kontekstiem, kuri jau iepriekš ir notikuši. Tas var padarīt to aplēses mazāk informatīvas par šādas uzvedības sastopamību visā izvietošanas sadalījuma plašumā.
Modeļiem atpazīstami kā testi: modeļi arvien labāk spēj noteikt, ka tie tiek testēti, kas var izkropļot to uzvedību un mūsu turpmākos drošības mērījumus. Lai gan daudzi tradicionālie izvērtējumi, ko izmantojam OpenAI, arī ir ņemti no ražošanas datplūsmas un no šīs problēmas necieš, tā ir izplatīta baža daudziem tradicionālajiem izvērtējumiem visā nozarē.

Galvenā tehnika Izvietošanas simulācijai ir vienkārša: mēs izmantojam nesenas sarunas no izvietošanas, noņemam sākotnējo asistenta atbildi no vecākā modeļa un ģenerējam to no jauna ar izlaišanai paredzētu kandidātmodeli. Mēs izvērtējam pabeigumus, meklējot jaunus kļūmju režīmus, un aplēšam nevēlamas uzvedības biežumu izvietošanas laikā, balstoties uz biežumu šajā izvietošanai līdzīgajā sadalījumā. Tos pašus mērījumus varam veikt pēc izlaišanas reālā izvietošanas datplūsmā, kas ļauj validēt mūsu pirmsizvietošanas prognozes.

Izvietošanas simulācija būtiski mazina trīs iepriekš minētos ierobežojumus: atlases aizspriedums tiek risināts, izmantojot izvērtēšanas uzvedņu sadalījumu, kas reprezentē neseno lietojumu. Izvietošanas simulācija ar reprezentatīvām uzvednēm var arī mazināt bažas par pārklājumu: mēs iegūstam plašāku nevēlamas modeļa uzvedības pārklājumu, vienkārši simulējot vairāk datplūsmas. Šis kompromiss starp skaitļošanu un pārklājumu ir svarīgs, jo tas liek šai risku novērtēšanas asij mērogoties ar skaitļošanu, nevis manuālo darbu, kas vajadzīgs, lai izveidotu vairāk izvērtējumu. Šķiet, ka modeļi arī nespēj atšķirt sarunas, kas iegūtas ar izvietošanas simulāciju, no reālas izvietošanas datplūsmas.

Diagramma, kas rāda ražošanas atkārtotās atlases konveijeru no ražošanas sarunām caur privātumu saglabājošu atkārtoto atlasi, modeļa pabeigumu ģenerēšanu, izvērtēšanu un izvietošanas laika aplēsēm. — *1. attēls: Mūsu Izvietošanas simulācijas konveijera pārskats*

Joma	Tradicionālie izvērtējumi	Izvietošanas simulācija
Pārklājums	Labāki zemas izplatības, bet augstas smaguma pakāpes riskiem, kuriem vēlamies nodrošināt pārklājumu	Labāki, lai izprastu risku spektru, ko, visticamāk, redzēsim izvietošanas datplūsmā
Pārstāvniecība / aizspriedumi	Vērsti uz mērķētu pagātnes vai prognozētu risku izvērtēšanu, pat uzvedībām ar ārkārtīgi zemu izplatību izvietošanā	Reprezentē riskus, kas pašreizējā izvietošanas datplūsmā pārsniedz noteiktu izplatības līmeni
Izvērtēšanas apzināšanās	Potenciāli acīmredzamas testa pazīmes (piem., ar sintētiskiem datiem), ja vien izvērtējumi nav veidoti ar izvietošanas datiem	Izvietošanai līdzīgs konteksts, šķiet, būtiski mazina izvērtēšanas apzināšanos
Piepūle	Pielāgoti uzvedņu sadalījumi un iestatījumi prasa ievērojami vairāk manuāla darba	Prasa vienreizējas infrastruktūras izmaksas un pēc tam atkārtoti izmanto prefiksus no izvietošanas un vērtētājus zināmām nevēlamām uzvedībām

Augsta līmeņa salīdzinājums starp tradicionālajiem izvērtējumiem un Izvietošanas simulāciju

Kā mēs testējām Izvietošanas simulāciju

Lai izvērtētu Izvietošanas simulāciju, mēs iepriekš reģistrējām prognozes par 20 nevēlamas uzvedības veidu biežumu izvietošanas laikā GPT‑5.4 Thinking modelim. Mēs arī veicām retrospektīvus pētījumus citās GPT‑5 sērijas Thinking modeļu izvietošanās. Analizētā modeļu uzvedība aptver gan nesaskaņotības, gan neatļauta satura kategorijas, par kurām ziņojam sistēmas kartēs (piemēram, modelis melo par rīkiem vai izvada neatļautu seksuālu saturu). Lai gan šajos rezultātos izsekojam tikai 20 nevēlamas modeļa uzvedības kategorijas un meklējam tikai jaunas nesaskaņotas uzvedības, Izvietošanas simulācija ir vispārīga tehnika, ko varētu izmantot jebkuras modeļa īpašības simulēšanai izvietošanas laikā.

Ražošanas datplūsma, ko izmantojām, arī bija no GPT‑5 sērijas Thinking modeļiem. Pirms izvērtējumu palaišanas mēs automātiski noņēmām ar kontu saistītus identifikatorus un identificējamu informāciju. Saskaņā ar mūsu privātuma politiku mēs analizējām tikai ChatGPT datplūsmu no lietotājiem, kuri atļauj izmantot savus datus modeļu uzlabošanai. Mēs ziņojam tikai šo izvērtējumu apkopotos rezultātus. Kopumā mēs analizējām aptuveni 1,3 miljonus deidentificētu sarunu GPT‑5 Thinking līdz GPT‑5.4 izvietojumos, aptverot laiku no 2025. gada augusta līdz 2026. gada martam.

Mēs izvērtējam Izvietošanas simulācijas radītā pirmsizvietošanas risku novērtējuma kvalitāti trīs galvenajos veidos:

Taksonomijas pārklājums: vai pēcizlaišanas audits atklāja kādas svarīgas nesaskaņotas uzvedības, kuru nebija mūsu sākotnējā sliktas uzvedības taksonomijā?
Virziena precizitāte: vai simulācija pareizi prognozēja, vai zināmu uzvedību izplatība izvietošanā palielināsies vai samazināsies?
Rādītāju kalibrācija: vai mūsu pirmsizvietošanas aplēses bija tuvas rādītājiem, ko vēlāk novērojām izvietošanā? Laba rādītāju kalibrācija prasa vairāk nekā virziena precizitāti, tāpēc tas ir augstākais iespējamais kvalitātes standarts.

Mēs arī mēram, cik lielā mērā modeļi spēj saprast, ka atrodas izvērtējumā Izvietošanas simulācijas laikā, un testējam, cik noturīga metode ir pret dažādiem izvietošanas datplūsmas veidiem un sarežģītiem rīku izmantošanas iestatījumiem.

Izvietošanas simulācija būtiski paplašina pirmsizvietošanas risku novērtēšanu

GPT‑5 sērijas Thinking izvietojumos Izvietošanas simulācija pārspēja sarežģītu uzvedņu bāzes līniju faktisko risku rādītāju noteikšanā, spēja pirms izlaišanas atklāt kalkulatora uzlaušanu un modelim šķita potenciāli neatšķirama no izvietošanas.

Mūsu prognožu pārskats. Visu GPT‑5 sērijas Thinking modeļu izvietojumu prognožu vizualizāciju skatīt 2. attēlā. GPT‑5.4 Thinking prognozes tika iepriekš reģistrētas, savukārt pārējās bija retrospektīvas prognozes. Kopumā mūsu prognozēm mediānā multiplikatīvā kļūda bija 1,5x (piemēram, ja nevēlamas uzvedības rādītājs ir 10 uz 100 tūkst., tas atbilstu aplēsei 15 vai 6,67 uz 100 tūkst.). Lai gan mūsu metodes astes kļūdas var būt aptuveni 10x lielākas, sagaidām, ka tās var būtiski samazināt, turpmāk uzlabojot mūsu simulācijas konveijeru, kā izklāstīts tālāk.

Diagramma, kas rāda Izvietošanas simulācijas precīzu rādītāju prognozes par nevēlamu uzvedību izvietošanas laikā, balstoties uz iepriekšējiem izvietošanas datiem. — 2. attēls. Izvietošanas simulācijas biežuma prognozes par nevēlamu uzvedību izvietošanas laikā, balstoties uz iepriekšējiem izvietošanas datiem. Apzīmējums 5.1 → 5 norāda, ka prefiksus no GPT‑5 atkārtoti atlasām ar GPT‑5.1, proti, simulējam GPT‑5.1 izvietošanu, balstoties uz GPT‑5 datiem. Augstākais nesaskaņotas uzvedības rādītājs GPT‑5.1 bija “kalkulatora uzlaušana”, ko esam apsprieduši *iepriekš*⁠(atveras jaunā logā).

Izvietošanas simulācijas prognožu salīdzinājums ar bāzes līnijām. Svarīgākās kategorijas, kuras pirmsizvietošanas risku novērtējumos pareizi jāaplēš, ir tās, kurām pēc modeļa izvietošanas ir lielas sastopamības izmaiņas (piemēram, >= 1,5x). Šajā apakškopā Izvietošanas simulācija būtiski pārspēj bāzlīnijas gan prognozējot, vai noteikta nevēlama uzvedība palielināsies vai samazināsies līdz ar modeļa izvietošanu (3. attēls, pa kreisi), gan aplēšot tās precīzu sastopamību izvietošanas laikā (3. attēls, pa labi). Mēs izmantojam divas galvenās bāzes līnijas: Sarežģīto uzvedņu bāzes līniju, ko pašlaik izmantojam sistēmas kartēm un palaišanas lēmumiem, un naivu bāzes līniju, kas izmanto iepriekšējās izvietošanas rādītājus kā aplēses jaunajam modelim.

3. attēls. Izvietošanas simulācija labāk nekā statiski izvērtējumi prognozē gan sastopamības izmaiņu virzienu (pa kreisi), gan precīzus ražošanas rādītājus (pa labi).

Simulācijas kļūdu avoti mūsu konveijerā. Mēs pētījām arī pašreizējos kļūdu avotus mūsu konveijerā. Konkrēti, lielas astes kļūdas padara konveijeru mazāk uzticamu izvietošanas lēmumiem: piemēram, redzot lielu prognozētu pieaugumu noteikta veida nevēlamā uzvedībā, ja ir zināms, ka konveijeram pat reizēm ir lielas kļūdas, rodas šaubas, vai tā ir uzticama aplēse vai konveijera artefakts. Ir divi galvenie iespējamās kļūdas avoti:

Atkārtotās atlases vides ticamības kļūda: lai precīzi aplēstu ražošanas rādītājus, mūsu simulācijas konveijeram jābūt pēc iespējas reālistiskam. Daļēji tā ir inženiertehniska problēma (atlasīt no modeļa, izmantojot tos pašus konveijerus kā ražošanas datplūsmai), un daļēji interesants izaicinājums rīkiem, kuriem vajadzīga lasīšanas/rakstīšanas piekļuve ārējiem resursiem, kas nepārtraukti mainās (piemēram, tīmekļa meklēšana vai mijiedarbība ar lokāliem failiem). Simulācijas ticamības kļūdu varam izolēt, salīdzinot prognozes no faktiskas izvietošanas un tās simulācijas (proti, simulējot jau izvietotā modeļa izvietošanu).
Uzvedņu sadalījuma nobīdes kļūda: būtiska baža saistībā ar Izvietošanas simulāciju ir tā, ka jebkura modeļa izvietošana izraisīs sadalījuma nobīdi ievadēs, īpaši ja lietotāji pielāgosies jaunām modeļa iespējām. Uzvedņu sadalījuma kļūdu izolējam, salīdzinot aplēses, kad izvietošanu simulē ar nesenām uzvednēm, pret uzvednēm no realizētās izvietošanas.

Kā redzams 4. attēlā, liela daļa kļūdas mūsu konveijerā — īpaši astes kļūdām — pašlaik rodas simulācijas ticamības dēļ. Tā ir laba ziņa, jo sagaidām, ka simulācijas ticamību kopumā būs vieglāk uzlabot nekā samazināt uzvedņu sadalījuma nobīdi. Mēs arī konstatējam, ka uzvedņu sadalījuma nobīdes kļūdu var samazināt, izmantojot jaunākos datus no iepriekšējās izvietošanas. Plašāka informācija atrodama pētnieciskajā rakstā.

4. attēls: Atkārtotās atlases vides ticamība, šķiet, ir lielākais kļūdu avots mūsu aplēsēs, īpaši ekstrēmākajām kļūdām.

Automatizētais audits atrada vienīgo jauno nesaskaņotību, kas tika ieviesta šajos izvietojumos. Mūsu pētītajā izvietošanas periodā mūsu automatizētā audita konveijers, kas balstīts uz simulētām izvietošanām, būtu pirms izlaišanas atklājis “kalkulatora uzlaušanu”, kas bija vienīgā jaunā nesaskaņotība, ko identificējām analizētajā ChatGPT datplūsmā. Kalkulatora uzlaušana ir atalgojuma uzlaušanas forma, kurā modelis izmanto pārlūka rīku kā kalkulatoru, vienlaikus pasniedzot darbību kā meklēšanu. Tas nenozīmē, ka liela mēroga audits uztvers katru jaunu kļūmi, bet parāda, kāpēc reālistiski konteksti ir svarīgi: tie var izraisīt uzvedību, ko šaurākas izvērtējumu kopas var nekad tieši neatklāt, pat ja tās nebija sākotnējā datplūsmā, kas izmantota simulācijas iesēšanai.

Izvērtēšanas apzināšanās mazināšana

Vēl viena priekšrocība, izmantojot izvietošanai līdzīgus kontekstus, ir tā, ka tie var mazināt izkropļojumus, kas rodas, kad modeļi atpazīst, ka tiek testēti. Iepriekšējos pētījumos mēs, kā arī citi⁠(atveras jaunā logā) esam konstatējuši, ka modeļi bieži apzinās, kad tie tiek testēti. Piemēram, modeļi savā domu ķēdē var spriest par to, kas tiek testēts, kas varētu patikt vērtētājam un — ja tie uzvedas nepareizi — vai tie tiks pieķerti. Tas rada problēmu saskaņošanas izvērtējumiem: ja modelis uzvedas labi tikai tāpēc, ka domā, ka tiek testēts, kā iegūt pārliecību, ka tas uzvedīsies droši, kad uzzinās, ka tas ir izvietots?

Mēs parādām, ka Izvietošanas simulācija būtiski samazina modeļu demonstrēto izvērtēšanas apzināšanās līmeni salīdzinājumā ar tradicionālajiem izvērtējumiem, kas nav balstīti uz reāliem izvietošanas datiem. Izvērtēšanas apzināšanos mērām trīs veidos: lūdzot modelim klasificēt, vai trajektorija nāk no ražošanas vai izvērtējuma, uzraugot domu ķēdi, lai atrastu skaidrus apgalvojumus par saskaņošanas izvērtēšanu, kā arī metaspēlēšanu⁠(atveras jaunā logā): jebkādu spriešanu par uzraudzību. Simulētā izvietošanas datplūsma visos trīs mērījumos cieši atbilda reālai izvietošanas datplūsmai. Piemēram, GPT‑5.2 reālu ražošanas datplūsmu 5,4% gadījumu iezīmēja kā līdzīgu izvērtējumam un simulētu datplūsmu 5,1% gadījumu, savukārt tradicionālie izvērtējumi (piemēram, SWE-Bench vai MonorepoBench, kas galvenokārt sastāv no sintētiskiem piemēriem) tika klasificēti kā izvērtējumi gandrīz 100% gadījumu.

5. attēls. Izvērtēšanas apzināšanās salīdzinājums: reāla ražošanas datplūsma un simulēta datplūsma rāda līdzīgus rādītājus izvērtējuma noteikšanai, verbāli paustai saskaņošanas izvērtēšanas apzināšanai un metaspēlēšanai, savukārt tradicionālo izvērtējumu datu kopās rādītāji ir daudz augstāki.

Rīku simulācija aģentu trajektorijām

Lai pārbaudītu, vai metode var pārsniegt standarta tērzēšanas režīmus, mēs pētījām arī izvietošanas simulēšanu sarežģītos autonomās programmēšanas iestatījumos. Konkrēti, mēs izmantojam 120 000 iekšējo darbinieku aģentiskās trajektorijas no GPT‑5.4, lai simulētu uz GPT‑5.5 balstītu programmēšanas aģentu iekšējo izvietošanu. Tas kalpo diviem mērķiem: tas parāda, kā izvietošanas simulāciju var izmantot arī iekšējo izvietojumu risku novērtēšanai, un demonstrē, ka pat aģentiskos iestatījumos ar rūpīgu rīku simulāciju ir iespējams panākt augstu simulācijas ticamību.

Iepriekš apspriedām, ka simulācijas ticamība ir viens no galvenajiem kļūdu avotiem mūsu pašreizējā konveijerā. Viens no izaicinājumiem, padarot izvietošanas simulācijas reālistiskas, ir tas, ka rīkiem jādarbojas reālistiski pat tad, kad tiem vajadzīga lasīšanas/rakstīšanas piekļuve ārējiem resursiem, kas nepārtraukti mainās (piemēram, tīmekļa meklēšana vai mijiedarbība ar lokāliem failiem).

Tas ir īpaši sarežģīti tādos iestatījumos kā aģentiskas izvietošanas: viena aģenta trajektorija var būt atkarīga no simtiem rīku izsaukumu, repozitorija stāvokļa, tīkla atbilžu vai pārejošām kļūmēm. Tas padara atkārtotu atlasi ar reālu rīku piekļuvi gan sarežģītu, gan potenciāli bīstamu. Ņemot to vērā, tā vietā, lai rīku izsaukumus piemērotu dzīvajām sistēmām, mēs tos simulējam ar citu LVM. Mēs parādām, ka papildu iespēju piešķiršana šim LVM ir būtiska reālismam un tādējādi arī aplēšu kvalitātei.

Rīku simulatora modelim mēs dodam sākotnējo pēdējā pagrieziena izlaišanu, repozitoriju no sarunas laika, rīku izsaukumu/atbilžu pāru datubāzi un tikai lasāmus savienotājus. Testā, kur diskriminators mēģināja atšķirt simulētas izlaišanas no reālām, reālisms uzlabojās no 11,6% uzvaru rādītāja līdz 49,5%, tuvu 50% nejaušības līmenim.

6. attēls: Atkārtotās atlases reālismu var padarīt gandrīz neatšķiramu no reālas atlases pat rīku intensīvos iestatījumos, ja rīku izsaukumus simulē ar paplašinātām iespējām.

Kā papildu pierādījums simulācijas ticamībai, simulējot GPT‑5.4 Codex thinking datplūsmu ar GPT‑5.4, nesaskaņotības rādītāji gandrīz ietilpst kļūdu intervālos. Turpretī mūsu pirmsizvietošanas testēšanā GPT‑5.5 lielākajā daļā kategoriju bija vairāk nesaskaņots.

7. attēls: Ar rīku simulāciju uzvedības rādītāji sarunām, kas atkārtoti atlasītas ar GPT‑5.4, un faktiskai GPT‑5.4 ražošanas datplūsmai ir diezgan līdzīgi — tas norāda uz augstu atkārtotās atlases vides ticamību. Plašāku kontekstu par kategorijām skatiet GPT‑5.5 sistēmas kartē⁠(atveras jaunā logā).

Šie rezultāti liecina, ka Izvietošanas simulācija var tikt paplašināta uz sarežģītiem aģentu iestatījumiem, ja apkārtējā rīku vide tiek simulēta ar pietiekamu ticamību.

WildChat un ārējais audits

Dabisks jautājums ir, vai ārējie auditori var iegūt daļu no tiem pašiem ieguvumiem bez piekļuves privātai ražošanas datplūsmai. Mēs to pārbaudījām, izmantojot 100 000 WildChat sarunu kā prefiksus. WildChat bija mazāk precīzs nekā nesenie OpenAI ražošanas dati, tomēr informatīvs: nesenajiem ražošanas datiem bija zemāka vidējā multiplikatīvā kļūda nekā WildChat (1,75× pret 2,44×), savukārt WildChat bieži palika aptuveni 3× robežās no ražošanas rādītājiem un identificēja labāko modeli virs nejaušības līmeņa. WildChat tipa izvērtējumus mēs uzskatām par daudzsološu papildinājumu izstrādātāju veiktai Izvietošanas simulācijai. Plašākus rezultātus par šo jautājumu skatiet šajā pavadošajā Alignment emuāra ierakstā⁠(atveras jaunā logā).

Ierobežojumi

Izvietošanas simulācija ir papildinājums, nevis aizstājējs adversariāliem izvērtējumiem, sarkanās komandas testēšanai un mērķētai astes risku analīzei. Dažas nevēlamas modeļa uzvedības noteikšana balstās uz domu ķēdes uzraugāmību: ja nākotnes modeļi spriedīs mazāk salasāmi, izlaidīs būtiskus soļus vai iemācīsies slēpt nolūku, mēs varam nespēt noteikt šīs nevēlamās uzvedības formas. Turklāt, tā kā ražošanas dati ir privāti, izstrādātājiem pašlaik ir spēcīgāka piekļuve reprezentatīviem kontekstiem nekā ārējiem auditoriem. Labākas publiskās datu kopas varētu šo plaisu mazināt.

Izvietošanas simulācija ir visnoderīgākā uzvedībām, kas notiek pietiekami bieži, lai parādītos atlasītajos prefiksos. Kļūme, kas notiek vienu reizi desmit miljonos sarunu, visticamāk, netiks atklāta miljona paraugu palaišanā, tāpēc adversariāli izvērtējumi, sarkanās komandas testēšana un mērķēta astes risku analīze joprojām ir nepieciešami. Pašlaik koncentrējamies uz vienas asistenta atbildes simulēšanu, jo sākotnējos eksperimentos neatradām būtiskus uzlabojumus mūsu aplēsēs, simulējot vairākus pagriezienus. Nākotnē tā var būt svarīga joma simulācijas ticamības uzlabošanai.

Metode ir atkarīga arī no prefiksu sadalījuma — sarunu kopuma, kas tiek atkārtoti atlasīts. Vēsturiskā datplūsma var neatbilst tam, kā lietotāji mijiedarbosies ar spējīgāku modeli pēc būtiskām produkta izmaiņām, jauna rīka izlaišanas, pasaules notikuma vai sezonālas nobīdes. Pilnā raksta analīze liecina, ka šo problēmu var mazināt, izmantojot jaunākos pieejamos datus.

Secinājums

Izvietošanas simulācija ir jauna pieeja pirmsizvietošanas risku novērtēšanai, kas palīdz vadošajām laboratorijām un vērtētājiem prognozēt, kā valodu modeļi var uzvesties reālajā pasaulē, un saprast riskus, ko tie rada pirms izvietošanas. Tā papildina esošos drošības izvērtējumus, sarkanās komandas testēšanu un mērķētu analīzi, pievienojot ražošanai līdzīgāku prognozēšanas slāni, kas var uzlabot izvietošanas uzvedības aplēses, mazināt izvērtēšanas apzināšanās ietekmi un padarīt pirmsizvietošanas prognozes pārbaudāmas pēc izlaišanas. Lietota kopā ar tradicionālajiem izvērtējumiem, Izvietošanas simulācija var palīdzēt padarīt modeļu risku novērtēšanu reālistiskāku, kvantitatīvāku un noderīgāku izvietošanas lēmumiem.

2026

Autors

OpenAI

Turpināt lasīt

Skatīt visu

Kā divu iestatījumu ieslēgšana trīskāršoja mūsu rezultātu ARC-AGI-3 etalonā

Izpēte2026. g. 29. jūl.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Uzņēmums2026. g. 29. jūl.

Scientific computing agentic AI card image (1x1)

Zinātniskā skaitļošana autonomā MI laikmetā

Publikācija2026. g. 28. jūl.