2026 m. birželio 16 d.

Modelio elgesio prognozavimas prieš išleidimą simuliuojant diegimą

Realistiškų pokalbių kontekstų naudojimas siekiant geriau įvertinti nepageidaujamą modelio elgesį prieš išleidimą.

Įžanga

Prieš išleidžiant naują modelį, laboratorijoms reikia suprasti ne tik tai, ką jis gali daryti, bet ir kaip jis greičiausiai elgsis realiomis sąlygomis, įskaitant tai, kur gali kelti naujų rizikos veiksnių. Tai tampa dar svarbiau augant galimybėms. Vykdydami saugos peržiūrą prieš diegimą, pasitelkiame tikslinius vertinimus, testavimą spragoms nustatyti ir kitus patikrinimus, kad suprastume modelio elgesį. Dabar pradėjome naudoti metodą, skirtą modelių diegimams simuliuoti dar prieš jiems įvykstant; jis prideda papildomą signalą: į diegimą panašią peržiūrą, kaip kandidatinis modelis gali elgtis prieš pasiekdamas naudotojus.

Diegimo simuliacija yra metodas būsimam diegimui simuliuoti dar prieš jam įvykstant. Tai darome privatumo nepažeidžiančiu būdu pakartodami ankstesnius pokalbius su nauju kandidatiniu modeliu. Tai leidžia mums prieš išleidimą tirti, kaip naujas modelis reaguoja realistiškuose kontekstuose, įskaitant tai, ar atsiranda naujų nepageidaujamo elgesio formų ir kaip dažnai jos gali pasireikšti.

Keliuose GPT‑5 serijos „Thinking“ diegimuose diegimo simuliacija pagerino mūsų nepageidaujamo modelio elgesio rodiklių įverčius, padėjo prieš išleidimą aptikti naujas nesuderinamumo formas ir sumažinti riziką, kad modeliai galės suprasti, jog yra testuojami. Metodą taip pat taikėme sudėtingiems agentiniams paleidimams, parodydami, kad jis gali veikti ne tik standartiniame pokalbyje, bet ir sudėtingesnėse agentų aplinkose, susijusiose su priemonių naudojimu, bei gali būti naudojamas rizikai vertinti prieš vidinius modelių diegimus.

Diegimo simuliacijos įžvalgas jau naudojome modelių kūrimo metu, kad nustatytume tradicinių vertinimų akląsias zonas ir pagrįstume rizikos mažinimo bei diegimo sprendimus. Kadangi darome šį procesą lengviau vykdomą, tikimės, kad ateityje jis vaidins didesnį vaidmenį modelių kūrimo procese.

Kaip veikia diegimo simuliacija

Prieš diegimą visoje industrijoje naudojami vertinimai paprastai susideda iš sintetinių, ranka parašytų arba produkcinių užklausų mišinio, sąmoningai atrinkto iš sudėtingų, didelio sunkumo arba priešiškų pavyzdžių. Šie vertinimai paprastai turėjo du susipynusius tikslus: įvertinti, kaip modelis reaguoja, kai testuojamas stresinėse situacijose, kurių tikimybė diegimo sraute labai maža, ir įgyti bendrą supratimą apie nepageidaujamą modelio elgesį, įskaitant naujų nepageidaujamų elgesių paiešką ir jų dažnių diegimo metu prognozavimą.

Nors tradiciniai vertinimai išlieka labai svarbūs pirmajam tikslui, diegimo simuliacija yra reikšmingas žingsnis į priekį siekiant antrojo tikslo, kai rizikos nėra pačiame pasiskirstymo krašte (mūsų eksperimentuose negalima tikėtis, kad šis metodas išmatuos elgesį, pasireiškiantį rečiau nei 1 iš 200 000 žinučių). Diegimo simuliacijos stiprybė kyla iš to, kad ji apeina kai kuriuos pagrindinius tradicinių vertinimų iššūkius:

Aprėptis: sunku būti užtikrintiems, kad vertinimo užklausos apims visus galimus nepageidaujamo modelio elgesio tipus. Norint matuoti naujus nepageidaujamo elgesio tipus, reikia kurti naujus vertinimus ir žinoti, kokią žalą matuoti. Tai gali reikalauti daug laiko ir darbo, o vertinimai laikui bėgant gali išsisemti.
Atrankos šališkumai: tradiciniai vertinimai paprastai kuriami turint omenyje konkrečias nepageidaujamo modelio elgesio formas ir atrenkami būdais, kurie šališkai palankūs jau anksčiau pasitaikiusiems kontekstams. Dėl to jų įverčiai gali būti mažiau informatyvūs apie tokių elgesio formų pasireiškimą visame diegimo pasiskirstymo plote.
Modelių gebėjimas atpažinti testus: modeliai vis dažniau geba nustatyti, kad yra testuojami, o tai gali iškreipti jų elgesį ir mūsų vėlesnius jų saugos matavimus. Nors daugelis tradicinių vertinimų, kuriuos naudojame „OpenAI“, taip pat paimti iš produkcinio srauto ir nuo šios problemos nenukenčia, tai yra dažnas rūpestis dėl daugelio tradicinių vertinimų, naudojamų visoje industrijoje.

Pagrindinė diegimo simuliacijos technika paprasta: paimame naujausius pokalbius iš diegimo, pašaliname pradinį senesnio modelio asistento atsakymą ir sugeneruojame jį iš naujo su kandidatiniu modeliu, kurį ketinama išleisti. Užbaigimus vertiname ieškodami naujų klaidų tipų ir, remdamiesi dažniu šiame į diegimą panašiame pasiskirstyme, įvertiname nepageidaujamo elgesio dažnį diegimo metu. Tuos pačius matavimus galime atlikti po išleidimo realiame diegimo sraute, todėl galime patvirtinti savo prognozes prieš diegimą.

Diegimo simuliacija reikšmingai sušvelnina tris pirmiau išvardytus apribojimus: imties šališkumas sprendžiamas naudojant vertinimo užklausų pasiskirstymą, reprezentuojantį naujausią naudojimą. Diegimo simuliacija su reprezentatyviomis užklausomis taip pat gali sumažinti nerimą dėl aprėpties: didesnę nepageidaujamo modelio elgesio formų aprėptį gauname tiesiog simuliuodami daugiau srauto. Šis kompromisas tarp skaičiavimo išteklių ir aprėpties yra svarbus, nes šios rizikos vertinimo ašies kokybę jis leidžia didinti skaičiavimo ištekliais, o ne rankiniu darbu, reikalingu norint sukurti daugiau vertinimų. Modeliai taip pat, regis, negali atskirti pokalbių, gautų per diegimo simuliaciją, nuo realaus diegimo srauto.

Diagrama, rodanti produkcijos pakartotinės atrankos procesą nuo produkcijos pokalbių per privatumo nepažeidžiančią pakartotinę atranką, modelio užbaigimų generavimą ir vertinimą iki diegimo meto įverčių. — *1 pav. Mūsų diegimo simuliacijos proceso apžvalga*

Sritis	Tradiciniai vertinimai	Diegimo simuliacija
Aprėptis	Tinkamesni mažo paplitimo, bet didelio sunkumo rizikoms, kurioms norime užtikrinti aprėptį	Geriau padeda suprasti rizikų, kurias tikėtina matyti diegimo sraute, spektrą
Reprezentatyvumas / šališkumas	Sutelkti į tikslinių ankstesnių ar prognozuojamų rizikų vertinimą, net elgesio formoms, kurių paplitimas diegime itin mažas	Reprezentuoja rizikas, kurios dabartiniame diegimo sraute pasireiškia virš tam tikro paplitimo lygio
Vertinimo suvokimas	Potencialiai akivaizdūs testo signalai (pvz., su sintetiniais duomenimis), nebent vertinimai kuriami naudojant diegimo duomenis	Į diegimą panašus kontekstas, regis, reikšmingai mažina vertinimo suvokimą
Pastangos	Tinkinti užklausų pasiskirstymai ir sąrankos reikalauja gerokai daugiau rankinio darbo	Reikia vienkartinių infrastruktūros sąnaudų, o vėliau pakartotinai naudojami diegimo prefiksai ir vertintojai iš žinomų nepageidaujamo elgesio formų

Bendro lygmens tradicinių vertinimų ir diegimo simuliacijos palyginimas

Kaip testavome diegimo simuliaciją

Siekdami įvertinti diegimo simuliaciją, iš anksto užregistravome 20 tipų nepageidaujamo elgesio diegimo metu dažnio prognozes GPT‑5.4 „Thinking“ modeliui. Taip pat atlikome retrospektyvinius tyrimus kituose GPT‑5 serijos „Thinking“ modelių diegimuose. Analizuojamas modelio elgesys apima tiek nesuderinamumą, tiek neleidžiamo turinio kategorijas, apie kurias pranešame sistemų kortelėse (pvz., modelio melavimą apie priemones arba neleidžiamo seksualinio turinio generavimą). Nors šiuose rezultatuose sekame tik 20 nepageidaujamo modelio elgesio kategorijų ir ieškome tik naujų nesuderinto elgesio formų, diegimo simuliacija yra bendras metodas, kurį būtų galima taikyti bet kuriai modelio savybei diegimo metu simuliuoti.

Produkcijos srautas, kuriuo naudojomės, taip pat buvo iš GPT‑5 serijos „Thinking“ modelių. Prieš vykdydami vertinimus, automatiškai pašalinome su paskyromis susietus identifikatorius ir identifikuojamą informaciją. Laikydamiesi savo privatumo politikos, analizavome tik tų naudotojų „ChatGPT“ srautą, kurie leidžia savo duomenis naudoti modelių tobulinimui. Pateikiame tik apibendrintas šių vertinimų išvadas. Iš viso išanalizavome apie 1,3 mln. deidentifikuotų pokalbių GPT‑5 „Thinking“–GPT‑5.4 diegimuose nuo 2025 m. rugpjūčio iki 2026 m. kovo.

Diegimo simuliacijos sukurtos rizikos vertinimo prieš diegimą kokybę vertiname trimis pagrindiniais būdais:

Taksonomijos aprėptis: ar po išleidimo atliktas auditas aptiko svarbių nesuderinto elgesio formų, kurių trūko mūsų pradinėje blogo elgesio taksonomijoje?
Krypties tikslumas: ar simuliacija teisingai prognozavo, ar žinomų elgesio formų paplitimas diegime didės, ar mažės?
Rodiklių kalibravimas: ar mūsų įverčiai prieš diegimą buvo artimi rodikliams, kuriuos vėliau stebėjome diegime? Geram rodiklių kalibravimui reikia daugiau nei krypties tikslumo, todėl tai yra aukščiausias įmanomas kokybės standartas.

Taip pat matuojame, kiek modeliai geba suprasti, kad diegimo simuliacijos metu jie yra vertinami, ir tikriname, kiek metodas atsparus skirtingoms diegimo srauto formoms bei sudėtingoms priemonių naudojimo aplinkoms.

Diegimo simuliacija reikšmingai išplečia rizikos vertinimą prieš diegimą

GPT‑5 serijos „Thinking“ diegimuose diegimo simuliacija aplenkė sudėtingų užklausų bazinius metodus nustatant faktinį rizikos rodiklį, galėjo aptikti skaičiuotuvo nulaužimą prieš išleidimą ir modeliui galėjo atrodyti neatskiriama nuo diegimo.

Mūsų prognozių apžvalga. Visų GPT‑5 serijos „Thinking“ modelių diegimų prognozių vizualizaciją žr. 2 paveiksle. GPT‑5.4 „Thinking“ prognozės buvo užregistruotos iš anksto, o kitos buvo retrospektyvinės prognozės. Apibendrinus, mūsų prognozių medianinė dauginamoji paklaida buvo 1,5x (pvz., jei nepageidaujamo elgesio rodiklis yra 10 iš 100 tūkst., tai atitiktų 15 arba 6,67 iš 100 tūkst. rodiklio įvertį). Nors mūsų metodo kraštinės paklaidos gali būti maždaug 10x didesnės, tikimės, kad jas galima reikšmingai sumažinti toliau tobulinant simuliacijos procesą, kaip aptariama toliau.

Diagrama, rodanti diegimo simuliacijos tikslaus rodiklio prognozes dėl diegimo metu pasireiškiančio nepageidaujamo elgesio, pagrįstas ankstesnio diegimo duomenimis. — 2 pav. Diegimo simuliacijos diegimo metu pasireiškiančio nepageidaujamo elgesio dažnio prognozės, pagrįstos ankstesnio diegimo duomenimis. Žymėjimas 5.1 → 5 reiškia, kad pakartotinai atrenkame prefiksus iš GPT‑5 naudodami GPT‑5.1, t. y. simuliuojame GPT‑5.1 diegimą remdamiesi GPT‑5 duomenimis. Didžiausias nesuderinto elgesio rodiklis GPT‑5.1 modelyje buvo „skaičiuotuvo nulaužimas“, kurį jau aptarėme *anksčiau*⁠(atsidaro naujame lange).

Diegimo simuliacijos prognozių palyginimas su baziniais metodais. Svarbiausios kategorijos, kurias reikia teisingai įvertinti atliekant rizikos vertinimą prieš diegimą, yra tos, kurių pasireiškimas po modelio diegimo smarkiai keičiasi (pvz., >= 1,5x). Šiame poaibyje diegimo simuliacija gerokai pranoksta bazinius metodus tiek prognozuodama, ar tam tikro nepageidaujamo elgesio paplitimas didės ar mažės įdiegus modelį (3 pav., kairėje), tiek vertindama tikslų jo pasireiškimą diegimo metu (3 pav., dešinėje). Naudojame du pagrindinius bazinius metodus: sudėtingų užklausų bazinį metodą, kurį šiuo metu naudojame sistemų kortelėms ir paleidimo sprendimams, ir naivų bazinį metodą, kai ankstesnio diegimo rodikliai naudojami kaip naujo modelio įverčiai.

3 pav. Diegimo simuliacija geriau nei statiniai vertinimai prognozuoja tiek pasireiškimo pokyčių kryptį (kairėje), tiek tikslius produkcijos rodiklius (dešinėje).

Simuliacijos klaidų šaltiniai mūsų procese. Taip pat tyrėme dabartinius klaidų šaltinius mūsų procese. Konkrečiai, didelės kraštinės paklaidos daro procesą mažiau patikimą diegimo sprendimams: pavyzdžiui, matant didelį prognozuojamą tam tikro tipo nepageidaujamo elgesio padidėjimą, jei žinoma, kad procesas bent retkarčiais daro didelių klaidų, kyla abejonių, ar tai patikimas įvertis, ar proceso artefaktas. Du pagrindiniai galimos klaidos šaltiniai:

Pakartotinės atrankos aplinkos tikroviškumo klaida: norint tiksliai įvertinti produkcijos rodiklius, mūsų simuliacijos procesas turi būti kuo realistiškesnis. Tai iš dalies inžinerinė problema (imčių ėmimas iš modelio naudojant tuos pačius procesus kaip produkcijos srautui) ir iš dalies įdomus iššūkis priemonėms, kurioms reikia skaitymo / rašymo prieigos prie nuolat kintančių išorinių išteklių (pvz., žiniatinklio paieškų arba sąveikos su vietiniais failais). Simuliacijos tikroviškumo klaidą galime izoliuoti palygindami prognozes iš faktinio diegimo ir jo simuliacijos (t. y. simuliuodami jau įdiegto modelio diegimą).
Užklausų pasiskirstymo poslinkio klaida: didelė problema dėl diegimo simuliacijos yra tai, kad bet kurio modelio diegimas sukels įvesčių pasiskirstymo poslinkį, ypač jei naudotojai prisitaikys prie naujų modelio galimybių. Užklausų pasiskirstymo klaidą izoliuojame lygindami įverčius, kai diegimas simuliuojamas naudojant naujausias užklausas ir užklausas iš realizuoto diegimo.

Kaip matyti 4 paveiksle, nustatome, kad didelė mūsų proceso klaidos dalis – ypač kraštinių paklaidų – šiuo metu kyla dėl simuliacijos tikroviškumo. Tai gera žinia, nes tikimės, kad simuliacijos tikroviškumą apskritai lengviau pagerinti nei sumažinti užklausų pasiskirstymo poslinkį. Taip pat nustatome, kad užklausų pasiskirstymo poslinkio klaidą galima sumažinti naudojant naujausius ankstesnio diegimo duomenis. Daugiau informacijos rasite moksliniame straipsnyje.

4 pav. Pakartotinės atrankos aplinkos tikroviškumas, regis, yra didžiausias mūsų įverčių klaidų šaltinis, ypač kraštutiniausioms klaidoms.

Automatinis auditas aptiko vienintelį naują nesuderinamumą, atsiradusį šiuose diegimuose. Mūsų tirtame diegimo lange automatizuotas audito procesas, pagrįstas simuliuotais diegimais, būtų aptikęs „skaičiuotuvo nulaužimą“ prieš išleidimą; tai buvo vienintelis naujas nesuderinamumas, kurį nustatėme analizuotame „ChatGPT“ sraute. Skaičiuotuvo nulaužimas yra atlygio nulaužimo forma, kai modelis naudoja naršyklės priemonę kaip skaičiuotuvą, o veiksmą pateikia kaip paiešką. Tai nereiškia, kad plataus masto auditas aptiks kiekvieną naują klaidą, bet rodo, kodėl realistiški kontekstai svarbūs: jie gali iššaukti elgesio formas, kurių siauresni vertinimo rinkiniai galbūt niekada tiesiogiai neatskleistų, net jei jų nebuvo pradiniame sraute, naudotame simuliacijai inicijuoti.

Vertinimo suvokimo mažinimas

Kitas į diegimą panašių kontekstų naudojimo privalumas yra tas, kad jie gali sumažinti iškraipymus, atsirandančius, kai modeliai atpažįsta, jog yra testuojami. Ankstesniuose tyrimuose tiek mes, tiek kiti⁠(atsidaro naujame lange) nustatėme, kad modeliai dažnai suvokia, kada yra testuojami. Pavyzdžiui, modeliai savo minčių grandinėje gali samprotauti apie tai, kas jiems testuojama, kas galėtų patikti vertintojui ir – jei jie elgiasi netinkamai – ar bus pagauti. Tai kelia problemą vertinant suderinimą: jei modelis elgiasi gerai tik todėl, kad mano esąs testuojamas, kaip įgyti pasitikėjimo, kad jis elgsis saugiai supratęs, jog yra įdiegtas?

Parodome, kad diegimo simuliacija gerokai sumažina modelių rodomą vertinimo suvokimo lygį, palyginti su tradiciniais vertinimais, kurie nėra pagrįsti realiais diegimo duomenimis. Vertinimo suvokimą matuojame trimis būdais: prašydami modelio klasifikuoti, ar trajektorija kilo iš produkcijos, ar iš vertinimo; stebėdami minčių grandinę dėl aiškių teiginių apie vertinimą dėl suderinimo, taip pat dėl „metagaming“⁠(atsidaro naujame lange): bet kokio protavimo apie priežiūrą. Simuliuotas diegimo srautas pagal visus tris matavimus labai panašiai atitiko realų diegimo srautą. Pavyzdžiui, GPT‑5.2 realų produkcijos srautą pažymėjo kaip panašų į vertinimą 5,4 % atvejų, o simuliuotą srautą – 5,1 % atvejų, tuo tarpu tradiciniai vertinimai (pvz., „SWE-Bench“ ar „MonorepoBench“, daugiausia sudaryti iš sintetinių pavyzdžių) beveik 100 % atvejų buvo klasifikuojami kaip vertinimai.

5 pav. Vertinimo suvokimo palyginimas: realus produkcijos srautas ir simuliuotas srautas rodo panašius vertinimo aptikimo, verbalizuoto suderinimo vertinimo suvokimo ir „metagaming“ rodiklius, o tradiciniai vertinimo duomenų rinkiniai pateikia gerokai aukštesnius rodiklius.

Priemonių simuliacija agentinėms trajektorijoms

Norėdami patikrinti, ar metodas gali būti taikomas plačiau nei standartiniai pokalbio režimai, taip pat tyrėme diegimų simuliavimą sudėtingose agentinio programavimo aplinkose. Konkrečiai, naudojame 120 000 vidinių darbuotojų agentinių trajektorijų iš GPT‑5.4, kad simuliuotume vidinį programavimo agentų, pagrįstų GPT‑5.5, diegimą. Tai turi du tikslus: parodo, kaip diegimo simuliacija taip pat gali būti naudojama vidinių diegimų rizikai vertinti, ir demonstruoja, kad net agentinėse aplinkose galima pasiekti didelį simuliacijos tikroviškumą kruopščiai simuliuojant priemones.

Aukščiau aptarėme, kad simuliacijos tikroviškumas yra vienas pagrindinių klaidų šaltinių mūsų dabartiniame procese. Vienas iš iššūkių siekiant, kad diegimo simuliacijos būtų realistiškos, yra tai, kad priemonės turi veikti realistiškai net tada, kai joms reikia skaitymo / rašymo prieigos prie nuolat kintančių išorinių išteklių (pvz., žiniatinklio paieškų arba sąveikos su vietiniais failais).

Tai ypač sudėtinga tokioms aplinkoms kaip agentiniai diegimai: viena agento trajektorija gali priklausyti nuo šimtų priemonių iškvietimų, saugyklos būsenos, tinklo atsakymų ar trumpalaikių gedimų. Dėl to pakartotinė atranka su realia prieiga prie priemonių yra ir sudėtinga, ir potencialiai pavojinga. Atsižvelgdami į tai, užuot taikę priemonių iškvietimus gyvoms sistemoms, simuliuojame juos kitu LLM. Parodome, kad suteikti šiam LLM papildomų galimybių yra būtina realistiškumui, taigi ir įverčių kokybei.

Priemonių simuliatoriaus modeliui pateikiame pradinį paskutinės replikos paleidimą, pokalbio meto saugyklą, priemonių iškvietimų / atsakymų porų duomenų bazę ir tik skaitymo jungtis. Teste, kuriame diskriminatorius bandė atskirti simuliuotus paleidimus nuo realių, realistiškumas pagerėjo nuo 11,6 % laimėjimų rodiklio iki 49,5 %, arti 50 % atsitiktinumo lygio.

6 pav. Pakartotinės atrankos realistiškumą galima padaryti beveik neatskiriamą nuo realios atrankos net tose aplinkose, kuriose intensyviai naudojamos priemonės, kai priemonių iškvietimai simuliuojami su padidintomis galimybėmis.

Kaip papildomas simuliacijos tikroviškumo įrodymas, simuliuojant GPT‑5.4 „Codex Thinking“ srautą su GPT‑5.4, nesuderinamumo rodikliai beveik patenka į paklaidų intervalus. Priešingai, mūsų testavime prieš diegimą GPT‑5.5 daugumoje kategorijų buvo labiau nesuderintas.

7 pav. Naudojant priemonių simuliaciją, elgesio rodikliai pokalbiams, pakartotinai atrinktiems su GPT‑5.4, ir faktiniam GPT‑5.4 produkcijos srautui yra gana panašūs – tai rodo didelį pakartotinės atrankos aplinkos tikroviškumą. Daugiau kategorijų konteksto žr. GPT‑5.5 sistemos kortelėje⁠(atsidaro naujame lange).

Šie rezultatai rodo, kad diegimo simuliacija gali būti išplėsta į sudėtingas agentų aplinkas, kai aplinkinė priemonių aplinka simuliuojama pakankamai tikroviškai.

„WildChat“ ir išorinis auditas

Natūralus klausimas – ar išoriniai auditoriai gali gauti dalį tų pačių privalumų neturėdami prieigos prie privataus produkcijos srauto. Tai patikrinome naudodami 100 000 „WildChat“ pokalbių kaip prefiksus. „WildChat“ buvo mažiau tikslus nei naujausi „OpenAI“ produkcijos duomenys, bet vis tiek informatyvus: naujausių produkcijos duomenų vidutinė dauginamoji paklaida buvo mažesnė nei „WildChat“ (1,75× ir 2,44×), o „WildChat“ dažnai išliko maždaug 3× atstumu nuo produkcijos rodiklių ir geresnį modelį nustatė dažniau nei atsitiktinai. „WildChat“ tipo vertinimus laikome perspektyviu papildymu kūrėjų vykdomai diegimo simuliacijai. Daugiau rezultatų šiuo klausimu rasite šiame susijusiame „Alignment“ tinklaraščio įraše⁠(atsidaro naujame lange).

Apribojimai

Diegimo simuliacija yra priešiškų vertinimų, testavimo spragoms nustatyti ir tikslinės kraštinių rizikų analizės papildymas, o ne pakaitalas. Kai kurių nepageidaujamo modelio elgesio formų aptikimas priklauso nuo minčių grandinės stebimumo: jei būsimi modeliai samprotaus mažiau įskaitomai, praleis svarbius žingsnius arba išmoks slėpti ketinimus, galime nebegalėti aptikti šių nepageidaujamo elgesio formų. Be to, kadangi produkcijos duomenys privatūs, kūrėjai šiuo metu turi geresnę prieigą prie reprezentatyvių kontekstų nei išoriniai auditoriai. Geresni viešieji duomenų rinkiniai galėtų sumažinti šį atotrūkį.

Diegimo simuliacija naudingiausia elgesio formoms, kurios pasireiškia pakankamai dažnai, kad atsirastų imtyje paimtuose prefiksuose. Klaida, pasitaikanti kartą per dešimt milijonų pokalbių, vargu ar bus aptikta milijono imčių paleidime, todėl priešiški vertinimai, testavimas spragoms nustatyti ir tikslinė kraštinių rizikų analizė lieka būtini. Šiuo metu daugiausia dėmesio skiriame vieno asistento atsakymo simuliavimui, nes preliminariuose eksperimentuose neradome reikšmingo įverčių pagerėjimo simuliuojant kelias replikas. Ateityje tai gali būti svarbi sritis simuliacijos tikroviškumui gerinti.

Metodas taip pat priklauso nuo prefiksų pasiskirstymo – pokalbių, kurie pakartotinai atrenkami, mišinio. Istorinis srautas gali neatitikti to, kaip naudotojai sąveikaus su pajėgesniu modeliu po didelio produkto pakeitimo, naujos priemonės išleidimo, pasaulio įvykio ar sezoninio poslinkio. Visame straipsnyje pateikta analizė rodo, kad šią problemą galima sušvelninti naudojant naujausius prieinamus duomenis.

Išvada

Diegimo simuliacija yra naujas rizikos vertinimo prieš diegimą metodas, padedantis priešakinėms laboratorijoms ir vertintojams prognozuoti, kaip kalbos modeliai gali elgtis realiame pasaulyje, ir suprasti jų keliamas rizikas prieš diegimą. Ji papildo esamus saugos vertinimus, testavimą spragoms nustatyti ir tikslinę analizę, pridėdama labiau į produkciją panašų prognozavimo sluoksnį, kuris gali pagerinti diegimo elgesio įverčius, sumažinti vertinimo suvokimo poveikį ir leisti prognozes prieš diegimą patikrinti po išleidimo. Naudojama kartu su tradiciniais vertinimais, diegimo simuliacija gali padėti modelių rizikos vertinimą padaryti realistiškesnį, kiekybiškesnį ir naudingesnį diegimo sprendimams.

2026 m.

Autorius

OpenAI

Skaityti toliau

Peržiūrėti viską

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Bendrovė2026-07-29

Scientific computing agentic AI card image (1x1)

Moksliniai skaičiavimai agentinio DI amžiuje

Publikacija2026-07-28

Atskiriant signalą nuo triukšmo programavimo vertinimuose

Moksliniai tyrimai2026-07-08