Tbassir tal-imġiba tal-mudell qabel ir-rilaxx billi nissimulaw id-distribuzzjoni
Użu ta’ kuntesti realistiċi ta’ konverżazzjoni biex nistmaw aħjar imġiba mhux mixtieqa tal-mudell qabel ir-rilaxx.
Qabel ma joħorġu mudell ġdid, il-laboratorji jeħtieġu jifhmu mhux biss x’jista’ jagħmel, iżda kif x’aktarx se jġib ruħu fl-użu fid-dinja reali, inkluż fejn jista’ jintroduċi riskji ġodda. Dan isir saħansitra aktar importanti hekk kif jiżdiedu l-kapaċitajiet. Bħala parti mir-rieżami tas-sikurezza tagħna qabel id-distribuzzjoni, nużaw evalwazzjonijiet immirati, red-teaming, u kontrolli oħra biex nifhmu l-imġiba tal-mudell. Issa bdejna nużaw metodu biex nissimulaw distribuzzjonijiet ta’ mudelli qabel ma jseħħu, li jżid sinjal komplementari: preview simili għal distribuzzjoni ta’ kif mudell kandidat jista’ jġib ruħu qabel jilħaq lill-utenti.
Is-Simulazzjoni tad-Distribuzzjoni hija metodu biex tiġi simulata distribuzzjoni futura qabel ma sseħħ. Nagħmlu dan billi nerġgħu ndoqqu konverżazzjonijiet preċedenti b’mod li jippreserva l-privatezza b’mudell kandidat ġdid. Dan jippermettilna nistudjaw kif il-mudell il-ġdid jirrispondi f’kuntesti realistiċi qabel ir-rilaxx, inkluż jekk jitfaċċawx imġibiet mhux mixtieqa ġodda u kemm-il darba jistgħu jidhru.
F’diversi distribuzzjonijiet Thinking tas-serje GPT‑5, is-Simulazzjoni tad-Distribuzzjoni tejbet l-istimi tagħna tar-rati ta’ imġiba mhux mixtieqa tal-mudell, għenet tikxef forom ġodda ta’ nuqqas ta’ allinjament qabel ir-rilaxx, u għenet tnaqqas ir-riskju li l-mudelli jkunu jistgħu jagħrfu li kienu qed jiġu ttestjati. Applikajna wkoll il-metodu għal rollouts aġentiċi diffiċli, u wrejna li jista’ jestendi lil hinn miċ-chat standard għal ambjenti ta’ aġenti aktar kumplessi li jinvolvu l-użu ta’ għodod, u jista’ jintuża wkoll għall-valutazzjoni tar-riskju qabel distribuzzjonijiet interni ta’ mudelli.
Diġà użajna tagħrif mis-Simulazzjoni tad-Distribuzzjoni waqt l-iżvilupp tal-mudell biex nidentifikaw punti għomja f’evalwazzjonijiet tradizzjonali u ninfurmaw mitigazzjonijiet u deċiżjonijiet dwar id-distribuzzjoni. Hekk kif nagħmlu l-pipeline aktar faċli biex jitħaddem, nistennew li jkollu rwol akbar fil-proċess futur tal-iżvilupp tal-mudelli.
Evalwazzjonijiet qabel id-distribuzzjoni użati fl-industrija ġeneralment jikkonsistu f’taħlita ta’ prompts sintetiċi, miktuba manwalment, jew ta’ produzzjoni, magħżula intenzjonalment biex ikunu diffiċli, ta’ severità għolja, jew avversarjali. Dawn l-evalwazzjonijiet ġeneralment kellhom żewġ għanijiet marbutin ma’ xulxin: li jivvalutaw kif jirrispondi l-mudell meta jiġi ttestjat taħt pressjoni f’sitwazzjonijiet li għandhom ċans żgħir ħafna li jseħħu fit-traffiku tad-distribuzzjoni, u li niksbu fehim ġenerali ta’ imġibiet mhux mixtieqa tal-mudell, inkluż is-sejba ta’ imġibiet mhux mixtieqa ġodda u t-tbassir tal-frekwenzi tagħhom waqt id-distribuzzjoni.
Filwaqt li l-evalwazzjonijiet tradizzjonali jibqgħu kruċjali għall-ewwel għan, is-Simulazzjoni tad-Distribuzzjoni tirrappreżenta pass sinifikanti ’l quddiem rigward it-tieni għan għal riskji mhux fit-tail (fl-esperimenti tagħna, l-approċċ tagħna ma jistax mistenni jkejjel imġibiet li jseħħu b’frekwenza inqas minn 1 f’200,000 messaġġ). Is-saħħa tas-Simulazzjoni tad-Distribuzzjoni ġejja mill-evitar ta’ xi sfidi ewlenin tal-evalwazzjonijiet tradizzjonali:
- Kopertura: huwa diffiċli li nkunu kunfidenti li l-prompts tal-evalwazzjoni se jkopru t-tipi kollha possibbli ta’ imġiba mhux mixtieqa tal-mudell. Il-kejl ta’ tipi ġodda ta’ imġiba mhux mixtieqa jeħtieġ il-ħolqien ta’ evalwazzjonijiet ġodda, u l-għarfien ta’ liema danni għandhom jitkejlu. Dan jista’ jieħu ħafna ħin u xogħol, u l-evalwazzjonijiet jistgħu jissaturaw maż-żmien.
- Preġudizzji fl-għażla: l-evalwazzjonijiet tradizzjonali ġeneralment jinbnew b’imġibiet mhux mixtieqa speċifiċi tal-mudell f’moħħhom, magħżula b’modi li jxaqilbu lejn kuntesti li seħħew qabel. Dan jista’ jagħmel l-istimi tagħhom inqas informattivi dwar l-inċidenza ta’ dawn l-imġibiet fil-firxa sħiħa tad-distribuzzjoni.
- Li jkunu rikonoxxibbli bħala testijiet mill-mudelli: il-mudelli saru dejjem aktar kapaċi jiddeterminaw li qed jiġu ttestjati, u dan jista’ jgħawweġ l-imġiba tagħhom u l-kejl sussegwenti tagħna tas-sikurezza tagħhom. Filwaqt li ħafna mill-evalwazzjonijiet tradizzjonali li nużaw f’OpenAI jinġibdu wkoll mit-traffiku tal-produzzjoni u ma jsofrux minn din il-kwistjoni, din hija tħassiba komuni għal ħafna evalwazzjonijiet tradizzjonali użati fl-industrija.
It-teknika ewlenija wara s-Simulazzjoni tad-Distribuzzjoni hija sempliċi: nieħdu konverżazzjonijiet reċenti mid-distribuzzjoni, inneħħu r-rispons oriġinali tal-assistent mill-mudell l-antik, u niġġenerawh mill-ġdid b’mudell kandidat li għandu jinħareġ. Nevalwaw il-kompletamenti billi nfittxu modi ġodda ta’ falliment, u nistmaw il-frekwenza ta’ imġiba mhux mixtieqa waqt id-distribuzzjoni abbażi tal-frekwenza f’din id-distribuzzjoni simili għad-distribuzzjoni reali. Nistgħu nwettqu l-istess kejl wara r-rilaxx fuq traffiku reali tad-distribuzzjoni, u b’hekk nivvalidaw it-tbassir tagħna ta’ qabel id-distribuzzjoni.
Is-Simulazzjoni tad-Distribuzzjoni ttaffi b’mod sinifikanti t-tliet limitazzjonijiet elenkati hawn fuq: il-preġudizzju tal-kampjunar jiġi indirizzat billi tintuża distribuzzjoni ta’ prompts tal-evalwazzjoni rappreżentattiva tal-użu reċenti. Is-Simulazzjoni tad-Distribuzzjoni b’prompts rappreżentattivi tista’ ttaffi wkoll it-tħassib dwar il-kopertura: niksbu kopertura akbar ta’ imġibiet mhux mixtieqa tal-mudell sempliċement billi nissimulaw aktar traffiku. Dan il-kompromess bejn il-komputazzjoni u l-kopertura huwa importanti, għax jagħmel il-kwalità ta’ dan l-assi tal-valutazzjoni tar-riskju tiskala mal-komputazzjoni, aktar milli mal-isforz manwali meħtieġ biex jinbnew aktar evalwazzjonijiet. Il-mudelli lanqas ma jidhru li jistgħu jiddistingwu bejn konverżazzjonijiet miksuba permezz tas-simulazzjoni tad-distribuzzjoni u traffiku reali tad-distribuzzjoni.
Figura 1: Ħarsa ġenerali lejn il-pipeline tagħna tas-Simulazzjoni tad-Distribuzzjoni
Qasam | Evalwazzjonijiet Tradizzjonali | Simulazzjoni tad-Distribuzzjoni |
Kopertura | Aħjar għal riskji ta’ prevalenza baxxa iżda severità għolja li rridu niżguraw li jkollna kopertura għalihom | Aħjar biex nifhmu l-ispettru ta’ riskji li x’aktarx naraw fit-traffiku tad-distribuzzjoni |
Rappreżentattività / preġudizzju | Iffukat fuq l-evalwazzjoni ta’ riskji mmirati tal-passat jew imbassra, anke għal imġibiet li għandhom prevalenza estremament baxxa fid-distribuzzjoni | Rappreżentattiv ta’ riskji li jseħħu ’l fuq minn ċerta prevalenza fit-traffiku attwali tad-distribuzzjoni |
Għarfien tal-evalwazzjoni | Ħjiel ta’ test potenzjalment ovvji (eż. b’data sintetika) sakemm l-evals ma jinħolqux b’data tad-distribuzzjoni | Kuntest simili għad-distribuzzjoni jidher li jtaffi b’mod sinifikanti l-għarfien tal-evalwazzjoni |
Sforz | Distribuzzjonijiet u setups apposta ta’ prompts jeħtieġu ħafna aktar sforz manwali | Jeħtieġ spiża ta’ darba għall-infrastruttura, u mbagħad jerġa’ juża prefissi mid-distribuzzjoni u graders minn imġibiet mhux mixtieqa magħrufa |
Tqabbil ta’ livell għoli bejn evalwazzjonijiet tradizzjonali u s-Simulazzjoni tad-Distribuzzjoni
Biex nevalwaw is-Simulazzjoni tad-Distribuzzjoni, irreġistrajna minn qabel tbassir għall-frekwenza waqt id-distribuzzjoni ta’ 20 tip ta’ imġiba mhux mixtieqa għal GPT‑5.4 Thinking. Mexxejna wkoll studji retrospettivi fuq distribuzzjonijiet oħra ta’ mudelli Thinking tas-serje GPT‑5. L-imġibiet tal-mudell li nanalizzaw ikopru kemm nuqqas ta’ allinjament kif ukoll kategoriji ta’ kontenut mhux permess li ilna nirrapportaw fil-kards tas-sistema (eż. il-mudell jigdeb dwar għodod, jew joħroġ kontenut sesswali mhux permess). Għalkemm għal dawn ir-riżultati nsegwu biss 20 kategorija ta’ imġiba mhux mixtieqa tal-mudell, u nfittxu biss imġibiet ġodda mhux allinjati, is-Simulazzjoni tad-Distribuzzjoni hija teknika ġenerali li tista’ tiġi applikata biex tissimula kwalunkwe proprjetà tal-mudell waqt id-distribuzzjoni.
It-traffiku tal-produzzjoni li użajna kien ukoll minn mudelli Thinking tas-serje GPT‑5. Qabel ma mexxejna l-evalwazzjonijiet tagħna, neħħejna awtomatikament identifikaturi marbuta mal-kont u informazzjoni identifikabbli. Skont il-politika tal-privatezza tagħna, analizzajna biss traffiku ta’ ChatGPT minn utenti li jippermettu li d-data tagħhom tintuża għal titjib fil-mudelli. Nirrapportaw biss sejbiet aggregati minn dawn l-evalwazzjonijiet. B’kollox, analizzajna madwar 1.3 miljun konverżazzjoni de-identifikata tul id-distribuzzjonijiet minn GPT‑5 Thinking sa GPT‑5.4, minn Awwissu 2025 sa Marzu 2026.
Nevalwaw il-kwalità tal-valutazzjoni tar-riskju qabel id-distribuzzjoni prodotta mis-Simulazzjoni tad-Distribuzzjoni fi tliet modi ewlenin:
- Kopertura tat-tassonomija: l-awditjar wara r-rilaxx kixef xi imġibiet importanti mhux allinjati nieqsa mit-tassonomija inizjali tagħna tal-imġiba ħażina?
- Preċiżjoni direzzjonali: is-simulazzjoni bassret b’mod korrett jekk il-prevalenza fid-distribuzzjoni kinitx se tiżdied jew tonqos għal imġibiet magħrufa?
- Kalibrazzjoni tar-rata: l-istimi tagħna ta’ qabel id-distribuzzjoni kienu qrib ir-rati li osservajna aktar tard fid-distribuzzjoni? Il-kisba ta’ kalibrazzjoni tajba tar-rata teħtieġ aktar minn preċiżjoni direzzjonali, u għalhekk din hija l-ogħla standard ta’ kwalità possibbli.
Inkejlu wkoll kemm il-mudelli kapaċi jagħrfu li jinsabu f’evalwazzjoni waqt is-Simulazzjoni tad-Distribuzzjoni, u nittestjaw kemm il-metodu hu robust għal forom differenti ta’ traffiku tad-distribuzzjoni u għal ambjenti diffiċli ta’ użu ta’ għodod.
Fid-distribuzzjonijiet Thinking tas-serje GPT‑5, is-Simulazzjoni tad-Distribuzzjoni qabżet il-linji bażi ta’ prompts diffiċli fid-determinazzjoni tar-rata reali tar-riskju, setgħet tikxef il-hacking tal-kalkolatur qabel ir-rilaxx, u dehret potenzjalment indistingwibbli mid-distribuzzjoni għall-mudell.
Ħarsa ġenerali lejn it-tbassir tagħna. Għal viżwalizzazzjoni tat-tbassir kollu għad-distribuzzjonijiet ta’ mudelli Thinking tas-serje GPT‑5, ara Figura 2. It-tbassir għal GPT‑5.4 Thinking ġie rreġistrat minn qabel, filwaqt li l-oħrajn kienu tbassir retroattiv. B’mod aggregat, it-tbassir tagħna kellu żball multiplikattiv medjan ta’ 1.5x (eż. jekk ir-rata ta’ imġiba mhux mixtieqa hija 10 f’100k, dan ikun jikkorrispondi għal stima ta’ rata ta’ 15 jew 6.67 f’100k). Għalkemm l-iżbalji fit-tail tal-metodu tagħna jistgħu jkunu madwar 10x akbar, nistennew li jistgħu jitnaqqsu b’mod sinifikanti b’aktar titjib fil-pipeline tas-simulazzjoni tagħna, kif diskuss hawn taħt.
Figura 2. Tbassir tal-frekwenza tas-Simulazzjoni tad-Distribuzzjoni għal imġiba mhux mixtieqa fil-ħin tad-distribuzzjoni, abbażi ta’ data minn distribuzzjonijiet preċedenti. In-notazzjoni 5.1 → 5 tindika li qed nerġgħu nieħdu kampjuni ta’ prefissi minn GPT‑5 b’GPT‑5.1, jiġifieri, qed nissimulaw id-distribuzzjoni ta’ GPT‑5.1 abbażi ta’ data minn GPT‑5. L-ogħla rata ta’ imġiba mhux allinjata kienet “hacking tal-kalkolatur” f’GPT‑5.1, li ddiskutejna qabel(jinfetaħ f’tieqa ġdida).
Tqabbil tat-tbassir tas-Simulazzjoni tad-Distribuzzjoni mal-linji bażi. L-aktar kategoriji importanti li għandhom jiġu stmati b’mod korrett għall-valutazzjonijiet tar-riskju qabel id-distribuzzjoni huma dawk li għandhom bidliet kbar fl-inċidenza wara d-distribuzzjoni tal-mudell (eż. ≥ 1.5x). F’dan is-sottosett, is-Simulazzjoni tad-Distribuzzjoni hija sostanzjalment aħjar mil-linji bażi kemm fit-tbassir ta’ jekk imġiba mhux mixtieqa partikolari hix se tiżdied jew tonqos fil-prevalenza mad-distribuzzjoni ta’ mudell (Figura 3, xellug), kif ukoll fl-istima tal-inċidenza eżatta tagħha waqt id-distribuzzjoni (Figura 3, lemin). Nużaw żewġ linji bażi ewlenin: linja bażi ta’ Prompts Diffiċli li bħalissa nużaw għall-kards tas-sistema u deċiżjonijiet ta’ tnedija, u linja bażi sempliċi li tuża r-rati mid-distribuzzjoni preċedenti bħala stimi għall-mudell il-ġdid.
Figura 3. Is-Simulazzjoni tad-Distribuzzjoni tbassar kemm id-direzzjoni tal-bidliet fl-inċidenza (xellug) kif ukoll ir-rati eżatti tal-produzzjoni (lemin) aħjar minn evals statiċi.
Sorsi ta’ żball tas-simulazzjoni fil-pipeline tagħna. Studjajna wkoll is-sorsi attwali ta’ żball fil-pipeline tagħna. B’mod speċifiku, żbalji kbar fit-tail jagħmlu l-pipeline inqas affidabbli għal deċiżjonijiet ta’ distribuzzjoni: pereżempju, meta naraw żieda kbira prevista f’imġiba mhux mixtieqa ta’ tip partikolari, jekk il-pipeline huwa magħruf li għandu anke żbalji kbar okkażjonali, iqajjem dubju dwar jekk din hijiex stima affidabbli jew artefatt tal-pipeline. Hemm żewġ sorsi ewlenin ta’ żball possibbli:
- Żball fil-fedeltà tal-ambjent tar-rikampjunar: biex nistmaw ir-rati tal-produzzjoni b’mod preċiż, il-pipeline tas-simulazzjoni tagħna jeħtieġ ikun kemm jista’ jkun realistiku. Dan huwa parzjalment problema ta’ inġinerija (kampjunar mill-mudell bl-użu tal-istess pipelines użati għat-traffiku tal-produzzjoni), u parzjalment sfida interessanti għal għodod li jeħtieġu aċċess ta’ qari/kitba għal riżorsi esterni li jinbidlu kontinwament (eż. tfittxijiet fuq il-web jew interazzjoni ma’ fajls lokali). Nistgħu niżolaw l-iżball tal-fedeltà tas-simulazzjoni billi nqabblu tbassir minn distribuzzjoni reali u s-simulazzjoni tagħha (jiġifieri, nissimulaw id-distribuzzjoni tal-mudell li diġà ġie distribwit).
- Żball ta’ bidla fid-distribuzzjoni tal-prompt: tħassib ewlieni bis-Simulazzjoni tad-Distribuzzjoni huwa li d-distribuzzjoni ta’ kwalunkwe mudell tikkawża bidla distribuzzjonali fl-inputs, speċjalment jekk l-utenti jadattaw għall-kapaċitajiet ġodda tal-mudell. Niżolaw l-iżball tad-distribuzzjoni tal-prompt billi nqabblu stimi meta nissimulaw id-distribuzzjoni bl-użu ta’ prompts reċenti kontra prompts mid-distribuzzjoni li seħħet fil-fatt.
Kif jidher f’Figura 4, insibu li frazzjoni kbira tal-iżball fil-pipeline tagħna—speċjalment għall-iżbalji fit-tail—bħalissa hija dovuta għall-fedeltà tas-simulazzjoni. Din hija aħbar tajba, għax nistennew li l-fedeltà tas-simulazzjoni ġeneralment tkun aktar faċli biex tittejjeb milli titnaqqas il-bidla fid-distribuzzjoni tal-prompt. Insibu wkoll li l-iżball tal-bidla fid-distribuzzjoni tal-prompt jista’ jitnaqqas billi tintuża l-aktar data reċenti mid-distribuzzjoni preċedenti. Aktar dettall jinsab fid-dokument ta’ riċerka.
Figura 4: Il-fedeltà tal-ambjent tar-rikampjunar tidher li hija l-akbar sors ta’ żball fl-istimi tagħna, speċjalment għall-aktar żbalji estremi.
L-awditjar awtomatizzat sab in-nuqqas ta’ allinjament ġdid wieħed introdott f’dawn id-distribuzzjonijiet. Fit-tieqa tad-distribuzzjoni li studjajna, il-pipeline tagħna ta’ awditjar awtomatizzat ibbażat fuq distribuzzjonijiet simulati kien ikun kixef il-“hacking tal-kalkolatur” qabel ir-rilaxx, li kien l-uniku nuqqas ta’ allinjament ġdid li identifikajna fit-traffiku ta’ ChatGPT analizzat. Il-hacking tal-kalkolatur huwa forma ta’ reward hacking li tinvolvi lill-mudell juża għodda tal-browser bħala kalkolatur filwaqt li jippreżenta l-azzjoni bħala tfittxija. Dan ma jfissirx li awditjar fuq skala kbira se jaqbad kull falliment ġdid, iżda juri għaliex il-kuntesti realistiċi huma importanti: jistgħu jqanqlu imġibiet li settijiet ta’ evalwazzjoni aktar dojoq jistgħu qatt ma jikxfu direttament, anke jekk ma kinux preżenti fit-traffiku oriġinali użat biex jinbeda s-simulazzjoni.
Vantaġġ ieħor tal-użu ta’ kuntesti simili għad-distribuzzjoni huwa li jistgħu jnaqqsu t-tgħawwiġ li jinħoloq meta l-mudelli jagħrfu li qed jiġu ttestjati. F’riċerka preċedenti, aħna, kif ukoll oħrajn(jinfetaħ f’tieqa ġdida), sibna li l-mudelli spiss ikunu konxji ta’ meta qed jiġu ttestjati. Pereżempju, il-mudelli jistgħu jirraġunaw fil-katina tal-ħsieb tagħhom dwar fuq xiex qed jiġu ttestjati, x’jista’ jogħġob lil evalwatur, u—jekk qed iġibu ruħhom ħażin—jekk hux se jinqabdu. Dan joħloq problema għall-evalwazzjonijiet tal-allinjament: jekk mudell iġib ruħu tajjeb biss għax jaħseb li qed jiġi ttestjat, kif nibnu fiduċja li se jġib ruħu b’mod sigur ladarba jitgħallem li ġie distribwit?
Nuru li s-Simulazzjoni tad-Distribuzzjoni tnaqqas b’mod sostanzjali l-livelli ta’ għarfien tal-evalwazzjoni murija mill-mudelli meta mqabbla ma’ evalwazzjonijiet tradizzjonali li mhumiex ibbażati fuq data reali tad-distribuzzjoni. Inkejlu l-għarfien tal-evalwazzjoni fi tliet modi: billi nitolbu lil mudell jikklassifika jekk trajettorja ġietx mill-produzzjoni jew minn evalwazzjoni, billi nimmonitorjaw il-katina tal-ħsieb għal dikjarazzjonijiet espliċiti dwar li qed jiġi evalwat għall-allinjament, kif ukoll għal metagaming(jinfetaħ f’tieqa ġdida): kwalunkwe raġunament dwar sorveljanza. It-traffiku tad-distribuzzjoni simulata qabel mill-qrib it-traffiku reali tad-distribuzzjoni fit-tliet kejlijiet kollha. Pereżempju, GPT‑5.2 ittikketta traffiku reali tal-produzzjoni bħala simili għal evalwazzjoni 5.4% tal-ħin u traffiku simulat 5.1% tal-ħin, filwaqt li evalwazzjonijiet tradizzjonali (bħal SWE-Bench jew MonorepoBench, li huma magħmula prinċipalment minn eżempji sintetiċi) ġew ikklassifikati bħala evalwazzjonijiet kważi 100% tal-ħin.
Figura 5. Tqabbil tal-għarfien tal-evalwazzjoni: traffiku reali tal-produzzjoni u traffiku simulat juru rati simili għad-detezzjoni tal-evalwazzjoni, għarfien verbalizzat tal-evalwazzjoni tal-allinjament, u metagaming, filwaqt li settijiet ta’ data ta’ evalwazzjoni tradizzjonali jirrapportaw rati ferm ogħla.
Biex nittestjaw jekk il-metodu setax jestendi lil hinn minn modi standard ta’ chat, studjajna wkoll is-simulazzjoni ta’ distribuzzjonijiet għal ambjenti diffiċli ta’ ikkowdjar b'karatteristiċi aġenti. B’mod speċifiku, nużaw 120,000 trajettorja aġentika interna ta’ impjegati minn GPT‑5.4 biex nissimulaw id-distribuzzjoni interna ta’ aġenti tal-kodifikazzjoni bbażati fuq GPT‑5.5. Dan iservi żewġ għanijiet: juri kif is-simulazzjoni tad-distribuzzjoni tista’ tintuża wkoll għall-valutazzjoni tar-riskju għal distribuzzjonijiet interni, u juri li huwa possibbli li l-fedeltà tas-simulazzjoni tkun għolja anke f’ambjenti aġentiċi permezz ta’ simulazzjoni bir-reqqa tal-għodod.
Hawn fuq iddiskutejna li l-fedeltà tas-simulazzjoni hija waħda mis-sorsi ewlenin ta’ żball fil-pipeline attwali tagħna. Waħda mill-isfidi biex is-simulazzjonijiet tad-distribuzzjoni jsiru realistiċi hija li teħtieġ li l-għodod jaġixxu b’modi realistiċi, anke meta jkollhom bżonn aċċess ta’ qari/kitba għal riżorsi esterni li jinbidlu kontinwament (eż. tfittxijiet fuq il-web jew interazzjoni ma’ fajls lokali).
Dan huwa partikolarment diffiċli għal ambjenti bħal distribuzzjonijiet aġentiċi: trajettorja waħda ta’ aġent tista’ tiddependi fuq mijiet ta’ sejħiet ta’ għodod, l-istat tar-repożitorju, risposti tan-netwerk, jew fallimenti tranżitorji. Dan jagħmel ir-rikampjunar b’aċċess reali għall-għodod kemm diffiċli kif ukoll potenzjalment perikoluż. Fid-dawl ta’ dan, minflok napplikaw sejħiet ta’ għodod għal sistemi live, nissimulawhom b’LLM ieħor. Nuru li li nagħtu lil dan l-LLM kapaċitajiet addizzjonali huwa essenzjali għar-realiżmu u għalhekk għall-kwalità tal-istima.
Nagħtu lill-mudell simulatur tal-għodod ir-rollout oriġinali tal-aħħar turn, ir-repożitorju minn żmien il-konverżazzjoni, bażi tad-data ta’ pari sejħa/rispons tal-għodod, u konnetturi read-only. F’test fejn diskriminatur ipprova jagħraf rollouts simulati minn dawk reali, ir-realiżmu tjieb minn rata ta’ rebħ ta’ 11.6% għal 49.5%, qrib il-livell ta’ ċans ta’ 50%.
Figura 6: Wieħed jista’ jagħmel ir-realiżmu tar-rikampjunar kważi indistingwibbli minn kampjunar reali anke f’ambjenti b’ħafna għodod meta jiġu simulati sejħiet ta’ għodod b’kapaċitajiet miżjuda.
Bħala evidenza addizzjonali tal-fedeltà tas-simulazzjoni, meta nissimulaw traffiku ta’ GPT‑5.4 Codex thinking b’GPT‑5.4, ir-rati ta’ nuqqas ta’ allinjament huma, bejn wieħed u ieħor, fi ħdan il-limiti tal-iżball. B’kuntrast, fl-ittestjar tagħna qabel id-distribuzzjoni GPT‑5.5 kien aktar mhux allinjat fil-biċċa l-kbira tal-kategoriji.
Figura 7: Bis-simulazzjoni tal-għodod, ir-rati ta’ imġiba għal konverżazzjonijiet rikampjunati b’GPT‑5.4 u t-traffiku reali tal-produzzjoni ta’ GPT‑5.4 huma pjuttost simili – u jindikaw fedeltà għolja tal-ambjent tar-rikampjunar. Ara l-kard tas-sistema ta’ GPT‑5.5(jinfetaħ f’tieqa ġdida) għal aktar kuntest dwar il-kategoriji.
Dawn ir-riżultati jissuġġerixxu li s-Simulazzjoni tad-Distribuzzjoni tista’ testendi għal ambjenti kumplessi ta’ aġenti meta l-ambjent tal-għodod ta’ madwarhom jiġi simulata b’fedeltà biżżejjed.
Mistoqsija naturali hija jekk awdituri esterni jistgħux jiksbu xi wħud mill-istess benefiċċji mingħajr aċċess għal traffiku privat tal-produzzjoni. Ittestjajna dan b’100,000 konverżazzjoni WildChat użati bħala prefissi. WildChat kien inqas preċiż minn data reċenti tal-produzzjoni ta’ OpenAI, iżda xorta informattiv: data reċenti tal-produzzjoni kellha żball multiplikattiv medju aktar baxx minn WildChat (1.75× kontra 2.44×), filwaqt li WildChat spiss baqa’ fi ħdan madwar 3× tar-rati tal-produzzjoni u identifika l-mudell aħjar b’rati ogħla miċ-ċans. Naraw evalwazzjonijiet stil WildChat bħala komplement promettenti għas-Simulazzjoni tad-Distribuzzjoni mmexxija mill-iżviluppaturi. Ara din il-blogpost ta’ Alignment(jinfetaħ f’tieqa ġdida) akkumpanjanti għal aktar riżultati dwar dan il-punt.
Is-Simulazzjoni tad-Distribuzzjoni hija komplement għal, mhux sostitut ta’, evalwazzjonijiet avversarjali, red-teaming, u analiżi mmirata tar-riskji fit-tail. Id-detezzjoni ta’ xi imġibiet mhux mixtieqa tal-mudell tiddependi fuq il-monitoraġġ tal-katina tal-ħsieb: jekk mudelli futuri jirraġunaw b’mod inqas leġġibbli, iħallu barra passi ewlenin, jew jitgħallmu jaħbu l-intenzjoni, jista’ ma nkunux kapaċi nindividwaw dawn il-forom ta’ imġiba mhux mixtieqa. Barra minn hekk, minħabba li d-data tal-produzzjoni hija privata, l-iżviluppaturi bħalissa għandhom aċċess aktar qawwi għal kuntesti rappreżentattivi minn awdituri esterni. Settijiet ta’ data pubbliċi aħjar jistgħu jnaqqsu dik id-differenza.
Is-Simulazzjoni tad-Distribuzzjoni hija l-aktar utli għal imġibiet li jseħħu biżżejjed ta’ spiss biex jidhru f’prefissi kampjunati. Falliment li jseħħ darba f’għaxar miljun konverżazzjoni x’aktarx ma jinstabx f’ġirja ta’ miljun kampjun, għalhekk evalwazzjonijiet avversarjali, red-teaming, u analiżi mmirata tar-riskji fit-tail jibqgħu meħtieġa. Bħalissa niffukaw fuq is-simulazzjoni ta’ rispons wieħed tal-assistent, peress li f’esperimenti preliminari ma sibniex titjib sinifikanti fl-istimi tagħna billi nissimulaw diversi turns. Din tista’ tkun qasam importanti biex tittejjeb il-fedeltà tas-simulazzjoni fil-futur.
Il-metodu jiddependi wkoll fuq id-distribuzzjoni tal-prefissi—it-taħlita ta’ konverżazzjonijiet li qed jerġgħu jiġu kampjunati. Traffiku storiku jista’ ma jaqbilx ma’ kif l-utenti jinteraġixxu ma’ mudell aktar kapaċi wara bidla kbira fil-prodott, rilaxx ta’ għodda ġdida, avveniment dinji, jew bidla staġjonali. Analiżi fid-dokument sħiħ tissuġġerixxi li din il-kwistjoni tista’ tittaffa billi tintuża l-aktar data reċenti disponibbli.
Is-simulazzjoni tad-distribuzzjoni hija approċċ ġdid għall-valutazzjoni tar-riskju qabel id-distribuzzjoni li jgħin lil laboratorji fruntiera u evalwaturi jbassru kif mudelli tal-lingwa jistgħu jġibu ruħhom fid-dinja reali u jifhmu r-riskji li joħolqu qabel id-distribuzzjoni. Tikkomplementa l-evalwazzjonijiet tas-sikurezza eżistenti, ir-red-teaming, u l-analiżi mmirata billi żżid saff ta’ tbassir aktar simili għall-produzzjoni li jista’ jtejjeb l-istimi tal-imġiba fid-distribuzzjoni, inaqqas l-effetti tal-għarfien tal-evalwazzjoni, u jagħmel it-tbassir ta’ qabel id-distribuzzjoni verifikabbli wara r-rilaxx. Użata flimkien ma’ evalwazzjonijiet tradizzjonali, is-Simulazzjoni tad-Distribuzzjoni tista’ tgħin biex il-valutazzjoni tar-riskju tal-mudelli ssir aktar realistika, aktar kwantitattiva, u aktar utli għal deċiżjonijiet ta’ distribuzzjoni.


