16 qershor 2026

Parashikimi i sjelljes së modelit para publikimit duke simuluar vendosjen

Përdorimi i konteksteve realiste të bisedave për të vlerësuar më mirë sjelljen e padëshiruar të modelit para publikimit.

Lexo punimin

Hyrje

Para publikimit të një modeli të ri, laboratorët duhet të kuptojnë jo vetëm çfarë mund të bëjë ai, por edhe si ka të ngjarë të sillet në përdorim në botën reale, përfshirë vendet ku mund të sjellë rreziqe të reja. Kjo bëhet edhe më e rëndësishme ndërsa rriten aftësitë. Si pjesë e rishikimit tonë të sigurisë para vendosjes, përdorim vlerësime të synuara, simulim sulmesh dhe kontrolle të tjera për të kuptuar sjelljen e modelit. Tani kemi filluar të përdorim një metodë për simulimin e vendosjeve të modeleve para se të ndodhin, e cila shton një sinjal plotësues: një pamje paraprake të ngjashme me vendosjen se si mund të sillet një model kandidat para se të arrijë te përdoruesit.

Simulimi i vendosjes është një metodë për të simuluar një vendosje të ardhshme para se të ndodhë. Këtë e bëjmë duke riprodhuar biseda të mëparshme në një mënyrë që ruan privatësinë me një model të ri kandidat. Kjo na mundëson të studiojmë si përgjigjet modeli i ri në kontekste realiste para publikimit, përfshirë nëse shfaqen sjellje të reja të padëshiruara dhe sa shpesh mund të shfaqen.

Në disa vendosje Thinking të serisë GPT‑5, Simulimi i vendosjes përmirësoi vlerësimet tona për normat e sjelljes së padëshiruar të modelit, ndihmoi të dilnin në pah forma të reja të mospërputhjes para publikimit dhe ndihmoi të ulej rreziku që modelet të dallonin se po testoheshin. E zbatuam metodën edhe në lançime agjentike sfiduese, duke treguar se mund të shtrihet përtej bisedës standarde te mjedise më komplekse agjentësh që përfshijnë përdorim mjetesh, dhe mund të përdoret edhe për vlerësim rreziku para vendosjeve të brendshme të modeleve.

Tashmë kemi përdorur njohuri nga Simulimi i vendosjes gjatë zhvillimit të modelit për të identifikuar pika të verbra në vlerësimet e zakonshme dhe për të informuar masat zbutëse dhe vendimet e vendosjes. Ndërsa e bëjmë procesin më të lehtë për t’u ekzekutuar, presim që ai të luajë një rol më të madh në procesin e ardhshëm të zhvillimit të modelit.

Si funksionon Simulimi i vendosjes

Vlerësimet para vendosjes që përdoren në industri zakonisht përbëhen nga një përzierje kërkesash sintetike, të shkruara manualisht ose prodhimi, të zgjedhura qëllimisht për të qenë të vështira, me ashpërsi të lartë ose kundërshtuese. Këto vlerësime zakonisht kanë pasur dy qëllime të ndërthurura: të vlerësojnë si përgjigjet modeli kur testohet nën stres në situata që kanë shumë pak gjasa të ndodhin në trafikun e vendosjes, dhe të fitojnë një kuptim të përgjithshëm të sjelljeve të padëshiruara të modelit, përfshirë gjetjen e sjelljeve të reja të padëshiruara dhe parashikimin e frekuencave të tyre gjatë vendosjes.

Ndërsa vlerësimet e zakonshme mbeten thelbësore për qëllimin e parë, Simulimi i vendosjes përfaqëson një hap të rëndësishëm përpara lidhur me qëllimin e dytë për rreziqe jo të skajshme (në eksperimentet tona, qasja jonë nuk mund të pritet të masë sjellje që ndodhin me frekuencë më të ulët se 1 në 200 000 mesazhe). Forca e Simulimit të vendosjes vjen nga shmangia e disa sfidave thelbësore të vlerësimeve të zakonshme:

Mbulimi: është e vështirë të kemi besim se kërkesat e vlerësimit do të mbulojnë të gjitha llojet e mundshme të sjelljes së padëshiruar të modelit. Matja e llojeve të reja të sjelljes së padëshiruar kërkon krijimin e vlerësimeve të reja dhe njohjen e dëmeve që duhen matur. Kjo mund të kërkojë shumë kohë dhe punë, dhe vlerësimet mund të ngopen me kalimin e kohës.
Anësitë e përzgjedhjes: vlerësimet e zakonshme zakonisht ndërtohen duke pasur parasysh sjellje specifike të padëshiruara të modelit, të zgjedhura në mënyra që anojnë drejt konteksteve që kanë ndodhur më parë. Kjo mund t’i bëjë vlerësimet e tyre më pak informuese për incidencën e këtyre sjelljeve në gjithë gjerësinë e shpërndarjes së vendosjes.
Të dallueshme si teste nga modelet: modelet kanë qenë gjithnjë e më të afta të përcaktojnë se po testohen, gjë që mund të shtrembërojë sjelljen e tyre dhe matjet tona pasuese të sigurisë së tyre. Ndërsa shumë nga vlerësimet e zakonshme që përdorim në OpenAI nxirren gjithashtu nga trafiku i prodhimit dhe nuk vuajnë nga ky problem, kjo është një shqetësim i zakonshëm për shumë vlerësime të zakonshme që përdoren në industri.

Teknika kryesore pas Simulimit të vendosjes është e thjeshtë: marrim biseda të fundit nga vendosja, heqim përgjigjen origjinale të asistentit nga modeli më i vjetër dhe e rigjenerojmë me një model kandidat për publikim. Ne vlerësojmë plotësimet duke kërkuar mënyra të reja dështimi dhe vlerësojmë frekuencën e sjelljes së padëshiruar gjatë vendosjes bazuar në frekuencën në këtë shpërndarje të ngjashme me vendosjen. Të njëjtat matje mund t’i kryejmë pas publikimit në trafik real të vendosjes, duke na mundësuar të validojmë parashikimet tona para vendosjes.

Simulimi i vendosjes zbut ndjeshëm tre kufizimet e renditura më sipër: anësia e kampionimit trajtohet duke përdorur një shpërndarje kërkesash vlerësimi përfaqësuese të përdorimit të fundit. Simulimi i vendosjes me kërkesa përfaqësuese mund të zbusë edhe shqetësimet për mbulimin: marrim mbulim më të madh të sjelljeve të padëshirueshme të modelit thjesht duke simuluar më shumë trafik. Ky kompromis mes llogaritjes dhe mbulimit është i rëndësishëm, sepse bën që cilësia e këtij aksi të vlerësimit të rrezikut të shkallëzohet me llogaritjen, jo me përpjekjen manuale të nevojshme për të ndërtuar më shumë vlerësime. Modelet gjithashtu nuk duket se janë në gjendje të dallojnë mes bisedave të marra përmes simulimit të vendosjes dhe trafikut real të vendosjes.

Diagram që tregon procesin e Rimostrimit të prodhimit nga bisedat e prodhimit përmes rimostrimit që ruan privatësinë, gjenerimit të plotësimeve të modelit, vlerësimit dhe vlerësimeve gjatë vendosjes. — *Figura 1: Përmbledhje e procesit tonë të Simulimit të vendosjes*

Fusha	Vlerësime të zakonshme	Simulimi i vendosjes
Mbulimi	Më mirë për rreziqe me prevalencë të ulët, por ashpërsi të lartë, për të cilat duam të sigurohemi se kemi mbulim	Më mirë për të kuptuar spektrin e rreziqeve që ka gjasa t’i shohim në trafikun e vendosjes
Përfaqësueshmëria / anësia	Të përqendruara në vlerësimin e rreziqeve të synuara të mëparshme ose të parashikuara, edhe për sjellje që kanë prevalencë jashtëzakonisht të ulët në vendosje	Përfaqësuese të rreziqeve që ndodhin mbi një prevalencë të caktuar në trafikun aktual të vendosjes
Vetëdija për vlerësim	Sinjale testi potencialisht të dukshme (p.sh., me të dhëna sintetike), përveç nëse vlerësimet krijohen me të dhëna vendosjeje	Konteksti i ngjashëm me vendosjen duket se e zbut ndjeshëm vetëdijen për vlerësim
Përpjekja	Shpërndarjet dhe konfigurimet e personalizuara të kërkesave kërkojnë shumë më tepër përpjekje manuale	Kërkon një kosto infrastrukture një herë, dhe pastaj ripërdor prefikset nga vendosja dhe vlerësuesit nga sjelljet e njohura të padëshiruara

Krahasim i nivelit të lartë mes vlerësimeve të zakonshme dhe Simulimit të vendosjes

Si e testuam Simulimin e vendosjes

Për të vlerësuar Simulimin e vendosjes, pararegjistruam parashikime për frekuencën gjatë vendosjes të 20 llojeve të sjelljes së padëshirueshme për GPT‑5.4 Thinking. Kemi kryer gjithashtu studime retrospektive në vendosje të tjera të modeleve Thinking të serisë GPT‑5. Sjelljet e modelit që analizojmë mbulojnë si kategoritë e mospërputhjes ashtu edhe ato të përmbajtjes së palejuar, të cilat i kemi raportuar në karta sistemi (p.sh. modeli që gënjen për mjetet, ose nxjerr përmbajtje seksuale të palejuar). Ndërsa për këto rezultate ndjekim vetëm 20 kategori të sjelljes së padëshiruar të modelit dhe kërkojmë vetëm sjellje të reja të papërputhura, Simulimi i vendosjes është një teknikë e përgjithshme që mund të zbatohet për të simuluar çdo veti të modelit gjatë vendosjes.

Trafiku i prodhimit që përdorëm ishte gjithashtu nga modelet Thinking të serisë GPT‑5. Para se të kryenim vlerësimet tona, hoqëm automatikisht identifikuesit e lidhur me llogarinë dhe informacionin e identifikueshëm. Në përputhje me politikën tonë të privatësisë, analizuam vetëm trafikun e ChatGPT nga përdoruesit që lejojnë përdorimin e të dhënave të tyre për përmirësime të modelit. Raportojmë vetëm gjetje të agreguara nga këto vlerësime. Në total, analizuam rreth 1,3 milion biseda të çidentifikuara në vendosjet nga GPT‑5 Thinking deri te GPT‑5.4, nga gushti 2025 deri në mars 2026.

Vlerësojmë cilësinë e vlerësimit të rrezikut para vendosjes të prodhuar nga Simulimi i vendosjes në tri mënyra kryesore:

Mbulimi i taksonomisë: a nxori në pah auditimi pas publikimit ndonjë sjellje të rëndësishme të papërputhur që mungonte nga taksonomia jonë fillestare e sjelljeve të këqija?
Saktësia drejtimore: a parashikoi saktë simulimi nëse prevalenca në vendosje do të rritej apo ulej për sjelljet e njohura?
Kalibrimi i normës: a ishin vlerësimet tona para vendosjes afër normave që vëzhguam më vonë në vendosje? Arritja e kalibrimit të mirë të normës kërkon më shumë se saktësi drejtimore, duke e bërë këtë standardin më të lartë të mundshëm të cilësisë.

Matim gjithashtu sa shumë modelet janë në gjendje të kuptojnë se janë në një vlerësim gjatë Simulimit të vendosjes, dhe testojmë sa e qëndrueshme është metoda ndaj formave të ndryshme të trafikut të vendosjes dhe mjediseve sfiduese të përdorimit të mjeteve.

Simulimi i vendosjes zgjeron ndjeshëm vlerësimin e rrezikut para vendosjes

Në vendosjet Thinking të serisë GPT‑5, Simulimi i vendosjes tejkaloi bazat me kërkesa sfiduese në përcaktimin e normës reale të rrezikut, arriti të nxjerrë në pah hakimin e kalkulatorit para publikimit dhe u duk potencialisht i padallueshëm nga vendosja për modelin.

Përmbledhje e parashikimeve tona. Për një vizualizim të të gjitha parashikimeve për vendosjet e modeleve Thinking të serisë GPT‑5, shih Figurën 2. Parashikimet për GPT‑5.4 Thinking u pararegjistruan, ndërsa të tjerat ishin parashikime retrospektive. Në tërësi, parashikimet tona kishin një gabim shumëzues median prej 1,5x (p.sh. nëse norma e sjelljes së padëshirueshme është 10 në 100 mijë, kjo do të korrespondonte me vlerësimin e një norme prej 15 ose 6,67 në 100 mijë). Ndërsa gabimet e skajshme të metodës sonë mund të jenë afërsisht 10x më të mëdha, presim që ato të mund të ulen ndjeshëm me përmirësime të mëtejshme të procesit tonë të simulimit, siç diskutohet më poshtë.

Grafik që tregon parashikime me normë të saktë nga Simulimi i vendosjes për sjellje të padëshirueshme gjatë vendosjes, bazuar në të dhëna të mëparshme të vendosjes. — Figura 2. Parashikimet e frekuencës nga Simulimi i vendosjes për sjellje të padëshiruar gjatë vendosjes, bazuar në të dhëna të mëparshme të vendosjes. Shënimi 5.1 → 5 tregon se po rimostrojmë prefikse nga GPT‑5 me GPT‑5.1, pra po simulojmë vendosjen e GPT‑5.1 bazuar në të dhëna nga GPT‑5. Norma më e lartë e sjelljes së papërputhur ishte “hakimi i kalkulatorit” në GPT‑5.1, të cilin e kemi diskutuar *më parë*⁠(hapet në një dritare të re).

Krahasimi i parashikimeve të Simulimit të vendosjes me bazat. Kategoritë më të rëndësishme për t’u vlerësuar saktë në vlerësimet e rrezikut para vendosjes janë ato që kanë ndryshime të mëdha të incidencës pas vendosjes së modelit (p.sh. >= 1,5x). Në këtë nënbashkësi, Simulimi i vendosjes është dukshëm më i mirë se bazat si në parashikimin nëse prevalenca e një sjelljeje të caktuar të padëshirueshme do të rritet apo ulet me vendosjen e një modeli (Figura 3, majtas), ashtu edhe në vlerësimin e incidencës së saktë gjatë vendosjes (Figura 3, djathtas). Përdorim dy baza kryesore: një bazë të Kërkesave Sfiduese që e përdorim aktualisht për karta sistemi dhe vendime lançimi, dhe një bazë naive që përdor normat nga vendosja e mëparshme si vlerësime për modelin e ri.

Figura 3. Simulimi i vendosjes parashikon më mirë se vlerësimet statike si drejtimin e ndryshimeve të incidencës (majtas), ashtu edhe normat e sakta të prodhimit (djathtas).

Burimet e gabimit të simulimit në procesin tonë. Studiuam gjithashtu burimet aktuale të gabimit në procesin tonë. Konkretisht, gabimet e mëdha të skajshme e bëjnë procesin më pak të besueshëm për vendimet e vendosjes: për shembull, kur shihet një rritje e madhe e parashikuar në një sjellje të padëshirueshme të një lloji të caktuar, nëse dihet se procesi ka edhe gabime të mëdha të rastësishme, lind dyshimi nëse ky është një vlerësim i besueshëm apo një artefakt i procesit. Ka dy burime kryesore gabimi të mundshëm:

Gabimi i besnikërisë së mjedisit të rimostrimit: për të vlerësuar saktë normat e prodhimit, procesi ynë i simulimit duhet të jetë sa më realist që të jetë e mundur. Kjo është pjesërisht një problem inxhinierik (kampionim nga modeli duke përdorur të njëjtat procese që përdoren për trafikun e prodhimit), dhe pjesërisht një sfidë interesante për mjete që kanë nevojë për akses lexim/shkrim në burime të jashtme që ndryshojnë vazhdimisht (p.sh. kërkime në ueb ose ndërveprim me skedarë lokalë). Mund ta izolojmë gabimin e besnikërisë së simulimit duke krahasuar parashikimet nga një vendosje reale dhe simulimi i saj (pra, duke simuluar vendosjen e modelit tashmë të vendosur).
Gabimi i zhvendosjes së shpërndarjes së kërkesave: një shqetësim i madh me Simulimin e vendosjes është se vendosja e çdo modeli do të shkaktojë një zhvendosje shpërndarjeje në hyrje, veçanërisht nëse përdoruesit përshtaten me mundësitë e reja të modelit. Izolojmë gabimin e shpërndarjes së kërkesave duke krahasuar vlerësimet kur simulojmë vendosjen duke përdorur kërkesa të fundit kundrejt kërkesave nga vendosja e realizuar.

Siç shihet në Figurën 4, gjejmë se një pjesë e madhe e gabimit në procesin tonë—sidomos për gabimet e skajshme—aktualisht vjen nga besnikëria e simulimit. Ky është lajm i mirë, sepse presim që besnikëria e simulimit të jetë përgjithësisht më e lehtë për t’u përmirësuar sesa ulja e zhvendosjes së shpërndarjes së kërkesave. Gjejmë gjithashtu se gabimi i zhvendosjes së shpërndarjes së kërkesave mund të ulet duke përdorur të dhënat më të fundit nga vendosja e mëparshme. Më shumë hollësi gjenden në punimin kërkimor.

Figura 4: Besnikëria e mjedisit të rimostrimit duket se është burimi më i madh i gabimit në vlerësimet tona, veçanërisht për gabimet më ekstreme.

Auditimi i automatizuar gjeti mospërputhjen e vetme të re të futur në këto vendosje. Në dritaren e vendosjes që studiuam, procesi ynë i auditimit të automatizuar bazuar në vendosje të simuluara do të kishte nxjerrë në pah “hakimin e kalkulatorit” para publikimit, i cili ishte e vetmja mospërputhje e re që identifikuam në trafikun e analizuar të ChatGPT. Hakimi i kalkulatorit është një formë e hakimit të shpërblimit që përfshin përdorimin nga modeli të një mjeti shfletuesi si kalkulator, ndërsa e paraqet veprimin si kërkim. Kjo nuk do të thotë se auditimi në shkallë të gjerë do të kapë çdo dështim të ri, por tregon pse kontekstet realiste kanë rëndësi: ato mund të nxjerrin sjellje që grupe më të ngushta vlerësimi mund të mos i shfaqin kurrë drejtpërdrejt, edhe nëse nuk ishin të pranishme në trafikun origjinal të përdorur për të nisur simulimin.

Ulja e vetëdijes për vlerësim

Një avantazh tjetër i përdorimit të konteksteve të ngjashme me vendosjen është se ato mund të ulin shtrembërimet që lindin kur modelet e kuptojnë se po testohen. Në kërkime të mëparshme, ne, si edhe të tjerë⁠(hapet në një dritare të re), kemi gjetur se modelet shpesh janë të vetëdijshme kur po testohen. Për shembull, modelet mund të arsyetojnë në zinxhir mendimi për atë mbi të cilën po testohen, çfarë mund t’i pëlqejë një vlerësuesi dhe – nëse po sillen keq – nëse do të kapen. Kjo paraqet problem për vlerësimet e përafrimit: nëse një model sillet mirë vetëm sepse mendon se po testohet, si mund të krijojmë besim se do të sillet në mënyrë të sigurt pasi të mësojë se është vendosur?

Ne tregojmë se Simulimi i vendosjes ul ndjeshëm nivelet e vetëdijes për vlerësim të shfaqura nga modelet krahasuar me vlerësimet e zakonshme që nuk bazohen në të dhëna reale të vendosjes. E matim vetëdijen për vlerësim në tri mënyra: duke i kërkuar një modeli të klasifikojë nëse një trajektore erdhi nga prodhimi apo nga një vlerësim, duke monitoruar zinxhir mendimi për deklarata të qarta rreth vlerësimit për përafrim, si edhe për metagaming⁠(hapet në një dritare të re): çdo arsyetim rreth mbikëqyrjes. Trafiku i simuluar i vendosjes përputhej ngushtë me trafikun real të vendosjes në të tria matjet. Për shembull, GPT‑5.2 e etiketoi trafikun real të prodhimit si të ngjashëm me vlerësim 5,4% të rasteve dhe trafikun e simuluar 5,1% të rasteve, ndërsa vlerësimet e zakonshme (si SWE-Bench ose MonorepoBench, që përbëhen kryesisht nga shembuj sintetikë) u klasifikuan si vlerësime pothuajse 100% të rasteve.

Figura 5. Krahasimi i vetëdijes për vlerësim: trafiku real i prodhimit dhe trafiku i simuluar tregojnë norma të ngjashme për zbulimin e vlerësimit, vetëdijen e verbalizuar për vlerësimin e përafrimit dhe metagaming, ndërsa grupet e zakonshme të të dhënave të vlerësimit raportojnë norma shumë më të larta.

Simulimi i mjeteve për trajektore agjentike

Për të testuar nëse metoda mund të shtrihej përtej mënyrave standarde të bisedës, studiuam edhe simulimin e vendosjeve për mjedise sfiduese të kodimit agjentik. Konkretisht, përdorim 120.000 trajektore të brendshme agjentike të punonjësve nga GPT‑5.4 për të simuluar vendosjen e brendshme të agjentëve të kodimit bazuar në GPT‑5.5. Kjo shërben për dy qëllime: tregon si simulimi i vendosjes mund të përdoret edhe për vlerësim rreziku për vendosje të brendshme, dhe demonstron se është e mundur të bëhet e lartë besnikëria e simulimit edhe në mjedise agjentike përmes simulimit të kujdesshëm të mjeteve.

Më sipër diskutuam se besnikëria e simulimit është një nga burimet kryesore të gabimit në procesin tonë aktual. Një nga sfidat për t’i bërë realiste simulimet e vendosjes është se kërkon që mjetet të veprojnë në mënyra realiste, edhe kur kanë nevojë për akses lexim/shkrim në burime të jashtme që ndryshojnë vazhdimisht (p.sh. kërkime në ueb ose ndërveprim me skedarë lokalë).

Kjo është veçanërisht sfiduese për mjedise si vendosjet agjentike: një trajektore e vetme agjenti mund të varet nga qindra thirrje mjetesh, gjendja e depos, përgjigje rrjeti ose dështime kalimtare. Kjo e bën rimostrimin me akses real në mjete si sfidues, ashtu edhe potencialisht të rrezikshëm. Duke pasur parasysh këtë, në vend që t’i zbatojmë thirrjet e mjeteve në sisteme aktive, i simulojmë ato me një LLM tjetër. Tregojmë se dhënia e mundësive shtesë këtij LLM është thelbësore për realizmin dhe prandaj për cilësinë e vlerësimit.

Modelit simulator të mjeteve i japim lançimin origjinal të kthesës së fundit, depon nga koha e bisedës, një bazë të dhënash me çifte thirrje-mjeti/përgjigje dhe lidhës vetëm për lexim. Në një test ku një diskriminues u përpoq të dallonte lançimet e simuluara nga ato reale, realizmi u përmirësua nga një normë fitoreje 11,6% në 49,5%, afër nivelit të rastësisë 50%.

Figura 6: Realizmi i rimostrimit mund të bëhet pothuajse i padallueshëm nga kampionimi real edhe në mjedise me shumë mjete, kur thirrjet e mjeteve simulohen me mundësi të shtuara.

Si provë shtesë e besnikërisë së simulimit, kur simulojmë trafikun GPT‑5.4 Codex thinking me GPT‑5.4, normat e mospërputhjes janë, pothuajse, brenda shiritave të gabimit. Në të kundërt, në testimin tonë para vendosjes GPT‑5.5 ishte më i papërputhur në shumicën e kategorive.

Figura 7: Me simulimin e mjeteve, normat e sjelljes për bisedat e rimostruara me GPT‑5.4 dhe trafikun real të prodhimit GPT‑5.4 janë mjaft të ngjashme – duke treguar besnikëri të lartë të mjedisit të rimostrimit. Shih kartën e sistemit GPT‑5.5⁠(hapet në një dritare të re) për më shumë kontekst mbi kategoritë.

Këto rezultate sugjerojnë se Simulimi i vendosjes mund të shtrihet në mjedise komplekse agjentësh kur mjedisi përreth i mjeteve simulohet me besnikëri të mjaftueshme.

WildChat dhe auditimi i jashtëm

Një pyetje e natyrshme është nëse auditorët e jashtëm mund të marrin disa nga të njëjtat përfitime pa akses në trafik privat prodhimi. E testuam këtë me 100.000 biseda WildChat të përdorura si prefikse. WildChat ishte më pak i saktë se të dhënat e fundit të prodhimit nga OpenAI, por ende informues: të dhënat e fundit të prodhimit kishin gabim shumëzues mesatar më të ulët se WildChat (1,75× kundrejt 2,44×), ndërsa WildChat shpesh qëndronte brenda afërsisht 3× të normave të prodhimit dhe identifikonte modelin më të mirë me norma mbi rastësinë. Vlerësimet e stilit WildChat i shohim si një plotësim premtues për Simulimin e vendosjes të kryer nga zhvilluesit. Shih këtë postim shoqërues në blogun Alignment⁠(hapet në një dritare të re) për më shumë rezultate mbi këtë pikë.

Kufizime

Simulimi i vendosjes është plotësim, jo zëvendësim, për vlerësimet kundërshtuese, red-teaming dhe analizën e synuar të rrezikut të skajshëm. Zbulimi i disa sjelljeve të padëshiruara të modelit mbështetet në monitorueshmërinë e zinxhirit të mendimit: nëse modelet e ardhshme arsyetojnë më pak qartë, lënë jashtë hapa kyç ose mësojnë të fshehin qëllimin, mund të mos jemi në gjendje t’i zbulojmë këto forma të sjelljes së padëshirueshme. Për më tepër, sepse të dhënat e prodhimit janë private, zhvilluesit aktualisht kanë akses më të fortë në kontekste përfaqësuese sesa auditorët e jashtëm. Grupe më të mira publike të të dhënave mund ta ngushtonin këtë hendek.

Simulimi i vendosjes është më i dobishëm për sjellje që ndodhin mjaft shpesh sa të shfaqen në prefikset e kampionuara. Një dështim që ndodh një herë në dhjetë milion biseda ka pak gjasa të zbulohet në një ekzekutim me një milion mostra, ndaj vlerësimet kundërshtuese, red-teaming dhe analiza e synuar e rrezikut të skajshëm mbeten të nevojshme. Aktualisht përqendrohemi në simulimin e një përgjigjeje të vetme të asistentit, pasi në eksperimente paraprake nuk gjetëm përmirësime domethënëse në vlerësimet tona duke simuluar shumë kthesa. Kjo mund të jetë një fushë e rëndësishme për përmirësimin e besnikërisë së simulimit në të ardhmen.

Metoda varet gjithashtu nga shpërndarja e prefikseve—përzierja e bisedave që po rimostrohen. Trafiku historik mund të mos përputhet me mënyrën si përdoruesit ndërveprojnë me një model më të aftë pas një ndryshimi të madh produkti, publikimi të ri mjeti, ngjarjeje botërore ose zhvendosjeje sezonale. Analiza në punimin e plotë sugjeron se ky problem mund të zbutet duke përdorur të dhënat më të fundit të disponueshme.

Përfundim

Simulimi i vendosjes është një qasje e re ndaj vlerësimit të rrezikut para vendosjes, që ndihmon laboratorët dhe vlerësuesit e modeleve të përparuara të parashikojnë si mund të sillen modelet gjuhësore në botën reale dhe të kuptojnë rreziqet që paraqesin para vendosjes. Ai plotëson vlerësimet ekzistuese të sigurisë, red-teaming dhe analizën e synuar duke shtuar një shtresë parashikimi më të ngjashme me prodhimin, që mund të përmirësojë vlerësimet e sjelljes gjatë vendosjes, të ulë efektet e vetëdijes për vlerësim dhe t’i bëjë të verifikueshme parashikimet para vendosjes pas publikimit. I përdorur krahas vlerësimeve të zakonshme, Simulimi i vendosjes mund të ndihmojë që vlerësimi i rrezikut të modelit të jetë më realist, më sasior dhe më i dobishëm për vendimet e vendosjes.

2026

Autor

OpenAI

Vazhdo të lexosh

Shiko të gjitha

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Kompania29 korr 2026

Scientific computing agentic AI card image (1x1)

Scientific computing in the age of agentic AI

Publikim28 korr 2026

Ndarja e sinjalit nga zhurma në vlerësimet e kodimit

Kërkime8 korr 2026