16. júní 2026

Spá um hegðun líkans fyrir útgáfu með því að herma dreifingu

Notkun raunhæfs samtalssamhengis til að meta betur óæskilega hegðun líkans fyrir útgáfu.

Inngangur

Áður en nýtt líkan er gefið út þurfa rannsóknarstofur að skilja ekki aðeins hvað það getur gert, heldur einnig hvernig líklegt er að það muni hegða sér við raunverulega notkun, þar á meðal hvar það gæti leitt af sér nýja áhættu. Þetta verður enn mikilvægara eftir því sem getan eykst. Sem hluta af öryggisúttekt okkar fyrir innleiðingu notum við markvissar úttektir, rauðteymi og aðrar athuganir til að skilja hegðun líkansins. Við höfum nú hafið notkun á aðferð til að herma eftir dreifingu líkana áður en hún fer fram, sem bætir við viðbótarvísbendingu: forskoðun sem líkist dreifingu á því hvernig líkan sem kemur til greina kann að haga sér áður en það nær til notenda.

Hermun á dreifingu er aðferð til að líkja eftir framtíðardreifingu áður en hún á sér stað. Við gerum það með því að endurspila fyrri samtöl með virðingu fyrir persónuvernd með nýja tilraunalíkaninu. Þetta gerir okkur kleift að rannsaka hvernig nýja líkanið bregst við í raunhæfu samhengi fyrir útgáfu, þar á meðal hvort ný óæskileg hegðun komi fram og hversu oft hún kann að birtast.

Í mörgum innleiðingum GPT‑5‑línunnar í Thinking bætti hermunardreifing mat okkar á tíðni óæskilegrar hegðunar líkana, hjálpaði til við að greina nýjar birtingarmyndir misræmis fyrir útgáfu og draga úr hættunni á að líkön myndu átta sig á því að verið væri að prófa þau. Við beittum aðferðinni einnig á krefjandi gerendamiðaðar útkeyrslur og sýndum fram á að hún getur náð út fyrir hefðbundið spjall yfir í flóknari gerendaumhverfi sem fela í sér notkun verkfæra, auk þess sem hægt er að nota hana við áhættumat áður en líkön eru tekin í notkun innanhúss.

Við höfum þegar nýtt innsýn úr hermunardreifingu við þróun líkansins til að greina blinda bletti í hefðbundnu mati og styðja við mótvægisaðgerðir og ákvarðanir um innleiðingu. Eftir því sem við gerum vinnsluleiðina auðveldari í keyrslu reiknum við með að hún gegni stærra hlutverki í þróunarferli líkana í framtíðinni.

Hvernig hermunardreifing virkar

Mat fyrir dreifingu sem almennt er notað víða í greininni samanstendur yfirleitt af blöndu af tilbúnum, handskrifuðum eða kvaðningum úr framleiðsluumhverfi sem eru vísvitandi valdar til að vera erfiðar, mjög alvarlegar eða andstæðingsmiðaðar. Þessar úttektir hafa almennt haft tvö samtvinnuð markmið: að meta hvernig líkanið bregst við þegar það er álagsprófað í aðstæðum sem hafa mjög litlar líkur á að koma upp í umferð í rekstri, og að öðlast almennan skilning á óæskilegri hegðun líkansins, þar á meðal að finna nýja óæskilega hegðun og spá fyrir um tíðni hennar við notkun í rekstri.

Þótt hefðbundnar matsaðferðir séu áfram afar mikilvægar fyrir fyrra markmiðið, felur hermunardreifing í sér verulegt framfaraskref hvað varðar seinna markmiðið fyrir áhættu sem ekki telst halaáhætta (í tilraunum okkar er ekki hægt að ætlast til að nálgun okkar mæli hegðun sem kemur fram með tíðni lægri en 1 af hverjum 200.000 skilaboðum). Styrkur hermunardreifingar felst í því að sneiða hjá sumum lykiláskorunum hefðbundinna matsaðferða:

Umfang: erfitt er að vera viss um að matskvaðningar nái yfir allar mögulegar tegundir óæskilegrar hegðunar líkans. Að mæla nýjar tegundir óæskilegrar hegðunar krefst þess að búa til nýjar matskvaðningar og vita hvaða skaða á að mæla. Þetta getur verið tímafrekt og krefst mikillar vinnu, og matskvaðningar geta mettast með tímanum.
Valskekkja: hefðbundin möt er almennt smíðuð með óæskilega hegðun í huga, valin á þann hátt að skekkja gagnvart samhengi hefur áður komið fyrir. Þetta kann að gera mat þeirra síður upplýsandi um tíðni slíkrar hegðunar í öllu umfangi dreifingarinnar við notkun.
Þekkjanleiki sem próf fyrir líkön: líkön hafa í auknum mæli getað áttað sig á því að verið sé að prófa þau, sem getur skekkt hegðun þeirra og síðari mælingar okkar á öryggi þeirra. Þótt mörg af hefðbundnu matsprófunum sem við notum hjá OpenAI séu einnig sótt úr umferð í raunumhverfi og eigi ekki við þetta vandamál að stríða, er þetta algengt áhyggjuefni fyrir mörg hefðbundin matspróf sem notuð eru víða í greininni.

Meginaðferðin á bak við hermunardreifingu er einföld: við tökum nýleg samtöl úr rekstrarumhverfinu, fjarlægjum upprunalegt svar aðstoðarlíkansins úr eldri útgáfu og endurgerum það með líkani sem á að gefa út. Við metum útfyllingarnar með því að leita að nýjum bilunarhömum og áætlum tíðni óæskilegrar hegðunar við innleiðingu út frá tíðninni í þessari dreifingu sem líkist innleiðingaraðstæðum. Við getum framkvæmt sömu mælingar eftir útgáfu á raunverulegri umferð í rekstrarumhverfi, sem gerir okkur kleift að sannreyna spárnar sem við gerðum fyrir innleiðingu.

Hermunardreifing dregur verulega úr þeim þremur takmörkunum sem taldar eru upp hér að ofan: úrtaksskekkja er meðhöndluð með því að nota dreifingu matskvaðninga sem er dæmigerð fyrir nýlega notkun. Hermunardreifing með dæmigerðum kvaðningum getur einnig dregið úr áhyggjum af umfangi: við náum meira umfangi á óæskilegri hegðun líkansins með því einfaldlega að herma eftir meiri umferð. Þessi málamiðlun milli reiknigetu og umfangs er mikilvæg, vegna þess að hún gerir gæði þessa áhættumatsáss kleift að batna í takt við reiknigetu, frekar en með þeirri handvirku vinnu sem þarf til að byggja upp fleiri möt. Líkön virðast heldur ekki geta greint á milli samtala sem fengin eru með hermunardreifingu og raunverulegrar dreifingarumferðar.

Skýringarmynd sem sýnir keyrslurás endursýningar framleiðslu frá framleiðslusamtölum í gegnum persónuverndandi endursýningu, myndun fullgerða líkans, mat og áætlanir við dreifingu. — *Mynd 1: Yfirlit yfir keyrslurás okkar fyrir hermunardreifingar*

Svæði	Hefðbundin möt	Hermunardreifingar
Umfang	Hentar betur fyrir sjaldgæfa en mjög alvarlega áhættuþætti sem við viljum tryggja að séu teknir með	Hentar betur til að skilja umfang áhættu sem líklegt er að við sjáum í umferð í raunumhverfi
Fulltrúalíkur / hlutdrægni	Einblínir á að meta sértæka fyrri eða fyrirséða áhættu, jafnvel fyrir hegðunarmynstur sem hafa afar lítið algengi í notkun	Dæmigert fyrir áhættur sem koma fyrir með tíðni yfir ákveðnu marki í núverandi dreifingarumferð
Matsvitund	Hugsanlega augljósar prófvísbendingar (t.d. með gervigögnum), nema mat sé útbúið með gögnum úr raunnotkun	Samhengi sem líkist dreifingu virðist draga verulega úr meðvitund um matsaðstæður
Átak	Sérsniðnar kvaðningardreifingar og uppsetningar krefjast umtalsvert meiri handavinnu	Krefst einskiptis kostnaðar við innviði og endurnýtir síðan forskeyti úr dreifingu og einkunnargjöf úr þekktri óæskilegri hegðun.

Yfirlitslegur samanburður á hefðbundnum matsaðferðum og hermunardreifingu

Hvernig við prófuðum hermunardreifingu

Til að meta hermunardreifingu forskráðum við spár um tíðni 20 tegunda óæskilegrar hegðunar hjá GPT‑5.4 Thinking við dreifingu. Við framkvæmdum einnig afturvirkar rannsóknir á öðrum innleiðingum líkanna úr GPT‑5‑línunni sem kallast Thinking. Sú hegðun líkana sem við greinum nær bæði yfir ósamræmi og flokka óleyfilegs efnis sem við höfum greint frá í kerfiskortum (t.d. þegar líkanið lýgur um verkfæri eða skilar óleyfilegu kynferðislegu efni). Þótt við rekjum aðeins 20 flokka óæskilegrar hegðunar líkans fyrir þessar niðurstöður og leitum aðeins að nýrri, ósamræmdri hegðun, er hermunardreifing almenn aðferð sem hægt væri að beita til að herma eftir hvaða eiginleika líkans sem er á útsetningartíma.

Framleiðsluumferðin sem við nýttum var einnig frá Thinking-líkönum úr GPT‑5‑línunni. Áður en við framkvæmdum möt okkar fjarlægðum við sjálfkrafa auðkenni tengd reikningum og persónugreinanlegar upplýsingar. Í samræmi við persónuverndarstefnu okkar greindum við aðeins ChatGPT‑umferð frá notendum sem leyfa að gögn þeirra séu notuð til að bæta líkön. Við greinum aðeins frá samanteknum niðurstöðum úr þessum úttektum. Alls greindum við um það bil 1,3 milljónir ópersónugreinanlegra samtala í útgáfum frá GPT‑5 Thinking til GPT‑5.4, sem náðu yfir tímabilið frá ágúst 2025 til mars 2026.

Við metum gæði áhættumatsins fyrir innleiðingu sem hermunardreifing útbýr á þrjá meginhætti:

Umfang flokkunarkerfisins: leiddi úttekt eftir útgáfu í ljós einhverja mikilvæga hegðun sem vantaði í upphaflega flokkunarkerfið okkar fyrir óæskilega hegðun?
Stefnunákvæmni: spáði hermunin rétt fyrir um hvort algengi innleiðingar myndi aukast eða minnka fyrir þekkt hegðunarmynstur?
Kvörðun hlutfalla: voru áætlanir okkar fyrir innleiðingu nálægt þeim hlutföllum sem við síðar sáum í rekstri? Að ná góðri kvörðun hlutfalla krefst meira en stefnunákvæmni, sem gerir þetta að hæsta mögulega gæðastaðli.

Við mælum einnig hversu vel líkön geta greint að þau séu í mati meðan á hermunardreifing stendur og prófum hversu traust aðferðin er gagnvart mismunandi gerðum hermunardreifingar og krefjandi aðstæðum við notkun verkfæra.

Hermunardreifing eykur verulega umfang áhættumats fyrir dreifingu

Í öllum GPT‑5‑línunnar Thinking-dreifingum stóð hermunardreifing sig betur en viðmið sem byggðu á krefjandi kvaðningum við að ákvarða raunverulegt áhættuhlutfall, gat greint reiknivélahakk fyrir útgáfu og virtist hugsanlega óaðgreinanleg frá dreifingu fyrir líkanið.

Yfirlit yfir spár okkar. Sjá mynd 2 fyrir myndræna framsetningu á öllum spám fyrir uppsetningar Thinking-líkana úr GPT‑5‑línunni. Spárnar fyrir GPT‑5.4 Thinking voru forskráðar, á meðan hinar voru spár eftir á. Heildina litið var miðgildi margföldunarskekkju í spám okkar 1,5x (t.d. ef tíðni óæskilegrar hegðunar er 10 af 100 þúsund, samsvaraði það því að áætla tíðnina sem 15 eða 6,67 af 100 þúsund). Þótt skekkjur í hala dreifingarinnar í aðferð okkar geti verið um það bil 10 sinnum stærri, gerum við ráð fyrir að hægt sé að draga verulega úr þeim með frekari endurbótum á hermunarferli okkar, eins og fjallað er um hér að neðan.

Rit sem sýnir nákvæmar tíðnispár hermunardreifingar um óæskilega hegðun við dreifingu byggðar á fyrri dreifingargögnum. — Mynd 2. Tíðnispár hermunardreifingar um óæskilega hegðun við dreifingu byggðar á fyrri dreifingargögnum. Táknunin 5.1 → 5 gefur til kynna að við endursýnum forskeyti úr GPT‑5 með GPT‑5.1, þ.e. hermum dreifingu GPT‑5.1 byggt á gögnum úr GPT‑5. Hæsta tíðni misstilltrar hegðunar var „reiknivélahökkun“ í GPT‑5.1, sem við höfum fjallað um *áður*⁠(opnast í nýjum glugga).

Samanburður á spám hermunardreifingar við grunnviðmið. Mikilvægustu flokkarnir til að meta rétt fyrir áhættumat fyrir dreifingu eru þeir sem sýna miklar breytingar á tíðni eftir dreifingu líkansins (t.d. >= 1,5x). Á þessu hlutmengi er hermunardreifing umtalsvert betri en viðmiðunaraðferðir, bæði í að spá fyrir um hvort tiltekin óæskileg hegðun verði algengari eða sjaldgæfari við dreifingu líkans (mynd 3, til vinstri), og í að meta nákvæma tíðni hennar á dreifingartíma (mynd 3, til hægri). Við notum tvö megingrunnviðmið: grunnviðmið með krefjandi kvaðningum, sem við notum nú fyrir kerfiskort og ákvarðanir um útgáfu, og einfalt grunnviðmið þar sem hlutföll úr fyrri dreifingu eru notuð sem mat fyrir nýja líkanið.

Mynd 3. Hermunardreifingar spáir bæði betur fyrir um stefnu tíðnibreytinga (vinstri) og nákvæma framleiðslutíðni (hægri) en föst möt.

Uppsprettur hermunarvillu í rásinni okkar Við rannsökuðum einnig núverandi uppsprettur villna í rásinni okkar. Nánar tiltekið gera stórar skekkjur í dreifingarhala rásarinnar síður áreiðanlega fyrir ákvarðanir um dreifingu: til dæmis þegar sést mikil spáð aukning á óæskilegri hegðun af tiltekinni tegund og vitað er að rásin getur jafnvel stöku sinnum gert stórar skekkjur vaknar efi um hvort þetta sé áreiðanlegt mat eða gerviáhrif frá rásina. Tvær helstu uppsprettur hugsanlegra villna:

Villa í raunhæfni endurúrtökuumhverfis: til að áætla framleiðsluhraða nákvæmlega þarf hermunarrásin okkar að vera eins raunhæf og mögulegt er. Þetta er að hluta til verkfræðilegt vandamál (sýnataka úr líkaninu með sömu rásum og notaðar eru fyrir framleiðsluumferð), og að hluta til áhugaverð áskorun fyrir verkfæri sem þurfa les- og skrifaðgang að ytri tilföngum sem eru stöðugt að breytast (t.d. vefleitir eða vinna með staðbundnar skrár). Við getum einangrað villuna í hermunarnákvæmni með því að bera saman spár úr raunverulegri dreifingu og hermun hennar (það er að segja með því að herma dreifingu líkansins sem þegar hefur verið dreift).
Villa vegna dreifingarhliðrunar kvaðninga: stórt áhyggjuefni við hermunardreifingu er að dreifing hvaða líkans sem er mun valda dreifingarhliðrun í inntaksgögnum, sérstaklega ef notendur aðlagast nýjum möguleikum líkansins. Við einangrum dreifingarvillu kvaðninga með því að bera saman mat við hermunardreifingu, annars vegar með nýlegum kvaðningum og hins vegar með kvaðningum úr raunverulegu dreifingunni.

Eins og sjá má á mynd 4 komumst við að því að stór hluti skekkjunnar í rásinni okkar – einkum varðandi skekkjur í hala dreifingarinnar – stafar nú af nákvæmni hermunarinnar. Þetta eru góðar fréttir, þar sem við gerum ráð fyrir að almennt sé auðveldara að bæta nákvæmni hermunar en að draga úr hliðrun í dreifingu kvaðninga. Við komumst einnig að því að draga megi úr villu vegna dreifnihliðrunar kvaðninga með því að nota nýjustu gögnin úr fyrri dreifingu. Frekari upplýsingar er að finna í rannsóknargreininni.

Mynd 4: Raunsæi endursýningarumhverfis virðist vera stærsta uppspretta skekkju í áætlunum okkar, sérstaklega fyrir öfgafyllstu skekkjurnar.

Sjálfvirk úttekt fann það eina nýja misræmi sem var innleitt í þessum dreifingum. Á því dreifingartímabili sem við rannsökuðum hefði sjálfvirka úttektarferlið okkar, sem byggir á hermdum dreifingum, leitt í ljós „reiknivélahökkun“ fyrir útgáfu, en það var eina nýja misræmið sem við greindum í þeirri ChatGPT‑umferð sem var til skoðunar. Reiknivélahakk er tegund umbunarhakks þar sem líkanið notar vafraverkfæri sem reiknivél en setur aðgerðina fram sem leit. Þetta þýðir ekki að úttektir í stórum stíl muni greina hverja nýja bilun, en það sýnir hvers vegna raunsæ samhengi skipta máli: þau geta kallað fram hegðun sem þrengri matssett leiða ef til vill aldrei beint í ljós, jafnvel þótt hún hafi ekki verið til staðar í upprunalegu umferðinni sem var notuð sem grunnur að hermuninni.

Að draga úr vitund um mat

Annar kostur við að nota aðstæður sem líkjast raunnotkun er að þær geta dregið úr bjögunum sem koma fram þegar líkön átta sig á að verið sé að prófa þau. Í fyrri rannsóknum höfum við, sem og aðrir⁠(opnast í nýjum glugga), komist að því að líkön gera sér oft grein fyrir því hvenær verið sé að prófa þau. Til dæmis geta líkön í hugsanakeðju sinni rökleitt um hvað verið sé að prófa þau, hvað matsaðila gæti líkað og – ef þau hegða sér illa – hvort upp um þau komist. Þetta skapar vandamál fyrir samræmingarmöt: ef líkan hegðar sér aðeins vel vegna þess að það heldur að verið sé að prófa það, hvernig getum við öðlast traust á því að það muni hegða sér á öruggan hátt þegar það kemst að því að það hafi verið sett í notkun?

Við sýnum fram á að hermunardreifing dregur verulega úr mati líkanna á matsmeðvitund samanborið við hefðbundin mat sem byggir ekki á raunverulegum gögnum úr dreifingu. Við mælum matsmeðvitund á þrjá vegu: með því að biðja líkan um að flokka hvort ferill kom úr framleiðslu eða mati, með því að vakta hugsanakeðju fyrir skýrar staðhæfingar um mat á samræmi, auk þess sem við skoðum metaspilun⁠(opnast í nýjum glugga), það er hvers kyns rök um eftirlit. Umferð við hermunardreifingu samsvaraði mjög vel umferð raunverulegrar dreifingar á öllum þremur mælingum. Til dæmis merkti GPT‑5.2 raunverulega framleiðsluumferð sem matstengda í 5,4% tilfella og hermda umferð í 5,1% tilfella, en hefðbundin matspróf (eins og SWE-Bench eða MonorepoBench, sem samanstanda aðallega af tilbúnum dæmum) voru flokkuð sem matspróf í næstum 100% tilfella.

Mynd 5. Samanburður á matsvitund: raunveruleg framleiðsluumferð og hermd umferð sýna svipaða tíðni fyrir matsgreiningu, orðaða vitund um stillingarmat og metagaming, en hefðbundin matsgagnasöfn sýna mun hærri tíðni.

Hermun verkfæra fyrir gerendamiðaðar ferilslóðir

Til að prófa hvort aðferðin gæti náð út fyrir hefðbundnar spjallstillingar, rannsökuðum við einnig hermun á dreifingum í krefjandi umhverfum fulltrúakóðunar. Nánar tiltekið notum við 120.000 innri ferilspor starfsmanna úr GPT‑5.4 til að líkja eftir innri dreifingu forritunarfulltrúa sem byggja á GPT‑5.5. Þetta þjónar tvennum tilgangi: annars vegar sýnir það hvernig hermun á dreifingu má einnig nota við áhættumat fyrir innri dreifingar, og hins vegar sýnir það fram á að hægt er að ná mikilli nákvæmni í hermun, jafnvel í aðstæðum með sjálfráðum gerendum, með vandaðri hermun verkfæra.

Hér að ofan ræddum við að nákvæmni hermunarinnar sé ein helsta uppspretta villna í núverandi rás okkar. Ein af áskorununum við að gera hermunardreifingar raunhæfar er að það krefst þess að verkfæri hegði sér á raunhæfan hátt, jafnvel þegar þau þurfa les-/skrifaðgang að ytri tilföngum sem eru sífellt að breytast (t.d. vefleitir eða vinna með staðbundnar skrár).

Þetta er sérstaklega krefjandi í umhverfi eins og fulltrúadreifingum: ferill eins fulltrúa getur ráðist af hundruðum verkfærakalla, stöðu geymslu, netsvörum eða tímabundnum bilunum. Þetta gerir endursýnatöku með raunverulegum aðgangi að verkfærum bæði krefjandi og hugsanlega hættulega. Í ljósi þessa hermum við verkfæraköllin með öðru LLM í stað þess að nota þau á raunkerfi. Við sýnum fram á að veita þessu LLM aukna möguleika sé nauðsynlegt fyrir raunsæi og þar af leiðandi gæði matsins.

Við látum verkfærahermilíkanið fá upprunalegu útkeyrsluna úr lokalotunni, geymsluna frá þeim tíma sem samtalið átti sér stað, gagnagrunn með pörum verkfærakalla og svara og lesvarin tengi. Í prófi þar sem aðgreiningarlíkan reyndi að greina hermdar framvindur frá raunverulegum framvindum jókst raunsæið úr 11,6% vinningshlutfalli í 49,5%, nálægt 50% tilviljunarstiginu.

Mynd 6: Hægt er að gera raunsæi endursýningar næstum óaðgreinanlegt frá raunverulegri sýnatöku, jafnvel í verkfæraþungum stillingum, þegar verkfæraköll eru hermd með auknum möguleikum.

Sem frekari vísbendingu um nákvæmni hermunar, þegar hermt er eftir GPT‑5.4 Codex Thinking umferð með Codex með GPT‑5.4 er ósamræmi rétt svo innan vikmarka. Aftur á móti sýndi GPT‑5.5 meiri ósamræmingu í flestum flokkum í prófunum okkar fyrir dreifingu.

Mynd 7: Með verkfærishermun eru hegðunartíðnir fyrir samtöl sem endursýnd eru með GPT‑5.4 og raunverulega GPT‑5.4 framleiðsluumferð nokkuð svipaðar – sem bendir til mikils raunsæis endursýningarumhverfis. Sjá kerfiskort GPT‑5.5⁠(opnast í nýjum glugga) fyrir meira samhengi um flokkana.

Þessar niðurstöður benda til þess að hermunardreifing geti náð til flókinna gerendaumhverfa þegar verkfæraumhverfið í kring er hermt með nægilegri nákvæmni.

WildChat og ytri úttekt

Eðlileg spurning er hvort utanaðkomandi endurskoðendur geti notið sumra sömu ávinninga án aðgangs að einkareinni framleiðsluumferð. Við prófuðum þetta með 100.000 WildChat-samtölum sem voru notuð sem forskeyti. WildChat var ónákvæmara en nýleg framleiðslugögn OpenAI, en þó upplýsandi: nýleg framleiðslugögn höfðu lægri meðalmargföldunarskekkju en WildChat (1,75× á móti 2,44×), en WildChat hélt sig oft innan u.þ.b. 3× frá framleiðslutíðni og bar kennsl á betra líkanið með tíðni yfir tilviljunarmörkum. Við lítum á mat í WildChat stíl sem lofandi viðbót við hermunardreifingu sem þróunaraðilar framkvæma. Sjá þessa tengdu bloggfærslu um samræmi⁠(opnast í nýjum glugga) fyrir fleiri niðurstöður varðandi þetta atriði.

Takmarkanir

Hermunardreifing er viðbót en ekki staðgengill andstæðingsmiðaðra matsaðferða, rauðteymis og markvissrar greiningar á halaáhættu. Greining á sumum óæskilegum hegðunarmynstrum líkana byggist á vöktunarhæfni hugsanakeðju: ef framtíðarlíkön rökstyðja með síður læsilegum hætti, sleppa lykilskrefum eða læra að dylja ásetning, gætum við ekki getað greint þessar tegundir óæskilegrar hegðunar. Enn fremur, þar sem framleiðslugögn eru trúnaðargögn, hafa þróunaraðilar sem stendur betri aðgang að dæmigerðu samhengi en utanaðkomandi úttektaraðilar. Betri opinber gagnasöfn gætu minnkað þetta bil.

Hermunardreifing nýtist best fyrir hegðun sem kemur nógu oft fyrir til að birtast í úrtökum forskeyta. Villa sem kemur upp einu sinni í hverjum tíu milljónum samtala er ólíkleg til að uppgötvast í keyrslu með milljón sýnum, þannig að árásarmiðaðar úttektir, rauðteymi og markviss greining á jaðaráhættu eru áfram nauðsynlegar. Við einbeitum okkur sem stendur að því að líkja eftir einu svari aðstoðarmannsins, þar sem við sáum ekki verulegar úrbætur á mati okkar í fyrstu tilraunum með því að líkja eftir mörgum samtalsumferðum. Þetta gæti verið mikilvægur þáttur í því að bæta hermunarnákvæmni í framtíðinni.

Aðferðin er einnig háð forskeytadreifingunni — samsetningu samtalanna sem verið er að taka aftur út. Söguleg umferð samsvarar hugsanlega ekki því hvernig notendur hafa samskipti við öflugra líkan eftir meiriháttar vörubreytingu, útgáfu nýs verkfæris, heimsatburð eða árstíðabundna breytingu. Greiningin í greininni í heild sinni bendir til þess að hægt sé að draga úr þessu vandamáli með því að nota nýjustu tiltæku gögnin.

Niðurstaða

Hermunarinnleiðing er ný nálgun við áhættumat fyrir dreifingu sem hjálpar framarlegum rannsóknarstofum og matsaðilum að spá fyrir um hvernig mállíkön kunna að haga sér í raunheimum og skilja áhættuna sem þau hafa í för með sér áður en innleiðing fer fram. Það kemur til viðbótar við núverandi öryggismöt, rauðteymi og markvissa greiningu með því að bæta við spálagi sem líkist meira raunverulegu umhverfi, sem getur bætt mat á hegðun við innleiðingu, dregið úr áhrifum matsvitundar og gert spár fyrir innleiðingu mögulegar að sannreyna eftir útgáfu. Þegar hermunardreifing er notuð samhliða hefðbundnum matsaðferðum getur hún hjálpað til við að gera áhættumat líkana raunhæfara, magnbundnara og gagnlegra fyrir ákvarðanir um dreifingu.

2026

Höfundur

OpenAI

Haltu áfram að lesa

Skoða allt

oai Science Academic Research Academic Research 1x1

ChatGPT fyrir akademíska rannsakendur flýtir vísindalegum uppgötvunum

Fyrirtæki29. júl. 2026

Scientific computing agentic AI card image (1x1)

Vísindaleg tölvuvinnsla á tímum fulltrúagervigreindar

Útgáfa28. júl. 2026

Að greina merki frá suði í kóðunarmati

Rannsóknir8. júl. 2026