Preskočiť na hlavný obsah
OpenAI

16. júna 2026

Vyhľadávanie

Predpovedanie správania modelu pred vydaním simuláciou nasadenia

Použitie realistických kontextov konverzácií na lepší odhad nežiaduceho správania modelu pred vydaním.

Úvod

Pred vydaním nového modelu musia laboratóriá rozumieť nielen tomu, čo dokáže, ale aj tomu, ako sa pravdepodobne bude správať pri reálnom používaní vrátane toho, kde môže priniesť nové riziká. S rastúcimi schopnosťami je to ešte dôležitejšie. V rámci nášho bezpečnostného preskúmania pred nasadením využívame cielené hodnotenia, red-teaming a ďalšie kontroly, aby sme porozumeli správaniu modelu. Teraz sme začali používať metódu simulácie nasadení modelu ešte predtým, než nastanú, ktorá pridáva doplnkový signál: náhľad podobný nasadeniu na to, ako sa kandidátsky model môže správať skôr, ako sa dostane k používateľom.

Simulácia nasadenia je metóda simulovania budúceho nasadenia ešte predtým, než nastane. Robíme to tak, že predchádzajúce konverzácie prehrávame s novým kandidátskym modelom spôsobom zachovávajúcim súkromie. To nám umožňuje pred vydaním skúmať, ako nový model reaguje v realistických kontextoch, vrátane toho, či sa objavujú nové nežiaduce správania a ako často sa môžu vyskytovať.

Naprieč viacerými nasadeniami Thinking zo série GPT‑5 zlepšila Simulácia nasadenia naše odhady mier nežiaduceho správania modelu, pomohla odhaliť nové formy nesúladu pred vydaním a znížiť riziko, že modely dokážu rozpoznať, že sú testované. Metódu sme použili aj pri náročných agentických uvedeniach, čím sme ukázali, že sa môže rozšíriť za hranice štandardného chatu do zložitejších agentových prostredí so používaním nástrojov a že sa dá použiť aj na hodnotenie rizík pred internými nasadeniami modelu.

Poznatky zo Simulácie nasadenia sme už využili počas vývoja modelu na identifikáciu slepých miest v tradičných hodnoteniach a na informovanie mitigácií a rozhodnutí o nasadení. Keďže zjednodušujeme spúšťanie pipeline, očakávame, že v budúcom procese vývoja modelov bude zohrávať väčšiu úlohu.

Ako funguje Simulácia nasadenia

Hodnotenia pred nasadením používané v odvetví vo všeobecnosti pozostávajú zo zmesi syntetických, ručne napísaných alebo produkčných príkazov zámerne vybraných tak, aby boli náročné, vysoko závažné alebo adversariálne. Tieto hodnotenia mali vo všeobecnosti dva prepojené ciele: posúdiť, ako model reaguje pri záťažovom testovaní v situáciách s veľmi malou pravdepodobnosťou výskytu v prevádzke, a získať všeobecné porozumenie nežiaducim správaniam modelu vrátane hľadania nových nežiaducich správaní a predikcie ich frekvencie v čase nasadenia.

Hoci tradičné hodnotenia zostávajú kľúčové pre prvý cieľ, Simulácia nasadenia predstavuje významný krok vpred pri druhom cieli pre riziká mimo chvosta distribúcie (v našich experimentoch nemožno očakávať, že náš prístup zmeria správania vyskytujúce sa menej často než 1 raz na 200 000 správ). Sila Simulácie nasadenia vyplýva z obídenia niektorých základných výziev tradičných hodnotení:

  • Pokrytie: je ťažké mať istotu, že hodnotiace príkazy pokryjú všetky možné typy nežiaduceho správania modelu. Meranie nových typov nežiaduceho správania si vyžaduje vytváranie nových hodnotení a vedieť, aké škody merať. Môže to byť časovo aj pracovnou silou náročné a hodnotenia sa môžu časom saturovať.
  • Výberové skreslenia: tradičné hodnotenia sa vo všeobecnosti vytvárajú s ohľadom na konkrétne nežiaduce správania modelu, vybrané spôsobmi, ktoré skresľujú smerom ku kontextom, ktoré sa už predtým vyskytli. To môže spôsobiť, že ich odhady sú menej informatívne o výskyte takýchto správaní v celej šírke distribúcie nasadenia.
  • Rozpoznateľnosť modelmi ako testy: modely čoraz viac dokážu zistiť, že sú testované, čo môže skresliť ich správanie a naše následné merania ich bezpečnosti. Hoci mnohé tradičné hodnotenia, ktoré používame v OpenAI, sú tiež čerpané z produkčnej prevádzky a týmto problémom netrpia, ide o bežnú obavu pri mnohých tradičných hodnoteniach používaných v odvetví.

Hlavná technika za Simuláciou nasadenia je jednoduchá: vezmeme nedávne konverzácie z nasadenia, odstránime pôvodnú odpoveď asistenta zo staršieho modelu a znovu ju vygenerujeme kandidátskym modelom určeným na vydanie. Doplnenia hodnotíme hľadaním nových režimov zlyhania a odhadujeme frekvenciu nežiaduceho správania v čase nasadenia na základe frekvencie v tejto distribúcii podobnej nasadeniu. Rovnaké merania môžeme po vydaní vykonať na skutočnej prevádzke nasadenia, čo nám umožňuje overiť naše predpovede pred nasadením.

Simulácia nasadenia výrazne zmierňuje tri uvedené obmedzenia: vzorkovacie skreslenie rieši používaním distribúcie hodnotiacich príkazov reprezentatívnej pre nedávne používanie. Simulácia nasadenia s reprezentatívnymi príkazmi môže zmierniť aj obavy o pokrytie: väčšie pokrytie nežiaducich správaní modelu získame jednoducho simulovaním väčšej prevádzky. Tento kompromis medzi výpočtovým výkonom a pokrytím je dôležitý, pretože kvalitu tejto osi hodnotenia rizika škáluje s výpočtom, nie s manuálnym úsilím potrebným na vytváranie ďalších hodnotení. Zdá sa tiež, že modely nedokážu rozlíšiť medzi konverzáciami získanými prostredníctvom simulácie nasadenia a skutočnou prevádzkou nasadenia.

Diagram zobrazujúci pipeline produkčného opätovného vzorkovania od produkčných konverzácií cez opätovné vzorkovanie so zachovaním súkromia, generovanie doplnení modelom, hodnotenie až po odhady v čase nasadenia.

Obrázok 1: Prehľad našej pipeline Simulácie nasadenia

Oblasť

Tradičné hodnotenia

Simulácia nasadenia

Pokrytie

Lepšie pre riziká s nízkou prevalenciou, ale vysokou závažnosťou, pri ktorých chceme mať istotu pokrytia

Lepšie na pochopenie spektra rizík, ktoré pravdepodobne uvidíme v prevádzke nasadenia

Reprezentatívnosť / skreslenie

Zamerané na hodnotenie cielených minulých alebo predikovaných rizík, aj pri správaniach s extrémne nízkou prevalenciou v nasadení

Reprezentatívne pre riziká, ktoré sa v aktuálnej prevádzke nasadenia vyskytujú nad určitou prevalenciou

Povedomie o hodnotení

Potenciálne zjavné testovacie signály (napr. pri syntetických údajoch), pokiaľ sa hodnotenia nevytvárajú z údajov nasadenia

Zdá sa, že kontext podobný nasadeniu výrazne zmierňuje povedomie o hodnotení

Úsilie

Vlastné distribúcie príkazov a nastavenia vyžadujú výrazne viac manuálneho úsilia

Vyžaduje jednorazové náklady na infraštruktúru a potom opätovne používa prefixy z nasadenia a hodnotiteľov zo známych nežiaducich správaní

Vysokoúrovňové porovnanie tradičných hodnotení a Simulácie nasadenia

Ako sme testovali Simuláciu nasadenia

Na vyhodnotenie Simulácie nasadenia sme vopred zaregistrovali predikcie frekvencie 20 typov nežiaduceho správania v čase nasadenia pre GPT‑5.4 Thinking. Spustili sme aj retrospektívne štúdie naprieč ďalšími nasadeniami modelov Thinking zo série GPT‑5. Správania modelu, ktoré analyzujeme, pokrývajú kategórie nesúladu aj nepovoleného obsahu, o ktorých informujeme v systémových kartách (napr. keď model klame o nástrojoch alebo generuje nepovolený sexuálny obsah). Hoci pri týchto výsledkoch sledujeme iba 20 kategórií nežiaduceho správania modelu a hľadáme iba nové nesúladné správania, Simulácia nasadenia je všeobecná technika, ktorú možno použiť na simulovanie akejkoľvek vlastnosti modelu v čase nasadenia.

Produkčná prevádzka, ktorú sme využili, pochádzala tiež z modelov Thinking zo série GPT‑5. Pred spustením hodnotení sme automaticky odstránili identifikátory prepojené s účtom a identifikovateľné informácie. V súlade s našimi zásadami ochrany osobných údajov sme analyzovali iba prevádzku ChatGPT od používateľov, ktorí povoľujú použitie svojich údajov na zlepšovanie modelov. Z týchto hodnotení uvádzame iba agregované zistenia. Celkovo sme analyzovali približne 1,3 milióna deidentifikovaných konverzácií naprieč nasadeniami od GPT‑5 Thinking po GPT‑5.4, pokrývajúcimi obdobie od augusta 2025 do marca 2026.

Kvalitu hodnotenia rizík pred nasadením vytvoreného Simuláciou nasadenia hodnotíme tromi hlavnými spôsobmi:

  • Pokrytie taxonómie: odhalil audit po vydaní nejaké dôležité nesúladné správania, ktoré chýbali v našej pôvodnej taxonómii zlého správania?
  • Smerová presnosť: predpovedala simulácia správne, či sa prevalencia pri známych správaniach v nasadení zvýši alebo zníži?
  • Kalibrácia mier: boli naše odhady pred nasadením blízko mieram, ktoré sme neskôr pozorovali v nasadení? Dosiahnuť dobrú kalibráciu mier vyžaduje viac než smerovú presnosť, čo z toho robí najvyšší možný štandard kvality.

Meriame tiež, do akej miery modely dokážu rozpoznať, že sú počas Simulácie nasadenia v hodnotení, a testujeme robustnosť metódy voči rôznym formám prevádzky nasadenia a náročným prostrediam používania nástrojov.

Simulácia nasadenia výrazne rozširuje hodnotenie rizík pred nasadením

Naprieč nasadeniami Thinking zo série GPT‑5 Simulácia nasadenia prekonala základné línie s náročnými príkazmi pri určovaní skutočnej miery rizika, dokázala odhaliť hackovanie kalkulačky pred vydaním a pre model sa javila potenciálne nerozoznateľná od nasadenia.

Prehľad našich predikcií. Vizualizáciu všetkých predikcií pre nasadenia modelov Thinking zo série GPT‑5 nájdete na obrázku 2. Predikcie pre GPT‑5.4 Thinking boli vopred zaregistrované, zatiaľ čo ostatné boli retroaktívne predikcie. V agregáte mali naše predikcie mediánovú multiplikatívnu chybu 1,5× (napr. ak je miera nežiaduceho správania 10 zo 100 tis., zodpovedalo by to odhadu miery 15 alebo 6,67 zo 100 tis.). Hoci chvostové chyby našej metódy môžu byť približne 10× väčšie, očakávame, že ich možno výrazne znížiť ďalšími zlepšeniami našej simulačnej pipeline, ako rozoberáme nižšie.

Graf zobrazujúci predikcie presnej miery nežiaduceho správania v čase nasadenia zo Simulácie nasadenia na základe predchádzajúcich údajov z nasadenia.

Obrázok 2. Predikcie frekvencie Simulácie nasadenia pre nežiaduce správanie v čase nasadenia na základe predchádzajúcich údajov z nasadenia. Zápis 5.1 → 5 znamená, že opätovne vzorkujeme prefixy z GPT‑5 pomocou GPT‑5.1, teda simulujeme nasadenie GPT‑5.1 na základe údajov z GPT‑5. Najvyššia miera nevyrovnaného správania bolo „hackovanie kalkulačky“ v GPT‑5.1, o ktorom sme diskutovali už skôr(otvorí sa v novom okne).

Porovnanie predikcií Simulácie nasadenia so základnými líniami. Najdôležitejšie kategórie na správny odhad pri hodnoteniach rizík pred nasadením sú tie, ktoré majú po nasadení modelu veľké zmeny výskytu (napr. >= 1,5×). V tejto podmnožine je Simulácia nasadenia podstatne lepšia než základné línie pri predpovedaní, či sa prevalencia určitého nežiaduceho správania s nasadením modelu zvýši alebo zníži (obrázok 3 vľavo), aj pri odhade jeho presného výskytu v čase nasadenia (obrázok 3 vpravo). Používame dve hlavné základné línie: základnú líniu Náročné príkazy, ktorú v súčasnosti používame pre systémové karty a rozhodnutia o uvedení, a naivnú základnú líniu používajúcu miery z predchádzajúceho nasadenia ako odhady pre nový model.

Obrázok 3. Simulácia nasadenia predpovedá smer zmien výskytu (vľavo) aj presné produkčné miery (vpravo) lepšie než statické hodnotenia.

Zdroje simulačnej chyby v našej pipeline. Skúmali sme aj súčasné zdroje chyby v našej pipeline. Konkrétne veľké chvostové chyby znižujú dôveryhodnosť pipeline pre rozhodnutia o nasadení: napríklad keď vidíme veľký predikovaný nárast určitého typu nežiaduceho správania, ak je známe, že pipeline má aspoň občas veľké chyby, vyvoláva to pochybnosti, či ide o spoľahlivý odhad alebo artefakt pipeline. Existujú dva hlavné zdroje možnej chyby:

  • Chyba vernosti prostredia opätovného vzorkovania: na presný odhad produkčných mier musí byť naša simulačná pipeline čo najrealistickejšia. Sčasti je to inžiniersky problém (vzorkovanie z modelu pomocou rovnakých pipeline, aké sa používajú pre produkčnú prevádzku), a sčasti zaujímavá výzva pre nástroje, ktoré potrebujú prístup na čítanie/zápis k externým zdrojom, ktoré sa neustále menia (napr. webové vyhľadávania alebo interakcia s lokálnymi súbormi). Chybu vernosti simulácie môžeme izolovať porovnaním predikcií zo skutočného nasadenia a jeho simulácie (teda simulovaním nasadenia už nasadeného modelu).
  • Chyba posunu distribúcie príkazov: veľkou obavou pri Simulácii nasadenia je, že nasadenie akéhokoľvek modelu spôsobí distribučný posun vstupov, najmä ak sa používatelia prispôsobia novým možnostiam modelu. Chybu distribúcie príkazov izolujeme porovnaním odhadov pri simulovaní nasadenia pomocou nedávnych príkazov oproti príkazom z realizovaného nasadenia.

Ako vidno na obrázku 4, zisťujeme, že veľká časť chyby v našej pipeline – najmä pri chvostových chybách – je v súčasnosti spôsobená vernosťou simulácie. Je to dobrá správa, pretože očakávame, že vernosť simulácie bude vo všeobecnosti jednoduchšie zlepšiť než znižovať posun distribúcie príkazov. Zisťujeme tiež, že chybu posunu distribúcie príkazov možno znížiť použitím najnovších údajov z predchádzajúceho nasadenia. Viac podrobností nájdete vo výskumnej práci.

Obrázok 4: Vernosť prostredia opätovného vzorkovania sa zdá byť najväčším zdrojom chyby v našich odhadoch, najmä pri najextrémnejších chybách.

Automatizovaný audit našiel jediný nový nesúlad zavedený v týchto nasadeniach. V okne nasadenia, ktoré sme skúmali, by naša automatizovaná auditná pipeline založená na simulovaných nasadeniach odhalila pred vydaním „hackovanie kalkulačky“, čo bol jediný nový nesúlad, ktorý sme identifikovali v analyzovanej prevádzke ChatGPT. Hackovanie kalkulačky je forma hackovania odmien, pri ktorej model používa nástroj prehliadača ako kalkulačku, no akciu prezentuje ako vyhľadávanie. Neznamená to, že auditovanie vo veľkom rozsahu zachytí každé nové zlyhanie, ale ukazuje to, prečo záleží na realistických kontextoch: môžu vyvolať správania, ktoré užšie evaluačné množiny možno nikdy priamo neodhalia, aj keď neboli prítomné v pôvodnej prevádzke použitej na spustenie simulácie.

Znižovanie povedomia o hodnotení

Ďalšou výhodou používania kontextov podobných nasadeniu je, že môžu znížiť skreslenia vznikajúce vtedy, keď modely rozpoznajú, že sú testované. V predchádzajúcom výskume sme my aj iní(otvorí sa v novom okne) zistili, že modely si často uvedomujú, keď sú testované. Napríklad modely môžu vo svojom reťazení myšlienok uvažovať o tom, na čom sú testované, čo by sa hodnotiteľovi mohlo páčiť, a – ak sa správajú nevhodne – či ich prichytia. To predstavuje problém pre hodnotenia zarovnania: ak sa model správa dobre iba preto, že si myslí, že je testovaný, ako získame istotu, že sa bude správať bezpečne, keď zistí, že bol nasadený?

Ukazujeme, že Simulácia nasadenia podstatne znižuje úrovne povedomia o hodnotení prejavované modelmi v porovnaní s tradičnými hodnoteniami, ktoré nie sú založené na skutočných údajoch z nasadenia. Povedomie o hodnotení meriame tromi spôsobmi: tým, že požiadame model, aby klasifikoval, či trajektória pochádza z produkcie alebo hodnotenia, monitorovaním reťazenia myšlienok na explicitné výroky o hodnotení zarovnania, ako aj na metagaming(otvorí sa v novom okne): akékoľvek uvažovanie o dohľade. Simulovaná prevádzka nasadenia sa vo všetkých troch meraniach úzko zhodovala so skutočnou prevádzkou nasadenia. Napríklad GPT‑5.2 označil skutočnú produkčnú prevádzku ako podobnú hodnoteniu v 5,4 % prípadov a simulovanú prevádzku v 5,1 % prípadov, zatiaľ čo tradičné hodnotenia (ako SWE-Bench alebo MonorepoBench, ktoré pozostávajú najmä zo syntetických príkladov) boli klasifikované ako hodnotenia takmer v 100 % prípadov.

Obrázok 5. Porovnanie povedomia o hodnotení: skutočná produkčná prevádzka a simulovaná prevádzka vykazujú podobné miery detekcie hodnotenia, verbalizovaného povedomia o hodnotení zarovnania a metagamingu, zatiaľ čo tradičné evaluačné datasety vykazujú omnoho vyššie miery.

Simulácia nástrojov pre agentické trajektórie

Aby sme otestovali, či sa metóda môže rozšíriť za štandardné chatové režimy, skúmali sme aj simulovanie nasadení pre náročné prostredia agentického programovania. Konkrétne používame 120 000 interných zamestnaneckých agentických trajektórií z GPT‑5.4 na simulovanie interného nasadenia programovacích agentov založených na GPT‑5.5. Slúži to dvom účelom: ukazuje to, ako možno simuláciu nasadenia použiť aj na hodnotenie rizík pri interných nasadeniach, a demonštruje, že aj v agentických prostrediach možno dosiahnuť vysokú vernosť simulácie pomocou starostlivej simulácie nástrojov.

Vyššie sme diskutovali, že vernosť simulácie je jedným z hlavných zdrojov chyby v našej súčasnej pipeline. Jednou z výziev pri vytváraní realistických simulácií nasadenia je, že nástroje musia konať realisticky, aj keď potrebujú prístup na čítanie/zápis k externým zdrojom, ktoré sa neustále menia (napr. webové vyhľadávania alebo interakcia s lokálnymi súbormi).

Je to obzvlášť náročné v prostrediach, ako sú agentické nasadenia: jedna trajektória agenta môže závisieť od stoviek volaní nástrojov, stavu repozitára, sieťových odpovedí alebo prechodných zlyhaní. To robí opätovné vzorkovanie so skutočným prístupom k nástrojom náročným aj potenciálne nebezpečným. Vzhľadom na to namiesto aplikovania volaní nástrojov na živé systémy ich simulujeme pomocou iného LLM. Ukazujeme, že poskytnutie dodatočných možností tomuto LLM je nevyhnutné pre realizmus, a teda aj pre kvalitu odhadu.

Modelu simulátora nástrojov dávame pôvodný rollout posledného ťahu, repozitár z času konverzácie, databázu dvojíc volanie nástroja/odpoveď a konektory iba na čítanie. V teste, kde sa diskriminátor pokúšal rozlíšiť simulované rollouty od skutočných, sa realizmus zlepšil z miery výhier 11,6 % na 49,5 %, teda blízko úrovne náhody 50 %.

Obrázok 6: Realizmus opätovného vzorkovania možno urobiť takmer nerozoznateľným od skutočného vzorkovania aj v prostrediach s množstvom nástrojov, keď sa volania nástrojov simulujú so zvýšenými možnosťami.

Ako ďalší dôkaz vernosti simulácie sú pri simulovaní prevádzky GPT‑5.4 Codex thinking pomocou GPT‑5.4 miery nesúladu približne v rámci chybových intervalov. Naopak, v našom testovaní pred nasadením bol GPT‑5.5 vo väčšine kategórií viac nesúladný.

Obrázok 7: Pri simulácii nástrojov sú miery správania pre konverzácie opätovne vzorkované pomocou GPT‑5.4 a skutočnú produkčnú prevádzku GPT‑5.4 pomerne podobné – čo naznačuje vysokú vernosť prostredia opätovného vzorkovania. Viac kontextu ku kategóriám nájdete v systémovej karte GPT‑5.5(otvorí sa v novom okne).

Tieto výsledky naznačujú, že Simulácia nasadenia sa môže rozšíriť na zložité agentové prostredia, keď je okolité prostredie nástrojov simulované s dostatočnou vernosťou.

WildChat a externé auditovanie

Prirodzenou otázkou je, či externí audítori môžu získať niektoré z rovnakých výhod bez prístupu k súkromnej produkčnej prevádzke. Otestovali sme to so 100 000 konverzáciami WildChat použitými ako prefixy. WildChat bol menej presný než nedávne produkčné údaje OpenAI, ale stále informatívny: nedávne produkčné údaje mali nižšiu priemernú multiplikatívnu chybu než WildChat (1,75× oproti 2,44×), zatiaľ čo WildChat často zostal približne do 3× od produkčných mier a identifikoval lepší model s mierami nad úrovňou náhody. Hodnotenia v štýle WildChat vnímame ako sľubný doplnok k Simulácii nasadenia spúšťanej vývojármi. Ďalšie výsledky k tomuto bodu nájdete v tomto sprievodnom blogovom príspevku Alignment(otvorí sa v novom okne).

Obmedzenia

Simulácia nasadenia je doplnkom, nie náhradou adversariálnych hodnotení, red-teamingu a cielenej analýzy chvostových rizík. Detekcia niektorých nežiaducich správaní modelu závisí od monitorovateľnosti reťazenia myšlienok: ak budúce modely budú uvažovať menej čitateľne, vynechávať kľúčové kroky alebo sa naučia zakrývať zámer, možno nebudeme schopní tieto formy nežiaduceho správania odhaliť. Okrem toho, keďže produkčné údaje sú súkromné, vývojári majú v súčasnosti silnejší prístup k reprezentatívnym kontextom než externí audítori. Lepšie verejné datasety by mohli túto medzeru zmenšiť.

Simulácia nasadenia je najužitočnejšia pri správaniach, ktoré sa vyskytujú dosť často na to, aby sa objavili vo vzorkovaných prefixoch. Zlyhanie, ktoré nastane raz v desiatich miliónoch konverzácií, sa pravdepodobne neobjaví v behu s miliónovou vzorkou, takže adversariálne hodnotenia, red-teaming a cielená analýza chvostových rizík zostávajú nevyhnutné. V súčasnosti sa zameriavame na simulovanie jednej odpovede asistenta, keďže v predbežných experimentoch sme pri simulovaní viacerých ťahov nenašli zmysluplné zlepšenia našich odhadov. V budúcnosti to môže byť dôležitá oblasť na zlepšenie vernosti simulácie.

Metóda závisí aj od distribúcie prefixov – zmesi konverzácií, ktoré sa opätovne vzorkujú. Historická prevádzka nemusí zodpovedať tomu, ako používatelia interagujú so schopnejším modelom po významnej zmene produktu, vydaní nového nástroja, svetovej udalosti alebo sezónnom posune. Analýza v úplnom článku naznačuje, že tento problém možno zmierniť použitím najnovších dostupných údajov.

Záver

Simulácia nasadenia je nový prístup k hodnoteniu rizík pred nasadením, ktorý pomáha frontier laboratóriám a hodnotiteľom predpovedať, ako sa jazykové modely môžu správať v reálnom svete, a porozumieť rizikám, ktoré predstavujú, ešte pred nasadením. Dopĺňa existujúce bezpečnostné hodnotenia, red-teaming a cielenú analýzu pridaním predikčnej vrstvy podobnejšej produkcii, ktorá môže zlepšiť odhady správania pri nasadení, znížiť účinky povedomia o hodnotení a umožniť overenie predikcií pred nasadením po vydaní. Používaná popri tradičných hodnoteniach môže Simulácia nasadenia pomôcť urobiť hodnotenie rizík modelu realistickejším, kvantitatívnejším a užitočnejším pre rozhodnutia o nasadení.

Autor

OpenAI