Salta al contingut principal
OpenAI

16 de juny del 2026

Recerca

Predir el comportament del model abans del llançament simulant-ne el desplegament

Ús de contextos de conversa realistes per estimar millor el comportament indesitjat del model abans del llançament.

Introducció

Abans de llançar un model nou, els laboratoris han d’entendre no només què pot fer, sinó com és probable que es comporti en l’ús real, inclosos els punts on podria introduir nous riscos. Això esdevé encara més important a mesura que augmenten les capacitats. Com a part de la nostra revisió de seguretat prèvia al desplegament, aprofitem avaluacions dirigides, red-teaming i altres comprovacions per entendre el comportament del model. Ara hem començat a utilitzar un mètode per simular desplegaments de models abans que tinguin lloc, que afegeix un senyal complementari: una vista prèvia semblant al desplegament de com es pot comportar un model candidat abans d’arribar als usuaris.

La Simulació de desplegament és un mètode per simular un desplegament futur abans que tingui lloc. Ho fem reproduint converses anteriors de manera que preservi la privacitat amb un nou model candidat. Això ens permet estudiar com respon el nou model en contextos realistes abans del llançament, incloent-hi si emergeixen nous comportaments indesitjats i amb quina freqüència poden aparèixer.

En diversos desplegaments Thinking de la sèrie GPT‑5, la Simulació de desplegament va millorar les nostres estimacions de les taxes de comportament indesitjat del model, va ajudar a detectar noves formes de desalineació abans del llançament i va ajudar a reduir el risc que els models poguessin adonar-se que se’ls estava provant. També vam aplicar el mètode a llançaments agentius exigents, i vam mostrar que pot anar més enllà del xat estàndard cap a entorns d’agent més complexos que impliquen l’ús d’eines, i que també es pot utilitzar per avaluar riscos abans de desplegaments interns de models.

Ja hem utilitzat aprenentatges de la Simulació de desplegament durant el desenvolupament de models per identificar punts cecs en les avaluacions tradicionals i orientar mitigacions i decisions de desplegament. A mesura que fem que la canalització sigui més fàcil d’executar, esperem que tingui un paper més gran en el futur procés de desenvolupament de models.

Com funciona la Simulació de desplegament

Les avaluacions prèvies al desplegament utilitzades arreu del sector solen consistir en una combinació d’indicacions sintètiques, escrites manualment o de producció, seleccionades expressament perquè siguin difícils, d’alta severitat o adversàries. Aquestes avaluacions han tingut generalment dos objectius entrellaçats: avaluar com respon el model quan se sotmet a proves d’estrès en situacions amb una probabilitat molt petita d’aparèixer en el trànsit de desplegament, i obtenir una comprensió general dels comportaments indesitjats del model, incloent-hi trobar nous comportaments indesitjats i predir-ne les freqüències durant el desplegament.

Tot i que les avaluacions tradicionals continuen sent crucials per al primer objectiu, la Simulació de desplegament representa un avenç significatiu pel que fa al segon objectiu per a riscos que no són de cua (en els nostres experiments, no es pot esperar que el nostre enfocament mesuri comportaments que es produeixen amb una freqüència inferior a 1 de cada 200.000 missatges). La força de la Simulació de desplegament prové d’esquivar alguns reptes centrals de les avaluacions tradicionals:

  • Cobertura: és difícil tenir confiança que les indicacions d’avaluació cobriran tots els tipus possibles de comportament indesitjat del model. Mesurar nous tipus de comportament indesitjat requereix crear noves avaluacions i saber quins danys cal mesurar. Això pot consumir molt de temps i mà d’obra, i les avaluacions es poden saturar amb el temps.
  • Biaixos de selecció: les avaluacions tradicionals generalment es construeixen pensant en comportaments indesitjats específics del model, seleccionats de maneres que esbiaixen cap a contextos que ja s’han produït anteriorment. Això pot fer que les seves estimacions siguin menys informatives sobre la incidència d’aquests comportaments en tota l’amplitud de la distribució del desplegament.
  • Ser reconeixibles com a proves pels models: els models han estat cada cop més capaços de determinar que se’ls està provant, cosa que pot distorsionar el seu comportament i les nostres mesures posteriors de la seva seguretat. Tot i que moltes de les avaluacions tradicionals que utilitzem a OpenAI també provenen del trànsit de producció i no pateixen aquest problema, aquesta és una preocupació comuna per a moltes avaluacions tradicionals utilitzades arreu del sector.

La tècnica principal darrere de la Simulació de desplegament és senzilla: prenem converses recents del desplegament, eliminem la resposta original de l’assistent del model anterior i la regenerem amb un model candidat que s’ha de llançar. Avaluem les complecions cercant nous modes de fallada, i estimem la freqüència de comportament indesitjat durant el desplegament basant-nos en la freqüència en aquesta distribució semblant al desplegament. Podem fer les mateixes mesures després del llançament sobre trànsit real de desplegament, cosa que ens permet validar les nostres previsions prèvies al desplegament.

La Simulació de desplegament mitiga significativament les tres limitacions esmentades: el biaix de mostreig s’aborda utilitzant una distribució d’indicacions d’avaluació representativa de l’ús recent. La Simulació de desplegament amb indicacions representatives també pot mitigar les preocupacions sobre la cobertura: obtenim més cobertura dels comportaments indesitjables del model simplement simulant més trànsit. Aquest compromís entre computació i cobertura és important, perquè fa que la qualitat d’aquest eix de l’avaluació de riscos escali amb la computació, en lloc de l’esforç manual necessari per crear més avaluacions. Els models tampoc no semblen capaços de distingir entre converses obtingudes mitjançant simulació de desplegament i trànsit real de desplegament.

Diagrama que mostra la canalització de remostreig de producció des de converses de producció fins a remostreig que preserva la privacitat, generació de complecions del model, avaluació i estimacions durant el desplegament.

Figura 1: Visió general de la nostra canalització de Simulació de desplegament

Àrea

Avaluacions tradicionals

Simulació de desplegament

Cobertura

Millor per a riscos de baixa prevalença però alta severitat dels quals volem assegurar-nos que tenim cobertura

Millor per entendre l’espectre de riscos que probablement veurem en el trànsit de desplegament

Representativitat / biaix

Centrades a avaluar riscos passats o previstos dirigits, fins i tot per a comportaments amb una prevalença extremadament baixa en el desplegament

Representativa dels riscos que es produeixen per sobre d’una certa prevalença en el trànsit de desplegament actual

Consciència d’avaluació

Senyals de prova potencialment evidents (p. ex., amb dades sintètiques), tret que les avaluacions es creïn amb dades de desplegament

El context semblant al desplegament sembla mitigar significativament la consciència d’avaluació

Esforç

Les distribucions d’indicacions i configuracions personalitzades requereixen molt més esforç manual

Requereix un cost d’infraestructura únic, i després reutilitza prefixos del desplegament i avaluadors de comportaments indesitjats coneguts

Comparació d’alt nivell entre avaluacions tradicionals i Simulació de desplegament

Com vam provar la Simulació de desplegament

Per avaluar la Simulació de desplegament, vam preregistrar prediccions per a la freqüència durant el desplegament de 20 tipus de comportament indesitjable per a GPT‑5.4 Thinking. També vam dur a terme estudis retrospectius en altres desplegaments de models Thinking de la sèrie GPT‑5. Els comportaments del model que analitzem cobreixen tant la desalineació com categories de contingut no permès que hem anat comunicant en fitxes del model (p. ex., que el model menteixi sobre eines o generi contingut sexual no permès). Tot i que en aquests resultats només seguim 20 categories de comportament indesitjat del model, i només busquem comportaments desalineats nous, la Simulació de desplegament és una tècnica general que es podria aplicar per simular qualsevol propietat del model durant el desplegament.

El trànsit de producció que vam aprofitar també provenia de models Thinking de la sèrie GPT‑5. Abans d’executar les nostres avaluacions, vam eliminar automàticament els identificadors vinculats a comptes i la informació identificable. D’acord amb la nostra política de privacitat, només vam analitzar trànsit de ChatGPT d’usuaris que permeten que les seves dades s’utilitzin per millorar models. Només informem de conclusions agregades d’aquestes avaluacions. En total, vam analitzar aproximadament 1,3 milions de converses desidentificades en desplegaments des de GPT‑5 Thinking fins a GPT‑5.4, entre l’agost de 2025 i el març de 2026.

Avaluem la qualitat de l’avaluació de riscos prèvia al desplegament produïda per la Simulació de desplegament de tres maneres principals:

  • Cobertura de la taxonomia: l’auditoria posterior al llançament va revelar algun comportament desalineat important que faltés a la nostra taxonomia inicial de mals comportaments?
  • Precisió direccional: la simulació va predir correctament si la prevalença en el desplegament augmentaria o disminuiria per als comportaments coneguts?
  • Calibratge de taxes: les nostres estimacions prèvies al desplegament eren properes a les taxes que vam observar després en el desplegament? Aconseguir un bon calibratge de taxes requereix més que precisió direccional, cosa que fa que aquest sigui l’estàndard de qualitat més alt possible.

També mesurem fins a quin punt els models són capaços d’adonar-se que són en una avaluació durant la Simulació de desplegament, i provem com de robust és el mètode davant diferents formes de trànsit de desplegament i entorns exigents d’ús d’eines.

La Simulació de desplegament amplia significativament l’avaluació de riscos prèvia al desplegament

En els desplegaments Thinking de la sèrie GPT‑5, la Simulació de desplegament va superar les línies de base d’indicacions difícils a l’hora de determinar la taxa real de risc, va poder detectar el pirateig de calculadora abans del llançament i semblava potencialment indistingible del desplegament per al model.

Visió general de les nostres prediccions. Per veure una visualització de totes les prediccions per als desplegaments de models Thinking de la sèrie GPT‑5, consulteu la Figura 2. Les prediccions per a GPT‑5.4 Thinking es van preregistrar, mentre que les altres eren prediccions retroactives. En conjunt, les nostres prediccions tenien un error multiplicatiu mitjà d’1,5x (p. ex., si la taxa de comportament indesitjable és de 10 per 100k, això correspondria a estimar una taxa de 15 o 6,67 per 100k). Tot i que els errors de cua del nostre mètode poden ser aproximadament 10x més grans, esperem que es puguin reduir significativament amb noves millores a la nostra canalització de simulació, com es comenta més avall.

Gràfic que mostra prediccions de taxa exacta de la Simulació de desplegament sobre comportament indesitjable durant el desplegament basades en dades de desplegament prèvies.

Figura 2. Prediccions de freqüència de la Simulació de desplegament sobre comportaments indesitjables durant el desplegament basades en dades de desplegament prèvies. La notació 5.1 → 5 indica que tornem a mostrejar prefixos de GPT‑5 amb GPT‑5.1, és a dir, simulem el desplegament de GPT‑5.1 a partir de dades de GPT‑5. La taxa més alta de comportament desalineat va ser el «pirateig de calculadora» a GPT‑5.1, que ja hem comentat anteriorment(s'obre en una finestra nova).

Comparació de les prediccions de la Simulació de desplegament amb les línies de base. Les categories més importants d’estimar correctament per a les avaluacions de riscos prèvies al desplegament són les que tenen grans canvis d’incidència després del desplegament del model (p. ex., >= 1,5x). En aquest subconjunt, la Simulació de desplegament és substancialment millor que les línies de base tant a l’hora de predir si un determinat comportament indesitjable augmentarà o disminuirà en prevalença amb el desplegament d’un model (Figura 3, esquerra), com a l’hora d’estimar-ne la incidència exacta durant el desplegament (Figura 3, dreta). Utilitzem dues línies de base principals: una línia de base d’Indicacions difícils que fem servir actualment per a fitxes del model i decisions de llançament, i una línia de base ingènua que utilitza les taxes del desplegament anterior com a estimacions per al nou model.

Figura 3. La Simulació de desplegament prediu tant la direcció dels canvis d’incidència (esquerra) com les taxes exactes de producció (dreta) millor que les avaluacions estàtiques.

Fonts d’error de simulació en la nostra canalització. També vam estudiar les fonts actuals d’error en la nostra canalització. Concretament, els errors de cua grans fan que la canalització sigui menys fiable per a decisions de desplegament: per exemple, quan es veu un gran augment previst en un comportament indesitjable d’un tipus determinat, si se sap que la canalització té errors grans encara que siguin ocasionals, això genera dubtes sobre si és una estimació fiable o un artefacte de la canalització. Hi ha dues fonts principals d’error possible:

  • Error de fidelitat de l’entorn de remostreig: per estimar les taxes de producció amb precisió, la nostra canalització de simulació ha de ser tan realista com sigui possible. Això és en part un problema d’enginyeria (mostrejar del model utilitzant les mateixes canalitzacions que s’utilitzen per al trànsit de producció), i en part un repte interessant per a eines que necessiten accés de lectura/escriptura a recursos externs que canvien constantment (p. ex., cerques web o interacció amb fitxers locals). Podem aïllar l’error de fidelitat de la simulació comparant les prediccions d’un desplegament real i la seva simulació (és a dir, simulant el desplegament del model ja desplegat).
  • Error de desplaçament de la distribució d’indicacions: una preocupació important amb la Simulació de desplegament és que el desplegament de qualsevol model causarà un desplaçament distribucional en les entrades, especialment si els usuaris s’adapten a les noves possibilitats del model. Aïllem l’error de distribució d’indicacions comparant estimacions quan simulem el desplegament utilitzant indicacions recents enfront d’indicacions del desplegament realitzat.

Com es veu a la Figura 4, trobem que una gran fracció de l’error de la nostra canalització —especialment per als errors de cua— es deu actualment a la fidelitat de la simulació. Aquesta és una bona notícia, ja que esperem que la fidelitat de la simulació sigui, en general, més fàcil de millorar que reduir el desplaçament de la distribució d’indicacions. També trobem que l’error de desplaçament de la distribució d’indicacions es pot reduir utilitzant les dades més recents del desplegament anterior. Podeu trobar més detalls a l’article de recerca.

Figura 4: La fidelitat de l’entorn de remostreig sembla ser la font d’error més gran en les nostres estimacions, especialment per als errors més extrems.

L’auditoria automatitzada va trobar l’única nova desalineació introduïda en aquests desplegaments. En la finestra de desplegament que vam estudiar, la nostra canalització d’auditoria automatitzada basada en desplegaments simulats hauria detectat el «pirateig de calculadora» abans del llançament, que va ser l’única desalineació nova que vam identificar en el trànsit de ChatGPT analitzat. El pirateig de calculadora és una forma de reward hacking que implica que el model utilitzi una eina de navegador com a calculadora mentre presenta l’acció com una cerca. Això no vol dir que l’auditoria a gran escala detecti totes les fallades noves, però mostra per què importen els contextos realistes: poden provocar comportaments que conjunts d’avaluació més estrets potser mai no farien aparèixer directament, encara que no fossin presents en el trànsit original utilitzat per sembrar la simulació.

Reducció de la consciència d’avaluació

Un altre avantatge d’utilitzar contextos semblants al desplegament és que poden reduir les distorsions que sorgeixen quan els models reconeixen que se’ls està provant. En recerques anteriors, tant nosaltres com altres(s'obre en una finestra nova) hem trobat que els models sovint són conscients de quan se’ls està provant. Per exemple, els models poden raonar en la seva cadena de pensament sobre què se’ls està provant, què podria agradar a un avaluador i —si s’estan comportant malament— si els enxamparan. Això planteja un problema per a les avaluacions d’alineació: si un model només es comporta bé perquè pensa que se l’està provant, com podem confiar que es comportarà de manera segura un cop aprengui que s’ha desplegat?

Mostrem que la Simulació de desplegament redueix substancialment els nivells de consciència d’avaluació mostrats pels models en comparació amb les avaluacions tradicionals que no es basen en dades reals de desplegament. Mesurem la consciència d’avaluació de tres maneres: demanant a un model que classifiqui si una trajectòria prové de producció o d’una avaluació, monitorant la cadena de pensament per trobar afirmacions explícites sobre estar sent avaluat per alineació, així com per detectar metagaming(s'obre en una finestra nova): qualsevol raonament sobre supervisió. El trànsit de desplegament simulat va coincidir molt de prop amb el trànsit de desplegament real en les tres mesures. Per exemple, GPT‑5.2 va etiquetar el trànsit de producció real com a semblant a una avaluació el 5,4% del temps i el trànsit simulat el 5,1% del temps, mentre que les avaluacions tradicionals (com SWE-Bench o MonorepoBench, que estan compostes principalment d’exemples sintètics) es van classificar com a avaluacions gairebé el 100% del temps.

Figura 5. Comparació de consciència d’avaluació: el trànsit de producció real i el trànsit simulat mostren taxes similars de detecció d’avaluació, consciència verbalitzada d’avaluació d’alineació i metagaming, mentre que els conjunts de dades d’avaluació tradicionals mostren taxes molt més altes.

Simulació d’eines per a trajectòries agentives

Per provar si el mètode podia anar més enllà dels modes de xat estàndard, també vam estudiar la simulació de desplegaments per a entorns exigents de programació agentiva. Concretament, utilitzem 120.000 trajectòries agentives internes d’empleats de GPT‑5.4 per simular el desplegament intern d’agents de programació basats en GPT‑5.5. Això té dos propòsits: mostra com la simulació de desplegament també es pot utilitzar per a l’avaluació de riscos en desplegaments interns, i demostra que és possible aconseguir una alta fidelitat de simulació fins i tot en entorns agentius mitjançant una simulació acurada d’eines.

Més amunt hem comentat que la fidelitat de la simulació és una de les principals fonts d’error en la nostra canalització actual. Un dels reptes per fer realistes les simulacions de desplegament és que requereix que les eines actuïn de manera realista, fins i tot quan necessiten accés de lectura/escriptura a recursos externs que canvien constantment (p. ex., cerques web o interacció amb fitxers locals).

Això és especialment difícil en entorns com els desplegaments agentius: una sola trajectòria d’agent pot dependre de centenars de crides a eines, l’estat del repositori, respostes de xarxa o fallades transitòries. Això fa que el remostreig amb accés real a eines sigui alhora difícil i potencialment perillós. Tenint això en compte, en lloc d’aplicar crides a eines a sistemes en viu, les simulem amb un altre LLM. Mostrem que donar a aquest LLM possibilitats addicionals és essencial per al realisme i, per tant, per a la qualitat de l’estimació.

Donem al model simulador d’eines el desplegament original del torn final, el repositori del moment de la conversa, una base de dades de parells crida-a-eina/resposta i connectors només de lectura. En una prova en què un discriminador intentava distingir desplegaments simulats de reals, el realisme va millorar d’una taxa de victòria de l’11,6% al 49,5%, prop del nivell d’atzar del 50%.

Figura 6: Es pot fer que el realisme del remostreig sigui gairebé indistingible del mostreig real fins i tot en entorns amb moltes eines quan se simulen crides a eines amb possibilitats augmentades.

Com a evidència addicional de fidelitat de la simulació, quan simulem trànsit de pensament de GPT‑5.4 Codex amb GPT‑5.4, les taxes de desalineació queden, si fa no fa, dins dels marges d’error. En canvi, en les nostres proves prèvies al desplegament, GPT‑5.5 era més desalineat en la majoria de categories.

Figura 7: Amb la simulació d’eines, les taxes de comportament de les converses remostrejades amb GPT‑5.4 i el trànsit de producció real de GPT‑5.4 són força similars, cosa que indica una alta fidelitat de l’entorn de remostreig. Consulteu la fitxa del model GPT‑5.5(s'obre en una finestra nova) per a més context sobre les categories.

Aquests resultats suggereixen que la Simulació de desplegament es pot estendre a entorns complexos d’agents quan l’entorn d’eines circumdant se simula amb prou fidelitat.

WildChat i auditoria externa

Una pregunta natural és si els auditors externs poden obtenir alguns dels mateixos beneficis sense accés al trànsit privat de producció. Ho vam provar amb 100.000 converses de WildChat utilitzades com a prefixos. WildChat va ser menys precís que les dades recents de producció d’OpenAI, però encara informatiu: les dades recents de producció tenien un error multiplicatiu mitjà més baix que WildChat (1,75× vs. 2,44×), mentre que WildChat sovint es mantenia dins d’aproximadament 3× de les taxes de producció i identificava el millor model a taxes superiors a l’atzar. Veiem les avaluacions d’estil WildChat com un complement prometedor de la Simulació de desplegament executada pels desenvolupadors. Consulteu aquest article complementari del blog d’Alignment(s'obre en una finestra nova) per a més resultats sobre aquest punt.

Limitacions

La Simulació de desplegament és un complement, no un substitut, de les avaluacions adversàries, el red-teaming i l’anàlisi dirigida de riscos de cua. La detecció d’alguns comportaments indesitjats del model depèn de la monitorabilitat de la cadena de pensament: si els models futurs raonen de manera menys llegible, ometen passos clau o aprenen a ocultar la intenció, potser no podrem detectar aquestes formes de comportament indesitjable. A més, com que les dades de producció són privades, actualment els desenvolupadors tenen un accés més fort a contextos representatius que els auditors externs. Millors conjunts de dades públics podrien reduir aquesta bretxa.

La Simulació de desplegament és més útil per als comportaments que es produeixen prou sovint per aparèixer en els prefixos mostrejats. És poc probable que una fallada que es produeix una vegada cada deu milions de converses es descobreixi en una execució d’un milió de mostres, de manera que les avaluacions adversàries, el red-teaming i l’anàlisi dirigida de riscos de cua continuen sent necessaris. Actualment ens centrem a simular una sola resposta de l’assistent, ja que en experiments preliminars no vam trobar millores significatives en les nostres estimacions en simular diversos torns. Aquesta pot ser una àrea important per millorar la fidelitat de la simulació en el futur.

El mètode també depèn de la distribució de prefixos: la combinació de converses que s’estan remostrejant. El trànsit històric pot no coincidir amb la manera com els usuaris interactuen amb un model més capaç després d’un canvi important de producte, un nou llançament d’eines, un esdeveniment mundial o un canvi estacional. L’anàlisi de l’article complet suggereix que aquest problema es pot mitigar utilitzant les dades més recents disponibles.

Conclusió

La simulació de desplegament és un nou enfocament per a l’avaluació de riscos prèvia al desplegament que ajuda els laboratoris i avaluadors d’avantguarda a predir com es poden comportar els models de llenguatge en el món real i a entendre els riscos que plantegen abans del desplegament. Complementa les avaluacions de seguretat existents, el red-teaming i l’anàlisi dirigida afegint una capa de predicció més semblant a la producció que pot millorar les estimacions del comportament en desplegament, reduir els efectes de consciència d’avaluació i fer que les prediccions prèvies al desplegament es puguin comprovar després del llançament. Utilitzada juntament amb les avaluacions tradicionals, la Simulació de desplegament pot ajudar a fer que l’avaluació de riscos dels models sigui més realista, més quantitativa i més útil per a les decisions de desplegament.

Autor

OpenAI