Ir al contenido principal
OpenAI

16 de junio de 2026

Investigación

Predecir el comportamiento del modelo antes del lanzamiento simulando el despliegue

Uso de contextos de conversación realistas para estimar mejor el comportamiento no deseado del modelo antes del lanzamiento.

Introducción

Antes de lanzar un nuevo modelo, los laboratorios deben entender no solo lo que puede hacer, sino cómo es probable que se comporte en el uso real, incluido dónde podría introducir nuevos riesgos. Esto cobra aún más importancia a medida que aumentan las capacidades. Como parte de nuestra revisión de seguridad previa al despliegue, aprovechamos evaluaciones específicas, red-teaming y otras comprobaciones para entender el comportamiento del modelo. Ahora hemos empezado a usar un método para simular despliegues de modelos antes de que ocurran, lo que añade una señal complementaria: una vista previa similar al despliegue de cómo puede comportarse un modelo candidato antes de llegar a los usuarios.

La Simulación de despliegue es un método para simular un despliegue futuro antes de que ocurra. Lo hacemos reproduciendo conversaciones anteriores de forma que se preserve la privacidad con un nuevo modelo candidato. Esto nos permite estudiar cómo responde el nuevo modelo en contextos realistas antes del lanzamiento, incluido si surgen nuevos comportamientos no deseados y con qué frecuencia pueden aparecer.

En múltiples despliegues Thinking de la serie GPT‑5, la Simulación de despliegue mejoró nuestras estimaciones de las tasas de comportamientos no deseados del modelo, ayudó a descubrir nuevas formas de desalineación antes del lanzamiento y ayudó a reducir el riesgo de que los modelos pudieran darse cuenta de que estaban siendo evaluados. También aplicamos el método a despliegues agentic difíciles, mostrando que puede ir más allá del chat estándar hacia configuraciones de agente más complejas que implican uso de herramientas, y que también puede usarse para la evaluación de riesgos antes de despliegues internos de modelos.

Ya hemos usado conocimientos de la Simulación de despliegue durante el desarrollo de modelos para identificar puntos ciegos en las evaluaciones tradicionales e informar mitigaciones y decisiones de despliegue. A medida que facilitemos la ejecución de la canalización, esperamos que desempeñe un papel mayor en el futuro proceso de desarrollo de modelos.

Cómo funciona la Simulación de despliegue

Las evaluaciones previas al despliegue usadas en el sector suelen consistir en una mezcla de prompts sintéticos, escritos manualmente o de producción, seleccionados intencionadamente por ser difíciles, de alta gravedad o adversariales. Estas evaluaciones han tenido por lo general dos objetivos entrelazados: evaluar cómo responde el modelo cuando se somete a pruebas de estrés en situaciones con una probabilidad muy pequeña de ocurrir en el tráfico de despliegue, y obtener una comprensión general de los comportamientos no deseados del modelo, incluida la detección de nuevos comportamientos no deseados y la predicción de sus frecuencias en el momento del despliegue.

Aunque las evaluaciones tradicionales siguen siendo cruciales para el primer objetivo, la Simulación de despliegue supone un avance significativo con respecto al segundo objetivo para riesgos no extremos (en nuestros experimentos, no cabe esperar que nuestro enfoque mida comportamientos que ocurren con una frecuencia inferior a 1 de cada 200 000 mensajes). La fortaleza de la Simulación de despliegue procede de sortear algunos desafíos básicos de las evaluaciones tradicionales:

  • Cobertura: es difícil tener confianza en que los prompts de evaluación cubrirán todos los tipos posibles de comportamiento no deseado del modelo. Medir nuevos tipos de comportamiento no deseado requiere crear nuevas evaluaciones y saber qué daños medir. Esto puede requerir mucho tiempo y trabajo, y las evaluaciones pueden saturarse con el tiempo.
  • Sesgos de selección: las evaluaciones tradicionales suelen construirse pensando en comportamientos no deseados específicos del modelo, seleccionados de formas que sesgan hacia contextos que ya han ocurrido. Esto puede hacer que sus estimaciones sean menos informativas sobre la incidencia de tales comportamientos en toda la amplitud de la distribución de despliegue.
  • Ser reconocibles como pruebas por los modelos: los modelos han sido cada vez más capaces de determinar que están siendo evaluados, lo que puede distorsionar su comportamiento y nuestras mediciones posteriores de su seguridad. Aunque muchas de las evaluaciones tradicionales que usamos en OpenAI también proceden del tráfico de producción y no sufren este problema, es una preocupación común para muchas evaluaciones tradicionales usadas en el sector.

La técnica principal detrás de la Simulación de despliegue es sencilla: tomamos conversaciones recientes del despliegue, eliminamos la respuesta original del asistente del modelo anterior y la regeneramos con un modelo candidato para su lanzamiento. Evaluamos las terminaciones buscando nuevos modos de fallo y estimamos la frecuencia de comportamientos no deseados en el momento del despliegue basándonos en la frecuencia de esta distribución similar al despliegue. Podemos realizar las mismas mediciones tras el lanzamiento en tráfico de despliegue real, lo que nos permite validar nuestras previsiones previas al despliegue.

La Simulación de despliegue mitiga significativamente las tres limitaciones indicadas arriba: el sesgo de muestreo se aborda usando una distribución de prompts de evaluación representativa del uso reciente. La Simulación de despliegue con prompts representativos también puede mitigar las preocupaciones sobre cobertura: obtenemos mayor cobertura de los comportamientos no deseables del modelo simplemente simulando más tráfico. Esta compensación entre computación y cobertura es importante, porque hace que la calidad de este eje de evaluación de riesgos escale con la computación, en lugar de con el esfuerzo manual necesario para crear más evaluaciones. Los modelos tampoco parecen poder distinguir entre conversaciones obtenidas mediante simulación de despliegue y tráfico de despliegue real.

Diagrama que muestra la canalización de remuestreo de producción desde conversaciones de producción hasta remuestreo con preservación de la privacidad, generación de terminaciones del modelo, evaluación y estimaciones en el momento del despliegue.

Figura 1: resumen de nuestra canalización de Simulación de despliegue

Área

Evaluaciones tradicionales

Simulación de despliegue

Cobertura

Mejor para riesgos de baja prevalencia pero alta gravedad cuya cobertura queremos asegurar

Mejor para entender el espectro de riesgos que probablemente veamos en el tráfico de despliegue

Representatividad / sesgo

Centradas en evaluar riesgos específicos pasados o previstos, incluso para comportamientos con prevalencia extremadamente baja en el despliegue

Representativa de riesgos que se producen por encima de cierta prevalencia en el tráfico de despliegue actual

Conciencia de evaluación

Señales de prueba potencialmente obvias (p. ej., con datos sintéticos), salvo que las evaluaciones se creen con datos de despliegue

El contexto similar al despliegue parece mitigar significativamente la conciencia de evaluación

Esfuerzo

Las distribuciones de prompts y configuraciones personalizadas requieren mucho más esfuerzo manual

Requiere un coste de infraestructura inicial y luego reutiliza prefijos del despliegue y calificadores de comportamientos no deseados conocidos

Comparación de alto nivel entre evaluaciones tradicionales y Simulación de despliegue

Cómo probamos la Simulación de despliegue

Para evaluar la Simulación de despliegue, registramos previamente predicciones de la frecuencia en el momento del despliegue de 20 tipos de comportamiento no deseable para GPT‑5.4 Thinking. También realizamos estudios retrospectivos en otros despliegues de modelos Thinking de la serie GPT‑5. Los comportamientos del modelo que analizamos cubren tanto categorías de desalineación como de contenido no permitido sobre las que hemos estado informando en tarjetas del sistema (p. ej., que el modelo mienta sobre herramientas o genere contenido sexual no permitido). Aunque para estos resultados solo seguimos 20 categorías de comportamiento no deseado del modelo y solo buscamos nuevos comportamientos desalineados, la Simulación de despliegue es una técnica general que podría aplicarse para simular cualquier propiedad del modelo en el momento del despliegue.

El tráfico de producción que aprovechamos también procedía de modelos Thinking de la serie GPT‑5. Antes de ejecutar nuestras evaluaciones, eliminamos automáticamente identificadores vinculados a cuentas e información identificable. De acuerdo con nuestra Política de privacidad, solo analizamos tráfico de ChatGPT de usuarios que permiten que sus datos se usen para mejoras del modelo. Solo comunicamos hallazgos agregados de estas evaluaciones. En total, analizamos aproximadamente 1,3 millones de conversaciones desidentificadas en despliegues desde GPT‑5 Thinking hasta GPT‑5.4, entre agosto de 2025 y marzo de 2026.

Evaluamos la calidad de la evaluación de riesgos previa al despliegue producida por la Simulación de despliegue de tres maneras principales:

  • Cobertura de la taxonomía: ¿la auditoría posterior al lanzamiento reveló algún comportamiento desalineado importante que faltara en nuestra taxonomía inicial de malos comportamientos?
  • Precisión direccional: ¿la simulación predijo correctamente si la prevalencia en el despliegue aumentaría o disminuiría para comportamientos conocidos?
  • Calibración de tasas: ¿nuestras estimaciones previas al despliegue estuvieron cerca de las tasas que observamos después en el despliegue? Lograr una buena calibración de tasas requiere más que precisión direccional, lo que convierte esto en el estándar de calidad más alto posible.

También medimos hasta qué punto los modelos pueden darse cuenta de que están en una evaluación durante la Simulación de despliegue, y probamos la robustez del método ante distintas formas de tráfico de despliegue y configuraciones difíciles de uso de herramientas.

La Simulación de despliegue amplía significativamente la evaluación de riesgos previa al despliegue

En despliegues Thinking de la serie GPT‑5, la Simulación de despliegue superó a las líneas base de prompts difíciles al determinar la tasa real de riesgo, pudo revelar el hackeo de calculadora antes del lanzamiento y pareció potencialmente indistinguible del despliegue para el modelo.

Resumen de nuestras predicciones. Para ver una visualización de todas las predicciones de despliegues de modelos Thinking de la serie GPT‑5, consulta la Figura 2. Las predicciones para GPT‑5.4 Thinking se registraron previamente, mientras que las demás fueron predicciones retroactivas. En conjunto, nuestras predicciones tuvieron un error multiplicativo mediano de 1,5× (p. ej., si la tasa de comportamiento no deseable es 10 de cada 100 000, esto correspondería a estimar una tasa de 15 o 6,67 de cada 100 000). Aunque los errores de cola de nuestro método pueden ser aproximadamente 10 veces mayores, esperamos que puedan reducirse significativamente con nuevas mejoras de nuestra canalización de simulación, como se comenta más abajo.

Gráfico que muestra predicciones de tasa exacta de la Simulación de despliegue sobre comportamientos no deseables en el momento del despliegue basadas en datos de despliegues anteriores.

Figura 2. Predicciones de frecuencia de la Simulación de despliegue sobre comportamientos no deseables en el momento del despliegue basadas en datos de despliegues anteriores. La notación 5.1 → 5 indica que remuestreamos prefijos de GPT‑5 con GPT‑5.1, es decir, simulamos el despliegue de GPT‑5.1 basándonos en datos de GPT‑5. La tasa más alta de comportamiento desalineado fue el «hackeo de calculadora» en GPT‑5.1, del que ya hemos hablado anteriormente(se abre en una ventana nueva).

Comparar las predicciones de la Simulación de despliegue con las líneas base. Las categorías más importantes que hay que estimar correctamente para las evaluaciones de riesgos previas al despliegue son las que tienen grandes cambios de incidencia tras el despliegue del modelo (p. ej., >= 1,5×). En este subconjunto, la Simulación de despliegue es sustancialmente mejor que las líneas base tanto al predecir si un determinado comportamiento no deseable aumentará o disminuirá en prevalencia con el despliegue de un modelo (Figura 3, izquierda), como al estimar su incidencia exacta en el momento del despliegue (Figura 3, derecha). Usamos dos líneas base principales: una línea base de Prompts difíciles que usamos actualmente para tarjetas del sistema y decisiones de lanzamiento, y una línea base ingenua que usa las tasas del despliegue anterior como estimaciones para el nuevo modelo.

Figura 3. La Simulación de despliegue predice tanto la dirección de los cambios de incidencia (izquierda) como las tasas exactas de producción (derecha) mejor que las evaluaciones estáticas.

Fuentes de error de simulación en nuestra canalización. También estudiamos las fuentes actuales de error en nuestra canalización. En concreto, los grandes errores de cola hacen que la canalización sea menos fiable para las decisiones de despliegue: por ejemplo, al observar un gran aumento previsto en un comportamiento no deseable de cierto tipo, si se sabe que la canalización tiene grandes errores aunque sea de forma ocasional, surge la duda de si se trata de una estimación fiable o de un artefacto de la canalización. Hay dos fuentes principales de posible error:

  • Error de fidelidad del entorno de remuestreo: para estimar con precisión las tasas de producción, nuestra canalización de simulación debe ser lo más realista posible. Esto es en parte un problema de ingeniería (muestrear del modelo usando las mismas canalizaciones que se usan para el tráfico de producción) y en parte un desafío interesante para herramientas que necesitan acceso de lectura/escritura a recursos externos que cambian constantemente (p. ej., búsquedas web o interacción con archivos locales). Podemos aislar el error de fidelidad de la simulación comparando predicciones de un despliegue real y su simulación (es decir, simulando el despliegue del modelo ya desplegado).
  • Error por cambio de distribución de prompts: una preocupación importante con la Simulación de despliegue es que el despliegue de cualquier modelo causará un desplazamiento distributivo en las entradas, especialmente si los usuarios se adaptan a las nuevas posibilidades del modelo. Aislamos el error de distribución de prompts comparando estimaciones al simular el despliegue usando prompts recientes frente a prompts del despliegue realizado.

Como se ve en la Figura 4, encontramos que una gran fracción del error en nuestra canalización —especialmente en los errores de cola— se debe actualmente a la fidelidad de la simulación. Esto es una buena noticia, ya que esperamos que la fidelidad de la simulación sea en general más fácil de mejorar que reducir el cambio de distribución de prompts. También encontramos que el error por cambio de distribución de prompts puede reducirse usando los datos más recientes del despliegue anterior. Se pueden encontrar más detalles en el artículo de investigación.

Figura 4: la fidelidad del entorno de remuestreo parece ser la mayor fuente de error en nuestras estimaciones, especialmente para los errores más extremos.

ChatGPTChatGPTLa auditoría automatizada encontró la única nueva desalineación introducida en estos despliegues. En la ventana de despliegue que estudiamos, nuestra canalización de auditoría automatizada basada en despliegues simulados habría revelado el «hackeo de calculadora» antes del lanzamiento, que fue la única desalineación nueva que identificamos en el tráfico de ChatGPT analizado. El hackeo de calculadora es una forma de reward hacking que implica que el modelo use una herramienta de navegador como calculadora mientras presenta la acción como una búsqueda. Esto no significa que la auditoría a gran escala vaya a detectar todos los fallos nuevos, pero muestra por qué importan los contextos realistas: pueden provocar comportamientos que conjuntos de evaluación más estrechos quizá nunca revelen directamente, aunque no estuvieran presentes en el tráfico original usado para sembrar la simulación.

Reducir la conciencia de evaluación

Otra ventaja de usar contextos similares al despliegue es que pueden reducir las distorsiones que surgen cuando los modelos reconocen que están siendo evaluados. En investigaciones anteriores, tanto nosotros como otros(se abre en una ventana nueva) hemos encontrado que los modelos a menudo son conscientes de cuándo están siendo evaluados. Por ejemplo, los modelos pueden razonar en su cadena de pensamiento sobre qué se les está evaluando, qué podría gustarle a un evaluador y, si se están comportando mal, si los atraparán. Esto plantea un problema para las evaluaciones de alineación: si un modelo solo se comporta bien porque cree que está siendo evaluado, ¿cómo generamos confianza en que se comportará de forma segura una vez que sepa que ha sido desplegado?

Mostramos que la Simulación de despliegue reduce sustancialmente los niveles de conciencia de evaluación que exhiben los modelos en relación con las evaluaciones tradicionales que no se basan en datos de despliegue reales. Medimos la conciencia de evaluación de tres maneras: pidiendo a un modelo que clasifique si una trayectoria procede de producción o de una evaluación, monitorizando la cadena de pensamiento en busca de declaraciones explícitas sobre ser evaluado por alineación, así como de metajuego(se abre en una ventana nueva): cualquier razonamiento sobre supervisión. El tráfico de despliegue simulado coincidió estrechamente con el tráfico de despliegue real en las tres medidas. Por ejemplo, GPT‑5.2 etiquetó el tráfico de producción real como similar a una evaluación el 5,4 % de las veces y el tráfico simulado el 5,1 % de las veces, mientras que las evaluaciones tradicionales (como SWE-Bench o MonorepoBench, compuestas principalmente por ejemplos sintéticos) se clasificaron como evaluaciones casi el 100 % de las veces.

Figura 5. Comparación de conciencia de evaluación: el tráfico de producción real y el tráfico simulado muestran tasas similares para detección de evaluación, conciencia verbalizada de evaluación de alineación y metajuego, mientras que los conjuntos de datos de evaluación tradicionales presentan tasas mucho más altas.

Simulación de herramientas para trayectorias agentic

Para probar si el método podía ir más allá de los modos de chat estándar, también estudiamos la simulación de despliegues para configuraciones difíciles de programación con agentes. En concreto, usamos 120 000 trayectorias agentic internas de empleados de GPT‑5.4 para simular el despliegue interno de agentes de programación basados en GPT‑5.5. Esto cumple dos propósitos: muestra cómo la simulación de despliegue también puede usarse para la evaluación de riesgos de despliegues internos, y demuestra que es posible lograr una alta fidelidad de simulación incluso en configuraciones agentic mediante una simulación cuidadosa de herramientas.

Arriba comentamos que la fidelidad de la simulación es una de las principales fuentes de error de nuestra canalización actual. Uno de los desafíos para hacer realistas las simulaciones de despliegue es que exige que las herramientas actúen de formas realistas, incluso cuando necesitan acceso de lectura/escritura a recursos externos que cambian constantemente (p. ej., búsquedas web o interacción con archivos locales).

Esto es especialmente difícil para configuraciones como los despliegues agentic: una sola trayectoria de agente puede depender de cientos de llamadas a herramientas, del estado del repositorio, de respuestas de red o de fallos transitorios. Esto hace que el remuestreo con acceso real a herramientas sea tanto difícil como potencialmente peligroso. A la luz de esto, en lugar de aplicar llamadas a herramientas a sistemas en vivo, las simulamos con otro LLM. Mostramos que dotar a este LLM de prestaciones adicionales es esencial para el realismo y, por tanto, para la calidad de la estimación.

Damos al modelo simulador de herramientas el despliegue original del turno final, el repositorio del momento de la conversación, una base de datos de pares llamada/respuesta de herramientas y conectores de solo lectura. En una prueba en la que un discriminador intentó distinguir despliegues simulados de reales, el realismo mejoró de una tasa de victoria del 11,6 % al 49,5 %, cerca del nivel de azar del 50 %.

Figura 6: se puede hacer que el realismo del remuestreo sea casi indistinguible del muestreo real incluso en configuraciones con muchas herramientas al simular llamadas a herramientas con prestaciones aumentadas.

Como evidencia adicional de la fidelidad de la simulación, al simular tráfico de pensamiento de GPT‑5.4 Codex con GPT‑5.4, las tasas de desalineación están, prácticamente, dentro de los márgenes de error. En cambio, en nuestras pruebas previas al despliegue, GPT‑5.5 mostró más desalineación en la mayoría de las categorías.

Figura 7: con la simulación de herramientas, las tasas de comportamiento de las conversaciones remuestreadas con GPT‑5.4 y del tráfico de producción real de GPT‑5.4 son bastante similares, lo que indica una alta fidelidad del entorno de remuestreo. Consulta la tarjeta del sistema de GPT‑5.5(se abre en una ventana nueva) para obtener más contexto sobre las categorías.

Estos resultados sugieren que la Simulación de despliegue puede extenderse a configuraciones de agentes complejas cuando el entorno de herramientas circundante se simula con suficiente fidelidad.

WildChat y auditoría externa

Una pregunta natural es si los auditores externos pueden obtener algunos de los mismos beneficios sin acceso a tráfico de producción privado. Lo probamos con 100 000 conversaciones de WildChat usadas como prefijos. WildChat fue menos preciso que los datos recientes de producción de OpenAI, pero aun así informativo: los datos recientes de producción tuvieron un error multiplicativo medio menor que WildChat (1,75× frente a 2,44×), mientras que WildChat a menudo se mantuvo dentro de aproximadamente 3× de las tasas de producción e identificó el mejor modelo con tasas superiores al azar. Vemos las evaluaciones de estilo WildChat como un complemento prometedor a la Simulación de despliegue ejecutada por desarrolladores. Consulta esta entrada complementaria del blog Alignment(se abre en una ventana nueva) para obtener más resultados sobre este punto.

Limitaciones

La Simulación de despliegue es un complemento, no un sustituto, de las evaluaciones adversariales, el red-teaming y el análisis específico de riesgos de cola. La detección de algunos comportamientos no deseados del modelo depende de la monitorización de la cadena de pensamiento: si los modelos futuros razonan de forma menos legible, omiten pasos clave o aprenden a ocultar la intención, quizá no podamos detectar estas formas de comportamiento no deseable. Además, como los datos de producción son privados, los desarrolladores tienen actualmente un acceso más sólido a contextos representativos que los auditores externos. Mejores conjuntos de datos públicos podrían reducir esa brecha.

La Simulación de despliegue es más útil para comportamientos que ocurren con suficiente frecuencia como para aparecer en los prefijos muestreados. Es improbable que un fallo que ocurre una vez en diez millones de conversaciones se descubra en una ejecución con una muestra de un millón, por lo que las evaluaciones adversariales, el red-teaming y el análisis específico de riesgos de cola siguen siendo necesarios. Actualmente nos centramos en simular una sola respuesta del asistente, ya que en experimentos preliminares no encontramos mejoras significativas en nuestras estimaciones al simular múltiples turnos. Esta puede ser un área importante para mejorar la fidelidad de la simulación en el futuro.

El método también depende de la distribución de prefijos: la mezcla de conversaciones que se remuestrean. El tráfico histórico puede no coincidir con la forma en que los usuarios interactúan con un modelo más capaz tras un cambio importante de producto, el lanzamiento de una nueva herramienta, un acontecimiento mundial o un cambio estacional. El análisis del artículo completo sugiere que este problema puede mitigarse usando los datos más recientes disponibles.

Conclusión

La simulación de despliegue es un nuevo enfoque para la evaluación de riesgos previa al despliegue que ayuda a los laboratorios de frontera y a los evaluadores a predecir cómo pueden comportarse los modelos de lenguaje en el mundo real y a entender los riesgos que plantean antes del despliegue. Complementa las evaluaciones de seguridad existentes, el red-teaming y el análisis específico añadiendo una capa de predicción más parecida a producción que puede mejorar las estimaciones del comportamiento en el despliegue, reducir los efectos de conciencia de evaluación y hacer que las predicciones previas al despliegue sean comprobables tras el lanzamiento. Usada junto con las evaluaciones tradicionales, la Simulación de despliegue puede ayudar a que la evaluación de riesgos de los modelos sea más realista, más cuantitativa y más útil para las decisiones de despliegue.

Autor

OpenAI