16 de junho de 2026

Prevendo o comportamento de modelos antes do lançamento ao simular a implantação

Usando contextos de conversa realistas para estimar melhor comportamentos indesejados de modelos antes do lançamento.

Introdução

Antes de lançar um novo modelo, os laboratórios precisam entender não apenas o que ele consegue fazer, mas como provavelmente se comportará no uso real, inclusive onde poderá introduzir novos riscos. Isso se torna ainda mais importante à medida que as capacidades aumentam. Como parte da nossa revisão de segurança pré-implantação, utilizamos avaliações direcionadas, red teaming e outras verificações para entender o comportamento do modelo. Agora começamos a usar um método para simular implantações de modelos antes que elas aconteçam, acrescentando um sinal complementar: uma prévia semelhante à implantação de como um modelo candidato pode se comportar antes de chegar aos usuários.

A Simulação de Implantação é um método para simular uma implantação futura antes que ela aconteça. Fazemos isso reproduzindo conversas anteriores de forma a preservar a privacidade com um novo modelo candidato. Isso nos permite estudar como o novo modelo responde em contextos realistas antes do lançamento, incluindo se surgem novos comportamentos indesejados e com que frequência eles podem aparecer.

Em várias implantações Thinking da série GPT‑5, a Simulação de Implantação melhorou nossas estimativas das taxas de comportamentos indesejados de modelos, ajudou a revelar novas formas de desalinhamento antes do lançamento e ajudou a reduzir o risco de que os modelos conseguissem perceber que estavam sendo testados. Também aplicamos o método a lançamentos agênticos desafiadores, mostrando que ele pode se estender além do chat padrão para cenários de agentes mais complexos que envolvem uso de ferramentas, e também pode ser usado para avaliação de risco antes de implantações internas de modelos.

Já usamos insights da Simulação de Implantação durante o desenvolvimento de modelos para identificar pontos cegos em avaliações tradicionais e orientar mitigações e decisões de implantação. À medida que tornamos o pipeline mais fácil de executar, esperamos que ele desempenhe um papel maior no futuro processo de desenvolvimento de modelos.

Como a Simulação de Implantação funciona

Avaliações pré-implantação usadas no setor geralmente consistem em uma mistura de prompts sintéticos, escritos manualmente ou de produção, selecionados intencionalmente por serem difíceis, de alta severidade ou adversariais. Essas avaliações geralmente tiveram dois objetivos interligados: avaliar como o modelo responde quando submetido a testes de estresse em situações com chance muito pequena de ocorrer no tráfego de implantação, e obter uma compreensão geral de comportamentos indesejados do modelo, incluindo encontrar novos comportamentos indesejados e prever suas frequências em tempo de implantação.

Embora as avaliações tradicionais continuem sendo cruciais para o primeiro objetivo, a Simulação de Implantação representa um avanço significativo em relação ao segundo objetivo para riscos que não são de cauda (em nossos experimentos, não se pode esperar que nossa abordagem meça comportamentos que ocorrem com frequência inferior a 1 em 200.000 mensagens). A força da Simulação de Implantação vem de contornar alguns desafios centrais das avaliações tradicionais:

Cobertura: é difícil ter confiança de que os prompts de avaliação cobrirão todos os tipos possíveis de comportamento indesejado do modelo. Medir novos tipos de comportamento indesejado exige criar novas avaliações e saber quais danos medir. Isso pode consumir muito tempo e trabalho, e as avaliações podem saturar ao longo do tempo.
Vieses de seleção: avaliações tradicionais geralmente são construídas com comportamentos indesejados específicos do modelo em mente, selecionados de maneiras que enviesam para contextos que já ocorreram anteriormente. Isso pode tornar suas estimativas menos informativas sobre a incidência desses comportamentos em toda a amplitude da distribuição de implantação.
Ser reconhecível como testes pelos modelos: modelos têm sido cada vez mais capazes de determinar que estão sendo testados, o que pode distorcer seu comportamento e nossas medições posteriores de sua segurança. Embora muitas das avaliações tradicionais que usamos na OpenAI também sejam extraídas do tráfego de produção e não sofram desse problema, essa é uma preocupação comum em muitas avaliações tradicionais usadas em todo o setor.

A principal técnica por trás da Simulação de Implantação é simples: pegamos conversas recentes da implantação, removemos a resposta original do assistente do modelo mais antigo e a regeneramos com um modelo candidato a ser lançado. Avaliamos as respostas geradas procurando novos modos de falha e estimamos a frequência de comportamento indesejado em tempo de implantação com base na frequência nessa distribuição semelhante à implantação. Podemos realizar as mesmas medições após o lançamento no tráfego real de implantação, o que nos permite validar nossas previsões pré-implantação.

A Simulação de Implantação mitiga significativamente as três limitações listadas acima: o viés de amostragem é tratado usando uma distribuição de prompts de avaliação representativa do uso recente. A Simulação de Implantação com prompts representativos também pode mitigar preocupações sobre cobertura: obtemos maior cobertura de comportamentos indesejáveis do modelo simplesmente simulando mais tráfego. Essa troca entre computação e cobertura é importante, porque faz a qualidade desse eixo de avaliação de risco escalar com a computação, em vez do esforço manual necessário para criar mais avaliações. Os modelos também não parecem conseguir distinguir entre conversas obtidas via simulação de implantação e tráfego real de implantação.

Diagrama mostrando o pipeline de Reamostragem de Produção, desde conversas de produção até reamostragem com preservação de privacidade, geração de respostas pelo modelo, avaliação e estimativas em tempo de implantação. — *Figura 1: Visão geral do nosso pipeline de Simulação de Implantação*

Área	Avaliações tradicionais	Simulação de Implantação
Cobertura	Melhor para riscos de baixa prevalência, mas alta severidade, para os quais queremos garantir cobertura	Melhor para entender o espectro de riscos que provavelmente veremos no tráfego de implantação
Representatividade / viés	Focada em avaliar riscos passados ou previstos direcionados, mesmo para comportamentos com prevalência extremamente baixa na implantação	Representativa de riscos que ocorrem acima de certa prevalência no tráfego de implantação atual
Consciência de avaliação	Sinais de teste potencialmente óbvios (p. ex., com dados sintéticos), a menos que as avaliações sejam criadas com dados de implantação	Contexto semelhante à implantação parece mitigar significativamente a consciência de avaliação
Esforço	Distribuições e configurações de prompts personalizadas exigem esforço manual significativamente maior	Exige um custo único de infraestrutura e depois reutiliza prefixos da implantação e avaliadores de comportamentos indesejados conhecidos

Comparação de alto nível entre avaliações tradicionais e Simulação de Implantação

Como testamos a Simulação de Implantação

Para avaliar a Simulação de Implantação, pré-registramos previsões para a frequência em tempo de implantação de 20 tipos de comportamento indesejável para o GPT‑5.4 Thinking. Também conduzimos estudos retrospectivos em outras implantações de modelos Thinking da série GPT‑5. Os comportamentos de modelo que analisamos abrangem tanto desalinhamento quanto categorias de conteúdo não permitido que temos relatado em system cards (por exemplo, o modelo mentir sobre ferramentas ou gerar conteúdo sexual não permitido). Embora, para esses resultados, acompanhemos apenas 20 categorias de comportamento indesejado do modelo e procuremos apenas comportamentos desalinhados inéditos, a Simulação de Implantação é uma técnica geral que poderia ser aplicada para simular qualquer propriedade de um modelo em tempo de implantação.

O tráfego de produção que utilizamos também veio de modelos Thinking da série GPT‑5. Antes de executar nossas avaliações, removemos automaticamente identificadores vinculados a contas e informações identificáveis. De acordo com nossa política de privacidade, analisamos apenas o tráfego do ChatGPT de usuários que permitem que seus dados sejam usados para melhorias de modelos. Relatamos apenas achados agregados dessas avaliações. No total, analisamos aproximadamente 1,3 milhão de conversas desidentificadas em implantações do GPT‑5 Thinking ao GPT‑5.4, abrangendo o período de agosto de 2025 a março de 2026.

Avaliamos a qualidade da avaliação de risco pré-implantação produzida pela Simulação de Implantação de três maneiras principais:

Cobertura da taxonomia: a auditoria pós-lançamento revelou comportamentos desalinhados importantes ausentes da nossa taxonomia inicial de maus comportamentos?
Precisão direcional: a simulação previu corretamente se a prevalência na implantação aumentaria ou diminuiria para comportamentos conhecidos?
Calibração de taxas: nossas estimativas pré-implantação estavam próximas das taxas que observamos posteriormente na implantação? Alcançar boa calibração de taxas exige mais do que precisão direcional, tornando este o padrão de qualidade mais alto possível.

Também medimos quanto os modelos conseguem perceber que estão em uma avaliação durante a Simulação de Implantação e testamos a robustez do método a diferentes formas de tráfego de implantação e a cenários desafiadores de uso de ferramentas.

A Simulação de Implantação expande significativamente a avaliação de risco pré-implantação

Em implantações Thinking da série GPT‑5, a Simulação de Implantação superou linhas de base com prompts desafiadores na determinação da taxa real de risco, conseguiu revelar hacking de calculadora antes do lançamento e pareceu potencialmente indistinguível da implantação para o modelo.

Visão geral das nossas previsões. Para uma visualização de todas as previsões para implantações de modelos Thinking da série GPT‑5, veja a Figura 2. As previsões para o GPT‑5.4 Thinking foram pré-registradas, enquanto as demais foram previsões retroativas. No agregado, nossas previsões tiveram um erro multiplicativo mediano de 1,5x (por exemplo, se a taxa de comportamento indesejável é 10 em 100 mil, isso corresponderia a estimar uma taxa de 15 ou 6,67 em 100 mil). Embora os erros de cauda do nosso método possam ser aproximadamente 10x maiores, esperamos que possam ser significativamente reduzidos com melhorias adicionais no nosso pipeline de simulação, conforme discutido abaixo.

Gráfico mostrando previsões de taxas exatas da Simulação de Implantação para comportamentos indesejáveis em tempo de implantação com base em dados de implantação anteriores. — Figura 2. Previsões de frequência da Simulação de Implantação para comportamentos indesejáveis em tempo de implantação com base em dados de implantação anteriores. A notação 5.1 → 5 indica que estamos reamostrando prefixos do GPT‑5 com o GPT‑5.1, isto é, simulando a implantação do GPT‑5.1 com base em dados do GPT‑5. A maior taxa de comportamento desalinhado foi “hacking de calculadora” no GPT‑5.1, que já discutimos *anteriormente*⁠(abre em uma nova janela).

Comparando previsões da Simulação de Implantação com linhas de base. As categorias mais importantes para estimar corretamente em avaliações de risco pré-implantação são aquelas que têm grandes mudanças de incidência após a implantação do modelo (p. ex., >= 1,5x). Nesse subconjunto, a Simulação de Implantação é substancialmente melhor do que as linhas de base tanto para prever se um determinado comportamento indesejável aumentará ou diminuirá em prevalência com a implantação de um modelo (Figura 3, esquerda), quanto para estimar sua incidência exata em tempo de implantação (Figura 3, direita). Usamos duas linhas de base principais: uma linha de base de Prompts Desafiadores, que usamos atualmente para system cards e decisões de lançamento, e uma linha de base ingênua que usa taxas da implantação anterior como estimativas para o novo modelo.

Figura 3. A Simulação de Implantação prevê tanto a direção das mudanças de incidência (à esquerda) quanto as taxas exatas de produção (à direita) melhor do que avaliações estáticas.

Fontes de erro de simulação em nosso pipeline. Também estudamos as fontes atuais de erro em nosso pipeline. Especificamente, grandes erros de cauda tornam o pipeline menos confiável para decisões de implantação: por exemplo, ao ver um grande aumento previsto em um comportamento indesejável de certo tipo, se se sabe que o pipeline tem até mesmo grandes erros ocasionais, surge a dúvida sobre se essa é uma estimativa confiável ou um artefato do pipeline. Há duas fontes principais de possível erro:

Erro de fidelidade do ambiente de reamostragem: para estimar taxas de produção com precisão, nosso pipeline de simulação precisa ser o mais realista possível. Isso é em parte um problema de engenharia (amostrar do modelo usando os mesmos pipelines usados para o tráfego de produção) e em parte um desafio interessante para ferramentas que precisam de acesso de leitura/gravação a recursos externos que estão mudando constantemente (por exemplo, buscas na web ou interação com arquivos locais). Podemos isolar o erro de fidelidade da simulação comparando previsões de uma implantação real e sua simulação (isto é, simulando a implantação do modelo já implantado).
Erro de deslocamento da distribuição de prompts: uma grande preocupação com a Simulação de Implantação é que a implantação de qualquer modelo causará um deslocamento distribucional nas entradas, especialmente se os usuários se adaptarem a novas funcionalidades do modelo. Isolamos o erro de distribuição de prompts comparando estimativas ao simular a implantação usando prompts recentes versus prompts da implantação realizada.

Como visto na Figura 4, descobrimos que uma grande fração do erro em nosso pipeline — especialmente para erros de cauda — atualmente se deve à fidelidade da simulação. Essa é uma boa notícia, pois esperamos que a fidelidade da simulação seja, em geral, mais fácil de melhorar do que reduzir o deslocamento da distribuição de prompts. Também descobrimos que o erro de deslocamento da distribuição de prompts pode ser reduzido usando os dados mais recentes da implantação anterior. Mais detalhes podem ser encontrados no artigo de pesquisa.

Figura 4: A fidelidade do ambiente de reamostragem parece ser a maior fonte de erro em nossas estimativas, especialmente para os erros mais extremos.

A auditoria automatizada encontrou o único novo desalinhamento introduzido nessas implantações. Na janela de implantação que estudamos, nosso pipeline de auditoria automatizada baseado em implantações simuladas teria revelado “hacking de calculadora” antes do lançamento, que foi o único desalinhamento inédito que identificamos no tráfego analisado do ChatGPT. Hacking de calculadora é uma forma de reward hacking que envolve o modelo usar uma ferramenta de navegador como calculadora enquanto apresenta a ação como uma busca. Isso não significa que auditorias em larga escala detectarão toda nova falha, mas mostra por que contextos realistas importam: eles podem provocar comportamentos que conjuntos de avaliações mais restritos talvez nunca revelem diretamente, mesmo que não estivessem presentes no tráfego original usado para semear a simulação.

Redução da consciência de avaliação

Outra vantagem de usar contextos semelhantes à implantação é que eles podem reduzir distorções que surgem quando os modelos reconhecem que estão sendo testados. Em pesquisas anteriores, nós, assim como outros⁠(abre em uma nova janela), descobrimos que os modelos muitas vezes têm consciência de quando estão sendo testados. Por exemplo, modelos podem raciocinar em sua cadeia de pensamento sobre o que está sendo testado, o que um avaliador poderia gostar e — se estiverem se comportando mal — se serão pegos. Isso representa um problema para avaliações de alinhamento: se um modelo só se comporta bem porque acha que está sendo testado, como construímos confiança de que ele se comportará com segurança quando souber que foi implantado?

Mostramos que a Simulação de Implantação reduz substancialmente os níveis de consciência de avaliação exibidos pelos modelos em relação a avaliações tradicionais que não se baseiam em dados reais de implantação. Medimos a consciência de avaliação de três maneiras: pedindo a um modelo que classifique se uma trajetória veio da produção ou de uma avaliação, monitorando a cadeia de pensamento em busca de declarações explícitas sobre estar sendo avaliado quanto ao alinhamento, bem como de metagaming⁠(abre em uma nova janela): qualquer raciocínio sobre supervisão. O tráfego de implantação simulado correspondeu de perto ao tráfego real de implantação nas três medidas. Por exemplo, o GPT‑5.2 rotulou o tráfego real de produção como semelhante a avaliação em 5,4% das vezes e o tráfego simulado em 5,1% das vezes, enquanto avaliações tradicionais (como SWE-Bench ou MonorepoBench, compostas principalmente por exemplos sintéticos) foram classificadas como avaliações quase 100% das vezes.

Figura 5. Comparação de consciência de avaliação: tráfego real de produção e tráfego simulado mostram taxas semelhantes para detecção de avaliação, consciência verbalizada de avaliação de alinhamento e metagaming, enquanto conjuntos de dados de avaliações tradicionais relatam taxas muito mais altas.

Simulação de ferramentas para trajetórias agênticas

Para testar se o método poderia se estender além dos modos de chat padrão, também estudamos a simulação de implantações para cenários desafiadores de programação agêntica. Especificamente, usamos 120.000 trajetórias agênticas internas de funcionários do GPT‑5.4 para simular a implantação interna de agentes de programação baseados no GPT‑5.5. Isso serve a dois propósitos: mostra como a simulação de implantação também pode ser usada para avaliação de risco em implantações internas e demonstra que é possível tornar a fidelidade da simulação alta mesmo em cenários agênticos por meio de simulação cuidadosa de ferramentas.

Acima, discutimos que a fidelidade da simulação é uma das principais fontes de erro em nosso pipeline atual. Um dos desafios de tornar as simulações de implantação realistas é que isso exige que as ferramentas ajam de maneiras realistas, mesmo quando precisam de acesso de leitura/gravação a recursos externos que estão mudando constantemente (por exemplo, buscas na web ou interação com arquivos locais).

Isso é especialmente desafiador para cenários como implantações agênticas: uma única trajetória de agente pode depender de centenas de chamadas de ferramentas, estado do repositório, respostas de rede ou falhas transitórias. Isso torna a reamostragem com acesso real a ferramentas desafiadora e potencialmente perigosa. Diante disso, em vez de aplicar chamadas de ferramentas a sistemas ativos, nós as simulamos com outro LLM. Mostramos que dar recursos extras a esse LLM é essencial para o realismo e, portanto, para a qualidade da estimativa.

Fornecemos ao modelo simulador de ferramentas o rollout original do turno final, o repositório do momento da conversa, um banco de dados de pares chamada de ferramenta/resposta e conectores somente leitura. Em um teste no qual um discriminador tentou diferenciar rollouts simulados de reais, o realismo melhorou de uma taxa de vitória de 11,6% para 49,5%, perto do nível de chance de 50%.

Figura 6: É possível tornar o realismo da reamostragem quase indistinguível da amostragem real, mesmo em cenários com uso intensivo de ferramentas, ao simular chamadas de ferramentas com recursos ampliados.

Como evidência adicional da fidelidade da simulação, ao simular o tráfego thinking do GPT‑5.4 Codex com o GPT‑5.4, as taxas de desalinhamento ficam, praticamente, dentro das barras de erro. Em contraste, em nossos testes pré-implantação, o GPT‑5.5 foi mais desalinhado na maioria das categorias.

Figura 7: Com simulação de ferramentas, as taxas de comportamento para conversas reamostradas com GPT‑5.4 e o tráfego real de produção do GPT‑5.4 são bastante semelhantes — indicando alta fidelidade do ambiente de reamostragem. Veja o system card do GPT‑5.5⁠(abre em uma nova janela) para mais contexto sobre as categorias.

Esses resultados sugerem que a Simulação de Implantação pode se estender a cenários complexos de agentes quando o ambiente de ferramentas ao redor é simulado com fidelidade suficiente.

WildChat e auditoria externa

Uma pergunta natural é se auditores externos podem obter alguns dos mesmos benefícios sem acesso ao tráfego privado de produção. Testamos isso com 100.000 conversas do WildChat usadas como prefixos. O WildChat foi menos preciso do que dados recentes de produção da OpenAI, mas ainda informativo: dados recentes de produção tiveram erro multiplicativo médio menor do que o WildChat (1,75× vs. 2,44×), enquanto o WildChat frequentemente permaneceu dentro de cerca de 3× das taxas de produção e identificou o melhor modelo em taxas acima do acaso. Vemos avaliações no estilo WildChat como um complemento promissor à Simulação de Implantação executada por desenvolvedores. Veja este post complementar do blog Alignment⁠(abre em uma nova janela) para mais resultados sobre esse ponto.

Limitações

A Simulação de Implantação é um complemento, não um substituto, para avaliações adversariais, red teaming e análise direcionada de riscos de cauda. A detecção de alguns comportamentos indesejados do modelo depende da monitorabilidade da cadeia de pensamento: se modelos futuros raciocinarem de forma menos legível, omitirem etapas-chave ou aprenderem a obscurecer a intenção, talvez não consigamos detectar essas formas de comportamento indesejável. Além disso, como os dados de produção são privados, atualmente os desenvolvedores têm acesso mais forte a contextos representativos do que auditores externos. Conjuntos de dados públicos melhores poderiam reduzir essa lacuna.

A Simulação de Implantação é mais útil para comportamentos que ocorrem com frequência suficiente para aparecer em prefixos amostrados. Uma falha que ocorre uma vez em dez milhões de conversas provavelmente não será descoberta em uma execução com um milhão de amostras; portanto, avaliações adversariais, red teaming e análise direcionada de riscos de cauda continuam necessárias. Atualmente nos concentramos em simular uma única resposta do assistente, pois em experimentos preliminares não encontramos melhorias significativas em nossas estimativas ao simular múltiplos turnos. Essa pode ser uma área importante para melhorar a fidelidade da simulação no futuro.

O método também depende da distribuição de prefixos — a mistura de conversas que estão sendo reamostradas. O tráfego histórico pode não corresponder à forma como os usuários interagem com um modelo mais capaz após uma grande mudança de produto, o lançamento de uma nova ferramenta, um evento mundial ou uma mudança sazonal. A análise no artigo completo sugere que esse problema pode ser mitigado usando os dados mais recentes disponíveis.

Conclusão

A simulação de implantação é uma nova abordagem para avaliação de risco pré-implantação que ajuda laboratórios de fronteira e avaliadores a prever como modelos de linguagem podem se comportar no mundo real e entender os riscos que representam antes da implantação. Ela complementa avaliações de segurança existentes, red teaming e análises direcionadas ao adicionar uma camada de previsão mais semelhante à produção, capaz de melhorar estimativas de comportamento na implantação, reduzir efeitos de consciência de avaliação e tornar previsões pré-implantação verificáveis após o lançamento. Usada junto com avaliações tradicionais, a Simulação de Implantação pode ajudar a tornar a avaliação de risco de modelos mais realista, mais quantitativa e mais útil para decisões de implantação.

2026

Autoria

OpenAI

Continuar lendo

Ver tudo

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Empresa29 de jul. de 2026

Scientific computing agentic AI card image (1x1)

Computação científica na era da IA agêntica

Publicação28 de jul. de 2026

Separando sinal de ruído em avaliações de programação

Pesquisa8 de jul. de 2026