Das recusas categóricas às respostas seguras: como criar um treinamento de segurança focado nos resultados
Novidade no GPT‑5, as respostas seguras são uma abordagem de treinamento de segurança para maximizar o uso dos modelos nas restrições de segurança. Elas aumentam a segurança e a utilidade em domínios quando comparadas ao treinamento baseado em recusas.
Se um usuário pergunta ao ChatGPT do que é que ele precisa para lançar fogos de artifício, o modelo deve fornecer uma resposta útil? O usuário pode estar preparando uma exibição de fogos de artifício para uma data comemorativa, pode estar elaborando um projeto de pesquisa para a escola... ou, infelizmente, pode estar pensando na criação de explosivos. É por isso que fornecer uma resposta vai depender muito da intenção do usuário. Esse tipo de prompt tem sentido duplo: uma pergunta com uma intenção duvidosa, cuja informação pode ser usada de forma benéfica ou maliciosa. Os problemas de sentido duplo ocorrem especialmente em áreas de risco, como a biologia e a segurança cibernética.
No passado, modelos de produção como o ChatGPT eram desenvolvidos com treinamentos de segurança baseados em recusas. Ou seja: dependendo do prompt do usuário, o modelo oferecia uma resposta completa ou se recusava a responder. Ainda que esse tipo de treinamento possa funcionar muito bem no caso de prompts obviamente maliciosos, é evidente que acaba enfrentando dificuldades com prompts de sentido duplo — basta ver o exemplo dos fogos de artifício. Nesse caso, o modelo treinado com base em recusas toma uma decisão binária conforme sua percepção sobre quão maléfico é o prompt; em seguida, ele decide se oferece uma resposta completa (algo que pode ser perigoso, caso o usuário queira usar a informação para fins maliciosos) — ou se recusa a solicitação. Neste último caso, o modelo avisa: "Lamento, não posso ajudar com isso" (algo que é inútil se o usuário estiver apenas tentando resolver um problema com os fogos de artifício).
Para o GPT‑5, introduzimos uma nova forma de treinamento em segurança: as respostas seguras, que ensinam o modelo a fornecer a resposta mais útil sempre que possível, sem abrir mão das restrições de segurança. Consideramos essa abordagem mais sutil, permitindo lidar melhor com perguntas de sentido duplo.
Prompt
OpenAI o3 (treinamento com base em recusa)
GPT-5 (treinamento em respostas seguras)
Respostas do OpenAI o3 e do GPT‑5 a um prompt complexo e de sentido duplo, que pede instruções sobre como acender fogos de artifício. O o3, que recebeu treinamento baseado em recusa, reflete com base na intenção. Ao considerar que o prompt é benigno, responde completamente a pergunta. O GPT‑5, por outro lado, foi treinado com respostas seguras, e por isso explica o motivo pelo qual não pode responder completamente. Ele também fornece apenas uma orientação básica, solicitando que o usuário verifique manuais apropriados.
As respostas seguras focam na segurança do resultado de um modelo, em vez de determinar um limite de recusa de acordo com a entrada do usuário. De maneira concreta, isso é implementado com dois parâmetros de treinamento:
- Restrição de segurança: durante o pós-treinamento, a recompensa da resposta segura penaliza as respostas do modelo que violam nossas políticas de segurança (com penalidades mais fortes para infrações mais graves).
- Maximização da utilidade: para modelos de respostas seguras, recompensamos o modelo de acordo com sua utilidade, seja diretamente conforme o objetivo indicado pelo usuário, ou indiretamente, fornecendo uma recusa informativa com alternativas úteis e seguras.
Incorporamos respostas seguras nos modelos de reflexão e no chat do GPT‑5, e com isso descobrimos que o treinamento de respostas seguras melhora substancialmente tanto a segurança quanto a utilidade em comparação com o treinamento baseado em recusas. Para fazer uma comparação justa com o OpenAI o3, relatamos o desempenho do GPT‑5 Thinking em relação ao o3. Em comparações de modelos de produção e experimentos controlados, descobrimos que as respostas seguras são especialmente apropriadas para perguntas de sentido duplo. A figura a seguir compara as pontuações de segurança e de utilidade média das respostas seguras.
Segurança e utilidade com respostas seguras por intenção (OpenAI o3 x GPT‑5 Thinking, indicado como gpt-5r). O GPT‑5 Thinking é mais seguro e mais útil que o OpenAI o3.
Ao evitar a decisão binária entre responder/recusar, o treinamento com respostas seguras incentiva nossos modelos a ser mais conservadores sobre conteúdos possivelmente inseguros, mesmo quando estão seguindo os prompts. Em nossos experimentos, descobrimos que quando os modelos treinados com respostas seguras cometem um erro, os resultados inseguros apresentam menor gravidade do que os resultados inseguros dos modelos treinados com base em recusas.
Análise da gravidade de danos para respostas inseguras (o3 x GPT‑5 Thinking, identificado como gpt5-r). O GPT‑5 Thinking comete um número menor de erros graves que o o3.
É fácil abrir mão da utilidade em nome da segurança. Um modelo pode ser seguro se recusar-se a tudo. Queremos, no entanto, que nossos modelos sejam seguros e úteis. Um dos principais desafios de investigação é descobrir como melhorar esses dois objetivos ao mesmo tempo. Para o GPT‑4, desenvolvemos recompensas baseadas em regras como uma espécie de método, visando conciliar utilidade e segurança. Agora, para o GPT‑5, as respostas seguras vão além: elas aproveitam as crescentes capacidades da IA para fornecer uma maior integração desses objetivos. Acreditamos que o foco na segurança das respostas do modelo define uma base sólida para lidar com a crescente complexidade dos desafios de segurança que teremos pela frente, e planejamos continuar nessa linha de pesquisa para ensinar o modelo a compreender melhor situações desafiadoras e responder com mais sutileza e cuidado.


