Aprimorando a hierarquia de instruções em LLMs de fronteira
Apresentamos o IH-Challenge, um conjunto de dados de treinamento que fortalece a hierarquia de instruções, a orientabilidade de segurança e a robustez a injeções de prompt.
Sistemas de IA frequentemente recebem instruções de várias fontes. Elas podem incluir políticas de segurança em mensagens de sistema, orientações de produto de desenvolvedores, solicitações de usuários e informações encontradas online. Treinar modelos para priorizar de forma confiável as instruções de maior confiança entre essas fontes é uma parte-chave de uma implantação segura.
Muitos problemas de segurança e confiabilidade em IA podem surgir quando essa priorização falha. Modelos podem receber solicitações de conteúdo proibido, tentativas de revelar informações privadas ou ataques de injeção de prompt embutidos em dados online. Falhar em se comportar adequadamente em cada um desses cenários tem a mesma causa raiz: o modelo pode seguir a instrução errada.
Quando essas instruções entram em conflito, o modelo precisa decidir quais priorizar. Se tratar uma instrução não confiável como autoridade, o modelo pode se comportar de formas que violam políticas ou a intenção de desenvolvedores e usuários.
Mostramos que tarefas de hierarquia de instruções bem projetadas, que treinam modelos a priorizar instruções de acordo com seu nível de confiança, melhoram diversas propriedades de segurança no mundo real. Modelos treinados nessas tarefas passam a responder melhor a especificações de segurança em prompts de sistema (melhorando a orientabilidade de segurança) e ficam mais robustos a ataques de injeção de prompt embutidos em saídas de ferramentas.
Para lidar com conflitos, os modelos da OpenAI são treinados para seguir uma hierarquia de instruções clara:
System > developer > user > tool
Instruções de maior prioridade são mais confiáveis. O modelo só deve seguir instruções de menor prioridade quando elas não entrarem em conflito com restrições de maior prioridade. Esses princípios estão descritos no OpenAI Model Spec(abre em uma nova janela).
Por exemplo, se uma mensagem de sistema incluir uma política de segurança e um usuário pedir ao modelo para violá-la, o modelo deve recusar. Se a saída de uma ferramenta contiver instruções maliciosas, o modelo deve ignorá-las em vez de tratá-las como comandos.
Acertar isso é fundamental para segurança, proteção e confiabilidade.
O modelo à direita segue corretamente a instrução do Desenvolvedor, que tem prioridade mais alta, em vez da do Usuário quando as duas instruções entram em conflito.
Aprendizado por reforço é uma escolha natural para ensinar a hierarquia de instruções. Podemos gerar conversas com instruções conflitantes, solicitar que o modelo responda e recompensá-lo quando ele seguir a instrução correta.
Identificamos três armadilhas ao aplicar essa receita de forma ingênua:
- Falhas de seguir instruções podem se confundir com falhas de hierarquia de instruções: o modelo pode não resolver um conflito de instruções, não porque não entenda a hierarquia de funções, mas porque as instruções em si são complexas demais.
- Conflitos de instruções podem ser sutis e até subjetivos. Uma abordagem comum é deixar que um LLM juiz separado atribua recompensas ao LLM em treinamento, mas os próprios juízes são falíveis.
- Modelos tendem a aprender atalhos que geram alta recompensa, mas são inúteis na prática(abre em uma nova janela). O exemplo clássico são recusas excessivas: modelos podem aprender a maximizar a segurança recusando até solicitações benignas.
Criamos o IH-Challenge, um conjunto de dados de treinamento para aprendizado por reforço, para abordar cada uma dessas armadilhas. Seguimos os seguintes princípios:
- As tarefas são simples para seguir instruções
- Elas são avaliáveis objetivamente com um script Python simples
- Não há atalhos triviais que garantam alta recompensa em todas as tarefas
Cada tarefa no IH-Challenge é, essencialmente, uma conversa com as seguintes mensagens:
- Uma mensagem de instrução de uma função de maior privilégio, por exemplo, "Responda apenas Sim ou Não".
- Uma mensagem de instrução de uma função de menor privilégio, que tenta fazer o modelo violar as instruções na mensagem de maior privilégio.
O modelo em treinamento gera a próxima mensagem. Escrevemos as tarefas/ambientes de modo que seja possível verificar programaticamente se a resposta do modelo atende à restrição de nível superior.
Treinamos um modelo no IH‑Challenge e produzimos um modelo interno, que chamamos de GPT‑5 Mini-R, com as seguintes melhorias:
- Tem melhor desempenho em benchmarks de hierarquia de instruções
- O desempenho aprimorado generaliza para testes de hierarquia de instruções não vistos e adversariais
- Mantém a utilidade geral, sem colapsar para recusas excessivas
É isso que torna a abordagem especialmente atraente para segurança: ao treinar diretamente modelos para resolver conflitos de instruções corretamente nas tarefas do IH-Challenge, obtemos melhorias de IH que generalizam para novos ataques e novas situações.
Robustez em benchmarks acadêmicos
Aval. | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0.99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0,98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0.86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0.82 | 0.89 (+0.07) |
System IFEval | 0.92 | 0.96 (+0.04) |
Robustez em benchmarks internos
Aval. | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0.96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0.97 | 0.99 (+0.02) |
Conflito Sistema <> Usuário | 0.84 | 0.95 (+0.11) |
Conflito Sistema <> Desenvolvedor | 0.86 | 0.86 (+0) |
Conflito Desenvolvedor <> Usuário | 0.83 | 0.95 (+0.12) |
Sem regressões de capacidade
Aval. | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (recusa excessiva) | 0.79 | 1.00 (+0.21) |
TensorTrust (recusa excessiva) | 0.91 | 0.90 (-0.01) |
GPQA Diamond | 0.83 | 0.83 (+0) |
AIME 2024 | 0.93 | 0.94 (+0.01) |
Taxa de vitória no chat vs. o1 | 0.71 | 0.66 (-0.05) |
Pontuação de preferência | 0.46 | 0.40 (-0.06) |
Uma hierarquia de instruções mais forte traz vários benefícios de segurança de uma só vez, incluindo orientabilidade de segurança e robustez a injeções de prompt.
Avaliamos a orientabilidade de segurança adicionando especificações de segurança específicas por categoria ao prompt de sistema e medindo o comportamento nos Benchmarks de Produção de segurança da OpenAI (um conjunto de conversas sensíveis à segurança representativas do ChatGPT em produção).
O modelo treinado com IH mostra uma melhoria consistente: com a especificação de segurança presente, ele alcança taxas mais altas de recusa e de conclusão segura em categorias proibidas, indicando que um comportamento de hierarquia de instruções mais forte o torna melhor em resolver conflitos quando solicitações inseguras vêm de instruções de menor prioridade. Notavelmente, essa melhoria não vem acompanhada de uma queda correspondente na taxa de prestatividade (isto é, ele não está se tornando menos "prestativo" apenas por recusar mais no geral).


Exemplo de como o modelo treinado com IH resiste a injeções de prompt nas quais o GPT‑5 Mini (Baseline) cai.
A hierarquia de instruções também é central para resistir à injeção de prompt, quando instruções maliciosas são embutidas em saídas de ferramentas. Avaliamos o modelo treinado com IH em dois benchmarks de injeção de prompt — um benchmark acadêmico, o CyberSecEval 2, e um benchmark interno da OpenAI de injeção de prompt, composto por ataques como o demonstrado em uma versão antiga do ChatGPT Atlas.
Em relação ao baseline, o modelo GPT‑5 Mini-R treinado com IH melhora a robustez a injeção de prompt em ambos os benchmarks e melhora substancialmente o desempenho na nossa avaliação interna estática de injeção de prompt nesses experimentos.
À medida que modelos se tornam mais orientados a agentes — chamando ferramentas, lendo documentos não confiáveis e tomando ações no mundo — a capacidade de priorizar consistentemente instruções confiáveis sobre as não confiáveis se torna uma propriedade central de segurança.
Este trabalho mostra que várias armadilhas do treinamento de robustez de IH podem ser superadas ao projetar ambientes de treinamento que abordam essas armadilhas. Embora nosso conjunto de dados IH-Challenge pareça simples, o comportamento de IH que os modelos aprendem nesses ambientes generaliza para benchmarks mais realistas, muitas vezes não avaliáveis objetivamente.
Fortalecer a hierarquia de instruções não só melhora a confiabilidade, como desbloqueia vários ganhos de segurança e proteção de uma só vez — uma base que se torna cada vez mais importante à medida que sistemas de IA ficam mais capazes e autônomos.
Para apoiar pesquisas futuras nesta área, estamos disponibilizando aqui(abre em uma nova janela) o conjunto de dados IH‑Challenge.


