Melhorar a hierarquia de instruções em LLMs de fronteira
Apresentamos o IH-Challenge, um conjunto de dados de treino que reforça a hierarquia de instruções, a controlabilidade de segurança e a robustez a injeções de prompt.
Os sistemas de IA recebem frequentemente instruções de várias fontes. Estas podem incluir políticas de segurança de mensagens do sistema, orientações de produto de programadores, pedidos de utilizadores e informação encontrada online. Treinar modelos para priorizarem, de forma fiável, as instruções mais fiáveis entre estas fontes é uma parte fundamental de uma implementação segura.
Muitos problemas de segurança e fiabilidade em IA podem surgir quando esta priorização falha. Os modelos podem receber pedidos de conteúdo proibido, tentativas de revelar informação privada ou ataques de injeção de prompt incorporados em dados online. Não se comportar adequadamente em cada um destes cenários tem a mesma causa raiz: o modelo pode seguir a instrução errada.
Quando estas instruções entram em conflito, o modelo tem de decidir quais priorizar. Se der autoridade a uma instrução não fiável, o modelo pode comportar-se de formas que violam políticas ou as intenções de programadores e utilizadores.Demonstramos que tarefas de hierarquia de instruções bem concebidas, que treinam modelos para priorizar instruções de acordo com o seu nível de confiança, melhoram várias propriedades de segurança no mundo real. Os modelos treinados com estas tarefas tornam-se mais responsivos a especificações de segurança em prompts de sistema (melhorando a controlabilidade de segurança) e mais robustos a ataques de injeção de prompt incorporados nas saídas das ferramentas.
Para lidar com conflitos, os modelos da OpenAI são treinados para seguir uma hierarquia de instruções clara:
Sistema > programador > utilizador > ferramenta
As instruções de maior prioridade são mais fiáveis. O modelo só deve seguir instruções de menor prioridade quando não entram em conflito com restrições de maior prioridade. Estes princípios estão descritos na Model Spec da OpenAI(abre numa nova janela).
Por exemplo, se uma mensagem do sistema incluir uma política de segurança e um utilizador pedir ao modelo que a viole, o modelo deve recusar. Se a saída de uma ferramenta contiver instruções maliciosas, o modelo deve ignorá-las, em vez de as tratar como comandos.
Acertar nisto é fundamental para a segurança, a proteção e a fiabilidade.
O modelo à direita segue corretamente a instrução do Programador, que tem prioridade mais elevada, em detrimento da do Utilizador quando as duas instruções entram em conflito.
A aprendizagem por reforço é uma escolha natural para ensinar a hierarquia de instruções. Podemos gerar conversas com instruções em conflito, pedir ao modelo que responda e recompensá-lo quando segue a instrução correta.
Identificámos três armadilhas ao aplicar essa receita de forma ingénua:
- Falhas no seguimento de instruções podem também ser falhas na hierarquia de instruções: o modelo pode não conseguir resolver um conflito de instruções, não porque não compreende a hierarquia de papéis, mas porque as próprias instruções são demasiado complexas.
- Os conflitos de instruções podem ter nuances e até ser subjetivos. Uma abordagem comum é deixar que um LLM juiz separado atribua recompensas ao LLM que está a ser treinado, mas os próprios juízes são falíveis.
- Os modelos tendem a aprender atalhos que resultam em recompensas elevadas, mas são inúteis na prática(abre numa nova janela). O exemplo clássico são as recusas excessivas: os modelos podem aprender a maximizar a segurança recusando até pedidos benignos.
Concebemos o IH-Challenge, um conjunto de dados de treino de aprendizagem por reforço, para abordar cada uma dessas armadilhas. Seguimos os seguintes princípios:
- As tarefas são simples quanto ao seguimento de instruções
- São avaliáveis de forma objetiva com um script Python simples
- Não existem atalhos triviais que garantam recompensas elevadas em todas as tarefas
Cada tarefa no IH-Challenge é, essencialmente, uma conversa com as seguintes mensagens:
- Uma mensagem de instrução de um papel com privilégios elevados, p. ex. «Responde apenas “Sim” ou “Não”.»
- Uma mensagem de instrução de um papel com menos privilégios, que tenta levar o modelo a violar as instruções da mensagem com privilégios elevados.
O modelo que está a ser treinado gera a mensagem seguinte. Escrevemos as tarefas/ambientes de modo a ser possível verificar programaticamente se a resposta do modelo cumpre a restrição de nível superior.
Treinamos um modelo no IH‑Challenge e produzimos um modelo interno, a que chamamos GPT‑5 Mini-R, com as seguintes melhorias:
- Tem melhor desempenho em benchmarks de hierarquia de instruções
- O desempenho melhorado generaliza para testes de hierarquia de instruções held‑out e adversariais
- Mantém a utilidade geral, sem colapsar em recusas excessivas
É isto que torna a abordagem especialmente apelativa do ponto de vista da segurança: ao treinar diretamente os modelos para resolver corretamente conflitos de instruções em tarefas do IH-Challenge, obtemos melhorias de IH que generalizam para novos ataques e novas situações.
Robustez em benchmarks académicos
Avaliação | GPT‑5‑Mini | GPT‑5 Mini-R |
Gandalf Password (sys-user) | 0,99 | 0.99 (+0) |
Gandalf Password (dev-user) | 0,98 | 1.00 (+0.02) |
TensorTrust (sys-user) | 0,86 | 0.94 (+0.08) |
TensorTrust (dev-user) | 0.76 | 0.91 (+0.15) |
RealGuardrails (Distractors) | 0.88 | 0.95 (+0.07) |
RealGuardrails (Handwritten) | 0,82 | 0.89 (+0.07) |
System IFEval | 0,92 | 0.96 (+0.04) |
Robustez em benchmarks internos
Avaliação | GPT‑5‑Mini | GPT‑5 Mini-R |
TutorJailbreak (sys-user) | 0,96 | 0.99 (+0.03) |
Tutor Jailbreak (dev-user) | 0,97 | 0.99 (+0.02) |
Conflito Sistema <> Utilizador | 0,84 | 0.95 (+0.11) |
Conflito Sistema <> Programador | 0,86 | 0.86 (+0) |
Conflito Programador <> Utilizador | 0,83 | 0.95 (+0.12) |
Sem regressões de capacidades
Avaliação | GPT‑5‑Mini | GPT‑5 Mini-R |
IH-Challenge (recusa excessiva) | 0,79 | 1.00 (+0.21) |
TensorTrust (recusa excessiva) | 0,91 | 0.90 (-0.01) |
GPQA Diamond | 0,83 | 0.83 (+0) |
AIME 2024 | 0,93 | 0.94 (+0.01) |
Taxa de Vitória no Chat vs. o1 | 0.71 | 0.66 (-0.05) |
Pontuação de preferência | 0.46 | 0.40 (-0.06) |
Uma hierarquia de instruções mais forte oferece vários benefícios de segurança em simultâneo, incluindo na controlabilidade de segurança e na robustez a injeções de prompt.
Avaliamos a controlabilidade de segurança ao adicionar especificações de segurança específicas por categoria ao prompt do sistema e ao medir o comportamento nos safety Production Benchmarks da OpenAI (um conjunto de conversas sensíveis à segurança representativas do ChatGPT em produção).
O modelo treinado com IH mostra uma melhoria consistente: com a especificação de segurança presente, alcança taxas mais elevadas de recusa e de conclusão segura nas categorias não permitidas, indicando que um comportamento de hierarquia de instruções mais forte o torna melhor a resolver conflitos quando pedidos inseguros vêm de instruções de menor prioridade. Importa notar que esta melhoria não vem acompanhada de uma diminuição correspondente na taxa de prestabilidade (isto é, não se torna menos «prestável» por simplesmente recusar mais no geral).


Exemplo de como o modelo treinado com IH resiste a injeções de prompts em que o GPT‑5 Mini (Baseline) cai.
A hierarquia de instruções também é central para resistir à injeção de prompt, quando instruções maliciosas são incorporadas em saídas de ferramentas. Avaliamos o modelo treinado com IH em dois benchmarks de injeção de prompt — um benchmark académico, o CyberSecEval 2, e um benchmark interno de injeção de prompt da OpenAI composto por ataques como o demonstrado numa versão mais antiga do ChatGPT Atlas.
Em relação ao baseline, o modelo GPT‑5 Mini-R treinado com IH melhora a robustez a injeções de prompt em ambos os benchmarks e melhora substancialmente o desempenho na nossa avaliação interna estática de injeção de prompt nestas experiências.
À medida que os modelos se tornam mais agentic — a invocar ferramentas, a ler documentos não fiáveis e a executar ações no mundo —, a capacidade de priorizar consistentemente instruções fiáveis face a instruções não fiáveis torna-se uma propriedade central de segurança.
Este trabalho mostra que várias armadilhas do treino de robustez de IH podem ser ultrapassadas ao conceber ambientes de treino que abordam essas armadilhas. Embora o nosso conjunto de dados IH-Challenge pareça simples, o comportamento de IH que os modelos aprendem nestes ambientes generaliza para benchmarks mais realistas, muitas vezes não avaliáveis de forma objetiva.
Reforçar a hierarquia de instruções não só melhora a fiabilidade, como desbloqueia vários ganhos de segurança e proteção em simultâneo — uma base que se torna cada vez mais importante à medida que os sistemas de IA se tornam mais capazes e autónomos.
Para apoiar investigação adicional nesta área, estamos a disponibilizar aqui(abre numa nova janela) o conjunto de dados IH‑Challenge.


