Reforço contínuo do ChatGPT Atlas contra ataques de injeção de prompt
A simulação automatizada de ataques cibernéticos — impulsionada por aprendizado por reforço — nos ajuda a descobrir e corrigir proativamente vulnerabilidades de agentes no mundo real antes que sejam exploradas em ataques reais.
O modo agente no ChatGPT Atlas é um dos recursos de agente mais versáteis que lançamos até hoje. Nesse modo, o agente do navegador visualiza páginas da web e executa ações, cliques e pressionamentos de teclas dentro do seu navegador, exatamente como você faria. Isso permite que o ChatGPT funcione diretamente em muitos dos seus fluxos de trabalho diários, usando o mesmo espaço, contexto e dados.
À medida que o agente do navegador ajuda você a realizar mais tarefas, ele também se torna um alvo de maior valor para ataques adversários. Isso torna a segurança da IA especialmente importante. Muito antes de lançarmos o ChatGPT Atlas, já estávamos continuamente construindo e fortalecendo nossas defesas contra ameaças emergentes que visam especificamente esse novo paradigma de "agente no navegador". Injeção de prompt é um dos riscos mais significativos contra os quais defendemos ativamente para garantir que o ChatGPT Atlas possa operar com segurança em seu nome.
Como parte desse esforço, lançamos recentemente uma atualização de segurança para o agente do navegador do Atlas, incluindo um modelo recém-treinado contra adversários e medidas de segurança reforçadas. Esta atualização foi motivada por uma nova classe de ataques de injeção de código descoberta através de nossas simulações internas automatizadas de intrusão.
Neste post, explicamos como o risco de injeção de prompt pode surgir para agentes baseados na web e compartilhamos um ciclo de resposta rápida que estamos desenvolvendo para descobrir continuamente novos ataques e implementar mitigações rapidamente, ilustrado por esta recente atualização de segurança.
Consideramos a injeção de prompts um desafio de segurança de IA a longo prazo, e precisaremos fortalecer continuamente nossas defesas contra isso (assim como os golpes online em constante evolução que visam as pessoas). Nosso mais recente ciclo de resposta rápida está demonstrando resultados promissores como uma ferramenta essencial nessa jornada: estamos descobrindo internamente novas estratégias de ataque antes que elas apareçam em ataques reais.c Nossa visão de longo prazo é aproveitar ao máximo (1) nosso acesso de caixa branca aos nossos modelos, (2) o profundo entendimento de nossas defesas e (3) a escala de computação para nos mantermos à frente dos invasores externos—encontrando explorações mais cedo, implementando mitigações mais rapidamente e apertando continuamente o ciclo. Combinado com pesquisas de ponta em novas técnicas para lidar com injeções de prompt e aumento de investimento em outros controles de segurança, esse ciclo de acúmulo pode tornar os ataques cada vez mais difíceis e caros, reduzindo materialmente o risco de injeção de prompt no mundo real. Em última análise, nosso objetivo é que você possa confiar em um agente ChatGPT para usar seu navegador da mesma forma que confiaria em um colega ou amigo altamente competente e consciente de segurança.
Um ataque de injeção imediata visa agentes de IA, incorporando instruções maliciosas no conteúdo que o agente processa. Essas instruções são elaboradas para substituir ou redirecionar o comportamento do agente, sequestrando-o para que siga a intenção do invasor, em vez da intenção do usuário.
Para um agente de navegador como o presente no ChatGPT Atlas, a injeção de prompts adiciona um novo vetor de ameaça além dos riscos tradicionais de segurança na web (como erros do usuário ou vulnerabilidades de software). Em vez de tentar enganar humanos ou explorar vulnerabilidades do sistema do navegador, o invasor visa o agente que opera dentro dele.
Como exemplo hipotético, um invasor poderia enviar um e-mail malicioso tentando enganar um agente para que ele ignore a solicitação do usuário e, em vez disso, encaminhe documentos fiscais confidenciais para um endereço de e-mail controlado pelo invasor. Se um usuário solicitar ao agente que revise e-mails não lidos e resuma os pontos principais, o agente poderá ingerir esse e-mail malicioso durante o fluxo de trabalho. Se seguir as instruções inseridas, pode desviar-se da tarefa e partilhar indevidamente informações sensíveis.
Esse é apenas um cenário específico. A mesma generalidade que torna os agentes de navegador úteis também amplia os riscos: o agente pode encontrar instruções não confiáveis em uma área praticamente ilimitada — e-mails e anexos, convites de calendário, documentos compartilhados, fóruns, postagens em mídias sociais e páginas da web aleatórias. Como o agente pode realizar muitas das mesmas ações que um usuário pode realizar em um navegador, o impacto de um ataque bem-sucedido pode, hipoteticamente, ser tão amplo: encaminhar um e-mail confidencial, enviar dinheiro, editar ou excluir arquivos na nuvem e muito mais.
Fizemos progressos na defesa contra injeções imediatas por meio de múltiplas camadas de salvaguardas, conforme compartilhamos em uma publicação anterior. No entanto, a injeção imediata continua sendo um desafio em aberto para a segurança dos agentes, e esperamos continuar trabalhando nisso nos próximos anos.
Para fortalecer nossas defesas, temos buscado continuamente novos ataques de injeção de código contra sistemas de agentes em produção. Identificar esses ataques é um pré-requisito necessário para a criação de medidas de mitigação robustas: isso nos ajuda a compreender os riscos no mundo real, expõe as lacunas em nossas defesas e impulsiona correções concretas.
Para fazer isso em grande escala, criamos um invasor automatizado baseado em LLM e o treinamos para buscar ataques de injeção de prompts que possam atacar com sucesso um agente de navegador. Treinamos esse invasor de ponta a ponta com aprendizado por reforço, para que ele aprenda com seus próprios sucessos e fracassos e aprimore suas habilidades em testes de intrusão. Também permitimos que ele "teste antes de ser lançado", o que significa que, durante seu processo de raciocínio, o invasor pode propor uma possível injeção e enviá-la para um simulador externo. O simulador executa uma simulação contrafactual de como o agente vítima alvo (o defensor) se comportaria caso encontrasse a injeção e retorna um registro completo do raciocínio e das ações do agente vítima. O invasor usa esse rastreamento como feedback, itera sobre o ataque e executa a simulação novamente — repetindo esse ciclo várias vezes antes de se comprometer com um ataque final. Isso fornece ao invasor um feedback contextual mais rico do que um simples sinal de aprovação/reprovação. Isso também aumenta a capacidade computacional do invasor durante os testes. Além disso, o acesso privilegiado aos rastros de raciocínio (que não divulgamos a usuários externos) do defensor confere ao nosso invasor interno uma vantagem assimétrica, aumentando as chances de ele superar adversários externos.
Por que usar o aprendizado por reforço (RL)? Escolhemos o aprendizado por reforço para treinar o invasor automatizado por vários motivos:
- Otimização de objetivos de ataque de longo prazo e não contínuos. Nosso objetivo é buscar ataques de injeção rápida que possam enganar o agente para que ele execute tarefas adversárias sofisticadas (por exemplo, envio de e-mails, transações bancárias) que poderiam ocorrer no mundo real. Essas tarefas adversárias são inerentemente de longo prazo, exigindo muitas etapas de raciocínio e interação com o ambiente, com sinais de sucesso esparsos e tardios. O aprendizado por reforço é muito adequado a essa estrutura de recompensa esparsa e atrasada.
- Aproveitando as capacidades de ponta do LLM. Treinamos modelos de ponta LLMs diretamente como autoavaliadores, de modo que o invasor se beneficia diretamente das melhorias no raciocínio e planejamento nos modelos de fronteira. À medida que os modelos base se tornam mais fortes, o invasor naturalmente se torna mais capaz também — tornando esta uma forma escalável de manter a pressão sobre nossas defesas conforme nossos modelos evoluem.
- Escalando o poder computacional e imitando invasors adaptativos. O aprendizado por reforço é ideal para escalar o poder computacional gasto na busca por ataques em um grande número de amostragens e etapas de aprendizado, além de refletir de perto o comportamento adaptativo de invasors humanos: testando estratégias iterativamente, aprendendo com os resultados e reforçando comportamentos bem-sucedidos.
Nosso sistema automatizado de ataque consegue descobrir ataques de injeção de código inovadores e realistas de ponta a ponta. Ao contrário da maioria dos trabalhos anteriores de teste de intrusão automatizados, que revelavam falhas simples, como a obtenção de sequências de saída específicas ou o acionamento não intencional de uma única ferramenta pelo agente, nosso invasor treinado em aprendizado por reforço pode direcionar um agente para executar fluxos de trabalho sofisticados e prejudiciais de longo prazo, que se desenrolam em dezenas (ou até centenas) de etapas. Também observamos novas estratégias de ataque que não apareceram em nossa campanha de testes de intrusão com humanos nem em relatórios externos.
A demonstração abaixo apresenta uma vulnerabilidade concreta de injeção de prompts encontrada pelo nosso invasor automatizado, que então utilizamos para fortalecer ainda mais as defesas do ChatGPT Atlas. O invasor preenche a caixa de entrada do usuário com um e-mail malicioso contendo uma injeção de prompt que orienta o agente a enviar uma carta de demissão ao CEO do usuário. Mais tarde, quando o usuário pede ao agente para redigir uma resposta automática de ausência do escritório, o agente encontra esse e-mail durante a execução normal da tarefa, trata a mensagem inserida como autorizada e a segue. A mensagem de ausência do escritório nunca é registrada e o agente se demite em nome do usuário.

1. Solicitar ajuda ao agente para gerenciar e-mails

2. O agente abre o último e-mail não lido.

3. O e-mail contém instruções maliciosas.

4. Agente envia e-mail de demissão não intencional

5. Após nossa atualização de segurança, o modo agente detecta com sucesso uma tentativa de injeção de prompt
A natureza da injeção imediata torna as garantias de segurança determinísticas um desafio, mas, ao ampliarmos nossa pesquisa de segurança automatizada, testes adversários e aprimorarmos nosso ciclo de resposta rápida, conseguimos melhorar a robustez e as defesas do modelo — antes mesmo de um ataque ocorrer em um ambiente real.
Estamos compartilhando esta demonstração para ajudar usuários e pesquisadores a entender melhor a natureza desses ataques e como estamos nos defendendo ativamente contra eles. Acreditamos que isso representa a fronteira do que o teste de intrusão automatizado pode alcançar, e estamos extremamente entusiasmados em continuar nossa pesquisa.
Nossa equipe de testes vermelhos automatizada está impulsionando um ciclo de resposta rápida proativa: quando o invasor automatizado descobre uma nova classe de ataques de injeção de prompt bem-sucedidos, ele cria imediatamente um alvo concreto para aprimorar nossas defesas.
Treinamento adversarial contra ataques recém-descobertos. Treinamos continuamente modelos de agentes atualizados contra nosso melhor invasor automatizado, priorizando os ataques nos quais os agentes-alvo falham atualmente. O objetivo é ensinar os agentes a ignorar instruções adversárias e a manterem-se alinhados com a intenção do usuário, melhorando a resistência a estratégias de injeção de comandos recém-descobertas. Essa robustez "incorpora" contra ataques novos e de alta intensidade diretamente no ponto de verificação do modelo. Por exemplo, testes de intrusão automatizados recentes geraram diretamente um novo ponto de verificação de agente de navegador treinado por adversários, que já foi implementado para todos os usuários do ChatGPT Atlas. Isso, em última análise, ajuda a proteger melhor nossos usuários contra novos tipos de ataques.
Utilizando rastros de ataques para aprimorar o conjunto de defesas em geral. Muitos caminhos de ataque descobertos pela nossa equipe de testes vermelhos automatizada também revelam oportunidades de melhoria fora do próprio modelo — como no monitoramento, nas instruções de segurança que inserimos no contexto do modelo ou nas salvaguardas em nível de sistema. Essas descobertas nos ajudam a aprimorar toda a estrutura de defesa, e não apenas o ponto de verificação do agente.
Respostas a ataques ativos. Esse circuito também pode ajudar a responder melhor a ataques ativos na natureza. Ao analisarmos nossa presença global em busca de possíveis ataques, podemos aproveitar as técnicas e táticas que observamos em adversários externos, integrá-las a esse ciclo, emular suas atividades e impulsionar mudanças defensivas em toda a nossa plataforma.
Aprimorar nossa capacidade de realizar testes de intrusão em agentes e usar nossos modelos mais avançados para automatizar partes desse trabalho ajuda a tornar o agente de navegador Atlas mais robusto, escalando o ciclo de descoberta e correção. Esse esforço de reforço consolida uma lição já conhecida da área de segurança: um caminho consagrado para uma proteção mais robusta é testar continuamente a resistência de sistemas reais, reagir a falhas e implementar soluções concretas.
Esperamos que os adversários continuem se adaptando. A injeção de prompt, assim como golpes e engenharia social na web, provavelmente nunca será totalmente “resolvida”. Mas estamos otimistas de que um ciclo de resposta rápida, proativo e altamente eficaz possa continuar a reduzir significativamente o risco no mundo real ao longo do tempo. Ao combinar a descoberta automatizada de ataques com o treinamento de adversários e salvaguardas em nível de sistema, podemos identificar novos padrões de ataque mais cedo, eliminar vulnerabilidades mais rapidamente e aumentar continuamente o custo da exploração.
O modo agente no ChatGPT Atlas é poderoso — e também amplia a superfície de ataque à segurança. Ter uma visão realista dessa relação de custo-benefício faz parte da construção responsável. Nosso objetivo é tornar o Atlas significativamente mais seguro a cada iteração: aprimorando a robustez do modelo, fortalecendo a estrutura de defesa subjacente e monitorando padrões de abuso emergentes em ambientes reais.
Continuaremos investindo em pesquisa e implementação, desenvolvendo melhores métodos automatizados de teste de intrusão (red teaming), implementando medidas de mitigação em camadas e iterando rapidamente à medida que aprendemos. Também compartilharemos o que pudermos com a comunidade em geral.
Embora continuemos a fortalecer o Atlas em nível de sistema, existem medidas que os usuários podem tomar para reduzir os riscos ao usar agentes.
Limite o acesso de usuários logados sempre que possível. Continuamos a recomendar que os usuários aproveitem o modo de desconexão(abre em uma nova janela) ao usar o Agent no Atlas sempre que o acesso a sites nos quais você está conectado não for necessário para a tarefa em questão, ou para limitar o acesso a sites específicos nos quais você faz login durante a tarefa.
Analise cuidadosamente os pedidos de confirmação. Para determinadas ações importantes, como concluir uma compra ou enviar um e-mail, os agentes são programados para solicitar sua confirmação antes de prosseguir. Quando um agente lhe pedir para confirmar uma ação, reserve um momento para verificar se a ação está correta e se as informações compartilhadas são apropriadas para aquele contexto.
Forneça instruções explícitas aos agentes sempre que possível. Evite instruções muito vagas como "revise meus e-mails e tome as medidas necessárias". A grande margem de manobra facilita a influência de conteúdo oculto ou malicioso no agente, mesmo quando existem medidas de segurança implementadas. É mais seguro pedir ao agente que execute tarefas específicas e bem definidas. Embora isso não elimine o risco, torna os ataques mais difíceis de realizar.
Para que os agentes se tornem parceiros confiáveis em tarefas cotidianas, eles precisam ser resistentes aos tipos de manipulação que a web aberta possibilita. O fortalecimento contra injeção imediata é um compromisso de longo prazo e uma de nossas principais prioridades. Em breve compartilharemos mais informações sobre este trabalho.


