7 de novembro de 2025

Entendendo as injeções imediatas: um desafio de segurança de vanguarda

As ferramentas de IA estão começando a fazer mais do que simplesmente responder a perguntas. Agora eles podem navegar na internet, ajudar em pesquisas, planejar viagens e auxiliar na compra de produtos. À medida que se tornam mais capazes, com a capacidade de acessar seus dados em outros aplicativos e realizar ações em seu nome, surgem novos desafios de segurança. Uma em que estamos muito focados é a injeção de prompt.

Um diagrama ilustrando como funciona um ataque de injeção de prompt. À esquerda, um ícone de um usuário sorridente traz a legenda "Usuário pede ajuda à IA para realizar uma tarefa". Uma seta aponta para o centro, onde um ícone de tela de computador é rotulado como “A IA vê um site com o ataque”, e acima dele uma pequena figura com um chapéu e um sorriso de canto é rotulada como “O invasor inseriu injeção de prompt.” Outra seta aponta para a direita, mostrando um ícone de documento com um triângulo de aviso com a inscrição "IA enganada e induzida a uma ação não intencional". O fluxo demonstra como um invasor pode manipular a IA por meio de prompts injetados.

O que é uma injeção de prompt?

A injeção de prompts é um tipo de ataque de engenharia social específico para IA conversacional. Os primeiros sistemas de IA eram conversas entre um único usuário e um único agente de IA. Nos produtos de IA atuais, sua conversa pode incluir conteúdo de muitas fontes, incluindo a internet. A ideia de que um terceiro (que não seja o usuário nem a IA) possa enganar o modelo injetando instruções maliciosas no contexto da conversa levou ao termo "injeção de prompts".

Da mesma forma que e-mails de phishing ou golpes na internet tentam enganar as pessoas para que revelem informações confidenciais, as injeções de prompt tentam enganar as IAs para que façam algo que você não solicitou.

Imagine que você pediu a uma IA para ajudá-lo(a) a pesquisar opções de férias online e, durante a pesquisa, ela se depara com conteúdo enganoso ou instruções prejudiciais ocultas em uma página da web, como em um comentário em um anúncio ou em uma avaliação. O conteúdo pode ser cuidadosamente elaborado numa tentativa de enganar uma IA para que recomende o anúncio errado ou, pior ainda, para roubar as informações do seu cartão de crédito.

Esses são apenas alguns exemplos de ataques de "injeção de prompts" — instruções maliciosas projetadas para enganar uma IA e fazê-la executar algo que você não pretendia, geralmente ocultas em conteúdo comum, como uma página da web, um documento ou um e-mail.

Esses riscos aumentam à medida que as IAs têm acesso a dados mais sensíveis e assumem mais iniciativas e tarefas mais longas.

Resumo

O que você pediu para a IA fazer

O que o invasor faz

Possível resultado caso o ataque seja bem-sucedido

Você pede a uma IA para pesquisar apartamentos, e ela prontamente recomenda um anúncio que não é a melhor opção para você.

Você pede a uma IA para pesquisar apartamentos com base em determinados critérios.

O atacante incluiu um ataque de injeção de código no anúncio do apartamento para enganar a IA e fazê-la acreditar que o anúncio precisa ser selecionado, independentemente das preferências declaradas pelo usuário.

Caso o ataque seja bem-sucedido, a IA poderá recomendar incorretamente um apartamento abaixo do ideal, com base nas suas preferências.

Você pede a um agente de IA para responder aos seus e-mails da noite para o dia, e ele acaba compartilhando seus extratos bancários.

Você pede a um agente de IA para responder aos seus e-mails da noite anterior porque está ocupado esta manhã.

Consulte “Quando possível, dê instruções explícitas ao agente” abaixo.

O invasor enviou um e-mail para você que contém desinformação, enganando o modelo para localizar seus extratos bancários e compartilhá-los com o invasor.

Se o ataque for bem-sucedido, o agente poderá procurar por extratos bancários em seu e-mail (ao qual você deu acesso para a tarefa) e compartilhá-los com o invasor.

Nossa abordagem para proteger os usuários

A defesa contra injeções imediatas é um desafio em toda a indústria de IA e um foco central da OpenAI. Embora esperemos que os adversários continuem a desenvolver esses ataques, estamos construindo defesas projetadas para executar a tarefa pretendida pelo usuário, mesmo quando alguém está ativamente tentando enganá-lo. Essa capacidade é essencial para concretizar com segurança os benefícios da IAG (Inteligência Artificial Geral).

Para proteger nossos usuários e aprimorar nossos modelos contra esses ataques, adotamos uma abordagem multicamadas, que inclui o seguinte:

Treinamento de segurança

Queremos uma IA que reconheça injeções imediatas e não caia nelas. No entanto, a robustez contra ataques adversários é um desafio antigo para o aprendizado de máquina e a IA, tornando-se um problema complexo e em aberto. Desenvolvemos uma linha de pesquisa chamada Hierarquia de Instruções⁠ para trabalhar em modelos que distingam entre instruções confiáveis e não confiáveis. Continuamos a desenvolver novas abordagens para treinar modelos a fim de que reconheçam melhor os padrões de injeção de prompts, para que possam ignorá-los ou sinalizá-los para os usuários. Uma das técnicas que aplicamos é o red teaming automatizado, uma área que estudamos⁠(abre em uma nova janela) há anos, para desenvolver novos ataques de injeção de prontidão.

Monitoramento

Desenvolvemos diversos monitores⁠ automatizados com inteligência artificial para identificar e bloquear ataques de injeção de código. Essas medidas complementam as abordagens de treinamento em segurança, pois podem ser atualizadas rapidamente para bloquear quaisquer novos ataques que descobrirmos. Esses monitores não apenas ajudam a identificar possíveis ataques de injeção de prompts contra nossos usuários, mas também nos permitem detectar pesquisas e testes adversários de injeção de prompts usando nossa plataforma, antes que esses ataques sejam implantados em ataques reais.

Proteções de segurança

Projetamos nossos produtos e infraestrutura com diversas proteções de segurança sobrepostas para ajudar a proteger os dados do usuário. Essas funcionalidades, que exploraremos com mais detalhes técnicos em publicações futuras, são personalizadas para cada produto. Por exemplo, para ajudar você a evitar sites não confiáveis, pediremos que você aprove determinados links no ChatGPT, especialmente em sites que nos solicitam que não os cataloguemos⁠(abre em uma nova janela), antes que possam ser visitados. Quando nossa IA usa ferramentas para executar outros programas ou códigos (como no Canvas ou em nossa ferramenta de desenvolvimento Codex), usamos uma técnica chamada sandbox para impedir que o modelo faça alterações prejudiciais que possam ser resultado de uma injeção de código indesejado.

Dê aos usuários o controle

Nossos produtos incluem controles integrados para ajudar os usuários a se protegerem. Por exemplo, no ChatGPT Atlas, você pode selecionar o modo de desconexão, que permite que o agente do ChatGPT inicie tarefas sem estar conectado aos sites. O agente do ChatGPT também faz uma pausa e pede confirmação antes de realizar ações sensíveis, como concluir uma compra. Quando o agente está operando em sites sensíveis, implementamos um "Modo de Observação" que alerta sobre a natureza sensível do site e exige que você mantenha a guia ativa para observar o agente em ação. O agente irá pausar se você sair da aba com informações confidenciais. Isso garante que você permaneça ciente — e no controle — das ações que o agente está executando.

Red teaming

Realizamos extensos testes de intrusão (red teaming) com equipes internas e externas para testar e aprimorar nossas defesas, simular o comportamento de invasores e encontrar novas maneiras de melhorar nossa segurança. Isso inclui milhares de horas dedicadas especificamente à aplicação imediata de injeções. À medida que descobrimos novas técnicas e ataques, nossas equipes abordam proativamente as vulnerabilidades de segurança e aprimoram nossas medidas de mitigação.

recompensa por bugs

Para incentivar pesquisadores de segurança independentes de boa-fé a nos ajudarem a descobrir novas técnicas e ataques de injeção rápida, oferecemos recompensas financeiras por meio do nosso programa de recompensas por bugs⁠(abre em uma nova janela) quando eles demonstram um caminho de ataque realista que possa resultar na exposição não intencional de dados do usuário. Incentivamos os colaboradores externos a apontarem esses problemas rapidamente para que possamos resolvê-los e fortalecer ainda mais nossas defesas.

Permita que os usuários decidam

Informamos os usuários sobre os riscos associados ao uso de determinadas funcionalidades do produto, para que possam tomar decisões conscientes. Por exemplo, ao conectar o ChatGPT a outros aplicativos, explicamos quais dados podem ser acessados, como podem ser usados e quais riscos podem surgir, como um site tentando roubar seus dados, além de um link para aprender como se manter mais seguro. Também damos às organizações o controle sobre quais recursos podem ser ativados ou usados pelos usuários em seus espaços de trabalho.

Medidas que você pode tomar para se manter mais seguro

A injeção imediata é um desafio de segurança de vanguarda que esperamos que continue a evoluir ao longo do tempo. Novos níveis de inteligência e capacidade exigem que a tecnologia, a sociedade e a estratégia de mitigação de riscos coevoluam. Assim como aconteceu com os vírus de computador no início dos anos 2000, acreditamos que é importante que todos entendam a ameaça das injeções imediatas e como lidar com o risco, para que todos possamos aprender a nos beneficiar dessa tecnologia com segurança. Estar atento e ser cauteloso ajuda a manter seus dados mais seguros ao usar recursos de IA e agentes que podem agir em seu nome.

Utilize recursos integrados para limitar o acesso a dados confidenciais.

Sempre que possível, limite o acesso do agente apenas aos dados sensíveis ou às credenciais necessárias para concluir a tarefa. Por exemplo, ao usar o modo agente no ChatGPT Atlas para pesquisar opções de férias, se o agente estiver apenas pesquisando e não precisar de acesso com login, use o modo "desconectado".

Quando um agente solicitar uma confirmação, verifique cuidadosamente se ele está prestes a fazer a coisa certa.

Frequentemente, projetamos agentes para obter sua confirmação final antes de executar determinadas ações importantes, como concluir uma compra ou enviar um e-mail. Quando um agente lhe pedir para confirmar uma ação, verifique cuidadosamente se a ação parece correta e se qualquer informação compartilhada é apropriada para aquele contexto.

Quando um agente estiver operando em um site sensível, como o do seu banco, observe-o enquanto realiza seu trabalho. Isso é semelhante a monitorar um carro autônomo mantendo as mãos no volante.

Sempre que possível, forneça instruções explícitas ao agente.

Dar a um agente uma instrução muito vaga, como "revise meus e-mails e tome as medidas necessárias", pode facilitar a inserção de conteúdo malicioso oculto que engane o modelo, mesmo que ele seja projetado para consultar você antes de tomar medidas sensíveis.

É mais seguro pedir ao seu agente que faça coisas específicas, em vez de lhe dar ampla liberdade para seguir instruções potencialmente prejudiciais vindas de outras fontes, como e-mails. Embora isso não garanta que não haverá ataques, torna mais difícil para os atacantes terem sucesso.

Mantenha-se informado e siga as melhores práticas de segurança.

À medida que a tecnologia de IA evolui, novos riscos e medidas de segurança surgirão. Acompanhe as atualizações da OpenAI e de outras fontes confiáveis para conhecer as melhores práticas.

Olhando para o futuro

A injeção de prompt continua sendo um problema de pesquisa de fronteira e desafiador e, assim como os golpes tradicionais na web, esperamos que nosso trabalho continue. Embora ainda não tenhamos visto uma adoção significativa dessa técnica por parte dos invasores, esperamos que os adversários dediquem tempo e recursos consideráveis para encontrar maneiras de fazer com que as IAs caiam nesses ataques. Continuamos a investir fortemente na segurança dos nossos produtos e em pesquisa para aumentar a robustez da IA face a esse risco. Compartilharemos atualizações à medida que obtivermos mais informações, incluindo o progresso contínuo em nosso trabalho de segurança nesta área. Por exemplo, estamos elaborando um relatório que publicaremos em breve, o qual compartilhará mais detalhes sobre como detectamos se a comunicação da sua IA com a internet transmitiria informações da sua conversa.

Nosso objetivo é tornar esses sistemas tão confiáveis e seguros quanto trabalhar com seu colega ou amigo mais confiável e experiente em segurança. Continuaremos aprendendo com o uso no mundo real, iterando com segurança e publicando o que aprendermos à medida que a tecnologia avança.

Continuar lendo

Ver tudo

Daybreak: ferramentas para proteger todas as organizações do mundo

Segurança22 de jun. de 2026

Patch the Planet: a Daybreak initiative to support open source maintainers

Segurança22 de jun. de 2026

Construindo um sandbox seguro e eficaz para viabilizar o Codex no Windows

Engenharia13 de mai. de 2026