Comprendre les attaques par injection de prompt : un défi majeur en matière de sécurité
Les outils d’IA commencent à faire plus que répondre à des questions. Ils peuvent désormais naviguer sur le web, faciliter des recherches, planifier des voyages et aider à acheter des produits. À mesure qu’ils deviennent plus performants, avec la capacité d’accéder à vos données dans d’autres applications et d’agir en votre nom, de nouveaux défis de sécurité se présentent. Les attaques par injection de prompt font l’objet d’une attention particulière de notre part.
L’attaque par injection de prompt est un type d’attaque d’ingénierie sociale spécifique à l’IA conversationnelle. Les premiers systèmes d’IA consistaient en des conversations entre un utilisateur unique et un agent d’IA unique. Dans les produits d’IA actuels, votre conversation peut inclure du contenu provenant de nombreuses sources, y compris Internet. L’idée qu’un tiers (c’est-à-dire ni l’utilisateur ni l’IA) puisse tromper le modèle en injectant des instructions malveillantes dans le contexte de la conversation a conduit au terme « attaque par injection de prompt ».
De la même manière que les e-mails de phishing ou les escroqueries sur le web tentent de tromper les gens pour qu’ils divulguent des informations sensibles, les attaques par injection de prompt tentent de tromper les IA pour qu’elles effectuent des actions non sollicitées.
Imaginez que vous ayez demandé à une IA de vous aider à faire des recherches pour vos vacances en ligne et qu’elle rencontre du contenu trompeur ou des instructions nuisibles cachées sur une page web, par exemple dans un commentaire sur une annonce ou un avis. Le contenu pourrait être soigneusement conçu pour tromper une IA afin qu’elle recommande une mauvaise annonce, ou pire, pour voler vos informations de carte de crédit.
Voici quelques exemples d’« attaques par injection de prompt » : des instructions nuisibles conçues pour tromper une IA afin qu’elle exécute une action non prévue, souvent dissimulées dans du contenu ordinaire tel qu’une page web, un document ou un e-mail.
Ces risques augmentent à mesure que les IA ont accès à des données plus sensibles et prennent davantage d’initiative, assumant des tâches plus longues.
Résumé | Ce que vous avez demandé à l’IA de faire | Ce que fait l’attaquant | Résultat potentiel si l’attaque réussit |
Vous demandez à une IA de rechercher des appartements et elle est manipulée par une injection de prompt pour recommander une annonce qui n’est pas la meilleure option pour vous. | Vous demandez à une IA de rechercher des appartements avec certains critères donnés. | L’attaquant a intégré une attaque par injection de prompt dans l’annonce de l’appartement pour tromper l’IA en lui faisant croire que son annonce doit être choisie, indépendamment des préférences indiquées par l’utilisateur. | Si l’attaque réussit, l’IA pourrait recommander de manière incorrecte une annonce d’appartement non optimale selon vos préférences. |
Vous demandez à un agent d’IA de répondre aux e-mails que vous avez reçus pendant la nuit, mais il finit par partager vos relevés bancaires. | Vous demandez à un agent d’IA de répondre de manière générale aux e-mails que vous avez reçus pendant la nuit, car vous êtes occupé ce matin. Voir « Dans la mesure du possible, donnez à l’agent des instructions claires » ci-dessous | L’attaquant vous a envoyé un e-mail contenant des informations erronées qui induisent le modèle en erreur pour qu’il trouve vos relevés bancaires et les partage avec l’attaquant. | Si l’attaque réussit, l’agent pourrait chercher des documents tels que des relevés bancaires dans votre e-mail (auquel vous avez donné accès pour la tâche) et les partager avec l’attaquant. |
La défense contre les attaques par injection de prompt est un défi dans l’ensemble du secteur de l’IA et constitue une priorité essentielle chez OpenAI. Bien que nous nous attendions à ce que les adversaires continuent de développer ce type d’attaques, nous mettons au point des défenses conçues pour exécuter la tâche voulue par l’utilisateur, même en cas de tentative active de tromperie. Cette capacité est essentielle pour bénéficier en toute sécurité des avantages de l’AGI.
Pour protéger nos utilisateurs et améliorer nos modèles face à ces attaques, nous adoptons une approche à plusieurs niveaux, comprenant notamment :
Nous souhaitons une IA qui reconnaît les attaques par injection de prompt et ne s’y laisse pas prendre. Cependant, la robustesse aux attaques adverses est un défi de longue date pour l’apprentissage automatique et l’IA, ce qui en fait un problème difficile non résolu. Nous avons développé une recherche appelée Hiérarchie des instructions afin d’élaborer des modèles permettant de faire la distinction entre les instructions fiables et celles qui ne le sont pas. Nous continuons à développer de nouvelles approches pour entraîner les modèles à mieux reconnaître les schémas d’attaque par injection de prompt afin qu’ils puissent les ignorer ou les signaler aux utilisateurs. L’une des techniques que nous appliquons est l’automatisation des exercices d’équipe rouge, un domaine que nous étudions(ouverture dans une nouvelle fenêtre) depuis des années, afin de développer de nouvelles attaques par injection de prompt.
Nous avons développé plusieurs outils de surveillance automatisés basés sur l’IA afin d’identifier et de bloquer les attaques par injection de prompt. Ces éléments complètent les approches de formation à la sécurité, car ils peuvent être mis à jour rapidement pour bloquer toute nouvelle attaque que nous découvrons. Ces outils de surveillance permettent non seulement d’identifier des attaques potentielles par injection de prompt contre nos utilisateurs, mais aussi de détecter les recherches et les tests d’injection rapide effectués par des adversaires à l’aide de notre plateforme, avant que ces attaques ne soient déployées dans la nature.
Nous avons conçu nos produits et notre infrastructure en les dotant de diverses protections de sécurité qui se chevauchent pour protéger les données des utilisateurs. Ces fonctionnalités, que nous explorerons plus en détail sur le plan technique dans de futurs articles, sont personnalisées pour chaque produit. Par exemple, pour vous aider à éviter les sites non fiables, nous vous demanderons d’approuver certains liens dans ChatGPT, notamment sur les sites web qui nous demandent de ne pas les répertorier(ouverture dans une nouvelle fenêtre), avant de pouvoir les visiter. Lorsque notre IA utilise des outils pour exécuter d’autres programmes ou codes (comme dans Canvas ou notre outil de développement Codex), nous utilisons une technique appelée sandboxing pour empêcher le modèle d’apporter des modifications nuisibles qui pourraient résulter d’une injection de prompt.
Nous intégrons des contrôles intégrés dans nos produits pour aider les utilisateurs à se protéger. Par exemple, dans ChatGPT Atlas, vous pouvez choisir le mode déconnecté, ce qui permet à l’agent ChatGPT de commencer des tâches sans se connecter aux sites. L’agent ChatGPT se met également en pause et demande une confirmation avant d’effectuer des étapes sensibles telles que finaliser un achat. Lorsque l’agent opère sur des sites sensibles, nous avons également mis en place un « Mode surveillance » qui vous alerte de la nature sensible du site et exige que l’onglet soit actif pour que vous puissiez regarder l’agent effectuer son travail. L’agent se mettra en pause si vous vous éloignez de l’onglet contenant des informations sensibles. Cela vous permet de rester informé des actions effectuées par l’agent et d’en conserver le contrôle.
Nous réalisons des exercices approfondis d’équipe rouge avec des équipes internes et externes pour tester et renforcer nos défenses, simuler le comportement des attaquants et découvrir de nouvelles méthodes pour améliorer notre sécurité. Cela inclut des milliers d’heures consacrées spécifiquement aux attaques par injection de prompt. À mesure que nous découvrons de nouvelles techniques et attaques, nos équipes nos équipes corrigent proactivement les vulnérabilités de sécurité et améliorent les mesures d’atténuation de nos modèles.
Pour encourager les chercheurs en sécurité indépendants et de bonne foi à nous aider à découvrir de nouvelles techniques et attaques par injection de prompt, nous offrons des récompenses financières dans le cadre de notre programme Bug Bounty(ouverture dans une nouvelle fenêtre) lorsqu’ils démontrent un chemin d’attaque réaliste pouvant entraîner une exposition involontaire des données des utilisateurs. Nous encourageons les contributeurs externes à signaler rapidement ces problèmes afin que nous puissions les résoudre et renforcer encore plus nos défenses.
Nous sensibilisons les utilisateurs aux risques associés à l’utilisation de certaines fonctionnalités du produit pour qu’ils puissent prendre des décisions éclairées. Par exemple, lorsque vous connectez ChatGPT à d’autres applications, nous expliquons quelles données peuvent être consultées, comment elles peuvent être utilisées et quels risques pourraient survenir, comme un site tentant de voler vos données, ainsi qu’un lien pour apprendre à renforcer votre sécurité. Nous offrons également aux organisations la possibilité de contrôler quelles fonctionnalités peuvent être activées ou utilisées par les utilisateurs dans leurs espaces de travail.
L’attaque par injection de prompt est un défi majeur en matière de sécurité qui devrait continuer à évoluer au fil du temps. Les nouveaux niveaux d’intelligence et de capacité nécessitent une évolution conjointe de la technologie, de la société et de la stratégie d’atténuation des risques. Et comme pour les virus informatiques au début des années 2000, nous pensons qu’il est important que tout le monde comprenne la menace des attaques par injection de prompt et comment gérer le risque, afin que nous puissions tous apprendre à tirer parti de cette technologie en toute sécurité. Rester vigilant et prudent aide à protéger vos données lorsque vous utilisez des fonctionnalités d’IA et des fonctions agentiques pouvant agir en votre nom.
Dans la mesure du possible, limitez l’accès d’un agent aux seules données sensibles ou aux informations d’identification dont il a besoin pour accomplir sa tâche. Par exemple, lorsque vous utilisez le mode agent dans ChatGPT Atlas pour effectuer des recherches pour vos vacances, si l’agent se contente de faire des recherches et n’a pas besoin d’un accès connecté, utilisez le mode « déconnecté ».
Nous concevons souvent les agents de manière à obtenir une confirmation finale de votre part avant d’effectuer certaines actions importantes, comme finaliser un achat ou envoyer un e-mail. Lorsqu’un agent vous demande de confirmer une action, vérifiez soigneusement que l’action est correcte et que toute information partagée est appropriée dans ce contexte.
Lorsqu’un agent intervient sur un site sensible, tel que votre banque, observez l’agent pendant qu’il effectue son travail. C’est comme surveiller une voiture autonome en gardant les mains sur le volant.
Le fait de donner à un agent une instruction très générale telle que « regarde mes e-mails et prend les mesures nécessaires » peut permettre à un contenu malveillant caché d’induire plus facilement le modèle en erreur, même si celui-ci est conçu pour vous demander confirmation avant d’effectuer des actions sensibles.
Il est plus prudent de demander à votre agent d’effectuer des tâches précises et de ne pas lui accorder une grande latitude qui pourrait l’inciter à suivre des instructions nuisibles provenant d’autres sources, comme des e-mails. Bien que cela ne garantisse pas qu’il n’y aura pas d’attaques, cela complique la tâche des attaquants.
À mesure que la technologie de l’IA évolue, de nouveaux risques et garde-fous apparaîtront. Suivez les mises à jour d’OpenAI et d’autres sources fiables pour connaître les meilleures pratiques.
L’attaque par injection de prompt reste un enjeu de recherche majeur et complexe et tout comme les escroqueries traditionnelles sur le web, la lutte contre ce phénomène sera un travail de longue haleine. Bien que nous n’ayons pas encore observé une adoption significative de cette technique par les attaquants, nous prévoyons que les adversaires investiront beaucoup de temps et de ressources pour trouver des moyens de piéger les IA avec ces attaques. Nous continuons d’investir massivement pour assurer la sécurité de nos produits et dans la recherche afin de renforcer la robustesse de l’IA face à ce risque. Nous partagerons des mises à jour au fur et à mesure que nous en apprendrons davantage, y compris sur les progrès continus de notre travail de sécurité dans ce domaine. Par exemple, nous sommes en train d’élaborer un rapport que nous publierons bientôt et qui expliquera plus en détail comment nous détectons si la communication de votre IA avec Internet transmet des informations sur votre conversation.
Notre objectif est de rendre ces systèmes aussi fiables et sûrs que de travailler avec votre collègue ou ami le plus digne de confiance et le plus averti en matière de sécurité. Nous continuerons à tirer des enseignements de l’utilisation de l’IA dans le monde réel, à procéder à des itérations en toute sécurité et à publier ce que nous apprenons au fur et à mesure que la technologie progresse.


