Passer au contenu principal
OpenAI

7 novembre 2025

Cybersécurité

Comprendre les injections d’invite : un défi de sécurité de pointe

Les outils d’IA commencent à faire plus que simplement répondre aux questions. Ils peuvent désormais naviguer sur le Web, aider à la recherche, planifier des voyages et faciliter l'achat de produits. À mesure qu'ils deviennent plus performants, avec la possibilité d'accéder à vos données dans d'autres applications et d'effectuer des actions en votre nom, de nouveaux défis en matière de sécurité apparaissent. L'un de ceux sur lesquels nous nous concentrons particulièrement est l'injection d'invite.

Un diagramme illustrant le fonctionnement d'une attaque par injection d’invite. À gauche, une icône d’un utilisateur souriant est étiquetée « L’utilisateur demande de l’aide à l’IA pour une tâche. » Une flèche pointe vers le centre où une icône d’écran d’ordinateur est étiquetée « L’IA voit un site Web avec l’attaque », et au-dessus, une petite silhouette avec un chapeau et un sourire en coin est étiquetée « Attaquant a inséré une injection d’invite ». Une autre flèche pointe vers la droite, montrant une icône de document avec un triangle d’avertissement portant la mention « IA induite en erreur pour une action non intentionnelle ». Le flux illustre comment un attaquant peut manipuler l'IA en utilisant des invites injectées.

Qu'est-ce qu'une injection d'invite?

L'injection d'invite est un type d'attaque d'ingénierie sociale spécifique à l'IA conversationnelle. Les premiers systèmes d'IA consistaient en des conversations entre un utilisateur unique et un agent d'IA unique. Dans les produits d'IA actuels, votre conversation peut inclure du contenu provenant de nombreuses sources, y compris Internet. L’idée qu’un tiers (c’est-à-dire qui n’est ni l’utilisateur ni l’IA) puisse induire le modèle en erreur en injectant des instructions malveillantes dans le contexte de la conversation a conduit à l’expression « injection d’invite ».

De la même manière que les courriels d’hameçonnage ou les escroqueries sur le Web tentent de tromper les gens pour qu’ils divulguent des renseignements sensibles, les injections d'invite tentent de tromper les IA pour qu'elles effectuent des actions non sollicitées.

Imaginez que vous avez demandé à une IA de vous aider à faire des recherches en ligne pour vos vacances et que, pendant qu'elle le fait, elle rencontre du contenu trompeur ou des instructions nuisibles dissimulées sur une page Web, par exemple dans un commentaire sur une annonce ou dans un avis. Le contenu pourrait être soigneusement élaboré pour tromper une IA afin qu'elle recommande une mauvaise annonce, ou pire, pour voler les informations de votre carte de crédit.

Voici quelques exemples d’attaques par « injection d’invite » : des instructions nuisibles conçues pour tromper une IA afin qu’elle exécute une action non souhaitée, souvent dissimulées dans du contenu ordinaire tel qu’une page Web, un document ou un courriel.

Ces risques augmentent à mesure que les IA ont accès à des données plus sensibles et prennent plus d’initiatives et des tâches plus longues.

Résumé

Ce que vous avez demandé à l’IA de faire

Ce que fait l’attaquant

Résultat potentiel si l'attaque réussit

Vous demandez à une IA de rechercher des appartements, et elle subit une attaque par injection d'invite pour recommander une annonce qui n'est pas la meilleure option pour vous.

Vous demandez à une IA de rechercher des appartements avec certains critères donnés.

L’attaquant a inclus une attaque par injection d'invite dans l'annonce d'appartement pour tromper l'IA et lui faire croire que son annonce doit être choisie, indépendamment des préférences exprimées par l'utilisateur.

Si l’attaque réussit, l’IA pourrait recommander incorrectement une annonce d’appartement non optimale selon vos préférences.

Vous demandez à un agent d'IA de répondre à vos courriels reçus pendant la nuit, et il finit par partager vos relevés bancaires.

Vous demandez à un agent d’IA de répondre globalement à vos courriels reçus pendant la nuit, car vous êtes occupé ce matin.

Voir « Lorsque possible, donnez des instructions explicites à un agent » ci-dessous


L'attaquant vous a envoyé un courriel contenant de la désinformation pour tromper le modèle afin qu'il trouve vos relevés bancaires et les partage avec lui.

Si l'attaque réussit, l'agent pourrait chercher des documents comme des relevés bancaires dans votre courriel (auquel vous avez donné accès pour la tâche) et les partager avec l'attaquant.

Notre approche pour la protection des utilisateurs

La défense contre l'injection d'invite représente un défi dans l'ensemble du secteur de l'IA et constitue une priorité majeure chez OpenAI. Bien que nous prévoyions que les adversaires continueront à développer de telles attaques, nous construisons des défenses conçues pour exécuter la tâche prévue par l'utilisateur, même lorsque quelqu'un essaie activement de le tromper. Cette capacité est essentielle pour réaliser en toute sécurité les avantages de l'AGI.

Pour protéger nos utilisateurs et améliorer nos modèles face à ces attaques, nous adoptons une approche à plusieurs niveaux, comprenant notamment :

Formation à la sécurité

Nous souhaitons une IA qui reconnaît les injections d'invite et ne s'y laisse pas prendre. Cependant, la robustesse face aux attaques adversariales est depuis longtemps un défi pour l'apprentissage automatique et l'IA, ce qui en fait un problème difficile et non résolu. Nous avons développé une recherche intitulée Hiérarchie des instructions pour travailler sur des modèles distinguant entre les instructions fiables et non fiables. Nous continuons à développer de nouvelles approches pour entraîner des modèles à mieux reconnaître les schémas d'injection d'invite afin qu'ils puissent les ignorer ou les signaler aux utilisateurs. L’une des techniques que nous appliquons est les exercices d’équipe rouge automatisés, un domaine que nous étudions(s'ouvre dans une nouvelle fenêtre) depuis des années, afin de développer de nouvelles attaques par injection d’invite.

Surveillance

Nous avons développé plusieurs moniteurs automatisés alimentés par l'IA pour identifier et bloquer les attaques par injection d’invite. Ces éléments complètent les approches de formation à la sécurité, car ils peuvent être mis à jour rapidement pour bloquer toute nouvelle attaque que nous découvrons. Ces mécanismes de surveillance aident non seulement à identifier les attaques potentielles par injection d’invite contre nos utilisateurs, mais peuvent aussi nous permettre de détecter la recherche et les tests adversariaux d’injection d’invite utilisant notre plateforme, avant que ces attaques ne soient déployées dans la nature.

Protections de sécurité

Nous avons conçu nos produits et notre infrastructure avec diverses protections de sécurité superposées pour aider à protéger les données des utilisateurs. Ces fonctionnalités, que nous examinerons plus en détail sur le plan technique dans de futurs articles, sont personnalisées pour chaque produit. Par exemple, pour vous aider à éviter les sites non fiables, nous vous demanderons d’approuver certains liens dans ChatGPT, notamment sur les sites Web qui nous demandent de ne pas les cataloguer(s'ouvre dans une nouvelle fenêtre), avant qu’ils puissent être visités. Lorsque notre IA utilise des outils pour exécuter d'autres programmes ou du code (comme dans Canvas ou notre outil de développement Codex), nous utilisons une technique appelée « sandboxing » pour empêcher le modèle d'apporter des modifications nuisibles pouvant résulter d'une injection d'invite.

Donner le contrôle aux utilisateurs

Nous intégrons des contrôles intégrés dans nos produits pour aider les utilisateurs à se protéger. Par exemple, dans ChatGPT Atlas, vous pouvez choisir le mode déconnecté, permettant à l’agent ChatGPT de commencer des tâches sans se connecter aux sites. L'agent ChatGPT fait également une pause et demande une confirmation avant d'entreprendre des actions sensibles, telles que finaliser un achat. Lorsque l’agent opère sur des sites sensibles, nous avons également mis en place un « mode surveillance » qui vous avertit de la nature sensible du site et exige que l’onglet soit actif pour que vous puissiez observer l’agent accomplir son travail. L’agent se mettra en pause si vous quittez l’onglet avec des informations sensibles. Cela vous assure de rester conscient—et maître—des actions que l’agent accomplit.

Exercices d’équipe rouge

Nous réalisons des exercices approfondis d'équipe rouge avec des équipes internes et externes pour tester et renforcer nos défenses, simuler le comportement des attaquants et découvrir de nouvelles méthodes pour améliorer notre sécurité. Cela inclut des milliers d’heures spécifiquement consacrées à l’attaque par injection d’invite. Alors que nous découvrons de nouvelles techniques et attaques, nos équipes traitent de manière proactive les vulnérabilités de sécurité et améliorent les mesures d'atténuation de notre modèle.

Prime aux bogues

Pour encourager les chercheurs indépendants en sécurité de bonne foi à nous aider à découvrir de nouvelles techniques et attaques d'injection d'invite, nous offrons des récompenses financières dans le cadre de notre programme prime aux bogues(s'ouvre dans une nouvelle fenêtre) lorsqu'ils démontrent un chemin d'attaque réaliste pouvant entraîner une exposition involontaire des données des utilisateurs. Nous encourageons les contributeurs externes à identifier rapidement ces problèmes afin que nous puissions les résoudre et renforcer encore plus nos défenses.

Laisser les utilisateurs décider

Nous sensibilisons les utilisateurs aux risques associés à l'utilisation de certaines fonctionnalités du produit pour qu'ils puissent prendre des décisions éclairées. Par exemple, lorsque vous connectez ChatGPT à d’autres applications, nous expliquons quelles données peuvent être consultées, comment elles peuvent être utilisées et quels risques pourraient survenir, comme un site qui tenterait de voler vos données, ainsi qu’un lien pour apprendre comment rester en sécurité. Nous offrons également aux organisations le contrôle sur les fonctionnalités qui peuvent être activées ou utilisées par les utilisateurs dans leurs espaces de travail.

Mesures que vous pouvez prendre pour rester en sécurité

L'injection d'invite est un défi de sécurité de pointe que nous prévoyons de voir évoluer avec le temps. De nouveaux niveaux d’intelligence et de capacité nécessitent que la technologie, la société et la stratégie d’atténuation des risques coévoluent. Et comme pour les virus informatiques au début des années 2000, nous pensons qu'il est important que tout le monde comprenne la menace des injections d'invite et comment naviguer dans le risque, afin que nous puissions tous apprendre à profiter de cette technologie en toute sécurité. Rester conscient et prudent aide à garder vos données plus sécurisées lorsque vous utilisez des fonctionnalités d'IA et des fonctionnalités agentiques qui peuvent agir en votre nom.

Utiliser les fonctionnalités intégrées pour restreindre l'accès aux données sensibles

Dans la mesure du possible, limitez l'accès d'un agent uniquement aux données sensibles ou aux informations d'identification nécessaires pour accomplir la tâche. Par exemple, lorsque vous utilisez le mode agent dans ChatGPT Atlas pour effectuer des recherches sur des vacances, si l'agent se contente de faire des recherches et n'a pas besoin d'un accès connecté, utilisez le mode « déconnecté ».

Lorsqu’un agent demande une confirmation, examinez attentivement s'il est sur le point de faire la bonne chose

Nous concevons souvent des agents pour obtenir une confirmation finale de votre part avant d’entreprendre certaines actions conséquentes, comme effectuer un achat ou envoyer un courriel. Lorsqu’un agent vous demande de confirmer une action, vérifiez attentivement que l’action semble correcte et que tout renseignement partagé est approprié à partager dans ce contexte.

Lorsqu’un agent opère sur un site sensible, tel qu'une banque, observez l’agent pendant qu’il effectue son travail. C’est comme surveiller une voiture autonome en gardant les mains sur le volant.

Lorsque c'est possible, fournissez des instructions explicites à un agent.

Donner à un agent une instruction très large comme « examine mes courriels et prends les mesures nécessaires » peut permettre à un contenu caché ou malveillant de tromper le modèle, même s'il est conçu pour vérifier avec vous avant de prendre des mesures sensibles.

Il est plus prudent de demander à votre agent d'effectuer des tâches spécifiques et de ne pas lui accorder une grande latitude qui pourrait l'amener à suivre des instructions nuisibles provenant d'autres sources, comme des courriels. Bien que cela ne garantisse pas l'absence d'attaques, cela complique la tâche des attaquants pour réussir.

Rester informé et suivre les meilleures pratiques de sécurité

À mesure que la technologie de l'IA évolue, de nouveaux risques et garde-fous apparaîtront. Suivez les mises à jour d’OpenAI et d’autres sources de confiance pour apprendre les meilleures pratiques.

Perspectives d’avenir

L'injection d'invite reste un problème de recherche de pointe et complexe, et tout comme les escroqueries traditionnelles sur le Web, nous prévoyons que notre travail se poursuivra. Bien que nous n'ayons pas encore observé une adoption significative de cette technique par les attaquants, nous prévoyons que les adversaires investiront beaucoup de temps et de ressources pour trouver des moyens de piéger les IA avec ces attaques. Nous continuons d’investir massivement pour assurer la sécurité de nos produits et dans la recherche pour renforcer la robustesse de l’IA face à ce risque. Nous partagerons des mises à jour à mesure que nous en apprendrons davantage, y compris sur les progrès continus de notre travail de sécurité dans ce domaine. Par exemple, nous élaborons un rapport que nous publierons bientôt, lequel fournira plus de détails sur la manière dont nous détectons si la communication de votre IA avec Internet pourrait transmettre des informations issues de votre conversation.

Notre objectif est de rendre ces systèmes aussi fiables et sécurisés que de travailler avec votre collègue ou ami le plus digne de confiance et le plus sensibilisé à la sécurité. Nous continuerons d'apprendre de l'usage réel, d'itérer en toute sécurité et de publier nos découvertes à mesure que la technologie progresse.