Hoe AI-agents weerbaar worden tegen prompt-injectie
Wat social engineering ons leert over het beveiligen van AI-agents.
AI-agents zijn steeds beter in staat om op het web te browsen, informatie op te halen en namens de gebruiker acties te ondernemen. Die mogelijkheden zijn nuttig, maar ze creëren ook nieuwe manieren waarop aanvallers kunnen proberen het systeem te manipuleren.
Deze aanvallen worden vaak omschreven als prompt-injectie: instructies die in externe content worden geplaatst in een poging om het model iets te laten doen waar de gebruiker niet om heeft gevraagd. In onze ervaring lijken de meest effectieve real-world versies van deze aanvallen steeds meer op social engineering dan op eenvoudige prompt-overschrijvingen.
Die verschuiving is van belang. Als het probleem niet alleen het identificeren van een kwaadaardige string is, maar het weerstaan van misleidende of manipulatieve content in context, dan kan de verdediging daartegen niet alleen vertrouwen op het filteren van inputs. Het vereist ook dat het systeem zo wordt ontworpen dat de impact van manipulatie wordt beperkt, zelfs als sommige aanvallen slagen.
Vroege prompt-injectieaanvallen konden zo eenvoudig zijn als het bewerken van een Wikipedia-artikel met directe instructies voor AI-agents die het artikel bezoeken. Zonder trainingservaring met zulke vijandige omgevingen volgden AI-modellen die instructies vaak zonder vragen1. Naarmate modellen slimmer zijn geworden, zijn ze ook minder kwetsbaar geworden voor dit soort suggesties. Prompt-injectieaanvallen zijn zich daarop gaan aanpassen door steeds vaker elementen van social engineering te gebruiken:
E-mailvoorbeeld van prompt-injectie
Een voorbeeld uit 2025 van een prompt-injectie op ChatGPT, gemeld aan OpenAI door externe beveiligingsonderzoekers(opent in een nieuw venster). Tijdens tests werkte dit in 50% van de gevallen met de gebruikersprompt: "Ik wil dat je diepgaand onderzoek doet in mijn e-mails van vandaag. Lees en controleer elke bron die informatie kan geven over mijn onboardingproces voor nieuwe medewerkers."
Binnen het bredere AI-beveiligingsecosysteem is het gebruikelijk om technieken zoals 'AI firewalling' aan te bevelen, waarbij een tussenlaag tussen de AI-agent en de buitenwereld probeert invoer te classificeren als kwaadaardige prompt-injectie of reguliere invoer. In de praktijk glippen deze geavanceerdere aanvallen meestal door zulke systemen heen. Voor zulke systemen wordt het detecteren van kwaadaardige invoer net zo moeilijk als het detecteren van een leugen of desinformatie, vaak ook zonder de nodige context.
Naarmate prompt-injectieaanvallen in de praktijk complexer werden, ontdekten we dat de meest effectieve offensieve technieken gebruikmaakten van social engineering-tactieken. In plaats van deze prompt-injectie met social engineering te behandelen als een afzonderlijke of volledig nieuwe categorie problemen, zijn we het gaan bekijken door dezelfde lens die wordt gebruikt om het risico op social engineering bij mensen in andere domeinen te beheersen. In deze systemen is het doel niet beperkt tot het perfect identificeren van kwaadaardige inputs, maar om agents en systemen zo te ontwerpen dat de impact van manipulatie beperkt is, zelfs als die slaagt. Dergelijke systemen blijken effectief te zijn in het mitigeren van zowel prompt-injectie als social engineering.
Zo kun je een AI-agent zien als onderdeel van een vergelijkbaar systeem met drie partijen, net als bij een klantenserviceagent: de agent wil namens zijn werkgever handelen, maar wordt voortdurend blootgesteld aan externe input die hem probeert te misleiden. De klantenserviceagent, mens of AI, moet beperkingen hebben op wat hij kan doen om de risico’s te beperken die inherent zijn aan zo’n kwaadaardige omgeving.
Stel je een situatie voor waarin een mens een klantenondersteuningssysteem bedient en in staat is om cadeaubonnen en terugbetalingen te verstrekken voor ongemakken die de klant heeft ervaren, zoals trage levering, schade als gevolg van een storing, etc. Dit is een probleem met meerdere partijen waarbij de onderneming erop moet vertrouwen dat de agent om de juiste redenen terugbetalingen uitvoert, terwijl de agent ook met derden omgaat die erop uit kunnen zijn hem te misleiden of hem zelfs onder druk te zetten.
In de echte wereld krijgt de agent een set regels om te volgen, maar er wordt verwacht dat ze in de vijandige omgeving waarin ze bestaan, zullen worden misleid. Misschien stuurt een klant een bericht waarin wordt beweerd dat hun terugbetaling nooit is verwerkt, of dreigt met schade als er geen terugbetaling wordt gegeven. Deterministische systemen waarmee de agent interageert, beperken het aantal terugbetalingen dat aan een klant kan worden gegeven, signaleren potentiële phishing-e-mails en bieden andere dergelijke mitigaties om de impact van het compromitteren van een individuele agent te beperken.
Deze denkwijze heeft geleid tot een robuuste reeks tegenmaatregelen die we hebben ingezet en die de beveiligingsverwachtingen van onze gebruikers waarborgen.
In ChatGPT wordt dit social engineering-model gecombineerd met meer traditionele benaderingen uit security engineering, zoals source-sink-analyse.
In dat kader heeft een aanvaller zowel een bron nodig, of een manier om het systeem te beïnvloeden, als een sink: een mogelijkheid die in de verkeerde context gevaarlijk wordt. Voor agentic systemen betekent dat vaak dat niet-vertrouwde externe content wordt gecombineerd met een actie, zoals het doorsturen van informatie naar derden, het volgen van een link of het communiceren met een tool.
Ons doel is om een kernverwachting op het gebied van beveiliging voor gebruikers te behouden: potentieel gevaarlijke acties, of het verzenden van potentieel gevoelige informatie, mogen niet stilzwijgend of zonder passende waarborgen plaatsvinden.
De meest veelvoorkomende aanvallen die we tegen ChatGPT zien, zijn pogingen om de assistent ervan te overtuigen dat het geheime informatie uit een gesprek moet halen en die moet doorsturen naar een kwaadaardige derde partij. In de meeste gevallen waar we van op de hoogte zijn, mislukken deze aanvallen omdat onze veiligheidstraining ervoor zorgt dat de agent weigert. Voor die gevallen waarin de agent overtuigd is, hebben we een mitigatiestrategie ontwikkeld genaamd Safe Url die is ontworpen om te detecteren wanneer informatie die de assistent in het gesprek heeft geleerd, zou worden doorgegeven aan een derde partij. In deze zeldzame gevallen tonen we de gebruiker ofwel de informatie die zou worden verzonden en vragen we hen om dit te bevestigen, of blokkeren we het en vertellen we de agent om een andere manier te proberen om verder te gaan met het verzoek van de gebruiker.
Ditzelfde mechanisme is van toepassing op navigaties en bladwijzers in Atlas, en zoekopdrachten en navigaties in Diepgaand onderzoek. ChatGPT Canvas en ChatGPT Apps hanteren een vergelijkbare aanpak, waarbij de agent functionele applicaties kan maken en gebruiken. Deze draaien in een sandbox die onverwachte communicatie kan detecteren en de gebruiker om toestemming vraagt(opent in een nieuw venster).
Meer informatie over Safe Url en een paper over de structuur ervan is te lezen in de speciale blogpost Hoe we gegevens veilig houden wanneer een AI-agent op een link klikt.
Veilige interactie met een vijandige buitenwereld is noodzakelijk voor volledig autonome agenten. Bij het integreren van een AI-model in een applicatie raden we aan na te gaan welke controles een menselijke agent in een vergelijkbare situatie zou moeten hebben, en die te implementeren. We verwachten dat een maximaal intelligent AI-model beter bestand zal zijn tegen social engineering dan een menselijke agent, maar dit is niet altijd haalbaar of kosteneffectief, afhankelijk van de toepassing.
We blijven de implicaties van social engineering tegen AI-modellen en de verdediging daartegen onderzoeken en verwerken onze bevindingen zowel in onze applicatiebeveiligingsarchitecturen als in de training die we onze AI-modellen laten doorlopen.
Voetnoten
- 1
Rehberger, J. (15-4-2023). Vertrouw niet blind op LLM-antwoorden. Bedreigingen voor chatbots. EmbraceTheRed. Opgehaald op 14-11-2025 van https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Auteurs
Thomas Shadwell, Adrian Spânu



Social engineering en AI-agents