Prompt-injecties: een nieuwe uitdaging voor beveiliging
AI-tools doen tegenwoordig meer dan alleen vragen beantwoorden. Ze doorzoeken het web, helpen bij onderzoek, plannen reizen en doen aankopen. Maar naarmate ze slimmer worden en toegang krijgen tot andere apps om namens jou te handelen, ontstaan er nieuwe beveiligingsrisico's. Een van de belangrijkste uitdagingen waar wij ons op richten, is de zogeheten prompt-injectie.
Een prompt-injectie is een vorm van social engineering, maar dan specifiek gericht op AI. Vroegere AI-systemen bestonden uit gesprekken tussen één gebruiker en één AI-agent. Maar huidige AI-producten halen informatie uit talloze bronnen, waaronder het internet. De term 'prompt-injectie' verwijst naar de situatie waarin een derde partij (dus niet de gebruiker en niet de AI) het model misleidt door kwaadaardige instructies te injecteren in de gesprekscontext.
Net zoals criminelen via phishing-mails of scams proberen mensen te misleiden om gevoelige informatie te delen, proberen aanvallers via prompt-injecties AI's te manipuleren om iets te doen waar jij niet om hebt gevraagd.
Ste: je vraagt een AI om online onderzoek te doen voor je vakantie. Terwijl de AI het web doorzoekt, komt hij op een pagina met verborgen misleidende instructies (bijvoorbeeld in een opmerking of review). Deze tekst is speciaal ontworpen om de AI te misleiden, zodat deze een minder geschikte accommodatie aanbeveelt, of erger nog, probeert je creditcardgegevens te achterhalen.
Dit zijn enkele voorbeelden van prompt-injecties: kwaadaardige instructies die een AI iets laten doen wat je niet voor ogen had. Deze zitten vaak verstopt in gewone content zoals een webpagina, document of e-mail.
Naarmate AI's complexere taken uitvoeren en toegang hebben tot gevoeligere data, nemen de risico's toe.
Samenvatting | Wat je de AI vroeg te doen | Wat de aanvaller doet | Mogelijk gevolg als de aanval slaagt |
Je vraagt een AI om appartementen te zoeken, maar door een prompt-injectie beveelt hij een appartement aan dat niet de beste optie voor jou is. | Je vraagt een AI om appartementen te zoeken op basis van bepaalde criteria. | Een aanvaller plaatst een prompt-injectie in zijn advertentie die de AI 'dwingt' zijn appartement te kiezen, ongeacht jouw criteria. | Als de aanval slaagt, beveelt de AI ten onrechte een minder geschikt appartement aan. |
Je vraagt een AI-agent om te reageren op je e-mails van gisteravond, en hij deelt uiteindelijk je bankafschriften. | Je vraagt een AI-agent om te reageren op je e-mails van gisteravond omdat je het druk hebt. (Zie ook: 'Geef een agent waar mogelijk expliciete instructies' hieronder). | Een aanvaller stuurt je een e-mail met desinformatie die de AI opdracht geven om naar bankafschriften te zoeken en deze door te sturen. | Als de aanval slaagt, zoekt de agent in de e-mails (waartoe je toegang hebt gegeven) naar zaken als bankafschriften en deze delen met de aanvaller. |
Het beveiligen tegen prompt-injecties is een uitdaging voor de hele AI-sector en een topprioriteit bij OpenAI. We verwachten dat aanvallers hun methoden zullen blijven ontwikkelen. Daarom bouwen we robuuste verdedigingsmechanismen om ervoor te zorgen dat de AI jouw opdracht uitvoert, zelfs als een aanvaller deze probeert te misleiden. Deze capaciteit is essentieel om de voordelen van AGI veilig te kunnen benutten.
Om onze gebruikers te beschermen en onze modellen weerbaarder te maken, hanteren we een gelaagde strategie:
We willen AI die prompt-injecties herkent en er niet in trapt. Weerbaarheid tegen aanvallen is echter een langdurige uitdaging voor machine learning en AI, wat dit tot een moeilijk en open probleem maakt. We hebben onderzoek ontwikkeld onder de naam Instruction Hierarchy om toe te werken naar modellen die onderscheid kunnen maken tussen vertrouwde en onvertrouwde instructies. We blijven nieuwe methoden ontwikkelen om modellen te trainen in het beter herkennen van prompt-injectiepatronen, zodat ze deze kunnen negeren of aan gebruikers kunnen melden. Een van de technieken die we toepassen is geautomatiseerde 'red-teaming' (een gebied dat we al jaren bestuderen(opent in een nieuw venster)) om nieuwe prompt-injectieaanvallen te ontwikkelen.
We hebben meerdere geautomatiseerde, door AI aangedreven monitoringtools ontwikkeld om prompt-injectieaanvallen te identificeren en te blokkeren. Deze vormen een aanvulling op de veiligheidstrainingen, omdat ze snel kunnen worden bijgewerkt om nieuwe aanvallen die we ontdekken direct te blokkeren. Deze monitors helpen niet alleen potentiële prompt-injectieaanvallen tegen onze gebruikers te identificeren, maar stellen ons ook in staat om vijandig onderzoek en tests op ons platform te detecteren voordat die aanvallen in de praktijk worden gebracht.
We hebben onze producten en infrastructuur ontworpen met diverse overlappende beveiligingslagen om gebruikersgegevens te beschermen. Deze functies, waarover we in toekomstige berichten meer technische details zullen geven, zijn per product op maat gemaakt. Om je te helpen onbetrouwbare sites te vermijden, vragen we je bijvoorbeeld in ChatGPT om bepaalde links goed te keuren voordat ze bezocht kunnen worden, vooral bij websites die aangeven niet door ons geïndexeerd te willen worden(opent in een nieuw venster). Wanneer onze AI tools gebruikt om andere programma's of code uit te voeren (zoals in Canvas, of onze ontwikkelingstool Codex), gebruiken we een techniek genaamd 'sandboxing'. Hiermee voorkomen we dat het model schadelijke wijzigingen aanbrengt als gevolg van een prompt-injectie.
We bouwen functies in onze producten in om gebruikers te helpen zichzelf te beschermen. In ChatGPT Atlas kun je bijvoorbeeld de uitgelogde modus selecteren, waarmee de ChatGPT‑agent taken kan uitvoeren zonder ingelogd te zijn op andere sites. Voordat de ChatGPT‑agent gevoelige acties onderneemt (zoals een aankoop doen), pauzeert hij en vraagt om bevestiging. Voor situaties waarin de agent op gevoelige sites werkt, hebben we de 'Watch Mode' geïmplementeerd. Deze waarschuwt je voor de gevoelige aard van de site en vereist dat je het tabblad actief houdt om mee te kijken terwijl de agent zijn werk doet. Als je wegklikt van het tabblad met gevoelige informatie, dan pauzeert de agent. Zo blijf je alert en houd je de controle over welke acties de agent uitvoert.
We voeren uitgebreide 'red-teaming'-sessies uit met interne en externe teams om onze verdediging te testen, gedrag van aanvallers na te bootsen en nieuwe manieren te vinden om onze beveiliging te verbeteren. Dit omvat duizenden uren die specifiek gericht zijn op prompt-injecties. Nu we nieuwe technieken en aanvallen hebben ontdekt, pakken onze teams proactief beveiligingskwetsbaarheden aan en verbeteren we onze modelmaatregelen.
Om bonafide onafhankelijke beveiligingsonderzoekers aan te moedigen ons te helpen nieuwe prompt-injectietechnieken te ontdekken, bieden we financiële beloningen via ons bug bounty-programma(opent in een nieuw venster). Dit geldt wanneer zij een realistisch aanvalsscenario aantonen dat kan leiden tot onbedoelde blootstelling van gebruikersgegevens. We stimuleren externe bijdragers om deze problemen snel aan het licht te brengen, zodat we ze kunnen oplossen en onze verdediging verder kunnen versterken.
We informeren gebruikers over de risico's van bepaalde functies, zodat zij weloverwogen beslissingen kunnen nemen. Wanneer je bijvoorbeeld ChatGPT met andere apps verbindt, leggen we uit tot welke gegevens toegang kan worden verkregen, hoe deze kunnen worden gebruikt en welke risico's kunnen ontstaan, zoals een site die je gegevens probeert te stelen, samen met een link naar meer informatie over veilig gebruik. We geven organisaties ook controle over welke functies door gebruikers in hun werkruimtes kunnen worden ingeschakeld of gebruikt.
Prompt-injectie blijft een uitdagend beveiligingsprobleem dat zich in de loop der tijd zal blijven ontwikkelen. Nieuwe niveaus van intelligentie vereisen dat technologie, maatschappij en risicostrategie samen evolueren. Net als bij computervirussen aan het begin van de jaren 2000, vinden wij het belangrijk dat iedereen de dreiging van prompt-injecties begrijpt en weet hoe je met de risico's omgaat. Zo kunnen we allemaal leren om op een veilige manier van deze technologie te profiteren. Door alert en voorzichtig te blijven, houd je je gegevens veilig wanneer je AI en agent-functies gebruikt die namens jou handelen.
Beperk waar mogelijk de toegang van een agent tot alleen die gevoelige gegevens of inloggegevens die strikt noodzakelijk zijn om de taak te voltooien. Als je bijvoorbeeld de agent-modus in ChatGPT Atlas gebruikt om een vakantie uit te zoeken en de agent hoeft nergens in te loggen voor dat onderzoek, gebruik dan de uitgelogde modus.
We ontwerpen agents vaak zo dat ze een laatste bevestiging van je vragen voordat ze bepaalde belangrijke acties uitvoeren, zoals het doen van een aankoop of het versturen van een e-mail. Als een agent je vraagt een actie te bevestigen, controleer dan goed of de actie klopt en of de informatie die gedeeld wordt passend is binnen die context.
Houd toezicht wanneer een agent actief is op een gevoelige site, zoals die van je bank. Dit is vergelijkbaar met het in de gaten houden van een zelfrijdende auto door je handen aan het stuur te houden.
Als je een agent een te brede instructie geeft, zoals 'bekijk mijn e-mails en onderneem alle nodige acties', geef je verborgen kwaadaardige inhoud meer kans om het model te misleiden. Dit geldt zelfs als het model is ontworpen om je te raadplegen voordat het gevoelige acties onderneemt.
Het is veiliger om je agent specifieke taken te geven en hem niet te veel vrijheid te gunnen, waardoor hij mogelijk schadelijke instructies uit andere bronnen (zoals e-mails) zou kunnen opvolgen. Hoewel dit geen garantie biedt dat er geen aanvallen zullen plaatsvinden, maakt het het wel moeilijker voor aanvallers om succesvol te zijn.
Naarmate AI-technologie zich ontwikkelt, zullen er nieuwe risico's en veiligheidsmaatregelen ontstaan. Volg updates van OpenAI en andere betrouwbare bronnen om op de hoogte te blijven van de best practices.
Prompt-injecties blijven een complex onderzoeksprobleem op onontgonnen terrein. Net als bij traditionele oplichting op het internet verwachten we dat ons werk hieraan nooit helemaal af zal zijn. Hoewel we nog niet hebben gezien dat aanvallers deze techniek op grote schaal toepassen, verwachten we dat kwaadwillenden veel tijd en middelen zullen investeren om manieren te vinden waarop AI's zich laten misleiden. We blijven zwaar investeren in de veiligheid van onze producten en in onderzoek om de weerbaarheid van AI tegen dit risico te vergroten. We zullen updates delen naarmate we meer leren, waaronder onze voortdurende vooruitgang op het gebied van beveiliging rondom dit thema. We werken bijvoorbeeld aan een rapport dat binnenkort verschijnt. Hierin staan meer details over hoe we detecteren of jouw AI via internetcommunicatie informatie uit je gesprek zou lekken.
Ons doel is om deze systemen net zo betrouwbaar en veilig te maken als je meest betrouwbare en beveiligingsbewuste collega of vriend. We blijven leren van het gebruik in de echte wereld, voeren veilige verbeteringen door en publiceren wat we leren naarmate de technologie voortschrijdt.


