Voortdurende versterking van ChatGPT Atlas tegen aanvallen met prompinjecties
Via geautomatiseerde red teaming op basis van reinforcement learning kunnen we proactief echte agent-exploits ontdekken en verhelpen voordat ze in de praktijk worden ingezet.
De agentmodus in ChatGPT Atlas is een van de meest algemeen inzetbare agentic functies die we tot nu toe hebben uitgebracht. In deze modus kan de browseragent webpagina's bekijken en handelingen, klikken en toetsaanslagen uitvoeren binnen je browser, net zoals jij dat zou doen. Zo kan ChatGPT rechtstreeks veel van je dagelijkse taken voor je uitvoeren met gebruik van dezelfde ruimte, context en data.
Naarmate de browseragent je helpt meer taken uit te voeren, wordt deze ook een waardevoller doelwit voor vijandige aanvallen. Dit maakt AI-beveiliging bijzonder belangrijk. Al sinds ruim voordat we ChatGPT lanceerden, zijn we voortdurend bezig met het opbouwen en versterken van beveiligingsmechanismen tegen opkomende dreigingen die specifiek gericht zijn op dit nieuwe model waarbij de agent in de browser is geïntegreerd. Promptinjectie is een van de meest significante risico's waartegen we actief beschermen, zodat ChatGPT Atlas veilig namens jou kan werken.
In dit kader hebben we onlangs een beveiligingsupdate naar de browseragent van Atlas verzonden, met een nieuw model dat is getraind om vijandige prompts te herkennen en versterkte omliggende beschermingsmaatregelen. We ontwikkelden deze update naar aanleiding van een nieuw soort aanvallen met promptinjecties, die aan het licht kwamen door onze interne geautomatiseerde red teaming.
In deze post leggen we uit hoe het risico op promptinjecties kan ontstaan voor web-agents en delen we een snelle reactieprocedure die we hebben ontwikkeld om voortdurend nieuwe aanvallen te ontdekken en snel maatregelen te treffen, zoals ook geïllustreerd door deze recente beveiligingsupdate.
Promptinjectieaanvallen vormen een langetermijnuitdaging voor AI-beveiliging, vergelijkbaar met de steeds nieuwe online scams die zich richten op mensen. We zullen dan ook voortdurend onze bescherming tegen dergelijke aanvallen moeten versterken. Onze nieuwste snelle reactiecyclus is een veelbelovend en cruciaal hulpmiddel bij die strijd: we ontdekken intern nieuwe aanvalstrategieën voordat ze in de praktijk zichtbaar worden. Onze langetermijnvisie is om volledig gebruik te maken van (1) onze white-box toegang tot onze modellen, (2) diepgaand inzicht in onze beveiliging, en (3) rekenkracht om externe aanvallers voor te blijven. Op deze wijze willen we exploits eerder vinden, mitigaties sneller implementeren en de cyclus continu aanscherpen. We combineren dit cumulatieve proces met grensverleggend onderzoek naar nieuwe technieken om promptinjecties aan te pakken en verhoogde investeringen in andere beveiligingsmaatregelen. Daardoor wordt het steeds moeilijker en duurder om nieuwe aanvallen uit te voeren en wordt het risico van daadwerkelijke promptinjecties aanzienlijk verkleind. Uiteindelijk is ons doel dat je erop kunt vertrouwen dat een ChatGPT‑agent je browser gebruikt zoals een zeer bekwame, beveiligingsbewuste collega of vriend dat zou doen.
Een promptinjectieaanval richt zich op AI-agents door kwaadaardige instructies op te nemen in de inhoud die de agent verwerkt. Die instructies zijn ontworpen om het gedrag van de agent te overschrijven of om te leiden, zodat de agent de intentie van een aanvaller volgt in plaats van die van de gebruiker.
Voor een browseragent zoals de agent binnen ChatGPT Atlas vormt promptinjectie een nieuwe dreigingsvector, naast traditionele webbeveiligingsrisico's (zoals gebruikersfouten of kwetsbaarheden in de software). In plaats van mensen te phishen of systeemkwetsbaarheden in de browser uit te buiten, richt de aanvaller zich op de agent in de browser.
Een aanvaller zou bijvoorbeeld een kwaadaardige e-mail kunnen sturen om een agent ertoe te bewegen het verzoek van de gebruiker te negeren en in plaats daarvan gevoelige belastingdocumenten door te sturen naar het e-mailadres van de aanvaller. Als een gebruiker de agent bijvoorbeeld vraagt om ongelezen e-mails te bekijken en de belangrijkste punten samen te vatten, kan die kwaadaardige e-mail in dat proces worden verwerkt. Als de geïnjecteerde instructies worden gevolgd, wijkt de agent af van de taak en wordt er gevoelige informatie gedeeld.
Dit is slechts één specifiek voorbeeld. Browseragents zijn nuttig dankzij hun algemene bruikbaarheid, maar daardoor ook kwetsbaarder. De agent kan immers vrijwel overal schadelijke instructies tegenkomen: in e-mails en bijlagen, in kalenderuitnodigingen, in gedeelde documenten, op forums, in socialmediaberichten en op willekeurige webpagina's. De agent kan veel van dezelfde handelingen als een gebruiker uitvoeren in een browser en daardoor kan de impact van een succesvolle aanval in principe net zo breed zijn: een gevoelige e-mail doorsturen, geld overmaken, bestanden in de cloud bewerken of verwijderen en meer.
Zoals we al deelden in een eerder bericht hebben we de beveiliging tegen promptinjecties verbeterd via meerdere beveiligingslagen. Promptinjectie blijft echter een open uitdaging voor agentveiligheid en we verwachten dat we hier nog jarenlang aan zullen moeten blijven werken.
Om onze verdediging te versterken, speuren we voortdurend naar nieuwe promptinjectieaanvallen tegen actieve agentsystemen. Alleen door deze aanvallen op te sporen, kunnen we robuuste maatregelen ontwikkelen; we krijgen inzicht in het reële risico, zien waar onze verdedigingen tekortschiet en kunnen concrete patches ontwikkelen.
Om dit op schaal te doen, hebben we een geautomatiseerde aanvaller op LLM-basis ontwikkeld en getraind om te zoeken naar promptinjectieaanvallen die met succes een browseragent kunnen aanvallen. We hebben deze aanvaller end-to-end getraind met reinforcement learning, zodat hij leert van zijn eigen successen en mislukkingen en zijn readteamingvaardigheden verbetert. We laten de aanvaller ook proefaanvallen uitvoeren: tijdens zijn redenering kan hij een kandidaat-injectie voorstellen en deze naar een externe simulator sturen. De simulator onderzoekt hoe het doelwit (de verdediger) zich zou gedragen als deze de injectie tegenkwam en retourneert een volledige redenering en handelingstrace van het doelwit. De aanvaller gebruikt die trace als feedback, herhaalt de aanval en voert de simulatie opnieuw uit. Deze cyclus wordt meerdere keren herhaald voordat de aanvaller een definitieve aanval inzet. Zo krijgt de aanvaller meer contextuele feedback dan via een enkele test waarbij het resultaat 'geslaagd' of 'mislukt' is. Daarnaast vergroot deze werkwijze de testrekenkracht van de aanvaller. Bovendien krijgt onze interne aanvaller een asymmetrisch voordeel dankzij de vertrouwelijke toegang tot de redeneringstraces (die we niet aan externe gebruikers onthullen), waardoor de kans groter wordt dat hij sterker is dan externe tegenstanders.
Waarom reinforcement learning (RL)? We hebben er om meerdere redenen voor gekozen de geautomatiseerde aanvaller te trainen met reïnforcement learning:
- Optimaliseren van langetermijndoelen en veranderende doelstellingen van aanvallers. Ons doel is om te zoeken naar promptinjectieaanvallen die de agent ertoe kunnen bewegen om geavanceerde vijandige taken uit te voeren (bijvoorbeeld e-mails verzenden, banktransacties verwerken) die in de echte wereld zouden kunnen plaatsvinden. Deze vijandige taken zijn inherent van lange duur, vereisen veel redeneringsstappen en interactie met de omgeving, met schaarse en vertraagde successignalen. Reinforcement learning sluit goed aan op deze spaarzame, vertraagde beloningsstructuur.
- Gebruikmaken van grensverleggende LLM-capaciteiten. We hebben grensverleggende LLM's rechtstreeks getraind als geautomatiseerde red-teamers, zodat aanvaller direct profiteert van verbeteringen in redenering en planning in grensverleggende modellen. Naarmate basismodellen sterker worden, wordt de aanvaller vanzelf ook sterker, waardoor dit een schaalbare manier is om druk op onze verdediging te houden terwijl onze modellen zich verder ontwikkelen.
- Rekenkracht opschalen en adaptieve aanvallers nabootsen. Reinforcement learning is erg geschikt voor het opschalen van de rekenkracht die wordt besteed aan het zoeken naar aanvallen over een groot aantal steekproeven en leercycli. Het weerspiegelt ook nauwkeurig hoe adaptieve menselijke aanvallers zich gedragen: iteratief strategieën uitproberen, leren van uitkomsten en succesvol gedrag herhalen.
Onze geautomatiseerde aanvaller kan nieuwe, realistische promptinjectieaanvallen van begin tot eind ontdekken. In tegenstelling tot de meeste eerdere geautomatiseerde redteamingwerkzaamheden, die eenvoudige fouten aan het licht brachten zoals het oproepen van specifieke uitvoerstrings of het activeren van een onbedoelde eenstaps-tooloproep van de agent, kan onze via RL getrainde aanvaller een agent ertoe brengen om geavanceerde, schadelijke langetermijnworkflows bestaande uit tientallen (of zelfs honderden) stappen uit te voeren. We hebben ook nieuwe aanvalstrategieën waargenomen die niet voorkwamen in onze menselijke redteamingcampagne of externe rapporten.
In de onderstaande demo presenteren we een concrete promptinjectie-exploit die is gevonden door onze geautomatiseerde aanvaller, die we vervolgens hebben gebruikt om de verdediging van ChatGPT Atlas verder te versterken. De aanvaller plant in de inbox van de gebruiker een kwaadaardige e-mail met een promptinjectie die de agent opdraagt een ontslagbrief naar de werkgever van de gebruiker te sturen. De agent komt deze e-mail later tegen tijdens de normale taakuitvoering, wanneer de gebruiker de agent vraagt om een afwezigheidsbericht op te stellen. De agent behandelt de geïnjecteerde prompt als gezaghebbend en volgt deze op. Het afwezigheidsbericht wordt nooit geschreven en de agent neemt in plaats daarvan ontslag namens de gebruiker.

1. De agent wordt om hulp gevraagd bij het beheren van e-mails

2. De agent opent de laatste ongelezen e-mail

3. De e-mail bevat kwaadaardige instructies

4. De agent stuurt onbedoeld een ontslagmail

5. Na onze beveiligingsupdate detecteert de agentmodus met succes een poging tot promptinjectie
De aard van promptinjectie maakt deterministische beveiligingsgaranties uitdagend, maar door onze geautomatiseerde beveiligingsonderzoeken op te schalen, te testen op vijandige signalen en onze snelle reactiecyclus aan te scherpen, kunnen we de robuustheid en verdediging van het model verbeteren. We hoeven dus niet te wachten op een aanval die in de praktijk plaatsvindt.
We delen deze demo om gebruikers en onderzoekers meer inzicht te geven in de aard van deze aanvallen en in onze actieve verdediging ertegen. Wij zijn ervan overtuigd dat dit nog maar het begin is van wat we met geautomatiseerde red teaming kunnen bereiken en we kijken er ontzettend naar uit ons onderzoek voort te zetten.
Onze geautomatiseerde red teaming vormt de basis van een proactieve snelle reactiecyclus: wanneer de geautomatiseerde aanvaller een nieuwe reeks succesvolle promptinjectieaanvallen ontdekt, maakt de aanvaller onmiddellijk een concreet doel voor het verbeteren van onze verdediging.
Training met vijandige instructies tegen nieuw ontdekte aanvallen. We trainen nieuwe agentmodellen voortdurend met behulp van onze beste geautomatiseerde aanvaller en geven prioriteit aan de aanvallen waar de doelagents op dit moment falen. Het doel is om agents te leren vijandige instructies te negeren en afgestemd te blijven op de intentie van de gebruiker, waardoor de weerstand tegen nieuw ontdekte promptinjectiestrategieën wordt verbeterd. Op deze manier verankeren we robuustheid tegen nieuwe, krachtige aanvallen direct in het modelcheckpoint. Zo hebben we via recente geautomatiseerde red teaming bijvoorbeeld een nieuw browseragent-checkpoint ontwikkeld dat al is geïmplementeerd voor alle gebruikers van ChatGPT Atlas. Hiermee beschermen we onze gebruikers beter tegen nieuwe soorten aanvallen.
Aanvalstraces gebruiken om de bredere verdedigingsstack te verbeteren. Veel aanvalspaden die door onze geautomatiseerde red teamer zijn ontdekt, onthullen ook verbeterkansen buiten het model zelf, zoals bij monitoring, veiligheidsinstructies die we in de context van het model plaatsen, of veiligheidsmaatregelen op systeemniveau. Die bevindingen helpen ons om de volledige verdedigingsstack te verbeteren, dus niet alleen het agent-checkpoint.
Reageren op actieve aanvallen. Deze cyclus kan ook helpen om beter te reageren op actieve aanvallen in de praktijk. Terwijl we ons wereldwijde netwerk onderzoeken op potentiële aanvallen, kunnen we de technieken en tactieken die we bij externe aanvallers waarnemen, in deze cyclus invoeren, hun activiteiten nabootsen en defensieve veranderingen doorvoeren op ons platform.
Door vaker red teaming in te zetten om agents veiliger te maken en onze beste modellen te gebruiken om delen van dat werk te automatiseren, kunnen we het proces van ontdekking tot oplossing verbeteren en de Atlas-browseragent weerbaarder maken. Deze werkwijze is gebaseerd op een bewezen beveiligingsles: door productieve systemen voortdurend op de proef te stellen, te reageren op mislukkingen en concrete oplossingen te leveren, kom je tot een betere beveiliging.
We verwachten dat aanvallers zich blijven ontwikkelen. Het is onwaarschijnlijk dat promptinjectie, net als scams en social engineering op het web, ooit volledig zullen verdwijnen. Maar we zijn ervan overtuigd dat een proactief, snel reactieproces de reële risico's in de loop van de tijd aanzienlijk kan beperken. Door geautomatiseerde aanvalsopsporing te combineren met training op basis van schadelijke invoer en veiligheidsmaatregelen op systeemniveau, kunnen we nieuwe aanvalspatronen eerder identificeren, lekken sneller dichten en de kosten van exploitatie voortdurend verhogen.
De agentmodus in ChatGPT Atlas is krachtig, maar breidt ook het dreigingsoppervlak uit. Helder inzicht in die afweging is een onderdeel van verantwoorde ontwikkeling. Ons doel is om Atlas bij elke iteratie aanzienlijk veiliger te maken: de robuustheid van het model verbeteren, de omliggende verdedigingsstructuur versterken en alert zijn op opkomende misbruikpatronen in de praktijk.
We gaan door met investeren in onderzoek en implementatie, het ontwikkelen van betere geautomatiseerde redteaming-methoden, het implementeren van gelaagde mitigaties en het snel itereren naarmate we leren. Daarnaast delen we wat we kunnen met de bredere community.
We gaan door met het versterken van Atlas op systeemniveau, maar er zijn ook stappen die gebruikers kunnen nemen om het risico van het gebruik van agents te verminderen.
Beperk de toegang tot aangemelde omgevingen waar mogelijk. We blijven gebruikers aanbevelen om gebruik te maken van de afgemelde modus(opent in een nieuw venster) wanneer ze de agent in Atlas gebruiken, wanneer toegang tot websites waarbij je bent aangemeld niet nodig is voor de taak, of om de toegang tot specifieke sites waarbij je je aanmeldt tijdens de taak te beperken.
Beoordeel bevestigingsverzoeken zorgvuldig. Bij bepaalde belangrijke handelingen, zoals het voltooien van een aankoop of het versturen van een e-mail, zullen agents je om je bevestiging vragen voordat ze doorgaan. Wanneer een agent je vraagt om een handeling te bevestigen, neem dan even de tijd om te verifiëren of de handeling correct is en of de gedeelde informatie past in die context.
Geef agents waar mogelijk expliciete instructies. Vermijd te brede prompts zoals "controleer mijn e-mails en onderneem de nodige acties". Met veel speelruimte wordt het voor verborgen of schadelijke content makkelijker om de agent te beïnvloeden, zelfs wanneer er beschermingsmaatregelen zijn getroffen. Het is veiliger om de agent te vragen specifieke, goed afgebakende taken uit te voeren. Hiermee neem je het risico niet volledig weg, maar worden de aanvallen wel lastiger uit te voeren.
Als we agents willen inzetten als betrouwbare partners voor alledaagse taken, moeten ze bestand zijn tegen de soorten manipulatie waartoe het open web mogelijkheden biedt. Een verbeterde beveiliging tegen promptinjectie is een langetermijnuitdaging en een van onze topprioriteiten. We zullen binnenkort meer over dit werk met je delen.


