Utforma AI-agenter för att stå emot Promptinjektion
Vad social manipulation lär oss om att säkra AI-agenter.
AI-agenter blir allt bättre på att surfa på webben, hämta information och vidta åtgärder för användarens räkning. Dessa funktioner är användbara, men de skapar också nya möjligheter för angripare att försöka manipulera systemet.
Dessa attacker beskrivs ofta som promptinjektion: instruktioner som placeras i externt innehåll i ett försök att få modellen att göra något som användaren inte har bett om. Enligt vår erfarenhet liknar de mest effektiva versionerna av dessa attacker i verkligheten i allt högre grad social manipulation snarare än enkla prompt-åsidosättningar.
Denna förändring är viktig. Om problemet inte bara handlar om att identifiera en skadlig sträng, utan om att motstå vilseledande eller manipulativt innehåll i sitt sammanhang, kan man inte förlita sig enbart på att filtrera indata för att skydda sig mot det. Det kräver också att systemet utformas så att effekterna av manipulation begränsas, även om vissa attacker lyckas.
Tidiga attacker av typen ”promptinjektion” kunde vara så enkla som att redigera en Wikipedia-artikel för att inkludera direkta instruktioner till AI-agenter som besöker den; utan erfarenhet från träningen av en sådan fientlig miljö skulle AI-modellerna ofta följa dessa instruktioner utan att ifrågasätta dem1. I takt med att modellerna har blivit smartare har de också blivit mindre känsliga för den här typen av påverkan, och vi har kunnat konstatera att attacker av typen ”promptinjektion” har anpassats genom att man införlivat inslag av social manipulation:
E-postexempel på promptinjektion
Ett exempel från 2025 på en Promptinjektion mot ChatGPT som rapporterades till OpenAI av externa säkerhetsforskare(öppnas i ett nytt fönster). Vid testning fungerade det 50% av gångerna med användarprompten “Jag vill att du utför djup forskning på mina e-postmeddelanden från i dag, jag vill att du läser och kontrollerar varje källa som kan tillhandahålla information om min process för nyanställda.”
Inom det bredare ekosystemet för AI-säkerhet har det blivit vanligt att rekommendera tekniker som ”AI-brandväggar”, där en mellanhand mellan AI-agenten och omvärlden försöker klassificera indata som antingen skadlig promptinjektion eller vanliga indata – men sådana system lyckas vanligtvis inte upptäcka fullt utvecklade attacker. För sådana system blir det lika svårt att upptäcka skadlig indata som att upptäcka lögner eller felaktig information, och ofta saknas dessutom nödvändigt sammanhang.
I takt med att de verkliga attackerna med promptinjektion blev allt mer komplexa, upptäckte vi att de mest effektiva angreppsteknikerna utnyttjade social manipulation. I stället för att betrakta dessa promptinjektion-attacker med social manipulation som en separat eller helt ny typ av problem, började vi se på dem ur samma perspektiv som används för att hantera risker kopplade till social manipulation riktad mot människor inom andra områden. I dessa system är målet inte enbart att identifiera skadliga indata på ett felfritt sätt, utan att utforma agenter och system så att effekterna av manipulation begränsas, även om den lyckas. Sådana system har visat sig vara effektiva när det gäller att motverka både promptinjektion och social manipulation.
På så sätt kan vi föreställa oss AI-agenten som en del av ett liknande system med tre aktörer, precis som en kundtjänstmedarbetare; agenten vill agera på sin arbetsgivares vägnar, men utsätts ständigt för yttre påverkan som kan försöka vilseleda den. Kundtjänstmedarbetaren, oavsett om det är en människa eller AI, måste ha begränsningar i sina funktioner för att minska den risk som är förknippad med att verka i en sådan illvillig miljö.
Föreställ dig en situation där en person sköter kundtjänsten och kan dela ut presentkort och erbjuda återbetalning för besvär som kunden har upplevt, till exempel försenad leverans, skador till följd av funktionsfel och så vidare. Detta är ett problem med flera parter där företaget måste lita på att ombudet utbetalar återbetalningar av rätt skäl, samtidigt som ombudet också samverkar med tredje parter som kan ha för avsikt att vilseleda dem eller till och med utsätta dem för påtryckningar.
I verkligheten får agenten en uppsättning regler att följa, men man räknar med att den kommer att vilseledas i den fientliga miljö där den verkar. Det kan hända att en kund skickar ett meddelande där hen hävdar att återbetalningen aldrig har gått igenom, eller hotar med våld om hen inte får pengarna tillbaka. De deterministiska system som agenten interagerar med begränsar storleken på de återbetalningar som kan göras till en kund, varnar för potentiella nätfiskemejl och tillhandahåller andra liknande skyddsåtgärder för att begränsa konsekvenserna av att en enskild agent utsätts för intrång.
Denna inställning har legat till grund för den omfattande uppsättning motåtgärder som vi har infört för att uppfylla våra användares förväntningar på säkerheten.
I ChatGPT kombinerar vi denna modell för social manipulation med mer traditionella säkerhetstekniska metoder, såsom käll-mottagaranalys.
I det sammanhanget behöver en angripare både en källa, det vill säga ett sätt att påverka systemet, och en mottagare, det vill säga en funktion som kan bli farlig i fel sammanhang. När det gäller agentbaserade system innebär det ofta att man kombinerar opålitligt externt innehåll med en åtgärd, till exempel att vidarebefordra information till en tredje part, följa en länk eller interagera med ett verktyg.
Vårt mål är att upprätthålla en grundläggande säkerhetsförväntning hos användarna: potentiellt farliga åtgärder eller överföringar av potentiellt känslig information bör inte ske i det tysta eller utan lämpliga skyddsåtgärder.
De attacker som vi oftast ser riktas mot ChatGPT går ut på att försöka övertyga assistenten om att den ska hämta viss hemlig information från en konversation och vidarebefordra den till en illvillig tredje part. I de flesta fall som vi känner till misslyckas dessa attacker eftersom vår säkerhetsutbildning får agenten att vägra. För de fall där assistenten är övertygad har vi utvecklat en riskbegränsningsstrategi som kallas Safe Url, vilken är utformad för att upptäcka när information som assistenten har fått kännedom om under samtalet skulle överföras till en tredje part. I dessa sällsynta fall visar vi antingen användaren vilken information som skulle skickas och ber denne bekräfta, eller så blockerar vi överföringen och uppmanar handläggaren att försöka lösa användarens förfrågan på ett annat sätt.
Samma mekanism gäller för navigeringar och bokmärken i Atlas; samt sökningar och navigeringar i djup forskning. ChatGPT Canvas och ChatGPT Apps har ett liknande tillvägagångssätt och låter agenten skapa och använda funktionella applikationer - dessa körs i en sandlåda som kan upptäcka oväntad kommunikation och be användaren om sitt samtycke(öppnas i ett nytt fönster).
Du kan läsa mer information om Safe Url och hitta en rapport om dess struktur i dess dedikerade blogginlägg Håll dina data säkra när en AI-agent klickar på en länk.
För att agenter ska kunna fungera helt autonomt krävs det att de kan interagera på ett säkert sätt med den fientliga omvärlden. När man integrerar en AI-modell i ett applikationssystem rekommenderar vi att man funderar över vilka kontrollmöjligheter en mänsklig operatör bör ha i en liknande situation och implementerar dessa. Vi förväntar oss att en AI-modell med maximal intelligens kommer att kunna motstå social manipulation bättre än en mänsklig aktör, men beroende på tillämpningen är detta inte alltid genomförbart eller kostnadseffektivt.
Vi fortsätter att undersöka konsekvenserna av social manipulation riktad mot AI-modeller samt hur man kan skydda sig mot den, och integrerar våra slutsatser både i våra arkitekturer för applikationssäkerhet och i den träning som våra AI-modeller genomgår.
Fotnoter
- 1
Rehberger, J. (2023-04-15). Lita inte blint på LLM-svar. Hot mot chattbotar. EmbraceTheRed. Hämtad 2025-11-14 från https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Författare
Thomas Shadwell, Adrian Spânu



Socialteknik och AI-agenter