Gå direkt till huvudinnehåll
OpenAI

7 november 2025

Säkerhet

Förstå promptinjektioner: En banbrytande säkerhetsutmaning

AI-verktyg börjar göra mer än att bara svara på frågor. De kan nu surfa på webben, hjälpa till med forskning, planera resor och assistera vid köp av produkter. När de blir mer kapabla, med möjlighet att komma åt dina data i andra appar och vidta åtgärder å dina vägnar, uppstår nya säkerhetsutmaningar. En utmaning som vi lägger fokus på är promptinjektion.

Ett diagram som illustrerar hur en promptinjektion fungerar. Till vänster finns en ikon av en leende användare med texten ”Användare ber AI om hjälp med en uppgift.” En pil pekar mot mitten, där en datorskärmsikon är märkt ”AI ser en webbplats med angreppet”, och ovanför den syns en liten figur med hatt och ett snett leende märkt ”Angriparen har infogat en promptinjektion”. En annan pil leder åt höger och visar en dokumentikon med en varningstriangel märkt ”AI lurad att utföra en oavsiktlig åtgärd”. Flödet visar hur en angripare kan manipulera AI genom injicerade Prompter.

Vad är en promptinjektion?

Promptinjektion är en typ av social ingenjörskonst som är specifik för konversationsbaserad AI. De tidiga AI-systemen var konversationer mellan en enskild användare och en enskild AI-agent. I dagens AI-produkter kan samtal innehålla material från flera källor, inklusive internet. Idén att en tredje part (som varken är användaren eller AI:n) skulle kunna vilseleda modellen genom att infoga skadliga instruktioner i konversationskontexten ledde till begreppet ”promptinjektion”.

På samma sätt som nätfiskemejl eller bedrägerier på webben försöker lura människor att lämna ut känslig information, försöker promptinjektioner lura AI att göra något du inte har bett om.

Tänk dig att du har bett en AI att hjälpa dig med att söka information om semestrar online, och medan den gör det stöter den på vilseledande innehåll eller skadliga instruktioner som är dolda på en webbsida, till exempel i en kommentar till en annons eller en recension. Innehållet kan vara noggrant utformat i ett försök att lura en AI att rekommendera fel annons, eller ännu värre, att stjäla dina kreditkortsuppgifter.

Detta är bara några exempel på ”promptinjektionsangrepp” – skadliga instruktioner som är utformade för att lura en AI att göra något du inte avsett, ofta dolda i vanligt innehåll som en webbsida, ett dokument eller ett e-postmeddelande.

Dessa risker ökar i takt med att AI får tillgång till mer känslig information och tar på sig fler initiativ och längre uppgifter.

Sammanfattning

Vad du bad AI:n att göra

Vad angriparen gör

Möjligt resultat om angreppet lyckas

Du ber en AI att söka efter lägenheter, och den rekommenderar omedelbart en annons som inte är det bästa alternativet för dig.

Du ber en AI att söka efter lägenheter med vissa givna kriterier.

Angriparen har inkluderat ett promptinjektionsangrepp i lägenhetsannonsen för att lura AI:n att tro att deras annons måste väljas oavsett användarens angivna preferenser.

Om angreppet lyckas kan AI:n felaktigt rekommendera en suboptimal lägenhetsannons baserat på dina preferenser.

Du ber en AI-agent att svara på dina e-postmeddelanden från kvällen, och det slutar med att den delar dina kontoutdrag.

Du ber en AI-agent att svara på dina e-postmeddelanden från kvällen eftersom du är upptagen på morgonen.

Se ”Ge en agent uttryckliga instruktioner när det är möjligt” nedan


Angriparen skickade ett e-postmeddelande som innehåller felaktig information som lurar modellen att hitta dina bankutdrag och dela dem med angriparen.

Om angreppet lyckas kan agenten söka efter något som liknar bankutdrag i din e-post (som du gav tillgång till för uppgiften) och dela dem med angriparen.

Vår strategi för att skydda användare

Försvar mot promptinjektion är en utmaning för hela AI-branschen och ett centralt fokusområde för OpenAI. Vi förväntar oss att skadliga aktörer kommer att fortsätta utveckla sådana angrepp, men vi bygger upp försvar som är utformade för att utföra användarens avsedda uppgift även när någon aktivt försöker vilseleda dem. Denna förmåga är avgörande för att på ett säkert sätt kunna realisera fördelarna med AGI.

Vi tillämpar en flerskiktad strategi för att skydda våra användare och förbättra våra modeller mot dessa angrepp. Den omfattar bland annat följande:

Säkerhetsutbildning

Vi vill ha AI som känner igen promptinjektioner och inte faller för dem. Robusthet mot angrepp är dock en långvarig utmaning för maskininlärning och AI, vilket gör detta till ett svårt, olöst problem. Vi har utvecklat en undersökning som heter instruktionshierarki för att arbeta fram modeller som skiljer mellan instruktioner som är tillförlitliga och sådana som inte är det. Vi fortsätter att utveckla nya metoder för att träna modellerna att bättre känna igen snabba injektionsmönster så att de kan ignorera dem eller flagga dem för användarna. En av de tekniker vi använder är automatiserad red teaming, ett område som vi har studerat(öppnas i ett nytt fönster) i flera år, för att utveckla nya promptinjektionsangrepp.

Övervakning

Vi har utvecklat flera automatiserade AI-drivna monitorer för att identifiera och blockera promptinjektionsangrepp. Dessa kompletterar säkerhetsutbildningsmetoderna eftersom de kan uppdateras snabbt för att omedelbart blockera nya angrepp som vi upptäcker. Dessa övervakningssystem hjälper inte bara till att identifiera potentiella promptinjektionsangrepp mot våra användare, utan kan också göra det möjligt för oss att upptäcka fientlig forskning och testning av promptinjektion på vår plattform innan sådana angrepp släpps i det fria.

Säkerhetsskyddsåtgärder

Vi har utformat våra produkter och vår infrastruktur med olika överlappande säkerhetsskydd för att skydda användarnas data. Dessa funktioner, som vi kommer att utforska mer i teknisk detalj i framtida inlägg, är anpassade för varje produkt. Till exempel ber vi dig, för att hjälpa dig att undvika opålitliga webbplatser, att godkänna vissa länkar i ChatGPT innan de kan öppnas, särskilt på webbplatser som har bett oss att inte indexera dem(öppnas i ett nytt fönster). När vår AI använder verktyg för att köra andra program eller kod (som i Canvas eller vårt utvecklingsverktyg Codex) använder vi en teknik som kallas sandboxing för att förhindra att modellen gör skadliga ändringar som kan vara resultatet av en promptinjektion.

Ge användarna kontroll

Vi har inbyggda kontroller i våra produkter för att hjälpa användare att skydda sig. I ChatGPT Atlas kan du till exempel välja utloggat läge, vilket gör att ChatGPT‑agenten kan starta uppgifter utan att vara inloggad på webbplatser. ChatGPT‑agenten pausar också och ber om bekräftelse innan känsliga åtgärder vidtas, såsom att slutföra ett köp. När agenten arbetar på känsliga webbplatser har vi också implementerat ett ”övervakningsläge” som varnar dig om webbplatsens känsliga natur och kräver att du har fliken aktiv för att kunna övervaka agentens arbete. Agenten kommer att pausa om du lämnar fliken med känslig information. Detta säkerställer att du är medveten om och har kontroll över vilka åtgärder agenten utför.

Red teaming

Vi genomför omfattande red teaming med interna och externa team för att testa och förbättra våra försvar, efterlikna angripares beteende och hitta nya sätt att förbättra vår säkerhet. Detta inkluderar tusentals timmar som fokuserar specifikt på promptinjektion. I takt med att vi har upptäckt nya tekniker och angrepp hanterar våra team proaktivt säkerhetsproblem och förbättrar våra modellåtgärder.

Sårbarhetsbelöning

Som ett led i att uppmuntra oberoende säkerhetsforskare som agerar i god tro att hjälpa oss att upptäcka nya promptinjektionstekniker och angrepp erbjuder vi ekonomiska belöningar inom ramen för vårt bug bounty-program(öppnas i ett nytt fönster) när de påvisar en realistisk angreppsväg som kan leda till oavsiktlig exponering av användardata. Vi uppmuntrar externa bidragsgivare att snabbt lyfta fram dessa problem så att vi kan lösa dem och ytterligare stärka våra försvar.

Låt användare bestämma

Vi informerar användarna om riskerna med att använda vissa funktioner i produkten så att de kan fatta välgrundade beslut. Till exempel förklarar vi, när du kopplar ChatGPT till andra appar, vilka uppgifter som kan nås, hur de kan användas och vilka risker som kan uppstå, till exempel att en webbplats försöker stjäla dina data, samt tillhandahåller en länk med information om hur du kan vara säkrare. Vi ger också organisationer kontroll över vilka funktioner som kan aktiveras eller användas av användare i deras arbetsytor.

Åtgärder du kan vidta för att öka din säkerhet

Promptinjektion är en ny säkerhetsutmaning som vi förväntar oss kommer att fortsätta utvecklas över tid. Nya nivåer av intelligens och kapacitet kräver att tekniken, samhället och strategin för riskminimering utvecklas parallellt. Och precis som med datorvirus i början av 2000-talet anser vi att det är viktigt att alla förstår hotet från promptinjektioner och hur man hanterar risken, så att vi alla kan dra nytta av denna teknik på ett säkert sätt. Medvetenhet och försiktighet bidrar till att skydda dina uppgifter när du använder AI och agentfunktioner som kan agera för din räkning.

Använd inbyggda funktioner för att begränsa åtkomst till känsliga data

Begränsa om möjligt en agents åtkomst till endast de känsliga uppgifter eller inloggningsuppgifter som behövs för att utföra uppgiften. Om du till exempel använder agentläget i ChatGPT Atlas för att göra semesterundersökningar och agenten endast utför undersökningar och inte behöver vara inloggad, använd då läget ”utloggad”.

När en agent begär bekräftelse ska du noggrant kontrollera att den är på väg att göra rätt sak

Vi utformar ofta agenter så att de begär en slutgiltig bekräftelse från dig innan de vidtar vissa åtgärder, såsom att slutföra ett köp eller skicka ett e-postmeddelande. När en agent ber dig bekräfta en åtgärd, kontrollera noggrant att åtgärden ser korrekt ut och att all information som delas är lämplig att dela i det sammanhanget.

När en agent arbetar på en känslig webbplats, till exempel din bank, kan du övervaka agentens arbete. Detta är som att övervaka en självkörande bil genom att hålla händerna på ratten.

Ge en agent uttryckliga instruktioner när det är möjligt

En mycket bred instruktion till en agent, såsom ”granska mina e-postmeddelanden och vidta de åtgärder som behövs”, kan göra det lättare för dold skadlig information att vilseleda modellen, även om den är utformad för att kontrollera med dig innan den utför känsliga åtgärder.

Det är säkrare att be din agent att göra specifika saker och inte ge den stor frihet att eventuellt följa skadliga instruktioner från andra källor, såsom e-postmeddelanden. Även om detta inte garanterar att det inte kommer att ske några angrepp, blir det svårare för angripare att lyckas.

Håll dig informerad och följ bästa praxis för säkerhet

När AI-tekniken utvecklas kommer nya risker och skyddsåtgärder att framträda. Följ uppdateringar från OpenAI och andra betrodda källor för att lära om bästa praxis.

En blick in i framtiden

Promptinjektion är ett framväxande och utmanande forskningsområde, och precis som med traditionella bedrägerier på webben räknar vi med att arbetet kommer att vara fortlöpande. Även om vi ännu inte har sett någon omfattande användning av denna teknik av angripare förväntar vi oss att motståndare kommer att lägga betydande tid och resurser på att hitta sätt att få AI-system att falla för dessa angrepp. Vi fortsätter att investera kraftigt i att säkerställa våra produkters säkerhet och i forskning för att stärka AI:s motståndskraft mot denna risk. Vi kommer att dela uppdateringar när vi får mer information, inklusive kontinuerliga framsteg i vårt säkerhetsarbete inom detta område. Vi håller till exempel på att ta fram en rapport som vi snart kommer att publicera, där vi ger mer information om hur vi upptäcker om din AI:s kommunikation med internet skulle överföra information från dina konversationer.

Vårt mål är att göra dessa system lika tillförlitliga och säkra som att arbeta med en pålitlig och säkerhetsmedveten kollega eller vän. Vi kommer att fortsätta lära oss från verklig användning, iterera säkert och publicera våra lärdomar i takt med att tekniken utvecklas.