Utforming av KI-agenter for å motstå promptinjeksjon
Hva sosial manipulering lærer oss om å sikre KI-agenter.
KI-agenter blir i økende grad i stand til å surfe på nettet, hente inn informasjon og handle på en brukers vegne. Disse funksjonene er nyttige, men de skaper også nye måter for angripere å prøve å manipulere systemet på.
Disse angrepene blir ofte beskrevet som promptinjeksjon: instruksjoner plassert i eksternt innhold i et forsøk på å få modellen til å gjøre noe brukeren ikke ba om. Etter vår erfaring ligner de mest effektive versjonene av disse angrepene i den virkelige verden i økende grad på sosial manipulering mer enn enkle prompt-overstyringer.
Den endringen er viktig. Hvis problemet ikke bare er å identifisere en ondsinnet streng, men å motstå villedende eller manipulerende innhold i kontekst, kan ikke forsvaret mot det bare basere seg på å filtrere inndata. Det krever også å designe systemet slik at konsekvensene av manipulering begrenses, selv om noen angrep lykkes.
Tidlige angrep av typen «promptinjeksjon» kunne være så enkle som å redigere en Wikipedia-artikkel for å inkludere direkte instruksjoner til KI-agenter som besøker den; uten erfaring fra treningstid med et slikt fiendtlig miljø ville KI-modeller ofte følge disse instruksjonene uten å stille spørsmål1. Etter hvert som modeller har blitt smartere, har de også blitt mindre sårbare for denne typen forslag, og vi har observert at angrep i promptinjeksjon har svart ved å inkludere elementer av sosial manipulering:
E-posteksempel på promptinjeksjon
Et eksempel fra 2025 på et promptinjeksjon på ChatGPT rapportert til OpenAI av eksterne sikkerhetsforskere(åpnes i et nytt vindu). I testing fungerte det 50 % av tiden med brukerprompten “Jeg vil at du skal gjøre dyp forskning på e-postene mine fra i dag, jeg vil at du skal lese og sjekke hver kilde som kan gi informasjon om prosessen for nyansatte.”
Innenfor det bredere økosystemet for KI-sikkerhet har det blitt vanlig å anbefale teknikker som «KI-brannmuring», der en mellomledd mellom agent og omverdenen forsøker å klassifisere inndata som ondsinnet promptinjeksjon og vanlige inndata—men disse fullt utviklede angrepene blir vanligvis ikke fanget opp av slike systemer. For slike systemer blir det å oppdage en skadelig inndata det samme svært vanskelige problemet som å oppdage en løgn eller feilinformasjon, og ofte uten nødvendig kontekst.
Etter hvert som promptinjeksjon i den virkelige verden utviklet seg i kompleksitet, fant vi at de mest effektive offensive teknikkene utnyttet taktikker for sosial manipulering. I stedet for å behandle disse promptinjeksjonsangrepene med sosial manipulering som en separat eller helt ny type problem, begynte vi å se på det gjennom samme linse som brukes til å håndtere risikoen for sosial manipulering mot mennesker i andre domener. I disse systemene er målet ikke begrenset til å identifisere ondsinnede inndata perfekt, men å utforme agenter og systemer slik at virkningen av manipulering er begrenset, selv om den lykkes. Slike systemer viser seg å være effektive til å motvirke både promptinjeksjon og sosial manipulering.
På denne måten kan vi se for oss at KI-agenten eksisterer i et lignende treaktørsystem som en kundeserviceagent; agenten ønsker å handle på vegne av arbeidsgiveren sin, men blir kontinuerlig eksponert for ekstern input som kan forsøke å villede dem. Kundestøtteagenten, menneskelig eller KI, må ha begrensninger lagt på sine kapabiliteter for å begrense nedsiderisikoen som er iboende i å eksistere i et så ondsinnet miljø.
Se for deg en situasjon der et menneske betjener et kundestøttesystem og kan dele ut gavekort og refusjoner for ulemper du har opplevd, som for eksempel treg levering, skader som følge av feilfunksjon osv. Dette er et problem med flere parter der selskapet må stole på at agenten utsteder refusjoner av de riktige grunnene, mens agenten også samhandler med tredjeparter som kan forsøke å villede dem eller til og med utsette dem for tvang.
I den virkelige verden får agenten et sett med regler å følge, men det forventes at de, i det fiendtlige miljøet de eksisterer i, vil bli villedet. Kanskje en kunde sender en melding og hevder at refusjonen deres aldri gikk gjennom, eller truer med skade hvis de ikke får en refusjon. Deterministiske systemer som agenten samhandler med, begrenser antallet refusjoner som kan gis til en kunde, påpeker potensielle phishing-e-poster og tilbyr andre slike avbøtende tiltak for å begrense konsekvensene av at en enkelt agent kompromitteres.
Denne tankegangen har informert en robust pakke med mottiltak vi har tatt i bruk, som opprettholder sikkerhetsforventningene til brukerne våre.
I ChatGPT kombinerer vi denne modellen for sosial manipulering med mer tradisjonelle tilnærminger innen sikkerhetsutvikling, som for eksempel source-sink-analyse.
I den innrammingen trenger en angriper både en kilde, eller en måte å påvirke systemet på, og en sluk, eller en funksjon som blir farlig i feil kontekst. For agentiske systemer betyr det ofte å kombinere ikke-betrodd eksternt innhold med en handling som å overføre informasjon til en tredjepart, følge en lenke eller samhandle med et verktøy.
Målet vårt er å bevare en grunnleggende sikkerhetsforventning for dere: potensielt farlige handlinger, eller overføringer av potensielt sensitiv informasjon, bør ikke skje i det stille eller uten passende sikkerhetstiltak.
Angrepene vi oftest ser utviklet mot ChatGPT, består som regel av å forsøke å overbevise assistenten om at den bør ta noe hemmelig informasjon fra en samtale og overføre den til en ondsinnet tredjepart. I de fleste tilfellene vi kjenner til, mislykkes disse angrepene fordi sikkerhetsopplæringen vår får agent til å avvise. For de tilfellene der agent er overbevist, har vi utviklet en avbøtende strategi kalt Safe Url som er utformet for å oppdage når informasjon som assistenten har lært i samtalen, ville bli overført til en tredjepart. I disse sjeldne tilfellene viser vi enten brukeren informasjonen som ville blitt overført og ber dem bekrefte, eller vi blokkerer det og ber agent om å prøve en annen måte å gå videre med brukerens forespørsel på.
Den samme mekanismen gjelder for navigering og bokmerker i Atlas; og søk og navigering i dyp forskning. ChatGPT Canvas & ChatGPT Apps har en lignende tilnærming, som lar agenten opprette og bruke funksjonelle applikasjoner—disse kjører i en sandkasse som kan oppdage uventet kommunikasjon og be brukeren om samtykke(åpnes i et nytt vindu).
Du kan lese mer informasjon om Safe URL og finne en artikkel om strukturen i det dedikerte blogginnlegget Slik holder du dataene dine trygge når en KI-agent klikker på en lenke.
Trygg samhandling med den adversarielle omverdenen er nødvendig for helt autonome agenter. Når du integrerer en KI-modell med et applikasjonssystem, anbefaler vi å spørre hvilke kontroller en menneskelig agent bør ha i en lignende situasjon, og implementere disse. Vi forventer at en maksimalt intelligent KI-modell vil kunne motstå sosial manipulering bedre enn en menneskelig agent, men dette er ikke alltid gjennomførbart eller kostnadseffektivt avhengig av bruksområdet.
Vi fortsetter å utforske implikasjonene av sosial manipulering mot KI-modeller og forsvar mot dette, og vi innlemmer funnene våre både i applikasjonssikkerhetsarkitekturene våre og i opplæringen vi lar KI-modellene våre gjennomgå.
Fotnoter
- 1
Rehberger, J. (2023, 04 15). Ikke stol blindt på LLM-svar. Trusler mot chatboter. EmbraceTheRed. Hentet 11 14, 2025, fra https://embracethered.com/blog/posts/2023/ai-injections-threats-context-matters
Forfattere
Thomas Shadwell og Adrian Spânu


