Hopp til hovedinnhold
OpenAI

7. november 2025

Sikkerhet

Forståelse av promptinjeksjoner: en banebrytende sikkerhetsutfordring

KI-verktøy begynner å gjøre mer enn bare å svare på spørsmål. De kan nå surfe på nettet, hjelpe med forskning, planlegge reiser og bistå med å kjøpe produkter. Etter hvert som de blir mer kapable, med evnen til å få tilgang til dataene dine i andre apper og utføre handlinger på dine vegne, oppstår nye sikkerhetsutfordringer. En vi er sterkt fokusert på, er promptinjeksjon.

Et diagram som viser hvordan et promptinjeksjonsangrep fungerer. Til venstre er et ikon av en smilende bruker merket «Bruker ber KI om hjelp med en oppgave.» En pil peker mot midten der et ikon av en dataskjerm er merket «KI ser et nettsted med angrepet», og over det er en liten figur med hatt og et lurt smil merket «Angriperen satte inn promptinjeksjon.» En annen pil peker mot høyre og viser et dokumentikon med en advarselstrekant merket “KI lurt til utilsiktet handling.” Flyten demonstrerer hvordan en angriper kan manipulere KI gjennom injiserte prompter.

Hva er en promptinjeksjon?

Promptinjeksjon er en type sosial manipulasjonsangrep som er spesifikk for samtale-KI. Tidlige KI-systemer var samtaler mellom en enkelt bruker og en enkelt KI-agent. I dagens KI-produkter kan samtalen din inneholde innhold fra mange kilder, inkludert internett. Ideen om at en tredjepart (som verken er brukeren eller KI-en) kunne villede modellen ved å injisere ondsinnede instruksjoner i samtalekonteksten, førte til begrepet «promptinjeksjon».

På samme måte som phishing-e-poster eller svindel på nettet forsøker å lure folk til å gi fra seg sensitiv informasjon, forsøker promptinjeksjoner å lure KI til å utføre noe du ikke ba om.

Forestill deg at du har bedt en KI om å hjelpe deg med å gjøre research til en ferie på nettet, og støter på villedende innhold eller skadelige instruksjoner som er skjult på en nettside, for eksempel i en kommentar på en annonse eller i en anmeldelse Innholdet kan være nøye utformet for å forsøke å lure en KI til å anbefale feil annonse, eller enda verre, for å stjele dine kredittkortopplysninger.

Dette er bare noen få eksempler på «promptinjeksjon»-angrep—skadelige instruksjoner utformet for å lure en KI til å gjøre noe du ikke hadde til hensikt, ofte skjult i vanlig innhold som en nettside, et dokument eller en e-post.

Disse risikoene øker etter hvert som KI får tilgang til mer sensitive data og tar mer initiativ og påtar seg lengre oppgaver.

Sammendrag

Hva du ba KI om å gjøre

Hva angriperen gjør

Potensielt resultat hvis angrepet lykkes

Du ber en KI om å undersøke leiligheter, og den blir prompt-injisert til å anbefale en annonse som ikke er det beste alternativet for deg.

Du ber en KI om å undersøke leiligheter med noen gitte kriterier.

Angriperen har inkludert et promptinjeksjonsangrep i leilighetsannonsen for å lure KI til å tro at annonsen deres må velges uavhengig av brukerens oppgitte preferanser.

Hvis angrepet lykkes, kan KI feilaktig anbefale en boligannonse som ikke samsvarer med dine preferanser

Du ber en KI-agent om å svare på e-postene dine fra natten over, og den ender opp med å dele bankutskriftene dine.

Du ber en KI-agent om å svare generelt på e-postene dine fra natten over fordi du er opptatt i morges.

Se «Når det er mulig, gi en agent eksplisitte instruksjoner» nedenfor


Angriperen sendte deg en e-post som inneholder feilinformasjon som lurer modellen til å finne bankutskriftene dine og dele dem med angriperen.

Hvis angrepet lykkes, kan agenten lete etter noe som bankutskrifter i e-posten din (som du ga tilgang til for oppgaven) og dele dem med angriperen.

Vår tilnærming til å beskytte brukere

Å forsvare seg mot promptinjeksjon er en utfordring på tvers av KI-bransjen og et kjernefokus hos OpenAI. Selv om vi forventer at motstandere vil fortsette å utvikle slike angrep, bygger vi forsvar som er designet for å utføre brukerens tiltenkte oppgave selv når noen aktivt prøver å villede dem. Denne evnen er essensiell for trygt å realisere fordelene ved AGI.

For å beskytte brukerne våre og forbedre modellene våre mot disse angrepene, benytter vi en flerlags tilnærming, som inkluderer følgende:

Sikkerhetsopplæring

Vi ønsker KI som gjenkjenner promptinjeksjoner og ikke lar seg lure av dem. Imidlertid er robusthet mot fiendtlige angrep en vedvarende utfordring for maskinlæring og KI, noe som gjør dette til et vanskelig, uløst problem. Vi har utviklet en forskningsstudie kalt Instruksjonshierarki for å utvikle modeller som skiller mellom betrodde og ikke-betrodde instruksjoner. Vi fortsetter å utvikle nye tilnærminger for å trene modeller til å bedre gjenkjenne mønstre for promptinjeksjon, slik at de kan ignorere dem eller varsle brukerne. En av teknikkene vi bruker er automatisert red teaming, et område vi har studert(åpnes i et nytt vindu) i årevis, for å utvikle nye promptinjeksjonsangrep.

Overvåking

Vi har utviklet flere automatiserte, KI-drevne monitorer for å identifisere og blokkere promptinjeksjonsangrep. Disse utfyller sikkerhetsopplæringstilnærmingene fordi de kan oppdateres raskt for å blokkere eventuelle nye angrep vi avdekker raskt. Disse overvåkerne hjelper ikke bare med å identifisere potensielle promptinjeksjonsangrep mot brukerne våre, men kan også gjøre det mulig for oss å oppdage fiendtlig promptinjeksjonsforskning og -testing som bruker plattformen vår, før disse angrepene blir distribuert i det fri.

Sikkerhetsbeskyttelser

Vi har designet våre produkter og infrastruktur med ulike overlappende sikkerhetsbeskyttelser for å hjelpe til med å sikre brukerdata. Disse funksjonene, som vi vil utforske i mer teknisk detalj i fremtidige innlegg, er skreddersydd for hvert enkelt produkt. For eksempel, for å hjelpe deg med å unngå upålitelige nettsteder, vil vi be deg om å godkjenne visse lenker i ChatGPT, spesielt på nettsteder som ber oss om ikke å katalogisere dem(åpnes i et nytt vindu), før de kan besøkes. Når vår KI bruker verktøy for å kjøre andre programmer eller kode (som i Canvas eller utviklingsverktøyet vårt Codex), benytter vi en teknikk kalt sandkasseisolering for å forhindre at modellen gjør skadelige endringer som kan være et resultat av en promptinjeksjon.

Gi brukerne kontroll

Vi inkluderer innebygde kontrollfunksjoner i produktene våre for å hjelpe brukerne med å beskytte seg selv. For eksempel kan du i ChatGPT Atlas velge utlogget modus, som lar ChatGPT‑agenten starte oppgaver uten å være logget inn på nettsteder. ChatGPT‑agenten tar også en pause og ber om bekreftelse før den utfører sensitive handlinger, som å fullføre et kjøp. Når agenten opererer på sensitive nettsteder, har vi også implementert en «Overvåkingsmodus» som varsler deg om nettstedets sensitive natur og krever at du har fanen aktiv for å se agenten utføre arbeidet sitt. Agenten vil pause hvis du forlater fanen med sensitiv informasjon. Dette sikrer at du er oppmerksom – og har kontroll – over hvilke handlinger agenten utfører.

Red-teaming

Vi gjennomfører omfattende red-teaming med interne og eksterne team for å teste og forbedre forsvaret vårt, etterligne angriperatferd og finne nye måter å forbedre sikkerheten vår på. Dette inkluderer tusenvis av timer med fokus spesifikt på promptinjeksjon. Etter hvert som vi har oppdaget nye teknikker og angrep, håndterer teamene våre proaktivt sikkerhetssårbarheter og forbedrer våre modelltiltak.

Bug Bounty

For å oppmuntre uavhengige sikkerhetsforskere som handler i god tro til å hjelpe oss med å oppdage nye teknikker og angrep for promptinjeksjon, tilbyr vi økonomiske belønninger under vårt bug bounty-program(åpnes i et nytt vindu) når de viser en realistisk angrepsvei som kan føre til utilsiktet eksponering av brukerdata. Vi gir insentiver til eksterne bidragsytere for å raskt avdekke disse problemene, slik at vi kan løse dem og styrke vårt forsvar ytterligere.

La brukerne bestemme

Vi opplyser brukerne om risikoene ved å bruke visse funksjoner i produktet, slik at de kan ta informerte beslutninger. For eksempel, når du kobler ChatGPT til andre apper, forklarer vi hvilke data som kan bli tilgjengelige, hvordan de kan brukes, og hvilke risikoer som kan oppstå, som for eksempel at et nettsted prøver å stjele dataene dine, sammen med en lenke for å lære hvordan du kan være tryggere. Vi gir også organisasjoner kontroll over hvilke funksjoner som kan aktiveres eller brukes av brukere i arbeidsområdene deres.

Tiltak du kan ta for å være tryggere

promptinjeksjon er en banebrytende sikkerhetsutfordring som vi forventer vil fortsette å utvikle seg over tid. Nye nivåer av intelligens og kapasitet krever at teknologi, samfunn og risikoreduseringsstrategi samevolverer. Og som med datavirus på begynnelsen av 2000-tallet, mener vi at det er viktig at alle forstår trusselen fra promptinjeksjoner og hvordan man navigerer risikoen, slik at vi alle kan lære å dra nytte av denne teknologien på en trygg måte. Å være oppmerksom og utvise forsiktighet bidrar til å holde dataene dine sikrere når du bruker KI- og agentfunksjoner som kan handle på dine vegne.

Bruk innebygde funksjoner for å begrense tilgangen til sensitiv informasjon

Der det er mulig, begrens en agents tilgang til bare de sensitive dataene eller legitimasjonen den trenger for å fullføre oppgaven. For eksempel, når du bruker agentmodus i ChatGPT Atlas til å utføre ferieforskning, hvis agenten kun utfører forskning og ikke trenger innlogget tilgang, bruk «logget ut»-modus.

Når en agent ber om bekreftelse, må du nøye vurdere om den er i ferd med å gjøre det riktige.

Vi designer ofte agenter for å få en siste bekreftelse fra deg før de tar visse viktige handlinger som å fullføre et kjøp eller sende en e-post. Når en agent ber deg om å bekrefte en handling, må du nøye kontrollere at handlingen ser riktig ut, og at all informasjon som deles, er passende å dele i den konteksten.

Når en agent opererer på et sensitivt nettsted, som for eksempel banken din, bør du følge med mens agenten utfører arbeidet sitt. Dette er som å overvåke en selvkjørende bil ved å holde hendene på rattet.

Når det er mulig, gi en agent uttrykkelige instruksjoner

Å gi en agent en veldig bred instruksjon som "gå gjennom e-postene mine og ta nødvendige tiltak" kan gjøre det lettere for skjult ondsinnet innhold å villede modellen, selv om den er designet for å sjekke med deg før den utfører sensitive handlinger.

Det er tryggere å be agenten om å utføre spesifikke oppgaver, og ikke gi den stor frihet til potensielt å følge skadelige instruksjoner fra andre kilder, som e-poster. Selv om dette ikke garanterer at det ikke vil være angrep, gjør det det vanskeligere for angripere å lykkes.

Hold deg informert og følg beste praksis for sikkerhet

Etter hvert som KI-teknologien utvikler seg, vil nye risikoer og sikkerhetstiltak dukke opp. Følg med på oppdateringer fra OpenAI og andre pålitelige kilder for å lære om beste praksis.

Fremtidsutsikter

Promptinjeksjon forblir et banebrytende og utfordrende forskningsproblem, og akkurat som tradisjonelle svindler på nettet, forventer vi at arbeidet vårt vil fortsette. Selv om vi ennå ikke har sett betydelig bruk av denne teknikken blant angripere, forventer vi at motstandere vil bruke betydelig tid og ressurser på å finne måter å få KI til å falle for disse angrepene. Vi fortsetter å investere tungt i å gjøre produktene våre sikre og i forskning for å forbedre robustheten til KI mot denne risikoen. Vi vil dele oppdateringer etter hvert som vi lærer mer, inkludert pågående fremdrift i sikkerhetsarbeidet vårt på dette området. For eksempel utarbeider vi en rapport som vi snart vil publisere, som gir flere detaljer om hvordan vi oppdager om KI-ens kommunikasjon med internett kan overføre informasjon fra samtalen din.

Vårt mål er å gjøre disse systemene like pålitelige og sikre som å arbeide med din mest pålitelige og sikkerhetsbevisste kollega eller venn. Vi vil fortsette å lære av faktisk bruk, iterere trygt, og publisere det vi lærer etter hvert som teknologien utvikler seg.