Hopp til hovedinnhold
OpenAI

22. desember 2025

Sikkerhet

Kontinuerlig styrking av ChatGPT Atlas mot prompt-injeksjon

Automatisert red teaming – drevet av forsterkende læring – hjelper oss med å proaktivt oppdage og tette reelle agentutnyttelser før de blir våpenisert i det fri.

Laster inn …

Agentmodus i ChatGPT Atlas er en av de mest allsidige agentfunksjonene vi har lansert til nå. I denne modusen ser nettleseragenten på nettsider og utfører handlinger, klikk og tastetrykk i nettleseren din, akkurat som du ville gjort. Dette gjør at ChatGPT kan jobbe direkte med mange av dine daglige arbeidsflyter ved å bruke samme rom, kontekst og data.

Etter hvert som nettleseragenten hjelper deg med å få mer gjort, blir den også et mer verdifullt mål for fiendtlige angrep. Dette gjør AI-sikkerhet spesielt viktig. Lenge før vi lanserte ChatGPT Atlas, har vi kontinuerlig bygget og styrket forsvar mot nye trusler som spesifikt retter seg mot dette nye «agent i nettleseren»-paradigmet. Prompt-injeksjon er en av de mest betydelige risikoene vi aktivt forsvarer oss mot for å sikre at ChatGPT Atlas kan operere trygt på dine vegne. 

Som en del av denne innsatsen har vi nylig sendt ut en sikkerhetsoppdatering til Atlas sin nettleseragent, inkludert en ny modell trent på motstridende data og styrkede omkringliggende sikkerhetstiltak. Denne oppdateringen ble utløst av en ny klasse av meldingsinnsettingsangrep som ble avdekket gjennom våre interne automatiserte red team-øvelser.

I dette innlegget forklarer vi hvordan risikoen for melding-injeksjon kan oppstå for nettbaserte agenter, og vi deler en rask responsprosess vi har bygget for kontinuerlig å oppdage nye angrep og raskt implementere tiltak – illustrert ved denne nylige sikkerhetsoppdateringen.

Vi ser på prompt-injeksjon som en langsiktig AI-sikkerhetsutfordring, og vi må kontinuerlig styrke vårt forsvar mot det (på samme måte som stadig utviklende nettforsøk som retter seg mot mennesker). Vår nyeste raske responssyklus viser tidlige lovende tegn som et kritisk verktøy på den reisen: vi oppdager nye angrepsstrategier internt før de dukker opp i det fri. Vår langsiktige visjon er å fullt ut utnytte (1) vår white-box-tilgang til modellene våre, (2) dyp forståelse av forsvarene våre, og (3) beregningsskala for å ligge foran eksterne angripere, finne sårbarheter tidligere, levere avbøtende tiltak raskere, og kontinuerlig stramme inn. Kombinert med banebrytende forskning på nye teknikker for å håndtere melding-injeksjon og økt investering i andre sikkerhetskontroller, kan denne sammensatte syklusen gjøre angrep stadig vanskeligere og kostbare, noe som materielt reduserer risikoen for melding-injeksjon i den virkelige verde. Til syvende og sist er målet vårt at du skal kunne stole på at en ChatGPT‑agent bruker nettleseren din på samme måte som du ville stole på en svært kompetent og sikkerhetsbevisst kollega eller venn.

Prompt-injeksjon som en åpen utfordring for agentsikkerhet

Et prompt-injeksjonsangrep retter seg mot AI-agenter ved å legge inn ondsinnede instruksjoner i innholdet agenten behandler. Disse instruksjonene er laget for å overstyre eller omdirigere agentens oppførsel – ved å kapre den til å følge en angripers intensjon, i stedet for brukerens.

For en nettleseragent som den inne i ChatGPT Atlas, tilfører prompt-injeksjon en ny trusselvektor utover tradisjonelle web-sikkerhetsrisikoer (som brukerfeil eller programvaresårbarheter). I stedet for å phishe mennesker eller utnytte systemets sårbarheter i nettleseren, retter angriperen seg mot agenten som opererer inni den.

Som et hypotetisk eksempel kan en angriper sende en ondsinnet e-post som forsøker å lure en agent til å ignorere brukerens forespørsel og i stedet videresende sensitive skattedokumenter til en e-postadresse kontrollert av angriperen. Hvis en bruker ber agenten om å gjennomgå uleste e-poster og oppsummere hovedpunktene, kan agenten komme til å innta den ondsinnede e-posten under arbeidsflyten. Hvis den følger de injiserte instruksjonene, kan den gå utenfor oppgaven – og feilaktig dele sensitiv informasjon.

Dette er bare ett spesifikt scenario. Den samme generaliteten som gjør nettleseragenter nyttige, gjør også risikoene bredere: agenten kan støte på ubetrodde instruksjoner over en effektivt ubegrenset overflate – e-poster og vedlegg, kalenderinvitasjoner, delte dokumenter, fora, innlegg på sosiale medier og vilkårlige nettsider. Siden agenten kan utføre mange av de samme handlingene som en bruker kan utføre i en nettleser, kan virkningen av et vellykket angrep hypotetisk sett være like omfattende: videresending av en sensitiv e-post, sending av penger, redigering eller sletting av filer i skyen, og mer.

Vi har gjort fremgang med å forsvare oss mot prompt-injeksjon gjennom flere lag med sikkerhetstiltak, som vi delte i et tidligere innlegg. Imidlertid forblir prompt-injeksjon en åpen utfordring for agentsikkerhet, og vi forventer å fortsette å arbeide med dette i årene som kommer.

Automatisert oppdagelse av prompt-injeksjon gjennom ende-til-ende og høy datakraft i forsterkende læring

For å styrke forsvaret vårt har vi kontinuerlig søkt etter nye prompt-injeksjonsangrep mot agentsystemer i produksjon. Å finne disse angrepene er en nødvendig forutsetning for å bygge robuste mottiltak: det hjelper oss å forstå reell risiko, avdekker hull i forsvaret vårt, og driver frem konkrete oppdateringer.

For å gjøre dette i stor skala, utviklet vi en LLM-basert automatisert angriper og trente den til å oppdage prompt-injeksjonsangrep som kan lykkes med å angripe en nettleseragent. Vi trente denne angriperen fra start til slutt med forsterkende læring, slik at den lærer av sin egen suksess og sine feil for å forbedre sine red teaming-ferdigheter. Vi lar den også «prøve før det sendes», med det mener vi: under sin tankerekke, kan angriperen foreslå en kandidatinjeksjon og sende den til en ekstern simulator. Simulatoren kjører en kontrafaktisk simulering av hvordan den målrettede offeragenten (forsvareren) ville oppført seg hvis den hadde møtt injeksjonen, og returnerer et fullstendig resonnement- og handlingsspor av offeragenten. Angriperen bruker det sporet som tilbakemelding, itererer på angrepet, og kjører simuleringen på nytt – og gjentar denne løkken flere ganger før de forplikter seg til et endelig angrep. Dette gir rikere tilbakemelding i kontekst til angriperen enn et enkelt bestått/ikke-bestått-signal. Det øker også angriperens datakraft under testing. Videre gir privilegert tilgang til resonnementssporene (som vi ikke avslører for eksterne brukere) forsvareren en asymmetrisk fordel for vår interne angriper – noe som øker sjansene for at den kan overgå eksterne motstandere.

Nettsidemodell i lysmodus som illustrerer forsterkningslæring, med en stilisert robotarm som samhandler med flytende geometriske former på en lys gradientbakgrunn.

Hvorfor forsterkende læring (RL)? Vi valgte forsterkende læring for å lære opp den automatiserte angriperen av flere grunner:

  1. Optimalisering av langsiktige og ikke-kontinuerlige mål for angripere. Vårt mål er å søke etter prompt-injeksjonsangrep som kan lure agenten til å utføre sofistikerte fiendtlige oppgaver (f.eks. sende e-poster, banktransaksjoner) som kan forekomme i den virkelige verden. Disse motstridende oppgavene er iboende langsiktige, og krever mange trinn med resonnement og interaksjon med miljøet, med sparsomme og forsinkede suksessignaler. Forsterkende læring passer godt til denne sparsomme, forsinkede belønningsstrukturen.
  2. Utnytting av banebrytende LLM-kapasiteter. Vi trente banebrytende LLM-er direkte som auto-red-teamere, slik at angriperen drar direkte nytte av forbedringer i resonnering og planlegging i banebrytende modeller. Etter hvert som basismodellene blir sterkere, blir angriperen naturligvis også mer kapabel – noe som gjør dette til en skalerbar måte å opprettholde presset på forsvaret vårt etter hvert som modellene våre utvikler seg.
  3. Skalering av datakraft og imitering av adaptive angripere. Forsterkende læring er godt egnet for å skalere beregning brukt på å søke etter angrep over mange prøvetakinger og læringstrinn, og det gjenspeiler også hvordan adaptive menneskelige angripere oppfører seg: ved å iterativt prøve strategier, lære av resultater og forsterke vellykkede atferder.

Vår automatiserte angriper kan oppdage nye, realistiske prompt-injeksjonsangrep fra ende til ende. I motsetning til de fleste tidligere automatiserte red teaming-arbeider, som avdekket enkle feil som å fremkalle spesifikke utgangsstrenger eller utløse en utilsiktet enkeltstegs verktøykall fra agenten, kan vår RL-trente angriper styre en agent til å utføre sofistikerte, langsiktige skadelige arbeidsflyter som utfolder seg over titalls (eller til og med hundrevis) av trinn. Vi observerte også nye angrepsstrategier som ikke dukket opp i vår menneskelige red teaming-kampanje eller i eksterne rapporter.

Demonstrasjonen nedenfor presenterer et konkret prompt-injeksjonsangrep funnet av vår automatiserte angriper, som vi deretter brukte til å styrke forsvaret til ChatGPT Atlas ytterligere. Angriperen fyller brukerens innboks med en ondsinnet e-post som inneholder en prompt-injeksjon som instruerer agenten til å sende et oppsigelsesbrev til brukerens CEO. Senere, når brukeren ber agenten om å utarbeide et fraværssvar, støter agenten på den e-posten under normal oppgaveutførelse, behandler den injiserte meldingen som autoritativ, og følger den. Fraværsmeldingen blir aldri skrevet, og agenten sier opp på vegne av brukeren i stedet.

Naturen til prompt-injeksjoner gjør det utfordrende å gi deterministiske sikkerhetsgarantier, men ved å skalere vår automatiserte sikkerhetsforskning, motstandstesting og stramme inn vår raske responsløype, kan vi forbedre modellens robusthet og forsvar – før vi venter på at et angrep skal skje i det fri. 

Vi deler denne demoen for å hjelpe brukere og forskere med å bedre forstå naturen til disse angrepene – og hvordan vi aktivt forsvarer oss mot dem. Vi mener dette representerer frontlinjen for hva automatisert red teaming kan oppnå, og vi er svært begeistret for å fortsette forskningen vår.

Å styrke ChatGPT Atlas med en proaktiv rask responsløype

Vår automatiserte red teaming driver en proaktiv rask responsloop: når den automatiserte angriperen oppdager en ny klasse av vellykkede prompt-injeksjonsangrep, oppretter den umiddelbart et konkret mål for å forbedre vårt forsvar.

Fiendtlig opplæring mot nylig oppdagede angrep. Vi trener kontinuerlig oppdaterte agentmodeller mot vår beste automatiserte angriper – med prioritet på angrepene der målagentene for tiden mislykkes. Målet er å lære agenter å ignorere fiendtlige instruksjoner og forbli i tråd med brukerens hensikt, og dermed forbedre motstanden mot nyoppdagede strategier for prompt-injeksjoner. Dette integrerer robusthet mot nye, kraftige angrep direkte i modellsjekkpunktet. For eksempel har nylig automatisert red teaming direkte produsert et nytt adversarialt trent nettleser-agent-sjekkpunkt som allerede er rullet ut til alle ChatGPT Atlas-brukere. Dette hjelper til slutt med å beskytte brukerne våre bedre mot nye typer angrep.

Bruke angrepsspor for å forbedre den bredere forsvarsstakken. Mange angrepsveier oppdaget av vårt automatiserte red team-medlem avslører også muligheter for forbedring utenfor selve modellen – som i overvåkning, sikkerhetsinstruksjoner vi legger i modellens kontekst, eller systemnivå-sikringer. Disse funnene hjelper oss med å iterere på hele forsvarsstakken, ikke bare agentens sjekkpunkt.

Å svare på aktive angrep. Denne sløyfen kan også hjelpe med å bedre respondere på aktive angrep i det fri. Når vi ser på vårt globale fotavtrykk for potensielle angrep, kan vi ta teknikkene og taktikkene vi observerer eksterne motstandere bruke, mate dem inn i denne sløyfen, etterligne deres aktivitet og fremme defensive endringer på tvers av plattformen vår.

Outlook: vår langsiktige forpliktelse til sikkerheten til agenter

Å styrke vår evne til å teste red team-agenter og bruke våre mest kapable modeller til å automatisere deler av det arbeidet – noe som bidrar til å gjøre Atlas-nettleseragenten mer robust ved å skalere «oppdagelse-til-reparasjon»-løkken. Denne forsterkningsinnsatsen understreker en kjent lærdom når det gjelder sikkerhet: en velprøvd vei til sterkere beskyttelse er å kontinuerlig stressteste reelle systemer, reagere på feil og levere konkrete løsninger.

Vi forventer at motstandere vil fortsette å tilpasse seg. Prompt-injeksjon, på samme måte som svindel og sosial manipulering på nettet, er et problem som mest sannsynlig aldri kommer til å bli fullstendig «løst». Men vi er optimistiske om at en proaktiv, svært responsiv hurtigresponssyklus  kan fortsette å redusere reell risiko i den virkelige verden over tid. Ved å kombinere automatisert oppdagelse av angrep med motstandsdyktig opplæring og sikkerhetstiltak på systemnivå, kan vi identifisere nye angrepsmønstre tidligere, lukke hull raskere og kontinuerlig øke kostnaden for utnyttelse.

Agentmodus i ChatGPT Atlas er kraftig – og det utvider også overflaten for sikkerhetstrusler. Å være klar over den avveiningen, er en del av å bygge ansvarlig. Målet vårt er å gjøre Atlas sikrere med hver iterasjon: forbedre modellens robusthet, styrke den omkringliggende forsvarsstrukturen, og overvåke fremvoksende misbruksmønstre i det fri.

Vi vil fortsette å investere i forskning og utrulling, utvikle bedre automatiserte metoder for red team-øvelser, implementere lagdelte tiltak, og iterere raskt etter hvert som vi lærer. Vi vil også dele det vi kan med det bredere fellesskapet.

Anbefalinger for trygg bruk av agenter

Mens vi fortsetter å styrke Atlas på systemnivå, er det steg brukere kan ta for å redusere risiko når de bruker agenter. 

Begrens pålogget tilgang når det er mulig. Vi fortsetter å anbefale at brukere benytter seg av pålogget modus(åpnes i et nytt vindu) når de bruker agent i Atlas, når tilgang til nettsteder du er logget inn på ikke er nødvendig for oppgaven, eller for å begrense tilgang til spesifikke nettsteder du logger inn på under oppgaven. 

Gå nøye gjennom bekreftelsesforespørsler. For visse viktige handlinger, som å fullføre et kjøp eller sende en e-post, er agenter designet for å be om bekreftelse fra deg før de fortsetter. Når en agent ber deg bekrefte en handling, ta et øyeblikk for å verifisere at handlingen er korrekt og at informasjonen som deles er passende for konteksten.

Gi agenter klare instruksjoner når det er mulig. Unngå altfor vage instruksjoner som «gjennomgå e-postene mine og ta de nødvendige handlingene.» Stor handlingsfrihet gjør det lettere for skjult eller ondsinnet innhold å påvirke agenten, selv når sikkerhetstiltak er på plass. Det er tryggere å be agenten om å utføre spesifikke, veldefinerte oppgaver. Selv om dette ikke eliminerer risiko, gjør det angrep vanskeligere å gjennomføre.

Hvis agenter skal bli betrodde partnere for hverdagsoppgaver, må de være motstandsdyktige mot den typen manipulasjon som det åpne nettet aktiver. Å beskytte mot prompt-injeksjon er en langsiktig forpliktelse og en av våre høyeste prioriteringer. Vi kommer til å dele mer om dette arbeidet snart.

Forfatter

OpenAI