Kontinuerligt at styrke ChatGPT Atlas mod angreb med prompt-injektion
Automatiseret red teaming — drevet af forstærkende læring — hjælper os med proaktivt at opdage og rette agentudnyttelser i den virkelige verden, før de bliver gjort til våben i det fri.
Agenttilstand i ChatGPT Atlas er en af de mest generelle agentfunktioner, vi har udgivet til dato. I denne tilstand ser browseragenten på websider og udfører handlinger, klik og tastetryk i din browser, præcis som du ville. Dette gør det muligt for ChatGPT at arbejde direkte på mange af dine daglige arbejdsprocesser ved at bruge det samme rum, den samme kontekst og de samme data.
Efterhånden som browser-agenten hjælper dig med at få mere fra hånden, bliver den også et mere værdifuldt mål for fjendtlige angreb. Dette gør AI-sikkerhed særligt vigtigt. Længe før vi lancerede ChatGPT Atlas, har vi kontinuerligt opbygget og forstærket forsvar mod nye trusler, der specifikt retter sig mod dette nye "agent i browseren"-paradigme. Prompt-injektion er en af de mest betydelige risici, vi aktivt forsvarer os imod for at sikre, at ChatGPT Atlas kan fungere sikkert på dine vegne.
Som en del af denne indsats har vi for nylig udsendt en sikkerhedsopdatering til Atlas’s browser-agent, herunder en ny model trænet til at modstå angreb og styrkede omkringliggende sikkerhedsforanstaltninger. Denne opdatering blev foranlediget af en ny klasse af prompt-injektionsangreb, der blev opdaget gennem vores internt automatiserede red teaming.
I dette indlæg forklarer vi, hvordan risikoen for prompt-injektion kan opstå for web-baserede agenter, og vi deler en hurtig responscyklus, som vi har bygget for kontinuerligt at opdage nye angreb og hurtigt implementere mindskelser — illustreret ved denne nylige sikkerhedsopdatering.
Vi ser prompt-injektion som en langsigtet AI-sikkerhedsudfordring, og vi skal løbende styrke vores forsvar mod det (meget lig de stadigt udviklende online-svindelnumre, der er rettet mod mennesker). Vores nyeste hurtige reaktionscyklus viser tidlige lovende tegn som et kritisk værktøj på den rejse: Vi opdager nye angrebsstrategier internt, før de dukker op i det fri. Vores langsigtede vision er at helt at udnytte (1) vores white-box-adgang til vores modeller, (2) en dyb forståelse af vores forsvar, og (3) beregningsskala for at være på forkant med eksterne angribere — opdage sårbarheder tidligere, levere mildning hurtigere og kontinuerligt stramme processen. Kombineret med banebrydende forskning i nye teknikker til at håndtere forespørgselsinjektion og øget investering i andre sikkerhedskontroller, kan denne sammensatte cyklus gøre angreb stadig mere vanskelige og omkostningsfulde, hvilket materielt reducerer den reelle risiko for forespørgselsinjektion. I sidste ende er vores mål, at du skal kunne stole på, at en ChatGPT‑agent bruger din browser på samme måde, som du ville stole på en yderst kompetent, sikkerhedsbevidst kollega eller ven.
En prompt-injektion retter sig mod AI-agenter ved at indlejre skadelig vejledning i det indhold, som agenten behandler. Denne vejledning er designet til at tilsidesætte eller omdirigere agentens adfærd — kapre den til at følge en angribers hensigt frem for brugerens.
For en browseragent som den inde i ChatGPT Atlas tilføjer prompt-injektion en ny trusselsvektor ud over traditionelle web-sikkerhedsrisici (som brugerfejl eller software-sårbarheder). I stedet for at phishe mennesker eller udnytte browserens sårbarheder, retter angriberen sig mod agenten, der opererer indeni den.
Som et hypotetisk eksempel kunne en angriber sende en ondsindet e-mail for at narre en agent til at ignorere brugerens anmodning og i stedet videresende følsomme skattedokumenter til en e-mailadresse, der kontrolleres af angriberen. Hvis en bruger beder agenten om at gennemgå ulæste e-mails og opsummere nøglepunkter, kan agenten komme til at indlæse den ondsindede e-mail under arbejdsgangen. Hvis den følger de injicerede instruktioner, kan den afvige fra opgaven og fejlagtigt dele følsomme oplysninger.
Dette er blot ét specifikt scenarie. Den samme generelle anvendelighed, der gør browser-agenter nyttige, gør også risiciene bredere: Agenten kan støde på upålidelige instruktioner på en praktisk talt ubegrænset overflade — e-mails og vedhæftede filer, kalenderinvitationer, delte dokumenter, fora, opslag på sociale medier og vilkårlige websider. Da agenten kan udføre mange af de samme handlinger, som en bruger kan udføre i en browser, kan virkningen af et vellykket angreb hypotetisk set være lige så omfattende: videresendelse af en følsom e-mail, overførsel af penge, redigering eller sletning af filer i skyen m.m.
Vi har gjort fremskridt i forhold til at forsvare os mod prompt-injektion gennem flere lags sikkerhedsforanstaltninger, som vi delte i et tidligere indlæg. Dog forbliver prompt-injektion en åben udfordring for agentsikkerhed, og en vi forventer at fortsætte med at arbejde på i mange år fremover.
For at styrke vores forsvar har vi løbende søgt efter nye angreb med prompt-injektion mod agentsystemer i produktion. At finde disse angreb er en nødvendig forudsætning for at bygge robuste mildnelse: Det hjælper os med at forstå risici i den virkelige verden, afslører huller i vores forsvar og fremmer konkrete lapninger.
For at gøre dette i stor skala byggede vi en LLM-baseret automatiseret angriber og trænede den til at opspore prompt-injektionsangreb, der effektivt kan angribe en browseragent. Vi trænede denne angriber end-to-end med forstærkende læring, så den lærer af sine egne succeser og fiaskoer for at forbedre sine red teaming-evner. Vi lader den også "prøve før den sendes", som betyder: Under sin argumentering med tankekæde kan angriberen foreslå en kandidatindsprøjtning og sende den til en ekstern simulator. Simulatoren udfører en kontrafaktisk simulering af, hvordan den målrettede offeragent (forsvareren) ville opføre sig, hvis den mødte injektionen, og returnerer en komplet begrundelse og handlingsspor for offeragenten. Angriberen bruger det spor som feedback, itererer på angrebet og kører simuleringen igen — gentager denne cyklus flere gange, før de forpligter sig til et endeligt angreb. Dette giver mere detaljeret feedback i kontekst til angriberen end et enkelt bestået/ikke-bestået signal. Det øger også angriberens beregningskraft under testtid. Desuden giver privilegeret adgang til forsvarerens argumenteringsspor (som vi ikke afslører for eksterne brugere) vores interne angriber en asymmetrisk fordel — hvilket øger chancerne for, at den kan overgå eksterne modstandere.
Hvorfor bruge forstærkende læring (RL)? Vi valgte forstærkende læring til at træne den automatiserede angriber af flere grunde:
- Optimering af langsigtede og ikke-kontinuerlige mål for angribere. Vores mål er at finde prompt-injektion, der kan narre agenten til at udføre avancerede fjendtlige opgaver (f.eks. sende e-mails, udføre banktransaktioner), som kunne finde sted i den virkelige verden. Disse konfliktfyldte opgaver er i sagens natur langvarige og kræver mange argumenteringstrin og interaktion med miljøet, med sparsomme og forsinkede succes-signaler. Forstærkende læring er velegnet til denne sparsomme, forsinkede belønningsstruktur.
- Udnyttelse af banebrydende LLM-kompetencer. Vi trænede grænse-LLM'er direkte som auto-red-teamers, så angriberen drager direkte fordel af forbedringer i avanceret tænkning og planlægning i grænsemodeller. Efterhånden som basismodellerne bliver stærkere, bliver angriberen naturligvis også mere kompetent — hvilket gør dette til en skalerbar måde at holde presset på vores forsvar, mens vores modeller udvikler sig.
- Opskalering af beregning og efterligning af tilpasningsdygtige angribere. Forstærkende læring er velegnet til at skalere beregningen brugt på at søge efter angreb over et stort antal prøvetagninger og læringstrin, og det afspejler også tæt, hvordan tilpasningsdygtige menneskelige angribere opfører sig: ved iterativt at prøve strategier, lære af resultater og forstærke succesfulde adfærdsmønstre.
Vores automatiserede angriber kan opdage nye, realistiske prompt-injektions-angreb fra start til slut. I modsætning til det meste tidligere automatiserede red teaming-arbejde, som afslørede simple fejl såsom at fremkalde specifikke outputstrenge eller udløse et utilsigtet enkelttrins værktøjskald fra agenten, kan vores RL-trænede angriber styre en agent til at udføre sofistikerede, langsigtede skadelige arbejdsprocesser, der udfolder sig over ti (eller endda hundrede) trin. Vi observerede også nye angrebsstrategier, der ikke dukkede op i vores menneskelige red teaming-kampagne eller eksterne rapporter.
Demonstrationen nedenfor præsenterer et konkret prompt-injektionsangreb fundet af vores automatiserede angriber, som vi derefter brugte til yderligere at styrke forsvarene i ChatGPT Atlas. Angriberen sender en ondsindet e-mail til brugerens indbakke, der indeholder en prompt-injektion, som instruerer agenten i at sende sin opsigelse til brugerens administrerende direktør. Senere, når brugeren beder agenten om at udarbejde et svar, støder agenten på den e-mail under normal opgaveudførelse, behandler prompt-injektionen som pålidelig og følger den. Out-of-office-meddelelsen bliver aldrig skrevet, og agenten siger op på vegne af brugeren i stedet.

1. Beder agenten om hjælp til at administrere e-mail

2. Agenten åbner den nyeste ulæste e-mail

E-mailen indeholder ondsindet vejledning.

4. Agenten sender en utilsigtet opsigelses-e-mail

5. Efter vores sikkerhedsopdatering opdager agenttilstand et forsøg på prompt-injektion
Prompt-injektionens natur gør det udfordrende at give deterministiske sikkerhedsgarantier, men ved at skalere vores automatiserede sikkerhedsforskning, fjendtlige testning og stramme vores hurtige reaktionssløjfe, kan vi forbedre modellens robusthed og forsvar - før vi venter på, at et angreb sker i det fri.
Vi deler denne demo for at hjælpe brugere og forskere med bedre at forstå disse angrebs natur — og hvordan vi aktivt forsvarer os mod dem. Vi mener, at dette repræsenterer grænsen for, hvad automatiseret red teaming kan opnå, og vi er meget glade for at fortsætte vores forskning.
Vores automatiserede red teaming driver en proaktiv hurtig respons-cyklus: Når den automatiserede angriber opdager en ny klasse af succesfulde prompt-injektioner, skaber den straks et konkret mål for at forbedre vores forsvar.
Konfliktfyldt træning mod nyopdagede angreb. Vi træner løbende opdaterede agentmodeller mod vores bedste automatiserede angriber — vi prioriterer de angreb, hvor de målrettede agenter i øjeblikket fejler. Målet er at lære agenter at ignorere fjendtlige instruktioner og forblive i overensstemmelse med brugerens hensigt, hvilket forbedrer modstanden mod nyopdagede prompt-injektionsstrategier. Dette "indbygger" robusthed mod nye, stærke angreb direkte i modelkontrolpunktet. For eksempel har nylig automatiseret red teaming direkte skabt et nyt modstandertrænet browser-agent-checkpoint, som allerede er blevet implementeret for alle ChatGPT Atlas-brugere. Dette hjælper i sidste ende med bedre at beskytte vores brugere mod nye typer angreb.
Brug af angrebsspor til at forbedre den bredere forsvarsstak. Mange angrebsveje opdaget af vores automatiserede red teamer afslører også muligheder for forbedring uden for selve modellen — som f.eks. i overvågning, sikkerhedsvejledninger, vi placerer i modellens kontekst, eller sikkerhedsforanstaltninger på systemniveau. Disse fund hjælper os med at iterere på hele forsvarsstakken, ikke kun agentens kontrolpunkt.
Reaktion på aktive angreb. Denne sløjfe kan også hjælpe med bedre at reagere på aktive angreb i det fri. Når vi ser på vores globale tilstedeværelse for potentielle angreb, kan vi tage de teknikker og taktikker, vi observerer eksterne modstandere bruge, indføre dem i denne cyklus, efterligne deres aktivitet og fremme defensive ændringer på vores platform.
At styrke vores evne til red team-brug og bruge vores dygtigste modeller til at automatisere dele af det arbejde — hjælper med at gøre Atlas browser-agenten mere robust ved at skalere opdagelse-til-rettelse-cyklussen. Denne hærdningsindsats forstærker en velkendt sikkerhedslektion: en velprøvet vej til stærkere beskyttelse er løbende at trykteste virkelige systemer, reagere på fejl og levere konkrete rettelser.
Vi forventer, at modstanderne fortsætter med at tilpasse sig. Prompt-injektion, ligesom svindel og social engineering på nettet, vil sandsynligvis aldrig blive fuldstændigt "løst". Men vi er optimistiske over, at en proaktiv, meget responsiv hurtig reaktionssløjfe kan fortsætte med at reducere den reelle risiko over tid. Ved at kombinere automatiseret opdagelse af angreb med konfliktfyldt træning og sikkerhedsforanstaltninger på systemniveau kan vi identificere nye angrebsmønstre tidligere, lukke huller hurtigere og kontinuerligt øge omkostningerne ved udnyttelse.
Agenttilstand i ChatGPT Atlas er kraftfuld — og den udvider også sikkerhedstrusselsoverfladen. En del af at bygge ansvarligt er at være klar over den afvejning. Vores mål er at gøre Atlas betydeligt mere sikker med hver iteration: forbedre modellens robusthed, styrke den omgivende forsvarsstak og overvåge nye misbrugsmønstre i det fri.
Vi vil fortsætte med at investere i forskning og implementering, udvikle bedre automatiserede red teaming-metoder, udrulle lagdelte mindskelser og hurtigt iterere, mens vi lærer. Vi vil også dele, hvad vi kan, med det bredere samfund.
Mens vi fortsætter med at styrke Atlas på systemniveau, er der skridt, brugere kan tage for at reducere risikoen ved brug af agenter.
Begræns log ind-adgang, når det er muligt. Vi fortsætter med at anbefale, at brugere udnytter log ud-tilstand(åbner i et nyt vindue), når de bruger Agent i Atlas, når adgang til websteder, du er logget ind på, ikke er nødvendig for den aktuelle opgave, eller for at begrænse adgangen til specifikke sider, du logger ind på, under opgaven.
Omhyggeligt gennemgå bekræftelsesanmodninger. Ved visse væsentlige handlinger, som f.eks. at gennemføre et køb eller sende en e-mail, er agenter designet til at bede om din bekræftelse, før de fortsætter. Når en agent beder dig om at bekræfte en handling, så brug et øjeblik til at verificere, at handlingen er korrekt, og at al information, der deles, er passende for den kontekst.
Giv agenter utvetydige instruktioner, når det er muligt. Undgå alt for brede forespørgsler som "gennemgå mine e-mails, og træf de foranstaltninger, der er nødvendige." Stor handlefrihed gør det lettere for skjult eller ondsindet indhold at påvirke agenten, selv når der er sikkerhedsforanstaltninger på plads. Det er sikrere at bede agenten om at udføre specifikke, velafgrænsede opgaver. Selvom dette ikke eliminerer risikoen, gør det angrebene sværere at udføre.
Hvis agenter skal blive betroede partnere til daglige opgaver, skal de være modstandsdygtige over for den slags manipulation, som det åbne net aktiverer. Det er en langsigtet forpligtelse at styrke modstandskraften mod prompt-injektioner og en af vores højeste prioriteter. Vi vil snart dele mere om dette arbejde.


