Wie wir ChatGPT Atlas kontinuierlich gegen Prompt-Injection-Angriffe absichern
Automatisiertes Red-Teaming – gestützt auf Reinforcement Learning – hilft uns, reale Agenten-Exploits frühzeitig zu entdecken und zu schließen, bevor sie außerhalb kontrollierter Umgebungen gezielt missbraucht werden.
Der Agent-Modus in ChatGPT Atlas gehört zu den bislang vielseitigsten agentischen Funktionen, die wir veröffentlicht haben. In diesem Modus betrachtet der Browser-Agent Webseiten und führt Aktionen, Klicks und Tastatureingaben im Browser aus – so wie ein Mensch. Dadurch kann ChatGPT direkt an vielen alltäglichen Workflows arbeiten und dabei denselben Raum, Kontext und dieselben Daten nutzen.
Je mehr der Browser-Agent leistet, desto attraktiver wird er zugleich als Ziel für Angriffe. Entsprechend zentral ist KI-Sicherheit. Lange vor dem Start von ChatGPT Atlas haben wir kontinuierlich Abwehrmechanismen gegen neue Bedrohungen aufgebaut und gehärtet, die gezielt dieses neue Paradigma des „Agenten im Browser“ angreifen. Prompt Injection zählt dabei zu den wichtigsten Risiken, gegen die wir aktiv vorgehen, damit gewährleistet ist, dass du ChatGPT Atlas sicher einsetzen kannst.
Im Rahmen dieser Arbeit haben wir kürzlich ein Sicherheitsupdate für den Browser-Agenten von Atlas veröffentlicht – einschließlich eines neuen Modells, das mit Adversarial Training trainiert wurde, und verstärkter begleitender Schutzmaßnahmen. Auslöser war eine neue Klasse von Prompt-Injection-Angriffen, die durch unser internes automatisiertes Red-Teaming aufgedeckt wurde.
In diesem Beitrag erläutern wir, wie Prompt-Injection-Risiken bei webbasierten Agenten entstehen können, und stellen einen schnellen Reaktionskreislauf vor, den wir aufgebaut haben, um neue Angriffe kontinuierlich zu entdecken und Gegenmaßnahmen zügig auszuliefern – veranschaulicht am jüngsten Sicherheitsupdate.
Wir betrachten Prompt Injection als langfristige Herausforderung der KI-Sicherheit und werden unsere Abwehr fortlaufend stärken müssen – ähnlich wie bei sich ständig weiterentwickelnden Online-Betrugsmaschen, die auf Menschen abzielen. Unser jüngster Rapid-Response-Zyklus zeigt dabei frühe Erfolge als zentrales Instrument: Wir entdecken neuartige Angriffsstrategien intern, bevor sie außerhalb kontrollierter Umgebungen auftauchen. Langfristig wollen wir (1) unseren White-Box-Zugriff auf die Modelle, (2) unser tiefes Verständnis der Abwehrmechanismen und (3) unsere Rechenleistung konsequent nutzen, um externen Angreifern voraus zu bleiben – Schwachstellen früher zu finden, Gegenmaßnahmen schneller zu veröffentlichen und den Kreislauf kontinuierlich zu verdichten. Zusammen mit Spitzenforschung zu neuen Gegenmaßnahmen gegen Prompt Injection und verstärkten Investitionen in weitere Sicherheitskontrollen macht dieser sich selbst verstärkende Zyklus Angriffe zunehmend schwieriger und teurer und senkt das reale Risiko spürbar. Ziel ist es, einem ChatGPT‑Agenten im Browser so vertrauen zu können wie einem hochkompetenten, sicherheitsbewussten Teammitglied oder Freund.
Ein Prompt-Injection-Angriff richtet sich gegen KI-Agenten, indem bösartige Anweisungen in Inhalte eingebettet werden, die der Agent verarbeitet. Diese Anweisungen sind so gestaltet, dass sie das Verhalten des Agenten überschreiben oder umlenken – weg von der Intention des Benutzers, hin zum Ziel des Angreifers.
Für einen Browser-Agenten wie in ChatGPT Atlas eröffnet Prompt Injection einen neuen Angriffsvektor jenseits klassischer Web-Risiken (etwa Nutzerfehler oder Software-Schwachstellen). Statt Menschen zu phishen oder Browser-Sicherheitslücken auszunutzen, zielt der Angreifer direkt auf den im Browser arbeitenden Agenten.
Ein hypothetisches Beispiel: Eine bösartige E-Mail versucht, den Agenten dazu zu bringen, die Anfrage des Benutzers zu ignorieren und stattdessen sensible Steuerdokumente an eine vom Angreifer kontrollierte Adresse weiterzuleiten. Wird der Agent gebeten, ungelesene E-Mails zu prüfen und zusammenzufassen, kann er diese E-Mail während des Workflows verarbeiten. Folgt er den injizierten Anweisungen, gerät er vom Auftrag ab und gibt vertrauliche Informationen preis.
Das ist nur ein Szenario. Die gleiche Allgemeinheit, die Browser-Agenten nützlich macht, vergrößert auch das Risikospektrum: Der Agent kann auf einer praktisch unbegrenzten Angriffsfläche auf nicht vertrauenswürdige Anweisungen stoßen – in E-Mails und Anhängen, Kalendereinladungen, geteilten Dokumenten, Foren, Social-Media-Posts und beliebigen Webseiten. Da der Agent viele der gleichen Aktionen im Browser ausführen kann wie ein Mensch, kann der Schaden eines erfolgreichen Angriffs entsprechend weitreichend sein: sensible E-Mails weiterleiten, Geld überweisen, Dateien in der Cloud bearbeiten oder löschen und mehr.
Wir haben mit mehreren Schutzschichten Fortschritte erzielt, wie wir in einem früheren Beitrag beschrieben haben. Dennoch bleibt Prompt Injection eine offene Herausforderung der Agentensicherheit, an der wir voraussichtlich noch über Jahre arbeiten werden.
Um unsere Abwehr zu stärken, suchen wir kontinuierlich nach neuartigen Prompt-Injection-Angriffen auf produktive Agentensysteme. Diese Angriffe zu finden ist Voraussetzung für robuste Gegenmaßnahmen: Es schärft das Verständnis realer Risiken, deckt Lücken in den Abwehrmechanismen auf und treibt konkrete Patches voran.
Dazu haben wir einen LLM-basierten automatisierten Angreifer entwickelt und mit Reinforcement Learning darauf trainiert, erfolgreiche Prompt-Injection-Angriffe gegen einen Browser-Agenten zu finden. Das Training erfolgt End-to-End, sodass der Angreifer aus eigenen Erfolgen und Fehlschlägen lernt und seine Red-Teaming-Fähigkeiten verbessert. Zudem kann er „vor dem Rollout testen“: Während seines Reasonings schlägt der Angreifer eine Injektion vor und sendet sie an einen externen Simulator. Dieser führt eine kontrafaktische Simulation durch, wie sich der angegriffene Agent (der Verteidiger) beim Kontakt mit der Injektion verhalten würde, und liefert eine vollständige Denk- und Aktionsspur zurück. Diese Spur dient als Feedback, der Angreifer iteriert die Attacke und simuliert erneut – mehrfach, bevor er sich auf eine finale Attacke festlegt. Das liefert reichhaltigeres In-Context-Feedback als ein simples Erfolgs-/Fehlsignal und skaliert zugleich den Rechenaufwand zur Testzeit. Zudem verschafft der privilegierte Zugriff auf die (extern nicht offengelegten) Reasoning-Spuren des Verteidigers unserem internen Angreifer einen asymmetrischen Vorteil – und erhöht die Chance, externen Gegnern voraus zu sein.
Warum Reinforcement Learning (RL)? Wir haben Reinforcement Learning zum Training des automatisierten Angreifers aus mehreren Gründen gewählt:
- Optimierung langreichweitiger, nicht kontinuierlicher Angreiferziele. Gesucht werden Prompt-Injection-Angriffe, die den Agenten zu komplexen, realistischen Schadhandlungen verleiten (z. B. E-Mails versenden, Banktransaktionen). Diese Ziele sind langreichweitig, erfordern viele Schritte an Reasoning und Interaktionen mit der Umgebung und liefern spärliche, verzögerte Erfolgssignale. Diese unstetige, verzögerte Struktur ist ein ideales Einsatzfeld für Reinforcement Learning.
- Nutzung der neusten LLM-Fähigkeiten. Wir haben Frontier-LLMs direkt als automatisierte Red-Teamer trainiert, sodass der Angreifer unmittelbar von Verbesserungen im Reasoning und in der Planung dieser Modelle profitiert. Mit zunehmender Stärke der Basismodelle wächst damit auch die Leistungsfähigkeit des Angreifers von selbst. Das macht diesen Ansatz zu einer skalierbaren Methode, die den Druck auf unsere Abwehrmechanismen aufrechterhält, während sich unsere Modelle weiterentwickeln.
- Rechenskalierung und Nachahmung adaptiver Angreifer. Reinforcement Learning eignet sich hervorragend, um Berechnungen zu skalieren, die der systematischen Suche nach Angriffen über eine große Zahl von Stichproben und Lernschritten dienen. Zugleich bildet es sehr präzise das Verhalten adaptiver menschlicher Angreifer ab: Strategien iterativ erproben, aus Ergebnissen lernen und erfolgreiche Verhaltensweisen verstärken.
Unser automatisierter Angreifer deckt neuartige, realistische Prompt-Injection-Angriffe auf – von Anfang bis Ende. Im Gegensatz zu den meisten früheren Resultaten im automatisierten Red-Teaming, die lediglich einfache Schwachstellen offenlegten (etwa das Erzwingen bestimmter Ausgabestrings oder das unbeabsichtigte Auslösen eines einzelnen Tool-Aufrufs), kann unser mit Reinforcement Learning trainierter Angreifer einen Agenten dazu bringen, komplexe, langfristig schädliche Workflows auszuführen, die sich über Dutzende oder sogar Hunderte von Schritten erstrecken. Darüber hinaus haben wir neuartige Angriffsstrategien beobachtet, die weder mit unseren menschlichen Red-Team-Kampagnen auftraten, noch in externen Berichten dokumentiert waren.
Die unten gezeigte Demo illustriert einen konkreten Prompt-Injection-Exploit, den unser automatisierter Angreifer entdeckt hat und den wir anschließend genutzt haben, um die Abwehrmechanismen von ChatGPT Atlas gezielt zu stärken. Der Angreifer füllt das Postfach des Benutzers mit einer bösartigen E-Mail, die eine Prompt Injection enthält und den Agenten anweist, ein Kündigungsschreiben an den CEO des Nutzers zu senden. Später, wenn der Nutzer den Agenten bittet, eine Abwesenheitsnotiz zu verfassen, stößt der Agent im Rahmen der regulären Aufgabenausführung auf diese E-Mail, behandelt das eingeschleuste Prompt als maßgeblich und folgt ihm. Die Abwesenheitsnotiz wird nie erstellt; stattdessen kündigt der Agent im Namen des Benutzers.

1. Bitte an den Agenten, bei der E-Mail-Verwaltung zu helfen

2. Agent öffnet die neueste ungelesene E-Mail

3. Die E-Mail enthält bösartige Anweisungen

4. Agent versendet unbeabsichtigt eine Kündigungs-E-Mail

5. Nach unserem Sicherheitsupdate erkennt der Agent-Modus Prompt-Injection-Versuche erfolgreich
Die Natur von Prompt-Injection-Angriffen macht deterministische Sicherheitsgarantien schwierig. Durch die Skalierung unserer automatisierten Sicherheitsforschung, konsequentes Adversarial Testing und die Straffung unseres schnellen Reaktionszyklus können wir jedoch die Robustheit und Verteidigungsfähigkeit des Modells kontinuierlich verbessern – ohne auf Angriffe „in freier Wildbahn“ warten zu müssen.
Wir teilen diese Demo, um Benutzern und Forschenden ein besseres Verständnis der Funktionsweise solcher Angriffe zu ermöglichen und zu zeigen, wie wir ihnen aktiv begegnen. Aus unserer Sicht markiert dies die derzeitige Grenze dessen, was automatisiertes Red-Teaming leisten kann, und wir freuen uns darauf, diese Forschung weiter voranzutreiben.
Unser automatisiertes Red-Teaming treibt eine proaktive, schnelle Reaktionsschleife voran: Entdeckt der automatisierte Angreifer eine neue Klasse erfolgreicher Prompt-Injection-Angriffe, wird unmittelbar ein konkretes Ziel zur Verbesserung unserer Abwehrmaßnahmen definiert.
Adversarial Training gegen neu entdeckte Angriffe. Wir trainieren fortlaufend aktualisierte Agentenmodelle gegen unseren leistungsfähigsten automatisierten Angreifer und priorisieren dabei jene Angriffe, bei denen die angegriffenen Agenten aktuell versagen. Ziel ist es, Agenten darin zu schulen, gegnerische Anweisungen zu ignorieren und am eigentlichen Nutzerauftrag ausgerichtet zu bleiben – und so die Widerstandsfähigkeit gegen neu entdeckte Prompt-Injection-Strategien zu erhöhen. Diese Robustheit gegenüber neuartigen, besonders starken Angriffen wird direkt in den Modell-Checkpoint „eingebrannt“. So hat jüngstes automatisiertes Red-Teaming unmittelbar zu einem neuen mit Adversarial Training trainierten Browser-Agent-Checkpoint geführt, der bereits für alle ChatGPT‑Atlas‑Nutzer veröffentlicht wurde. Das trägt entscheidend dazu bei, besser vor neuen Angriffstypen zu schützen.
Nutzung von Angriffs-Traces zur Verbesserung des gesamten Verteidigungs-Stacks. Viele von unserem automatisierten Red-Teaming entdeckte Angriffspfade zeigen auch Verbesserungsmöglichkeiten jenseits des Modells selbst auf – etwa bei Monitoring, den Sicherheitsanweisungen im Modellkontext oder systemweiten Schutzmechanismen. Diese Erkenntnisse helfen, den vollständigen Verteidigungs-Stack weiterzuentwickeln, nicht nur den Agenten-Checkpoint.
Reaktion auf aktive Angriffe. Diese Schleife unterstützt auch die wirksamere Reaktion auf laufende Angriffe außerhalb kontrollierter Umgebungen. Beim Blick über unsere globale Angriffsfläche können wir die von externen Akteuren beobachteten Techniken und Taktiken in diesen Kreislauf einspeisen, ihre Aktivitäten nachbilden und so plattformweit defensive Verbesserungen anstoßen.
Die Weiterentwicklung unserer Fähigkeit, Agenten im Red Team zu platzieren, und der Einsatz unserer leistungsfähigsten Modelle zur Automatisierung dieser Arbeit machen den Atlas-Browser-Agenten robuster, indem die Entdeckungs-bis-Behebungs-Schleife skaliert wird. Diese Härtung bestätigt eine bekannte Sicherheitslektion: Nachhaltig starker Schutz entsteht durch kontinuierliches Stresstesten realer Systeme, konsequentes Reagieren auf Schwachstellen und das Veröffentlichen konkreter Fixes.
Wir erwarten, dass sich Angreifer weiter anpassen. Prompt Injection wird – ähnlich wie Scams und Social Engineering im Web – vermutlich nie vollständig „gelöst“ sein. Dennoch sind wir zuversichtlich, dass eine proaktive, hoch reaktionsschnelle Rapid-Response-Schleife das reale Risiko über die Zeit deutlich senken kann. Durch die Kombination automatisierter Angriffsentdeckung mit adversarialem Training und systemweiten Schutzmaßnahmen lassen sich neue Angriffsmuster früher erkennen, Lücken schneller schließen und die Kosten für Ausnutzung kontinuierlich erhöhen.
Der Agent-Modus in ChatGPT Atlas ist leistungsstark – und erweitert zugleich die Sicherheitsangriffsfläche. Diese Abwägung klar zu benennen, gehört zu verantwortungsvollem Aufbau. Ziel ist es, Atlas mit jeder Iteration spürbar sicherer zu machen: durch robustere Modelle, einen gestärkten Verteidigungs-Stack und die Beobachtung neu entstehender Missbrauchsmuster in der Praxis.
Wir investieren weiter in Forschung und Einführung, entwickeln bessere automatisierte Red-Teaming-Methoden, führen mehrschichtige Gegenmaßnahmen ein und iterieren schnell auf Basis neuer Erkenntnisse. Zudem werden wir Ergebnisse, wo möglich, mit der Öffentlichkeit teilen.
Während wir Atlas auf Systemebene weiter stärken, gibt es Schritte, mit denen sich das Risiko beim Einsatz von Agenten reduzieren lässt.
Angemeldeten Zugriff begrenzen, wenn möglich. Es wird weiterhin empfohlen, im Atlas-Agenten den abgemeldeten Modus(wird in einem neuen Fenster geöffnet) zu nutzen, sofern für die jeweilige Aufgabe kein Zugriff auf eingeloggte Websites erforderlich ist, oder den Zugriff gezielt auf einzelne Seiten zu beschränken, bei denen während der Aufgabe eine Anmeldung erfolgt.
Bestätigungsanfragen sorgfältig prüfen. Bei bestimmten folgenreichen Aktionen – etwa einem Kaufabschluss oder dem Versenden einer E-Mail – fordern Agenten vorab eine Bestätigung an. In solchen Fällen lohnt es sich, kurz zu prüfen, ob die Aktion korrekt ist und ob die weitergegebenen Informationen in diesem Kontext angemessen sind.
Agenten möglichst explizit anleiten. Sehr breit gefasste Prompts wie „überprüfe meine E-Mails und erledige alles Nötige“ sollten vermieden werden. Großer Handlungsspielraum erleichtert es verborgenem oder bösartigem Inhalt, den Agenten zu beeinflussen – selbst bei bestehenden Schutzmechanismen. Sicherer ist es, klar umrissene, spezifische Aufgaben zu formulieren. Auch wenn dies Risiken nicht vollständig ausschließt, erschwert es Angriffe erheblich.
Sollen Agenten zu vertrauenswürdigen Partnern für alltägliche Aufgaben werden, müssen sie gegen die Art von Manipulation, die das offene Web ermöglicht, abgehärtet sein. Die Härtung gegen Prompt Injection ist eine langfristige Verpflichtung und eine unserer höchsten Prioritäten. Weitere Einblicke in diese Arbeit folgen in Kürze.


