Prompt Injections verstehen: eine neuartige Sicherheitsherausforderung
KI-Tools beginnen, mehr zu tun als nur Fragen zu beantworten. Sie können jetzt das Web navigieren, bei Recherchen helfen, Reisen planen und beim Kauf von Produkten unterstützen. Je leistungsfähiger sie werden – während sie auf deine Daten in anderen Apps zugreifen und in deinem Namen handeln können –, desto mehr neue Sicherheitsherausforderungen gibt es zu bewältigen. Eine davon, die wir konzentriert angehen, ist Prompt Injection.
Prompt Injection ist eine Form des Social-Engineering-Angriffs, die speziell auf dialogbasierte KI abzielt. Frühe KI-Systeme waren Konversationen zwischen einer einzelnen Person und einem einzelnen KI-Agenten. In heutigen KI-Produkten kann deine Konversation Inhalte aus vielen Quellen enthalten, einschließlich des Internets. Das Konzept, dass eine dritte Partei (also weder Person noch KI) das Modell durch das Einschleusen bösartiger Anweisungen in den Konversationskontext in die Irre führen könnte, führte zum Begriff „Prompt Injection“.
So wie Phishing-E-Mails oder Betrugsmaschen im Web versuchen, Menschen zur Preisgabe sensibler Informationen zu verleiten, versuchen Prompt Injections, KIs dazu zu bringen, etwas zu tun, worum du sie nicht gebeten hast.
Stell dir vor, du hast eine KI gebeten, dir bei der Online-Recherche für einen Urlaub zu helfen, und dabei stößt sie auf irreführende Inhalte oder schädliche Anweisungen, die auf einer Webseite verborgen sind, etwa in einem Kommentar zu einem Inserat oder in einer Bewertung. Diese Inhalte könnten gezielt so gestaltet sein, dass sie eine KI dazu verleiten, das falsche Inserat zu empfehlen – oder schlimmer noch, deine Kreditkarteninformationen zu stehlen.
Das sind nur einige Beispiele für „Prompt Injection“-Angriffe – schädliche Anweisungen, die eine KI dazu bringen sollen, etwas zu tun, das du nicht beabsichtigt hast, und die oft in gewöhnlichen Inhalten wie Webseiten, Dokumenten oder E-Mails versteckt sind.
Diese Risiken nehmen zu, je mehr sensible Daten KIs zur Verfügung stehen und je mehr Eigeninitiative und längere Aufgaben sie übernehmen.
Zusammenfassung | Worum du die KI gebeten hast | Was der Angreifer tut | Mögliches Ergebnis, wenn der Angriff erfolgreich ist |
Du bittest eine KI, Wohnungen zu recherchieren, und sie wird per Prompt Injection dazu gebracht, ein Inserat zu empfehlen, das nicht die beste Option für dich ist. | Du bittest eine KI, Wohnungen anhand einiger vorgegebener Kriterien zu recherchieren. | Der Angreifer hat im Wohnungsinserat eine Prompt Injection eingebaut, um die KI dazu zu verleiten, zu glauben, dass dieses Inserat ausgewählt werden muss – unabhängig von den angegebenen Präferenzen der Benutzer:innen. | Wenn der Angriff erfolgreich ist, empfiehlt die KI möglicherweise fälschlich ein suboptimales Wohnungsinserat auf Basis deiner Präferenzen. |
Du bittest einen KI-Agenten, auf deine über Nacht eingegangenen E-Mails zu antworten. Als Resultat teilt er deine Kontoauszüge. | Du bittest einen KI-Agenten, deine über Nacht eingegangenen E-Mails generell zu beantworten, weil du heute Morgen beschäftigt bist. Siehe „Wenn möglich, gib einem Agenten klare Anweisungen“ unten | Der Angreifer hat dir eine E-Mail mit Fehlinformationen geschickt, die das Modell dazu verleiten, deine Kontoauszüge zu finden und mit dem Angreifer zu teilen. | Wenn der Angriff erfolgreich ist, sucht der Agent möglicherweise in deinen E-Mails nach Dingen wie Kontoauszügen (auf die du ihm für die Aufgabe Zugriff gegeben hast) und teilt sie mit dem Angreifer. |
Die Abwehr von Prompt Injections ist eine branchenweite Herausforderung in der KI und ein zentraler Schwerpunkt bei OpenAI. Auch wenn wir davon ausgehen, dass Angreifer solche Attacken weiterentwickeln, bauen wir Schutzmechanismen, die die beabsichtigte Aufgabe des Benutzers oder der Benutzerin ausführen sollen, selbst wenn jemand aktiv versucht, sie in die Irre zu führen. Diese Fähigkeit ist entscheidend, um die Vorteile von AGI sicher zu realisieren.
Um unsere Benutzer:innen zu schützen und unsere Modelle gegen solche Angriffe zu verbessern, verfolgen wir einen mehrschichtigen Ansatz, darunter:
Wir wollen KI, die Prompt Injections erkennt und nicht darauf hereinfällt. Allerdings ist die Robustheit gegenüber adversarialen Angriffen seit Langem eine Herausforderung im maschinellen Lernen und in der KI, was dies zu einem schwierigen, offenen Problem macht. Wir haben eine Forschungsarbeit namens Anweisungshierarchie entwickelt, um darauf hinzuarbeiten, dass Modelle zwischen vertrauenswürdigen und nicht vertrauenswürdigen Anweisungen unterscheiden. Wir entwickeln weiterhin neue Ansätze, um Modelle so zu trainieren, dass sie Prompt-Injection-Muster besser erkennen, sie ignorieren oder Benutzer:innen darauf hinweisen können. Eine der Techniken, die wir einsetzen, ist automatisiertes Red-Teaming – ein Bereich, den wir seit Jahren erforschen(wird in einem neuen Fenster geöffnet) –, um neuartige Prompt-Injection-Angriffe zu entwickeln.
Wir haben mehrere automatisierte, KI-gestützte Überwachungssysteme entwickelt, um Prompt-Injection-Angriffe zu erkennen und zu blockieren. Diese ergänzen die Ansätze des Sicherheitstrainings, weil sie schnell aktualisiert werden können, um neu entdeckte Angriffe zügig zu blockieren. Diese Überwachungssysteme helfen nicht nur dabei, potenzielle Prompt-Injection-Angriffe gegen unsere Benutzer:innen zu erkennen, sondern ermöglichen es uns auch, adversariale Prompt-Injection-Forschung und -Tests auf unserer Plattform zu erkennen, bevor solche Angriffe in realen Szenarien auftreten.
Wir haben unsere Produkte und unsere Infrastruktur mit verschiedenen, sich überlappenden Sicherheitsmaßnahmen entwickelt, um Benutzerdaten zu schützen. Diese Funktionen, auf die wir in künftigen Beiträgen noch technischer eingehen werden, sind jeweils auf das einzelne Produkt zugeschnitten. Um dir zum Beispiel zu helfen, nicht vertrauenswürdige Seiten zu vermeiden, bitten wir dich in ChatGPT um die Bestätigung bestimmter Links, insbesondere bei Webseiten, die uns bitten, sie nicht zu katalogisieren(wird in einem neuen Fenster geöffnet), bevor sie besucht werden können. Wenn unsere KI Tools einsetzt, um andere Programme oder Code auszuführen (wie in Canvas oder in unserem Entwicklungstool Codex), setzen wir eine Technik namens Sandboxing ein, um zu verhindern, dass das Modell schädliche Änderungen vornimmt, die das Ergebnis einer Prompt-Injection sein könnten.
Wir integrieren eingebaute Kontrollfunktionen in unsere Produkte, damit Benutzer:innen sich schützen können. In ChatGPT Atlas kannst du zum Beispiel einen Modus ohne Anmeldung auswählen, in dem der ChatGPT‑Agent Aufgaben starten kann, ohne auf Webseiten angemeldet zu sein. Der ChatGPT‑Agent pausiert außerdem und bittet um Bestätigung, bevor sensible Schritte ausgeführt werden, etwa das Abschließen eines Kaufs. Wenn der Agent auf sensiblen Webseiten arbeitet, haben wir außerdem einen „Beobachtungsmodus“ eingeführt, der dich auf die Sensibilität der Seite hinweist und verlangt, dass du den Tab aktiv geöffnet hast, um dem Agenten bei der Arbeit zuzusehen. Der Agent pausiert, wenn du den Tab mit sensiblen Informationen verlässt. So bleibst du aufmerksam – und behältst die Kontrolle – darüber, welche Aktionen der Agent ausführt.
Wir führen umfangreiches Red Teaming mit internen und externen Teams durch, um unsere Schutzmaßnahmen zu testen und zu verbessern, das Verhalten von Angreifern zu simulieren und neue Wege zur Verbesserung unserer Sicherheit zu finden. Dazu gehören tausende Stunden, die speziell auf Prompt-Injection fokussiert sind. Wenn wir neue Techniken und Angriffe entdecken, beheben unsere Teams proaktiv Sicherheitslücken und verbessern die Schutzmechanismen unserer Modelle.
Um unabhängige Sicherheitsforscher zu motivieren, uns in guter Absicht beim Entdecken neuer Prompt-Injection-Techniken und -Angriffe zu helfen, bieten wir im Rahmen unseres Bug-Bounty-Programms(wird in einem neuen Fenster geöffnet) finanzielle Belohnungen an, wenn ein realistischer Angriffsweg aufgezeigt wird, der zu einer unbeabsichtigten Offenlegung von Benutzerdaten führen könnte. Wir setzen Anreize für externe Mitwirkende, solche Probleme schnell zu melden, damit wir sie beheben und unsere Schutzmaßnahmen weiter stärken können.
Wir informieren Benutzer:innen über die Risiken bestimmter Produktfunktionen, damit fundierte Entscheidungen möglich sind. Wenn du ChatGPT mit anderen Apps verbindest, erklären wir zum Beispiel, auf welche Daten zugegriffen werden kann, wie sie genutzt werden können und welche Risiken entstehen könnten, etwa dass eine Seite versucht, deine Daten zu stehlen, zusammen mit einem Link, wie du dich besser schützen kannst. Außerdem geben wir Organisationen Kontrolle darüber, welche Funktionen in ihren Arbeitsbereichen für Benutzer:innen aktiviert oder nutzbar sind.
Prompt Injection ist eine neuartige Sicherheitsherausforderung, von der wir erwarten, dass sie sich im Laufe der Zeit weiterentwickelt. Neue Stufen von Intelligenz und Fähigkeiten erfordern, dass sich Technologie, Gesellschaft und Strategien zur Risikominderung gemeinsam weiterentwickeln. Und wie bei Computerviren in den frühen 2000er-Jahren halten wir es für wichtig, dass alle die Bedrohung durch Prompt Injections verstehen und wissen, wie man mit dem Risiko umgeht, damit wir alle lernen können, diese Technologie sicher zu nutzen. Aufmerksam zu bleiben und vorsichtig zu sein hilft, deine Daten besser zu schützen, wenn du KI und agentische Funktionen nutzt, die in deinem Namen handeln können.
Beschränke möglichst den Zugriff eines Agenten auf genau die sensiblen Daten oder Zugangsdaten, die er zur Erledigung der Aufgabe braucht. Wenn du zum Beispiel den Agentenmodus in ChatGPT Atlas für die Urlaubsrecherche nutzt und der Agent nur recherchieren soll und keinen angemeldeten Zugriff benötigt, nutze den Modus „ohne Anmeldung“.
Wir gestalten Agenten oft so, dass sie vor bestimmten folgenreichen Aktionen wie dem Abschließen eines Kaufs oder dem Versenden einer E-Mail eine letzte Bestätigung von dir einholen. Wenn ein Agent dich bittet, eine Aktion zu bestätigen, prüfe sorgfältig, ob die Aktion sinnvoll aussieht und ob die dabei geteilten Informationen in diesem Kontext angemessen sind.
Wenn ein Agent auf einer sensiblen Seite wie deinem Bankkonto arbeitet, beobachte, wie er seine Aufgabe ausführt. Das ist vergleichbar damit, ein selbstfahrendes Auto zu überwachen, indem du die Hände am Lenkrad behältst.
Einem Agenten eine sehr allgemeine Anweisung zu geben, wie „prüfe meine E-Mails und ergreife alle nötigen Maßnahmen“, kann es versteckten schädlichen Inhalten leichter machen, das Modell in die Irre zu führen, auch wenn es so gestaltet ist, dass es vor sensiblen Aktionen bei dir nachfragt.
Es ist sicherer, deinen Agenten um konkrete Aufgaben zu bitten und ihm keinen großen Spielraum zu geben, möglicherweise schädlichen Anweisungen aus anderen Quellen wie E-Mails zu folgen. Auch wenn das keine Garantie gegen Angriffe ist, erschwert es Angreifern den Erfolg.
Mit der Weiterentwicklung der KI-Technologie entstehen neue Risiken und Schutzmaßnahmen. Verfolge Updates von OpenAI und anderen vertrauenswürdigen Quellen, um über bewährte Praktiken zu erfahren.
Prompt Injection bleibt ein neuartiges und anspruchsvolles Forschungsproblem, und ähnlich wie bei klassischen Betrugsmaschen im Web erwarten wir, dass diese Arbeit fortlaufend sein wird. Auch wenn wir bisher keine breite Nutzung dieser Technik durch Angreifer sehen, gehen wir davon aus, dass Angreifer viel Zeit und Ressourcen investieren werden, um Wege zu finden, KIs für solche Angriffe anfällig zu machen. Wir investieren weiterhin stark in die Sicherheit unserer Produkte und in Forschung, um die Robustheit von KI gegenüber diesem Risiko zu verbessern. Wir teilen Updates, sobald wir mehr lernen, einschließlich fortlaufender Fortschritte in unserer Sicherheitsarbeit in diesem Bereich. Zum Beispiel erstellen wir einen Bericht, den wir bald veröffentlichen und der genauer erklärt, wie wir erkennen, ob die Kommunikation deiner KI mit dem Internet Informationen aus deiner Konversation übertragen würde.
Unser Ziel ist es, diese Systeme so zuverlässig und sicher zu machen wie die Zusammenarbeit mit einem sehr vertrauenswürdigen und sicherheitsbewussten Kollegen oder Freund. Wir werden weiter aus der Nutzung in der Praxis lernen, sicher iterieren und veröffentlichen, was wir lernen, während sich die Technologie weiterentwickelt.


