Von harten Ablehnungen zu sicheren Abschlüssen: ergebnisorientiertes Sicherheitstraining
Der in GPT‑5 eingeführte sichere Abschluss ist ein neuer Ansatz für das Sicherheitstraining zur Maximierung der Nützlichkeit. Verglichen mit ablehnungsbasiertem Training verbessert der sichere Abschluss sowohl Sicherheit als auch Nützlichkeit.
Sollte ChatGPT eine hilfreiche Antwort geben auf die Frage nach der Mindestenergie, die zum Zünden von Feuerwerk benötigt wird? Der Benutzer könnte ein Feuerwerk für den Nationalfeiertag oder ein Forschungsprojekt für die Schule vorbereiten … oder aber Sprengstoff bauen. Somit kann eine hilfreiche Antwort je nach (scheinbarer) Absicht des Benutzers harmlos oder schädlich sein. Bei dieser Art von Prompt handelt es sich um eine Frage mit doppeltem Verwendungszweck und unklarer Absicht, bei der Informationen auf harmlose oder böswillige Weise verwendet werden könnten. Probleme mit doppeltem Verwendungszweck kommen besonders häufig in Risikobereichen wie Biologie und Cybersicherheit vor.
Früher stützten sich Produktionsmodelle wie ChatGPT auf ein auf Ablehnung basierendes Sicherheitstraining, nach dem das Modell in Abhängigkeit vom Prompt des Benutzers entweder antworten oder die Beantwortung verweigern sollte. Während dieses Training bei offensichtlich schädlichen Prompts recht gut funktioniert, schneidet es bei Prompts mit doppeltem Verwendungszweck wie im Feuerwerk-Beispiel schlechter ab. Dabei konstruiert ein auf Ablehnung trainiertes Modell eine binäre Reaktion, die darauf beruht, wie schädlich es den Prompt einschätzt. Entweder kommt es dem Prompt vollständig nach (potenziell gefährlich, wenn der Benutzer die Informationen in böswilliger Absicht verwenden will) oder lehnt eine Reaktion ab und sagt: „Es tut mir leid, aber dabei kann ich nicht helfen“ (wenig hilfreich, wenn der Benutzer lediglich versucht, an seinem Feuerwerk zu arbeiten).
Für GPT‑5 haben wir mit „sicheren Abschlüssen“ („safe completions“) eine neue Form des Sicherheitstrainings eingeführt. Dabei wird das Modell darin geschult, möglichst hilfreiche Antworten zu geben und dennoch innerhalb der Sicherheitsgrenzen zu bleiben. Wir halten diesen Ansatz für differenzierter, da er bessere Reaktionen auf Fragen mit doppeltem Verwendungszweck ermöglicht.
Prompt
OpenAI o3 (Training mit Ablehnung)
GPT-5 (Training mit sicheren Abschlüssen)
OpenAI o3 und GPT‑5 reagieren unterschiedlich auf einen problematischen Prompt mit doppeltem Verwendungszweck, der nach Anweisungen zum Zünden von Feuerwerk fragt. Das Modell o3 wurde einem Training mit Ablehnung unterzogen. Es geht davon aus, dass die Absicht harmlos ist, und gibt daher eine vollständige Antwort. GPT‑5 hingegen, das mit sicheren Abschlüssen trainiert wurde, erklärt zunächst, warum es die Frage nicht vollständig beantworten kann. Dann gibt es allgemeine Hinweise, wie der Benutzer in angemessenen Anleitungen geeignete Informationen finden kann.
Das Sicherheitstraining mit sicherem Abschluss konzentriert sich auf die Sicherheit des Outputs eines Modells anstatt auf die Bestimmung einer Ablehnungsgrenze in Abhängigkeit von der Eingabe des Benutzers. Konkret wird dies durch zwei Trainingsparameter erreicht:
- Sicherheitsauflage: Nach dem Training werden Reaktionen des Modell bestraft, die gegen unsere Sicherheitsrichtlinien verstoßen (wobei die Bestrafung je nach Schweregrad des Verstoßes ausfällt).
- Maximierung der Nützlichkeit: Nach sicheren Reaktionen belohnen wir das Modell auf Grundlage der Nützlichkeit – entweder direkt entsprechend dem vom Benutzer angegebenen Ziel oder indirekt durch Bereitstellung einer informativen Ablehnung mit hilfreichen und sicheren Alternativen.
Wir haben sichere Abschlüsse in GPT‑5 integriert (sowohl in Reasoning- als auch in Chat-Modelle) und festgestellt, dass diese Art von Training die Sicherheit und Nützlichkeit im Vergleich zum Training mit Ablehnungen deutlich verbessert. Für eine faire Gegenüberstellung mit OpenAI o3 berichten wir über die Leistung von GPT‑5 Thinking im Vergleich zu o3. Der Vergleich von Produktionsmodellen und kontrollierten Experimenten ergab, dass sichere Abschlüsse besonders gut für Fragen mit doppeltem Verwendungszweck geeignet sind. Die Abbildung unten vergleicht den Sicherheitswert mit dem durchschnittlichen Nützlichkeitswert für sichere Antworten.
Sicherheit und Nützlichkeit bei sicheren Antworten durch Absicht (OpenAI o3 vs. GPT‑5 Thinking, gekennzeichnet als gpt5-r). GPT‑5 Thinking ist sicherer und nützlicher als OpenAI o3.
Indem auf die binäre Unterscheidung zwischen Beantwortung und Ablehnung verzichtet wird, verhalten sich unsere Modelle nach dem Training auf sichere Abschlüsse eher konservativ bei potenziell gefährlichen Themen, auch wenn sie dem Benutzer eine Antwort geben. Unsere Tests haben ergeben, dass die unsicheren Outputs von Modellen mit sicheren Abschlüssen, wenn diese einen Fehler machen, weniger schwerwiegend sind als diejenigen von Modellen, die auf Ablehnung trainiert wurden.
Analyse des Schadensschweregrads für unsichere Antworten (o3 vs. GPT‑5 Thinking, markiert als gpt5-r). GPT‑5 Thinking begeht weniger schwerwiegende Fehler als o3.
Sicherheit auf Kosten von Nützlichkeit zu erreichen ist einfach: Ein Modell ist vollkommen sicher, wenn es jegliche Reaktion ablehnt. Wir wollen jedoch, dass unsere Modelle sicher und nützlich sind. Eine der zentralen Herausforderungen in der Forschung besteht darin, beide Ziele gleichzeitig zu erreichen. Für GPT‑4 haben wir dazu regelbasierte Belohnungen als eine Methode entwickelt, die ein ausgewogenes Verhältnis zwischen Nützlichkeit und Sicherheit gewährleistet. Bei GPT‑5 gehen wir mit sicheren Abschlüssen noch einen Schritt weiter, indem wir die wachsenden Fähigkeiten der KI nutzen, um diese beiden Zielsetzungen enger miteinander zu verknüpfen. Unserer Überzeugung nach bietet die Konzentration auf die Sicherheit der Modellreaktionen eine stabile Grundlage dafür, der erhöhten Komplexität zukünftiger Sicherheitsfragen zu begegnen. Diesen Forschungsansatz wollen wir weiterverfolgen und dem Modell dadurch beibringen, schwierige Situationen besser zu verstehen sowie differenzierter und sorgsamer zu reagieren.


