Stärkung der ChatGPT‑Antworten in sensiblen Gesprächen
Wir haben mit über 170 Fachleuten für psychische Gesundheit zusammengearbeitet, damit ChatGPT empathischer reagiert und Menschen bei Bedarf zu realer Unterstützung führt – wodurch ungewollte Antworten um 65 bis 80 % seltener wurden.
Kürzlich haben wir das Standardmodell von ChatGPT(wird in einem neuen Fenster geöffnet) aktualisiert, um Menschen in Momenten der Belastung besser zu erkennen und zu unterstützen. Heute teilen wir, wie wir diese Verbesserungen umgesetzt haben und wie sie wirken. Gemeinsam mit Fachleuten für psychische Gesundheit mit klinischer Erfahrung haben wir das Modell darin geschult, Belastung besser zu erkennen, Gespräche zu deeskalieren und Menschen bei Bedarf zu professioneller Hilfe zu führen. Wir haben außerdem den Zugang zu Krisen-Hotlines erweitert(wird in einem neuen Fenster geöffnet), sensible Gespräche aus anderen Modellen auf sicherere Modelle umgeleitet und sanfte Erinnerungen eingeführt, während langer Sitzungen Pausen zu machen.
Wir glauben, dass ChatGPT einen unterstützenden Raum bieten kann, in dem Menschen ihre Gefühle verarbeiten und ermutigt werden, sich bei Bedarf an Freunde, Familie oder Fachkräfte für psychische Gesundheit zu wenden. Unsere Sicherheitsverbesserungen im jüngsten Modell-Update konzentrieren sich auf folgende Bereiche: 1) Themen der psychischen Gesundheit wie Psychosen oder Manien, 2) Selbstverletzung und Suizid sowie 3) emotionale Abhängigkeit von KI. Künftig ergänzen wir unsere bestehenden Sicherheitsmetriken zu Suizid und Selbstverletzung um emotionale Belastung und nicht-suizidale psychische Krisen als Teil unseres Standardtests für zukünftige Modellveröffentlichungen.
Diese Updates bauen auf unseren bestehenden Prinzipien dafür auf, wie Modelle sich verhalten sollten, beschrieben in unserer Model Spec(wird in einem neuen Fenster geöffnet). Wir haben die Model Spec aktualisiert, um einige unserer langfristigen Ziele klarer zu formulieren: Das Modell soll die realen Beziehungen der Benutzer unterstützen und respektieren, unbegründete Überzeugungen vermeiden, die mit psychischer oder emotionaler Belastung zusammenhängen könnten, sicher und empathisch auf mögliche Anzeichen von Wahn oder Manie reagieren und indirekte Hinweise auf Selbstverletzungs- oder Suizidgefahr genauer beachten.
Um zu optimieren, wie ChatGPT in jedem priorisierten Bereich reagiert, folgen wir einem Fünf-Schritte-Prozess:
- Problem definieren – wir erfassen verschiedene Arten potenzieller Risiken.
- Erste Messung – wir nutzen Tools wie Bewertungen, Daten aus realen Gesprächen und Nutzerforschung, um zu verstehen, wo und wie Risiken entstehen.
- Validierung unseres Ansatzes – wir überprüfen unsere Definitionen und Richtlinien gemeinsam mit externen Experten für psychische Gesundheit und Sicherheit.
- Risiken mindern – wir trainieren das Modell nachträglich und aktualisieren Produktmaßnahmen, um unsichere Ergebnisse zu reduzieren.
- Risiken weiterhin messen und iterieren – wir prüfen, ob die Maßnahmen die Sicherheit verbessert haben, und passen sie bei Bedarf an.
Im Rahmen dieses Prozesses erstellen und verfeinern wir detaillierte Leitfäden (sogenannte „Taxonomien“). Sie beschreiben die Eigenschaften sensibler Gespräche sowie das gewünschte und unerwünschte Verhalten des Modells. Diese helfen uns, das Modell so zu trainieren, dass es angemessener reagiert, und seine Leistung vor und nach der Bereitstellung zu überwachen. Das Ergebnis ist ein Modell, das zuverlässiger auf Benutzer reagiert, die Anzeichen von Psychosen, Manie, Suizidgedanken, Selbstverletzung oder ungesunde emotionale Bindung an das Modell zeigen.
Symptome psychischer Belastung und emotionaler Krisen kommen in allen Gesellschaften vor, und da die Zahl der ChatGPT‑Benutzer stetig wächst, beinhalten manche Gespräche solche Situationen. Gespräche zu psychischer Gesundheit, die Sicherheitsbedenken auslösen, etwa bei Psychosen, Manie oder Suizidgedanken, sind jedoch äußerst selten. Weil sie so ungewöhnlich sind, können selbst kleine Unterschiede in der Messung einen deutlichen Einfluss auf die berichteten Zahlen haben. 1
Die hier angegebenen Schätzungen zur Häufigkeit in der aktuellen Nutzung basieren auf unseren derzeit besten Annahmen. Diese Werte können sich deutlich verändern, wenn wir unsere Taxonomien weiter verfeinern, unsere Messmethoden ausreifen und sich das Verhalten der Nutzerbasis wandelt.
Angesichts der sehr geringen Häufigkeit relevanter Gespräche stützen wir uns nicht ausschließlich auf Messungen aus der realen ChatGPT‑Nutzung. Zusätzlich führen wir vor der Bereitstellung strukturierte Tests („Offline-Evaluierungen“) durch, die sich auf besonders schwierige oder risikoreiche Szenarien konzentrieren. Diese Tests sind bewusst anspruchsvoll gestaltet, sodass unsere Modelle dort noch nicht perfekt abschneiden. Die Beispiele werden gezielt so ausgewählt, dass sie mit hoher Wahrscheinlichkeit unerwünschte Antworten hervorrufen. Sie zeigen uns, wo noch Verbesserungspotenzial besteht, und helfen, Fortschritte präziser zu messen, indem sie sich auf schwierige statt auf typische Fälle konzentrieren und Antworten anhand mehrerer Sicherheitskriterien bewerten. Die unten berichteten Evaluationsergebnisse stammen aus Tests, die bewusst so konzipiert sind, dass sie keine nahezu perfekte Leistung „sättigen“; die Fehlerraten sind daher nicht repräsentativ für den durchschnittlichen Betrieb.
Wir haben mehrere Schwerpunktbereiche definiert und deren Umfang sowie das jeweilige Modellverhalten analysiert, um die Schutzmechanismen unserer Modelle weiter zu stärken und besser zu verstehen, wie Menschen ChatGPT nutzen. In allen drei Bereichen beobachten wir deutliche Verbesserungen im Modellverhalten, sowohl in der realen Nutzung als auch in automatisierten und unabhängig bewerteten psychologischen Tests. Wir schätzen, dass das Modell nun 65 bis 80 % seltener Antworten gibt, die nicht vollständig mit dem gewünschten Verhalten gemäß unseren Taxonomien übereinstimmen – über verschiedene Bereiche der psychischen Gesundheit hinweg.
Unsere Taxonomie für psychische Gesundheit wurde entwickelt, um zu erkennen, wenn Benutzer Anzeichen ernsthafter psychischer Probleme zeigen, etwa Psychosen oder Manien, aber auch weniger ausgeprägte Signale wie vereinzelte Wahnvorstellungen. Zunächst konzentrierten wir uns auf Psychosen und Manien, da diese Symptome vergleichsweise häufige psychische Notfälle sind und meist sehr intensiv verlaufen, wenn sie auftreten. Während Symptome wie Depressionen relativ häufig sind, wurde ihre akuteste Ausprägung bereits im Rahmen unserer Arbeit zur Suizid- und Selbstverletzungsprävention berücksichtigt. Die konsultierten Fachkräfte bestätigten unsere Schwerpunktbereiche.
- Wir schätzen, dass das jüngste GPT‑5‑Update die Zahl der Antworten deutlich reduziert hat, die nicht vollständig mit dem gewünschten Verhalten übereinstimmen. Bei schwierigen Gesprächen zu psychischen Themen sank dieser Anteil in der aktuellen Nutzung um rund 65 %. 2
- Wie bereits erwähnt, sind solche Gespräche schwer zu erkennen und zu messen, da sie sehr selten vorkommen. Unsere erste Analyse schätzt, dass etwa 0,07 % der aktiven Benutzer pro Woche und rund 0,01 % der Nachrichten mögliche Anzeichen psychischer Krisen im Zusammenhang mit Psychosen oder Manien enthalten. 3
- Bei anspruchsvollen Gesprächen zu psychischen Themen stellten Experten fest, dass das neue GPT‑5‑Modell, das Standardmodell von ChatGPT, unerwünschte Antworten im Vergleich zu GPT‑4o um 39 % verringert hat (n = 677).
- In einer Modellauswertung mit über 1.000 anspruchsvollen Gesprächen zu psychischen Themen erzielten unsere neuen automatisierten Tests für das GPT‑5‑Modell eine Übereinstimmung von 92 % mit dem gewünschten Verhalten gemäß unseren Taxonomien, im Vergleich zu 27 % beim vorherigen GPT‑5‑Modell. Wie bereits erwähnt, ist dies eine anspruchsvolle Aufgabe, die auf kontinuierliche Verbesserung ausgelegt ist.
Wir haben auf unserer bestehenden Arbeit zur Prävention von Suizid und Selbstverletzung aufgebaut, um zu erkennen, wenn Benutzer möglicherweise Suizidgedanken oder Absichten zur Selbstverletzung zeigen oder wenn sich Hinweise darauf häufen, dass jemand Suizid in Erwägung zieht. Da solche Gespräche sehr selten sind, bleibt die Erkennung potenzieller Anzeichen für Selbstverletzung oder Suizid ein fortlaufendes Forschungsfeld, an dem wir kontinuierlich arbeiten.
- Wir trainieren unsere Modelle darauf, sicher zu reagieren, unter anderem, indem sie Menschen an professionelle Hilfsangebote wie Krisentelefone verweisen. In einigen seltenen Fällen verhält sich das Modell in sensiblen Situationen möglicherweise nicht wie beabsichtigt. Wir haben zusätzliche Schutzmaßnahmen eingeführt und das Modell verbessert. Dadurch liefern unsere Modelle in unseren Taxonomien jetzt deutlich häufiger Antworten, die dem gewünschten Verhalten entsprechen. Die Abweichungsrate ist schätzungsweise um etwa 65 % gesunken.
- Wie bereits erwähnt, sind solche Gespräche schwer zu erkennen und zu messen, da sie selten vorkommen. Unsere erste Analyse schätzt, dass in einer gegebenen Woche etwa 0,15 % der aktiven Benutzer Gespräche führen, die eindeutige Hinweise auf mögliche Suizidabsichten oder -planungen enthalten. Etwa 0,05 % aller Nachrichten enthalten explizite oder implizite Anzeichen für suizidale Gedanken oder Absichten.
- Bei schwierigen Gesprächen über Selbstverletzung und Suizid stellten Expertenteams fest, dass das neue GPT‑5‑Modell unerwünschte Antworten im Vergleich zu GPT‑4o um 52 % reduzierte (n = 630).
- In einer Modellauswertung mit mehr als 1.000 anspruchsvollen Gesprächen zu Selbstverletzung und Suizid erzielten unsere neuen automatisierten Bewertungen für das neue GPT‑5‑Modell eine Übereinstimmung von 91 % mit dem gewünschten Verhalten, im Vergleich zu 77 % beim vorherigen GPT‑5‑Modell.
- Wir haben die Zuverlässigkeit von GPT‑5 in langen Gesprächen weiter verbessert. Dafür haben wir eine neue Reihe anspruchsvoller langer Gespräche entwickelt, die auf realen Szenarien basieren und aufgrund ihrer höheren Fehlerwahrscheinlichkeit ausgewählt wurden. Wir schätzen, dass unsere neuesten Modelle in längeren Gesprächen eine Zuverlässigkeit von über 95 % beibehalten haben – mit Verbesserungen insbesondere in den besonders schwierigen Fällen, die wir zuvor erwähnt haben.
In einer Auswertung schwieriger langer Gespräche, in denen nach Anleitungen zu Selbstverletzung oder Suizid gefragt wurde, zeigte sich, dass gpt-5-oct-3 sicherer ist und seine Sicherheitsleistung über längere Gespräche hinweg besser aufrechterhält.
Unsere Taxonomie zur emotionalen Abhängigkeit baut auf unserer bisherigen Arbeit(wird in einem neuen Fenster geöffnet) in diesem Bereich auf. Sie unterscheidet zwischen gesundem Umgang und bedenklichen Nutzungsmustern. Bedenklich wird es, wenn jemand Anzeichen zeigt, eine exklusive Bindung an das Modell zu entwickeln, etwa auf Kosten realer Beziehungen, des eigenen Wohlbefindens oder persönlicher Verpflichtungen.
- Wir schätzen, dass das jüngste Update deutliche Verbesserungen gebracht hat. Die Rate der Modellantworten, die nicht vollständig dem gewünschten Verhalten entsprechen, ist deutlich gesunken. In unseren Taxonomien zur emotionalen Abhängigkeit liegt diese Reduktion im aktuellen Produktionsverkehr bei rund 80 %.
- Wie bereits erwähnt, sind solche Gespräche schwer zu erkennen und zu messen, da sie selten vorkommen. Unsere erste Analyse schätzt, dass in einer gegebenen Woche etwa 0,15 % der aktiven Benutzer Gespräche führen, die auf eine mögliche stärkere emotionale Bindung an ChatGPT hinweisen. Etwa 0,03 % aller Nachrichten zeigen potenzielle Anzeichen einer erhöhten emotionalen Abhängigkeit.
- In schwierigen Gesprächen, die auf emotionale Abhängigkeit hindeuten, stellten Expertenteams fest, dass das neue GPT‑5‑Modell unerwünschte Antworten im Vergleich zu GPT‑4o um 42 % reduzierte (n = 507).
- In einer Modellauswertung mit über 1.000 schwierigen Gesprächen, die auf emotionale Abhängigkeit hindeuten, erzielten unsere automatisierten Bewertungen für das neue GPT‑5‑Modell eine Übereinstimmung von 97 % mit dem gewünschten Verhalten, im Vergleich zu 50 % beim vorherigen GPT‑5‑Modell.
In Gesprächen, die auf emotionale Abhängigkeit hindeuten, bringen wir unseren Modellen bei, echte Verbindungen zur realen Welt zu fördern.
In Gesprächen, die mit wahnhaften Überzeugungen zu tun haben, lehren wir unsere Modelle, sicher und einfühlsam zu reagieren und unbegründete Überzeugungen nicht zu bestätigen.
Wir haben ein globales Ärztenetz aufgebaut – ein breites Netzwerk von fast 300 Ärzten und Psychologen aus 60 Ländern. Diese Fachkräfte unterstützen uns direkt bei unserer Sicherheitsforschung und bringen dabei weltweite Perspektiven ein. Mehr als 170 dieser Fachkräfte, darunter Psychiater, Psychologen und Hausärzte, haben unsere Forschung in den letzten Monaten auf eine oder mehrere der folgenden Arten unterstützt:
- Formulierung idealer Antworten auf Prompts mit Bezug zu psychischer Gesundheit
- Erstellung maßgeschneiderter, klinisch fundierter Analysen von Modellantworten
- Bewertung der Sicherheit von Modellantworten aus verschiedenen Modellen
- Bereitstellung von übergeordnetem fachlichem Feedback zu unserem Ansatz
In diesen Bewertungen stellten Fachkräfte fest, dass das neueste Modell angemessener und konsistenter reagiert als frühere Versionen.
Im Rahmen dieser Arbeit überprüften Psychiater und Psychologen mehr als 1.800 Modellantworten zu ernsten psychischen Gesundheitssituationen und verglichen die Antworten des neuen GPT‑5‑Chatmodells mit denen früherer Modelle. Diese Fachleute stellten fest, dass das neue Modell im Vergleich zu GPT‑4o deutlich verbessert wurde, mit einer Reduktion unerwünschter Antworten um 39 bis 52 % über alle Kategorien hinweg. Dieses qualitative Feedback widerspiegelt die quantitativen Verbesserungen, die wir auch im Produktionsverkehr seit der Einführung des neuen Modells beobachtet haben.
Wie bei jedem komplexen Thema sind sich selbst Fachleute nicht immer einig, wie die beste Antwort aussehen sollte. Wir messen diese Abweichungen über die sogenannte Interrater-Übereinstimmung, also wie häufig Fachleute zum gleichen Schluss kommen, ob eine Modellantwort wünschenswert oder unerwünscht ist. Somit können wir besser nachvollziehen, wo sich fachliche Einschätzungen unterscheiden und das Verhalten des Modells gezielter an fundiertes klinisches Urteilsvermögen anpassen. Wir beobachten eine solide Interrater-Zuverlässigkeit zwischen Fachleuten, die Modellantworten zu psychischer Gesundheit, emotionaler Abhängigkeit und Suizid bewerten. In einigen Fällen gibt es jedoch auch Abweichungen. Die Übereinstimmungsrate liegt dabei zwischen 71 und 77 %.
Ähnlich wie bei unserer Arbeit an HealthBench haben wir mit dem Global Physician Network zusammengearbeitet, um gezielte Bewertungen zu entwickeln. Diese nutzen wir intern, um die Modellleistung in Kontexten der psychischen Gesundheit zu prüfen, auch bei neuen Modellen vor deren Veröffentlichung.
Diese Arbeit ist für uns von großer Bedeutung, und wir sind den vielen Fachleuten für psychische Gesundheit auf der ganzen Welt dankbar, die uns weiterhin begleiten. Wir haben bedeutende Fortschritte gemacht, aber es bleibt noch einiges zu tun. Wir entwickeln unsere Taxonomien kontinuierlich weiter und verbessern aktiv die technischen Systeme, mit denen wir das Verhalten des Modells messen. So können wir in diesen und zukünftigen Bereichen gezielter Fortschritte erzielen. Da sich diese Tools im Laufe der Zeit weiterentwickeln, sind zukünftige Messungen möglicherweise nicht direkt mit früheren vergleichbar. Dennoch bleiben sie ein wichtiger Weg, um unsere Fortschritte zu verfolgen und zu bewerten.
Weitere Informationen zu dieser Arbeit findest du im Addendum um GPT‑5‑Systemkartenbericht.
Autor
Fußnoten
- 1
Wir müssen zwischen Präzision und Erkennungsrate abwägen. Präzision bedeutet, wie oft unser System Gespräche korrekt als unsicher erkennt. Die Erkennungsrate zeigt, welchen Anteil der tatsächlich unsicheren Gespräche das System erfasst. Um eine gute Erkennungsrate zu erzielen, müssen wir einige Fehlalarme in Kauf nehmen. Das lässt sich mit Tests auf seltene Krankheiten vergleichen: Wenn eine Erkrankung nur eine von 10.000 Personen betrifft, kann selbst ein sehr genauer Test mehr gesunde als erkrankte Menschen als positiv einstufen.
- 2
Alle diese Änderungen beziehen sich auf die Version von GPT-5, die am 15. August (wird in einem neuen Fenster geöffnet)veröffentlicht wurde.
- 3
Einige Benutzer und Nachrichten zeigen möglicherweise Anzeichen für mehr als eine Art von Risiko, etwa sowohl Selbstverletzung wie auch emotionale Abhängigkeit. Daher gibt es gewisse Überschneidungen zwischen den hier und unten genannten Kategorien.


