KI bei gesundheitsbezogenen Fragen in ChatGPT verbessern
GPT‑5.5 Instant bringt fortschrittliche KI zu Gesundheitsthemen zu mehr Menschen, geprägt durch Verbesserungen unserer Modelle und ärztlich geleitete Bewertungen.
Gesundheit ist einer der Bereiche, in denen ChatGPT für Menschen besonders wertvoll ist. Jede Woche wenden sich mehr als 230 Millionen Menschen mit Fragen zu Gesundheit und Wohlbefinden an ChatGPT: um Gesundheitsinformationen einzuordnen, Laborwerte zu verstehen, sich auf Termine vorzubereiten, sich im Versicherungssystem zurechtzufinden, gesündere Gewohnheiten zu entwickeln und herauszufinden, welche Fragen als Nächstes wichtig sind.
Mit GPT‑5.5 Instant sehen wir einen deutlichen Fortschritt darin, wie das Modell mit Gesundheitsfragen umgeht: Es erkennt besser, wann möglicherweise dringend medizinische Hilfe nötig ist, fragt nach relevantem Kontext, erklärt Unsicherheit und macht komplexe Informationen verständlicher. In unseren anspruchsvollsten Gesundheitsbewertungen erreicht GPT‑5.5 Instant inzwischen ein Niveau, das mit unseren Frontier-Thinking-Modellen vergleichbar ist. Da es in ChatGPT auch für Nutzer:innen der kostenlosen Version verfügbar ist, können mehr Menschen von diesen Verbesserungen profitieren. Das kann bedeuten: verständlichere Gesundheitsinformationen, bessere Fragen und klare nächste Schritte.
Dieser Fortschritt beruht sowohl auf verbesserten Modellfähigkeiten als auch auf der ärztlich geleiteten Arbeit hinter unseren Gesundheitsbewertungen. Ein weltweites Netzwerk von Ärzt:innen hilft uns dabei, über unsere Projekte hinweg zu definieren, was „gut“ in realen Gesundheitssituationen bedeutet: Sie prüfen beispielhafte Modellantworten, beschreiben ideales Verhalten und identifizieren Fehlerarten. Die Zusammenarbeit mit Ärzt:innen gibt uns eine Möglichkeit, Fortschritt im Gesundheitsbereich zu messen und die Antworten von ChatGPT im Laufe der Zeit zu verbessern.
Im Gesundheitsbereich bedeutet Fortschritt, Antworten zu liefern, die korrekt, verständlich und von gutem Urteilsvermögen geprägt sind: erkennen, wann mehr Kontext nötig ist, Unsicherheit erklären, die Sicherheit der Antworten nicht übertreiben und Menschen dabei helfen zu verstehen, wann sie medizinische Hilfe suchen sollten.
Um diesen Fortschritt zu messen, nutzen wir gesundheitsbezogene Bewertungen, darunter HealthBench und HealthBench Professional. Diese Bewertungen nutzen realistische Gesundheitsgespräche und von Ärzt:innen erstellte Rubriken, um Eigenschaften wie Korrektheit, Sicherheit, Kommunikation, Kontextbewusstsein, Vollständigkeit und angemessene Eskalation zu beurteilen.
GPT‑5.5 Instant erreicht in einer Zusammenfassung von Gesundheitsbewertungen, darunter HealthBench Professional, eine Gesundheitsleistung ähnlich unserer neuesten Frontier-Modelle und hat sich gegenüber GPT‑5.3 Instant deutlich verbessert. 5.5 Instant (veröffentlicht im Mai 2026) und 5.3 Instant (veröffentlicht im März 2026) sind für alle Nutzer:innen der kostenlosen Version in ChatGPT verfügbar (vorbehaltlich Limits). Zur Kostenberechnung für 5.4 Thinking und 5.5 Thinking verwenden wir API-Preise.
Als weiteren Vergleich baten wir Ärzt:innen außerdem, Antworten auf repräsentative Gesundheitsgespräche zu verfassen, mit unbegrenzter Zeit und Internetzugang, aber ohne KI. Ein separates ärztliches Panel verglich diese ärztlichen Antworten dann im Zeitverlauf mit Instant-Modellen. Bewertet wurden Eigenschaften, die in echten Interaktionen zählen, darunter Korrektheit, Kommunikation, Vollständigkeit, Befolgen von Anweisungen und hilfreiche Unterstützung bei Gesundheitsentscheidungen, über 3.500 geprüfte Antworten hinweg.
Die Antworten von GPT‑5.5 Instant wurden in dieser Bewertung über alle Dimensionen hinweg höher bewertet als ärztlich verfasste Antworten und Antworten älterer Modelle.
Ärzt:innen bewerteten die Antworten von GPT‑5.5 Instant so, dass sie weniger Fehlerarten aufwiesen als Antworten älterer Modelle und ärztlich verfasste Antworten. So gab es bei GPT 5.5 Instant seltener Fälle, in denen der lokale Gesundheitskontext nicht berücksichtigt wurde, Warnzeichen oder der Hinweis auf medizinische Versorgung fehlten oder bei Bedarf kein zusätzlicher Kontext von der nutzenden Person eingeholt wurde, als bei älteren Modellen und bei Ärzt:innen.
Angesichts der breiten Nutzung unserer Modelle im Gesundheitsbereich lassen sich jüngste Modellverbesserungen auch über den Produktiv-Traffic messen. Wir nutzen datenschutzwahrende Monitore im Produktiv-Traffic, um mögliche Sachlichkeitsprobleme in Gesundheitsantworten zu verfolgen. Aus einem Vergleich des jüngsten Produktiv-Traffics im Gesundheitsbereich, also Milliarden von Nachrichten pro Woche, geht hervor: Der Anteil der Antworten mit mindestens einem markierten sachlichen Problem ist in den vergangenen zwei Monaten um 71 % gesunken.
Der Vergleich von Antworten verschiedener Modelle zu unterschiedlichen Zeitpunkten auf reale Gesundheitsfragen zeigt, wie sich ChatGPT in Punkten verbessert hat, die für Gesundheit wichtig sind: erkennen, wann eine Situation möglicherweise dringend Aufmerksamkeit erfordert, besser mit Unsicherheit umgehen und Menschen klarere, nützlichere Orientierung geben, was als Nächstes zu tun ist.
GPT-5.2 Instant
Klicke auf den Modellnamen, um weitere Modellantworten zu sehen.
Dieser Fortschritt wird von Ärzt:innen mitgeprägt, die uns helfen, Gesundheitsantworten in ChatGPT zu definieren, zu messen und zu verbessern.
OpenAI arbeitet mit einem weltweiten Netzwerk von mehr als 260 Ärzt:innen aus 60 Ländern, 49 Sprachen und 26 medizinischen Fachgebieten zusammen. Ihr Feedback fließt ein, wenn ChatGPT Gesundheitsfragen in unterschiedlichsten Szenarien beantwortet, von alltäglichen Fragen zum Wohlbefinden bis hin zu komplexeren klinischen Situationen.
Ärzt:innen prüfen beispielhafte Modellantworten und bewerten, ob sie korrekt, klar, vollständig, angemessen vorsichtig und nützlich sind. Sie helfen zu erkennen, wo einer Antwort wichtiger Kontext fehlt, wo sie zu selbstsicher klingt, wo sie nächste Schritte klarer benennen oder direkter dazu ermutigen sollte, medizinische Hilfe in Anspruch zu nehmen.
Bis heute haben Ärzt:innen mehr als 700.000 beispielhafte Modellantworten geprüft, die widerspiegeln, wie medizinisches Fachpersonal und Patient:innen ChatGPT im Alltag nutzen könnten. Alle paar Minuten prüft eine Ärztin oder ein Arzt eine neue Antwort. Ihr Feedback wird zu Rubriken und Bewertungskriterien, die Forschenden helfen zu messen, ob Antworten in realen Gesundheitssituationen korrekt, sicher, klar, vollständig, angemessen vorsichtig und nützlich sind. So erkennen wir klarer, wo Modelle besser werden und wo sie noch weiter verbessert werden müssen.
Diese Arbeit unterstützt auch OpenAIs umfassendere Arbeit im Gesundheitsbereich: Dazu gehören Tools, die Menschen helfen, Gesundheitsinformationen besser zu verstehen und einzuordnen, ebenso wie Tools für medizinisches Fachpersonal, etwa ChatGPT für Ärzt:innen und OpenAI für das Gesundheitswesen. Sie unterstützen medizinische Fachkräfte bei Aufgaben wie Dokumentation, Recherche und Behandlungsberatung.
Die Verbesserung der menschlichen Gesundheit wird eine der persönlichsten und greifbarsten Auswirkungen von AGI sein. Während unsere Modelle weiter besser werden, ist unser Ziel, ChatGPT in solchen Momenten genauer, sorgfältiger und nützlicher zu machen – und diesen Fortschritt immer mehr Menschen zugänglich zu machen.


