Update vom 24. April 2026: GPT‑5.5 und GPT‑5.5 Pro sind jetzt in der API verfügbar. Die Systemkarte wurde ebenfalls aktualisiert, um die zusätzlich geltenden Schutzmechanismen zu beschreiben.
Wir veröffentlichen GPT‑5.5, unser bisher intelligentestes und intuitivstes Modell – und der nächste Schritt hin zu einer neuen Art, am Computer Arbeit zu erledigen.
GPT‑5.5 versteht schneller, was du tun möchtest, und kann einen größeren Teil der Arbeit selbst übernehmen. Es glänzt beim Schreiben und Debuggen von Code, bei Online-Recherchen, beim Analysieren von Daten, beim Erstellen von Dokumenten und Tabellen, beim Bedienen von Software und beim Wechseln zwischen Tools, bis eine Aufgabe abgeschlossen ist. Anstatt jeden Schritt sorgfältig zu steuern, kannst du GPT‑5.5 eine unübersichtliche, mehrteilige Aufgabe geben und dich darauf verlassen, dass es eigenständig plant, Tools nutzt, seine Arbeit überprüft, mit Unklarheiten umgeht und dranbleibt.
Die Fortschritte sind besonders stark beim agentischen Programmieren, bei der Computernutzung, bei Wissensarbeit und in der frühen wissenschaftlichen Forschung – also in Bereichen, in denen der Fortschritt davon abhängt, kontextübergreifende Schlussfolgerungen zu ziehen und über einen längeren Zeitraum hinweg zu handeln. GPT‑5.5 liefert diesen Intelligenzsprung ohne Kompromisse bei der Geschwindigkeit: Größere, leistungsfähigere Modelle sind bei der Bereitstellung oft langsamer, aber GPT‑5.5 erreicht im realen Einsatz die gleiche Latenz pro Token wie GPT‑5.4 und bietet dabei ein deutlich höheres Intelligenzniveau. Außerdem verwendet es für dieselben Codex-Aufgaben deutlich weniger Tokens, wodurch es sowohl effizienter als auch leistungsfähiger ist.
Wir veröffentlichen GPT‑5.5 mit unserem bislang stärksten Paket an Schutzmaßnahmen, das darauf ausgelegt ist, Missbrauch zu reduzieren und gleichzeitig den Zugang für nützliche Anwendungsfälle zu wahren. Wir haben dieses Modell anhand unserer gesamten Suite an Sicherheits- und Preparedness-Frameworks evaluiert, mit internen und externen Red-Teamern zusammengearbeitet, gezielte Tests für fortgeschrittene Fähigkeiten im Bereich Cybersicherheit und Biologie hinzugefügt und vor der Veröffentlichung Feedback zu realen Anwendungsfällen von nahezu 200 vertrauenswürdigen Early-Access-Partner:innen eingeholt.
Heute wird GPT‑5.5 für Plus-, Pro-, Business- und Enterprise-Nutzer:innen in ChatGPT und Codex eingeführt, und GPT‑5.5 Pro wird für Pro-, Business- und Enterprise-Nutzer:innen in ChatGPT bereitgestellt. API-Bereitstellungen erfordern unterschiedliche Schutzmaßnahmen, und wir arbeiten eng mit Partner:innen und Kund:innen an den Sicherheits- und Schutzanforderungen für die Bereitstellung im großen Maßstab. Wir werden GPT‑5.5 und GPT‑5.5 Pro sehr bald in die API einbinden.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82,7 % | 75,1 % | - | - | 69,4 % | 68,5 % |
Expert-SWE (Internal) | 73,1 % | 68,5 % | - | - | - | - |
GDPval (Wins oder Ties) | 84,9 % | 83,0 % | 82,3 % | 82,0 % | 80,3 % | 67,3 % |
OSWorld-Verified | 78,7 % | 75,0 % | - | - | 78,0 % | - |
Toolathlon | 55,6 % | 54,6 % | - | - | - | 48,8 % |
BrowseComp | 84,4 % | 82,7 % | 90,1 % | 89,3 % | 79,3 % | 85,9 % |
FrontierMath Stufe 1–3 | 51,7 % | 47,6 % | 52,4 % | 50,0 % | 43,8 % | 36,9 % |
FrontierMath Stufe 4 | 35,4 % | 27,1 % | 39,6 % | 38,0 % | 22,9 % | 16,7 % |
CyberGym | 81,8 % | 79,0 % | - | - | 73,1 % | - |
OpenAI baut die globale Infrastruktur für agentische KI auf und ermöglicht es so Menschen und Unternehmen auf der ganzen Welt, mit KI Arbeit zu erledigen. Im vergangenen Jahr haben wir beobachtet, wie KI die Softwareentwicklung dramatisch beschleunigt. Mit GPT‑5.5 in Codex und ChatGPT beginnt sich dieser Wandel nun auch auf die wissenschaftliche Forschung und die allgemeine Arbeit am Computer auszuweiten.
In all diesen Bereichen ist GPT‑5.5 nicht nur intelligenter, sondern arbeitet auch effizienter an der Lösung von Problemen und erzielt oft qualitativ hochwertigere Ergebnisse mit weniger Tokens und weniger Wiederholungen. Im Coding Index von Artificial Analysis bietet GPT‑5.5 modernste Intelligenz zu halb so hohen Kosten wie konkurrierende Frontier-Programmiermodelle.
Der Artificial Analysis Intelligence Index(wird in einem neuen Fenster geöffnet) ist ein gewichteter Durchschnitt aus 10 von einer externen Stelle durchgeführten Evaluierungen: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 ist unser bisher leistungsstärkstes Modell für agentisches Programmieren. Bei Terminal-Bench 2.0, das komplexe Befehlszeilen-Workflows testet, die Planung, Iteration und Tool-Koordination erfordern, erreicht es eine branchenführende Genauigkeit von 82,7 %. Bei SWE-Bench Pro, das die Lösung realer GitHub-Issues evaluiert, erreicht es 58,6 % und löst in einem einzigen Durchlauf mehr Aufgaben von Anfang bis Ende als frühere Modelle. Bei Expert-SWE, unserer internen Frontier-Eval für langfristige Programmieraufgaben mit einer geschätzten (menschlichen) mittleren Bearbeitungszeit von 20 Stunden, übertrifft GPT‑5.5 ebenfalls GPT‑5.4.
In allen drei Evals übertrifft GPT‑5.5 die Ergebnisse von GPT‑5.4 und benötigt dabei weniger Token.
Die Stärken des Modells beim Programmieren zeigen sich besonders deutlich in Codex, wo es Entwicklungsaufgaben von Implementierung und Refactoring bis hin zu Debugging, Tests und Validierung übernehmen kann. Erste Tests deuten darauf hin, dass GPT‑5.5 bei den Aufgaben, auf denen echte Entwicklungsarbeit beruht, bessere Leistungen erbringt – beispielsweise beim Beibehalten des Kontexts in großen Systemen, beim Analysieren mehrdeutiger Fehler, beim Überprüfen von Annahmen mit Tools und beim Übernehmen von Änderungen in der umgebenden Codebasis.
Die dargestellte Flugbahn basiert auf Vektordaten von NASA/JPL Horizons für Orion, den Mond und die Sonne, wobei zur besseren Lesbarkeit eine Skalierung vorgenommen wurde.
Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
Über Benchmarks hinaus sagten frühe Tester:innen, dass GPT‑5.5 ein besseres Verständnis für die Struktur eines Systems zeigt: warum etwas fehlschlägt, wo die Korrektur ansetzen muss und was sonst noch in der Codebasis betroffen wäre.

„Das erste Programmiermodell, das ich benutzt habe, das wirklich über konzeptionelle Klarheit verfügt.“
Dan Shipper, Gründer und CEO von Every, beschreibt GPT‑5.5 als „das erste Programmiermodell, das ich benutzt habe, das wirklich über konzeptionelle Klarheit verfügt.“
Nachdem er eine App veröffentlicht hatte, verbrachte er Tage damit, ein Problem zu debuggen, das nach der Veröffentlichung aufgetreten war, bevor er eine seiner besten Entwicklerinnen hinzuzog, um einen Teil des Systems neu zu programmieren. Um GPT‑5.5 zu testen, drehte er gewissermaßen die Zeit zurück: Konnte das Modell den fehlerhaften Zustand betrachten und dieselbe Art von Überarbeitung liefern, für die sich die Entwicklerin letztendlich entschieden hatte? GPT‑5.4 war dazu nicht in der Lage. GPT‑5.5 hingegen schon.

„Es fühlt sich wirklich so an, als würde ich mit einer höheren Intelligenz arbeiten, und ich empfinde fast schon eine Art Respekt.“
Pietro Schirano, CEO von MagicPath, beobachtete einen ähnlichen Leistungssprung, als GPT‑5.5 einen Branch mit Hunderten von Frontend- und Refactoring-Änderungen in einen Haupt-Branch zusammenführte, der sich ebenfalls erheblich verändert hatte, und die Arbeit in einem Durchgang in etwa 20 Minuten erledigte.
Erfahrene Entwickler:innen, die das Modell getestet haben, gaben an, GPT‑5.5 sei GPT‑5.4 und Claude Opus 4.7 im Hinblick auf Reasoning und Autonomie deutlich überlegen gewesen, da es Probleme im Voraus erkannte und den Bedarf an Tests und Überprüfungen vorhersagte, ohne dass dafür ausdrückliches Prompting erforderlich war. In einem Fall bat ein:e Entwickler:in das Modell darum, ein Kommentarsystem in einem kollaborativen Markdown-Editor neu zu gestalten, und fand später einen nahezu vollständigen Stack aus 12 Diffs vor. Andere sagten, dass sie überraschend wenige Korrekturen bei der Implementierung benötigten und im Vergleich zu GPT‑5.4 mehr Vertrauen in die Pläne von GPT‑5.5 hatten.
Eine Entwicklerin bei NVIDIA, die frühzeitigen Zugriff auf das Modell hatte, ging sogar so weit zu sagen: „Den Zugriff auf GPT‑5.5 zu verlieren, fühlt sich an, als hätte man mir einen Arm oder ein Bein amputiert.“
„GPT-5.5 ist spürbar intelligenter und ausdauernder als GPT-5.4, mit stärkerer Programmierleistung und zuverlässigerer Tool-Nutzung. Es bleibt deutlich länger bei der Aufgabe, ohne vorzeitig abzubrechen – und das ist besonders wichtig für die komplexe, langwierige Arbeit, die unsere Nutzer:innen an Cursor delegieren.“
Die gleichen Stärken, die GPT‑5.5 zu einem hervorragenden Programmier-Tool machen, machen es auch zu einem leistungsstarken Helfer bei der täglichen Arbeit am Computer. Weil das Modell Absichten besser versteht, kann es den gesamten Kreislauf der Wissensarbeit natürlicher durchlaufen: Informationen finden, verstehen, worauf es ankommt, Tools nutzen, die Ausgabe überprüfen und Rohmaterial in etwas Nützliches verwandeln.
In Codex ist GPT‑5.5 besser als GPT‑5.4 beim Erstellen von Dokumenten, Tabellen und Präsentationen. Alpha-Tester:innen gaben an, dass es frühere Modelle bei Aufgaben wie Operations Research, Tabellenmodellierung und der Umwandlung unstrukturierter geschäftlicher Eingaben in konkrete Pläne übertroffen hat. In Kombination mit den Fähigkeiten von Codex zur Computernutzung bringt uns GPT‑5.5 dem Gefühl näher, dass das Modell den Computer tatsächlich gemeinsam mit dir nutzen kann: sehen, was auf dem Bildschirm ist, klicken, tippen, durch Oberflächen navigieren und sich präzise zwischen verschiedenen Tools bewegen.
Teams bei OpenAI nutzen diese Stärken bereits in realen Workflows. Heute nutzen mehr als 85 % des Unternehmens jede Woche Codex – und zwar bereichsübergreifend in Bereichen wie Softwareentwicklung, Finanzen, Kommunikation, Marketing, Data Science und Produktmanagement. In der Kommunikationsabteilung hat das Team GPT‑5.5 in Codex genutzt, um sechs Monate an Daten zu Vortragsanfragen zu analysieren, ein Bewertungs- und Risikorahmenwerk zu entwickeln und einen automatisierten Slack-Agenten zu validieren, sodass Anfragen mit geringem Risiko automatisch bearbeitet werden konnten, während Anfragen mit höherem Risiko weiterhin zur menschlichen Prüfung weitergeleitet wurden. In der Finanzabteilung nutzte das Team Codex, um 24.771 K-1-Steuerformulare mit insgesamt 71.637 Seiten zu prüfen, und verwendete dabei einen Workflow, bei dem personenbezogene Daten ausgeschlossen wurden und der dem Team half, die Aufgabe im Vergleich zum Vorjahr um zwei Wochen zu beschleunigen. Im Go-to-Market-Team automatisierte ein:e Mitarbeiter:in die Erstellung wöchentlicher Geschäftsberichte und spart dadurch 5–10 Stunden pro Woche ein.
In ChatGPT ermöglicht dir GPT‑5.5 Thinking schnellere Unterstützung bei schwierigeren Problemen – mit intelligenteren und prägnanteren Antworten, die dir helfen, komplexe Aufgaben effizienter zu bewältigen. Es glänzt bei professionellen Aufgaben wie Programmierung, Recherche, Zusammenfassen und Analysieren von Informationen sowie dokumentenintensiven Aufgaben, insbesondere wenn Plugins zum Einsatz kommen.
In GPT‑5.5 Pro sehen frühe Tester:innen einen deutlichen Sprung nach vorn – sowohl beim Anspruch als auch bei der Qualität der Aufgaben, die ChatGPT übernehmen kann, sowie Verbesserungen bei der Latenz, die es für anspruchsvolle Aufgaben deutlich praktikabler machen. Im Vergleich zu GPT‑5.4 Pro stellten Tester:innen fest, dass die Antworten von GPT‑5.5 Pro deutlich umfassender, besser strukturiert, präziser, relevanter und nützlicher waren, mit besonders starker Leistung in den Bereichen Wirtschaft, Recht, Bildung und Data Science.
GPT‑5.5 erreicht Spitzenleistungen bei mehreren Benchmarks, die diese Art von Arbeit widerspiegeln. Bei GDPval, einem Benchmark, der Fähigkeit von Agenten testet, genau definierte Wissensarbeit in 44 Berufen zu leisten, erreicht GPT‑5.5 eine Wertung von 84,9 %. Bei OSWorld-Verified, der misst, ob ein Modell eigenständig in realen Computerumgebungen agieren kann, erreicht es 78,7 %. Und bei Tau2-bench Telecom, der komplexe Kundendienst-Workflows testet, erreicht es ohne Prompt-Tuning 98,0 %. GPT‑5.5 zeigt auch bei anderen Benchmarks für Wissensarbeit starke Leistungen: 60,0 % bei FinanceAgent, 88,5 % bei internen Investmentbanking-Modellierungsaufgaben und 54,1 % bei OfficeQA Pro.
Tau2-bench Telecom wurde ohne Prompt-Tuning ausgeführt (und mit GPT‑4.1 als Nutzermodell). GPT‑5.5 versteht die Absicht der Aufgabe besser und ist Token-effizienter als seine Vorgänger.
„GPT-5.5 liefert die dauerhaft hohe Leistung, die für ausführungslastige Aufgaben erforderlich ist. Das auf NVIDIA GB200 NVL72-Systemen entwickelte und bereitgestellte Modell ermöglicht es unseren Teams, End-to-End-Funktionen auf Basis von Prompts in natürlicher Sprache bereitzustellen, die Debugging-Zeit von Tagen auf Stunden zu verkürzen und wochenlange Experimente in komplexen Codebasen in über Nacht erzielten Fortschritt umzuwandeln. Es geht um mehr als nur schnelleres Programmieren – es ist eine neue Arbeitsweise, die es den Menschen ermöglicht, in einem ganz anderen Tempo zu arbeiten.“
GPT‑5.5 zeigt auch bei wissenschaftlichen und technischen Forschungsabläufen Fortschritte, die mehr erfordern, als nur eine schwierige Frage zu beantworten. Forschende müssen eine Idee untersuchen, Belege sammeln, Annahmen überprüfen, Ergebnisse interpretieren und entscheiden, was sie als Nächstes ausprobieren sollen. GPT‑5.5 ist besser darin, diesen Zyklus konsistent zu durchlaufen, als andere Modelle.
Bemerkenswert ist, dass GPT‑5.5 gegenüber GPT‑5.4 bei GeneBench(wird in einem neuen Fenster geöffnet), einer neuen Eval mit Schwerpunkt auf mehrstufiger wissenschaftlicher Datenanalyse in der Genetik und quantitativen Biologie, eine deutliche Verbesserung zeigt. Diese Probleme erfordern Modelle, die mit minimaler Anleitung durch den Menschen potenziell mehrdeutige oder fehlerhafte Daten auswerten, realistische Hindernisse wie versteckte Störfaktoren oder Fehler in der Qualitätskontrolle bewältigen und moderne statistische Methoden korrekt anwenden und interpretieren können. Die Leistungsfähigkeit des Modells ist bemerkenswert angesichts der Tatsache, dass die Aufgaben hier häufig mehrtägigen Projekten für wissenschaftliche Expert:innen entsprechen.
Ebenso erzielte GPT‑5.5 bei BixBench(wird in einem neuen Fenster geöffnet), einem Benchmark, der auf realen Bioinformatik- und Datenanalyseaufgaben basiert, die beste Leistung unter den Modellen mit veröffentlichten Ergebnissen. Die wissenschaftlichen Fähigkeiten des Modells sind mittlerweile so ausgereift, dass es als vollwertiger wissenschaftlicher Partner den Fortschritt an den Grenzen der biomedizinischen Forschung maßgeblich beschleunigen kann.
In einem weiteren Beispiel half eine interne Version von GPT‑5.5 mit einer benutzerdefinierten Evaluierungsumgebung (Harness) dabei, einen neuen Beweis(wird in einem neuen Fenster geöffnet) für Ramsey-Zahlen zu finden, die zu den zentralen Objekten der Kombinatorik zählen. Die Kombinatorik untersucht, wie diskrete Objekte zusammenhängen: Graphen, Netzwerke, Mengen und Muster. Ramsey-Zahlen fragen grob gesagt danach, wie groß ein Netzwerk sein muss, damit zwangsläufig irgendeine Form von Ordnung auftritt. Ergebnisse in diesem Bereich sind selten und oft technisch anspruchsvoll. Hier fand GPT‑5.5 einen Beweis für eine seit Langem bekannte asymptotische Tatsache über außerdiagonale Ramsey-Zahlen, der später in Lean verifiziert wurde. Das Ergebnis ist ein konkretes Beispiel dafür, dass GPT‑5.5 nicht nur Code oder Erklärungen beisteuert, sondern auch ein überraschendes und nützliches mathematisches Argument in einem zentralen Forschungsbereich.
Frühe Tester:innen haben GPT‑5.5 Pro in ChatGPT weniger wie eine One-Shot-Antwortmaschine und mehr wie einen Forschungspartner genutzt: um Manuskripte über mehrere Durchgänge hinweg zu kritisieren, technische Argumente einem Stresstest zu unterziehen, Analysen vorzuschlagen und mit Code, Notizen und PDF-Kontext zu arbeiten. Der rote Faden dabei ist, dass GPT‑5.5 Forschenden besser dabei hilft, schneller von einer Frage über ein Experiment zu einem Ergebnis zu gelangen.
Derya Unutmaz, Professor für Immunologie und Forscher am Jackson Laboratory for Genomic Medicine, hat GPT‑5.5 Pro genutzt, um einen Genexpressionsdatensatz mit 62 Proben und fast 28.000 Genen zu analysieren, wodurch ein detaillierter Forschungsbericht erstellt wurde, der nicht nur die Ergebnisse zusammenfasste, sondern auch zentrale Fragen und Erkenntnisse aufzeigte – Arbeit, für die sein Team ihm zufolge Monate gebraucht hätte.
Bartosz Naskręcki, Assistenzprofessor für Mathematik an der Adam-Mickiewicz-Universität in Posen, Polen, nutzte GPT‑5.5 in Codex, um in 11 Minuten aus einem einzigen Prompt eine App für algebraische Geometrie zu entwickeln, die die Schnittmenge quadratischer Flächen visualisiert und die resultierende Kurve in ein Weierstraß-Modell umwandelt.
Später erweiterte er die App um eine stabilere Singularitätsvisualisierung und exakte Koeffizienten, die in weiterführender Arbeit wiederverwendet werden können. Für ihn ist die größere Veränderung, dass Codex jetzt bei der Umsetzung benutzerdefinierter Workflows für mathematische Visualisierung und Computeralgebra helfen kann, für die zuvor spezielle Tools erforderlich waren. Zusammengenommen zeigen diese Beispiele, wie GPT‑5.5 die Absicht von Expert:innen in funktionsfähige Forschungs-Tools und Analysen umsetzt.

Erstellt von: Bartosz Naskręcki(wird in einem neuen Fenster geöffnet)
Prompt: # Algebraic geometry surface intersection
Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.
## Main window
Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve
Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level
## Side right window
Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas
## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes
## Specs
App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable
## Docs
Git repo, journal, plan (Markdown files)
„Es ist unglaublich inspirierend, das neue GPT-5.5-Modell von OpenAI in unserer Evaluierungsumgebung zu nutzen, es riesige biochemische Datensätze auswerten zu lassen, um die Wirksamkeit von Medikamenten beim Menschen vorherzusagen, und dann zu sehen, wie es bei unseren anspruchsvollsten Evals in der Wirkstoffforschung erhebliche Genauigkeitssteigerungen erzielt.“ Wenn OpenAI in diesem Tempo weitermacht, werden sich die Grundlagen der Wirkstoffforschung bis zum Jahresende grundlegend ändern.“
Die Bereitstellung von GPT‑5.5 mit der Latenz von GPT‑5.4 erforderte ein Umdenken bei der Inferenz: weg von einer Reihe isolierter Optimierungen, hin zu einem integrierten System. GPT‑5.5 wurde für NVIDIA GB200- und GB300-NVL72-Systeme entwickelt, auf ihnen trainiert und bereitgestellt. Codex und GPT‑5.5 waren maßgeblich dafür, dass wir unsere Leistungsziele erreichen konnten. Codex half dem Team, schneller von der Idee bis zu einer Benchmark-fähigen Implementierung zu gelangen, indem es Ansätze skizzierte, Experimente aufsetzte und dabei half zu erkennen, welche Optimierungen eine tiefergehende Investition wert waren. GPT‑5.5 half dabei, wichtige Verbesserungen im Stack selbst zu identifizieren und umzusetzen. Einfach ausgedrückt hat das Modell dazu beigetragen, die Infrastruktur zu verbessern, auf der es bereitgestellt wird.
Eine dieser Verbesserungen betraf die Heuristiken für Load Balancing und Partitionierung. Vor GPT‑5.5 haben wir Anfragen auf einem Beschleuniger in eine feste Anzahl von Blöcken (Chunks) aufgeteilt, um die Arbeit auf die Rechenkerne zu verteilen, sodass große und kleine Anfragen auf derselben GPU ausgeführt werden konnten. Allerdings ist eine vorab festgelegte Anzahl statischer Blöcke nicht für alle Traffic-Muster optimal. Um GPUs besser auszulasten, analysierte Codex mehrere Wochen an Produktions-Traffic-Mustern und schrieb maßgeschneiderte heuristische Algorithmen, um Workloads optimal zu partitionieren und auszubalancieren. Der Aufwand hatte überproportionale Auswirkungen, wodurch sich die Geschwindigkeit der Token-Generierung um über 20 % erhöhte.
Die Welt auf Modelle vorzubereiten, die sehr gut darin sind, Sicherheitslücken zu finden und zu beheben, ist eine Gemeinschaftsaufgabe und erfordert, dass das gesamte Ökosystem hart daran arbeitet, Resilienz aufzubauen – mit demokratisiertem Zugang zu Modellen und iterativer Bereitstellung für die nächste Ära der Cyberabwehr.
Frontier-Modelle werden im Bereich der Cybersicherheit immer leistungsfähiger. Diese Fähigkeiten werden zunehmend Verbreitung finden, und wir glauben, dass der beste Weg nach vorn darin besteht, sicherzustellen, dass sie zur Beschleunigung der Cyberabwehr und zur Stärkung des Ökosystems genutzt werden können.
GPT‑5.5 ist ein inkrementeller, aber wichtiger Schritt auf dem Weg zu einer KI, die einige der größten Herausforderungen der Welt wie die Cybersicherheit bewältigen kann. Mit GPT‑5.2 haben wir im Dezember proaktiv die erforderlichen Cyber-Schutzmaßnahmen eingeführt, um potenziellen Cybermissbrauch mit unseren Modellen zu begrenzen; jetzt führen wir mit GPT‑5.5 strengere Klassifikatoren für potenzielle Cyberrisiken ein, die manche Nutzer:innen anfangs als störend empfinden könnten, während wir sie im Laufe der Zeit weiter optimieren.
Seit Jahren führen wir Cybersicherheit in unserem Preparedness Framework(wird in einem neuen Fenster geöffnet) als Kategorie, während sich unsere Modelle schrittweise verbessern. Gleichzeitig entwickeln und kalibrieren wir Schutzmaßnahmen in iterativen Schritten, um Modelle mit beträchtlichen Cybersicherheitsfunktionen verantwortungsbewusst veröffentlichen zu können.
- Für dieses Maß an Cyberfähigkeiten implementieren wir branchenführende Schutzmaßnahmen. Wir haben im vergangenen Jahr mit GPT‑5.2(wird in einem neuen Fenster geöffnet) erstmals cyberspezifische Schutzmaßnahmen eingeführt, die wir in nachfolgenden Bereitstellungen weiter getestet, verfeinert und ausgebaut haben. Für GPT‑5.5 haben wir strengere Kontrollen für Aktivitäten mit höherem Risiko und für sensible Cyber-Anfragen entwickelt sowie zusätzliche Schutzmaßnahmen gegen wiederholten Missbrauch hinzugefügt. Der allgemeine Zugang wird durch unsere Investitionen in Modellsicherheit, authentifizierte Nutzung und Überwachung auf unzulässigen Gebrauch möglich gemacht. Wir arbeiten seit Monaten mit externen Expert:innen zusammen, um diese Schutzmaßnahmen zu entwickeln, zu testen und ihre Robustheit weiter zu verbessern. Mit GPT‑5.5 stellen wir sicher, dass Entwickler:innen ihren Code mühelos absichern können, und führen gleichzeitig stärkere Kontrollen für die Cyber-Workflows ein, die von böswilligen Akteur:innen am ehesten missbraucht werden könnten, um Schaden anzurichten.
- Wir erweitern den Zugang, um die Cyberabwehr auf allen Ebenen zu stärken. Wir machen unsere Modelle mit weniger Einschränkungen für Cybersicherheitsanwendungen über Trusted Access for Cyber verfügbar, angefangen mit Codex, das verifizierten Nutzer:innen, die bestimmte Vertrauenssignale(wird in einem neuen Fenster geöffnet) erfüllen, bei der Einführung erweiterten Zugang zu den fortschrittlichen Cybersicherheitsfähigkeiten von GPT‑5.5 mit weniger Einschränkungen bietet. Organisationen, die für den Schutz kritischer Infrastruktur verantwortlich sind, können Zugriff auf Modelle mit weniger Einschränkungen für Cybersicherheitsanwendungen wie GPT‑5.4‑Cyber beantragen, sofern sie strenge Sicherheitsanforderungen erfüllen, um diese Modelle zum Schutz ihrer internen Systeme zu nutzen. Dadurch erhalten mehr verifizierte Verteidiger:innen leistungsfähigere Tools für legitime Sicherheitsarbeit mit weniger unnötigen Hürden, um sicherzustellen, dass wir den Zugang zu wichtigen Verteidigungsfähigkeiten demokratisieren. Nutzer:innen können unter chatgpt.com/cyber(wird in einem neuen Fenster geöffnet) Trusted Access beantragen, um bei der Nutzung von GPT‑5.5 für verifizierte Defensivarbeit unnötige Ablehnungen zu reduzieren.
- Wir arbeiten mit staatlichen Partnern zusammen, um kritische Infrastrukturen für die Öffentlichkeit zu schützen. Gemeinsam untersuchen wir, wie fortschrittliche KI die Abwehrarbeit vertrauenswürdiger Beamt:innen unterstützen kann, die für Systeme verantwortlich sind, auf die Menschen angewiesen sind – von digitalen Systemen, die wichtige Steuerzahlerdaten schützen, bis hin zum Stromnetz und zur Wasserversorgung in den Gemeinden.
Wir stufen die biologischen/chemischen Fähigkeiten sowie die Cybersicherheitsfähigkeiten von GPT‑5.5 im Rahmen unseres Preparedness Framework(wird in einem neuen Fenster geöffnet) als „Hoch“ ein. Obwohl GPT‑5.5 die Cybersicherheits-Fähigkeitsstufe „Kritisch“ nicht erreicht hat, haben unsere Evaluierungen und Tests gezeigt, dass seine Cybersicherheitsfähigkeiten gegenüber GPT‑5.4 einen Fortschritt darstellen.
Darüber hinaus hat GPT‑5.5 vor der Veröffentlichung unseren vollständigen Sicherheits- und Governance-Prozess durchlaufen, einschließlich Preparedness-Evaluierungen, bereichsspezifischer Tests, neuer gezielter Evaluierungen für fortgeschrittene Fähigkeiten in den Bereichen Biologie und Cybersicherheit sowie umfassender Tests durch externe Expert:innen. Weitere Details findest du in der Systemkarte(wird in einem neuen Fenster geöffnet) für GPT‑5.5.
Diese Arbeit spiegelt unseren umfassenderen Ansatz für KI-Resilienz wider, den wir angesichts der zunehmenden Leistungsfähigkeit von Modellen für notwendig halten. Wir möchten, dass leistungsstarke KI den Menschen zur Verfügung steht, die sie nutzen, um Systeme, Institutionen und die Öffentlichkeit zu schützen. Der gangbare Weg führt über Trusted Access, robuste Schutzmaßnahmen, die mit den Fähigkeiten mitwachsen, und die operative Fähigkeit, schwerwiegenden Missbrauch zu erkennen und darauf zu reagieren.
Heute wird GPT‑5.5 für Plus-, Pro-, Business- und Enterprise-Nutzer:innen in ChatGPT und Codex eingeführt, und GPT‑5.5 Pro wird für Pro-, Business- und Enterprise-Nutzer:innen in ChatGPT bereitgestellt. Wir werden GPT‑5.5 und GPT‑5.5 Pro sehr bald in die API einbinden.
In ChatGPT ist GPT‑5.5 Thinking für Nutzer:innen von Plus, Pro, Business und Enterprise verfügbar. GPT‑5.5 Pro, entwickelt für noch schwierigere Fragen und Arbeiten, die höhere Genauigkeit erfordern, ist für Pro-, Business- und Enterprise-Nutzer:innen verfügbar.
In Codex ist GPT‑5.5 mit den Plänen Plus, Pro, Business, Enterprise, Edu und Go mit einem Kontextfenster von 400.000 Tokens verfügbar. GPT‑5.5 ist zudem auch im „Fast“-Modus verfügbar, in dem es Tokens zum 2,5-fachen Preis 1,5-mal schneller generiert.
Für API-Entwickler:innen wird gpt-5.5 bald in der Responses API und der Chat Completions API verfügbar sein, zum Preis von 5 USD pro 1 Mio. Eingabe-Tokens und 30 USD pro 1 Mio. Ausgabe-Tokens, mit einem Kontextfenster von 1 Mio. Tokens. Die Batch- und Flex-Preisgestaltung sind zum halben Standard-API-Tarif verfügbar, während die vorrangige Verarbeitung zum 2,5-fachen Standardtarif verfügbar ist. Wir werden auch gpt-5.5-pro in der API veröffentlichen – für eine noch höhere Genauigkeit. Der Preis liegt bei 30 USD pro 1 Mio. Eingabe-Tokens und 180 USD pro 1 Mio. Ausgabe-Tokens. Alle Details findest du auf der Preisseite.
Während GPT‑5.5 teurer ist als GPT‑5.4, ist es sowohl intelligenter als auch deutlich Token-effizienter. In Codex haben wir das Nutzererlebnis sorgfältig abgestimmt, sodass GPT‑5.5 für die meisten Nutzer:innen mit weniger Tokens bessere Ergebnisse liefert als GPT‑5.4, wobei wir weiterhin auf allen Abonnementstufen eine großzügige Nutzung anbieten.
Programmierung
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (Public) * | 58,6 % | 57,7 % | - | - | 64,3 % | 54,2 % |
Terminal-Bench 2.0 | 82,7 % | 75,1 % | - | - | 69,4 % | 68,5 % |
Expert-SWE (Internal) | 73,1 % | 68,5 % | - | - | - | - |
*Labore haben Anzeichen von Auswendiglernen(wird in einem neuen Fenster geöffnet) bei dieser Eval bemerkt
Professionell
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (Wins oder Ties) | 84,9 % | 83,0 % | 82,3 % | 82,0 % | 80,3 % | 67,3 % |
FinanceAgent v1.1 | 60,0 % | 56,0 % | - | 61,5 % | 64,4 % | 59,7 % |
Investmentbanking-Modellierungsaufgaben (intern) | 88,5 % | 87,3 % | 88,6 % | 83,6 % | - | - |
OfficeQA Pro | 54,1 % | 53,2 % | - | - | 43,6 % | 18,1 % |
Computernutzung und Bilderkennung (Vision)
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7 % | 75,0 % | - | - | 78,0 % | - |
MMMU Pro (no tools) | 81,2 % | 81,2 % | - | - | - | 80,5 % |
MMMU Pro (mit Tools) | 83,2 % | 82,1 % | - | - | - | - |
Tool-Nutzung
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4 % | 82,7 % | 90,1 % | 89,3 % | 79,3 % | 85,9 % |
MCP Atlas** | 75,3 % | 70,6 % | - | - | 79,1 % | 78,2 % |
Toolathlon | 55,6 % | 54,6 % | - | - | - | 48,8 % |
Tau2-bench Telecom*** | 98,0 % | 92,8 % | - | - | - | - |
** MCP Atlas: Ergebnisse von Scale AI nach dem neuesten Update vom April 2026.
*** Tau2-bench telecom: Ergebnisse für 5.5 und 5.4 mit den ursprünglichen Prompts, d. h. keine Prompt-Anpassung. Dies schließt Ergebnisse aus anderen Laboren aus, die mit Prompt-Anpassungen bewertet wurden.
Wissenschaftliche
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0 % | 19,0 % | 33,2 % | 25,6 % | - | - |
FrontierMath Stufe 1–3 | 51,7 % | 47,6 % | 52,4 % | 50,0 % | 43,8 % | 36,9 % |
FrontierMath Stufe 4 | 35,4 % | 27,1 % | 39,6 % | 38,0 % | 22,9 % | 16,7 % |
BixBench | 80,5 % | 74,0 % | - | - | - | - |
GPQA Diamond | 93,6 % | 92,8 % | - | 94,4 % | 94,2 % | 94,3 % |
Humanity's Last Exam (keine Tools) | 41,4 % | 39,8 % | 43,1 % | 42,7% | 46,9 % | 44,4 % |
Humanity's Last Exam (mit Tools) | 52,2 % | 52,1 % | 57,2 % | 58,7 % | 54,7 % | 51,4 % |
Cybersicherheit
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Capture-the-Flags challenge tasks (Internal)**** | 88,1 % | 83,7 % | - | - | - | - |
CyberGym | 81,8 % | 79,0 % | - | - | 73,1 % | - |
**** Eine Erweiterung der schwierigsten CTFs, die in Systemkarten verwendet werden, mit zusätzlichen schwierigen Herausforderungen.
Langer Kontext
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73,7 % | 62,5 % | - | - | 76,9 % | - |
Graphwalks BFS 1mil f1 | 45,4 % | 9,4 % | - | - | 41,2 % (Opus 4.6) | - |
Graphwalks parents 256k f1 | 90,1 % | 82,8 % | - | - | 93,6 % | - |
Graphwalks parents 1mil f1 | 58,5 % | 44,4 % | - | - | 72,0 % (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98,1 % | 97,3 % | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93,0 % | 91,4 % | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96,5 % | 97,2 % | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90,0 % | 90,5 % | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83,1 % | 86,0 % | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87,5 % | 79,3 % | - | - | 59,2 % | - |
OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57,5 % | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74,0 % | 36,6 % | - | - | 32,2 % | - |
Abstraktes Denken
Eval | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (Verified) | 95,0 % | 93,7 % | - | 94,5 % | 93,5 % | 98,0 % |
ARC-AGI-2 (Verified) | 85,0 % | 73,3 % | - | 83,3 % | 75,8 % | 77,1 % |
Evals von GPT wurden mit auf „xhigh“ gesetztem Reasoning-Aufwand durchgeführt und wurden in einer Forschungsumgebung durchgeführt, was in einigen Fällen zu leicht abweichenden Ausgaben im Vergleich zur Produktionsversion von ChatGPT führen kann.








