Heute veröffentlichen wir GPT‑5.4 in ChatGPT (als GPT‑5.4 Thinking), der API und Codex. Es ist unser leistungsfähigstes und effizientestes Frontier-Modell für professionelle Arbeit. Wir veröffentlichen außerdem GPT‑5.4 Pro in ChatGPT und der API – für Nutzer:innen, die bei komplexen Aufgaben maximale Leistung wollen.
GPT‑5.4 vereint das Beste unserer jüngsten Fortschritte in den Bereichen Reasoning, Programmierung und agentische Workflows in einem einzigen Frontier-Modell. Es integriert die branchenführenden Programmierfähigkeiten von GPT‑5.3‑Codex und verbessert gleichzeitig, wie das Modell über Tools, Softwareumgebungen und professionelle Aufgaben hinweg arbeitet, die Tabellen, Präsentationen und Dokumente umfassen. Das Ergebnis ist ein Modell, das komplexe, echte Arbeit präzise, effektiv und effizient erledigt: Es liefert mit weniger Hin und Her genau das, wonach du gefragt hast.
In ChatGPT kann GPT‑5.4 Thinking jetzt im Voraus einen Plan seines Denkprozesses bereitstellen, sodass du den Kurs mitten in der Antwort anpassen kannst, während es arbeitet, und zu einer finalen Ausgabe gelangst, die deinen Anforderungen genauer entspricht – ohne zusätzliche Durchläufe. GPT‑5.4 Thinking verbessert außerdem die Deep-Web-Recherche, insbesondere bei hochspezifischen Anfragen, während bei Fragen, die längeres Nachdenken erfordern, der Kontext besser beibehalten wird. Zusammen bedeuten diese Verbesserungen qualitativ hochwertigere Antworten, die schneller eintreffen und für die jeweilige Aufgabe relevant bleiben.
In Codex und der API ist GPT‑5.4 das erste von uns veröffentlichte Allzweckmodell mit nativen, hochmodernen Computernutzungs-Fähigkeiten, die es Agenten ermöglichen, Computer zu bedienen und komplexe, anwendungsübergreifende Workflows auszuführen. Es unterstützt eine Kontextlänge von bis zu 1 Mio. Tokens, sodass Agenten Aufgaben über lange Zeiträume hinweg planen, ausführen und verifizieren können. Mit der Tool-Suche verbessert GPT‑5.4 außerdem, wie Modelle in großen Ökosystemen aus Tools und Konnektoren arbeiten, und hilft Agenten so dabei, die richtigen Tools effizienter zu finden und zu nutzen, ohne dabei Abstriche bei der Intelligenz in Kauf nehmen zu müssen. Und zu guter Letzt ist GPT‑5.4 außerdem unser bisher Token-effizientestes Reasoning-Modell, das im Vergleich zu GPT‑5.2 deutlich weniger Tokens zur Lösung von Problemen verwendet – was zu einer geringeren Token-Nutzung und höheren Geschwindigkeiten führt.
Zusammen mit Fortschritten beim allgemeinen Reasoning, beim Programmieren und bei professioneller Wissensarbeit ermöglicht GPT‑5.4 zuverlässigere Agenten, schnellere Entwicklungs-Workflows und qualitativ hochwertigere Ausgaben in ChatGPT, der API und Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (Wins oder Ties) | 83,0 % | 70,9 % | 70,9 % |
SWE-Bench Pro (Public) | 57,7 % | 56,8 % | 55,6 % |
OSWorld-Verified | 75,0 % | 74,0 %* | 47,3 % |
Toolathlon | 54,6 % | 51,9 % | 46,3 % |
BrowseComp | 82,7 % | 77,3 % | 65,8 % |
*Zuvor gemeldet als 64,7 %. GPT‑5.3‑Codex erreicht 74,0 % mit einem neu eingeführten API-Parameter, der die ursprüngliche Bildauflösung beibehält.
Aufbauend auf den allgemeinen Reasoning-Fähigkeiten von GPT‑5.2 liefert GPT‑5.4 bei realen, für Fachleute relevanten Aufgaben noch konsistentere und ausgereiftere Ergebnisse.
Bei GDPval, einer Eval, die die Fähigkeit von Agenten testet, genau definierte Wissensarbeit in 44 Berufen zu leisten, setzt GPT‑5.4 einen neuen technischen Maßstab und erreicht oder übertrifft Branchenfachleute in 83,0 % der Vergleiche, gegenüber 71,0 % bei GPT‑5.2.
In GDPval versuchen Modelle, präzise definierte Wissensarbeit zu leisten, die 44 Berufe aus den 9 führenden Branchen umfasst, die zum US-Bruttoinlandsprodukt beitragen. Aufgaben erfordern reale Arbeitsprodukte, wie Verkaufspräsentationen, Buchhaltungstabellen, Notfallpläne, Fertigungsdiagramme oder kurze Videos. Der Reasoning-Aufwand wurde für GPT‑5.4 auf „xhigh“ und für GPT‑5.2 auf „heavy“ (eine etwas niedrigere Stufe in ChatGPT) gesetzt.
„GPT-5.4 ist das beste Modell, das wir je ausprobiert haben. Es steht jetzt an der Spitze der Rangliste unseres APEX-Agents-Benchmarks, der die Modellleistung im Bereich professioneller Dienstleistungen misst. Es tut sich besonders bei der Erstellung von Deliverables mit langem Zeithorizont wie Foliensätzen für Präsentationen, Finanzmodellen und juristischen Analysen hervor und liefert Spitzenleistung, während es schneller und zu geringeren Kosten läuft als konkurrierende Frontier-Modelle.“
Wir haben uns besonders darauf konzentriert, die Fähigkeiten von GPT‑5.4 zum Erstellen und Bearbeiten von Tabellen, Präsentationen und Dokumenten zu verbessern. Bei einem internen Benchmark zu Aufgaben im Bereich Tabellenmodellierung, die ein:e Junior-Investmentbanking-Analyst:in erledigen könnte, erzielt GPT‑5.4 einen Durchschnittswert von 87,5 %, verglichen mit 68,4 % für GPT‑5.2. Bei einer Reihe von Prompts zur Bewertung von Präsentationen bevorzugten menschliche Bewerter in 68,0 % der Fälle Präsentationen von GPT‑5.4 gegenüber denen von GPT‑5.2 aufgrund stärkerer Ästhetik, größerer visueller Vielfalt und einer effektiveren Nutzung der Bildgenerierung.

Dokumente wurden mit auf „xhigh“ gesetztem Reasoning-Aufwand generiert
Du kannst diese Funktionen in ChatGPT mit GPT‑5.4 Thinking oder Pro ausprobieren. Wenn du Enterprise-Kunde bist, empfehlen wir die Nutzung unserer neu veröffentlichten Plugins „ChatGPT für Excel“ und „ChatGPT für Google Sheets“(wird in einem neuen Fenster geöffnet), die ebenfalls heute eingeführt wurden. Wir haben außerdem unsere Tabellen(wird in einem neuen Fenster geöffnet)- und Präsentationsfähigkeiten(wird in einem neuen Fenster geöffnet) aktualisiert, die in Codex und der API verfügbar sind.
Um die Leistung von GPT‑5.4 bei realer Arbeit zu verbessern, haben wir weitere Fortschritte beim Reduzieren von Halluzinationen und Fehlern gemacht. GPT‑5.4 ist unser bisher faktentreuestes Modell: bei einer Reihe anonymisierter Prompts, bei denen Nutzer:innen sachliche Fehler gemeldet haben, sind die einzelnen Aussagen von GPT‑5.4 im Vergleich zu GPT‑5.2 mit 33 % geringerer Wahrscheinlichkeit falsch, und die vollständigen Antworten enthalten mit 18 % geringerer Wahrscheinlichkeit Fehler.
„GPT-5.4 setzt einen neuen Maßstab für dokumentenintensive juristische Arbeit. Bei unserer „BigLaw Bench“-Eval erreichte es 91 %. Im Vergleich zu anderen Modellen ist GPT-5.4 derzeit besser darin, komplexe transaktionsbezogene Analysen zu strukturieren, die Genauigkeit über umfangreiche Verträge hinweg aufrechtzuerhalten und das hohe Maß an Detailgenauigkeit zu liefern, das Jurist:innen benötigen.”
GPT‑5.4 ist unser erstes Allzweckmodell mit nativen Computernutzungs-Fähigkeiten und stellt einen großen Fortschritt für Entwickler:innen und Agenten gleichermaßen dar. Es ist das beste derzeit verfügbare Modell für Entwickler:innen, die Agenten für die Erledigung echter Aufgaben über diverse Websites und Softwaresysteme hinweg erstellen.
Wir haben GPT‑5.4 mit besonderem Augenmerk auf seiner Leistungsfähigkeit bei einer breiten Palette von Computernutzungs-Workloads entwickelt. Es eignet sich hervorragend zum Schreiben von Code, um Computer über Bibliotheken wie Playwright zu bedienen, sowie zum Ausführen von Maus- und Tastaturbefehlen als Reaktion auf Screenshots. Sein Verhalten ist über Entwicklernachrichten steuerbar, was bedeutet, dass Entwickler:innen das Verhalten anpassen können, um es für bestimmte Anwendungsfälle geeignet zu machen. Entwickler:innen können sogar das Sicherheitsverhalten des Modells so konfigurieren, dass es unterschiedlichen Risikotoleranzstufen entspricht, indem sie benutzerdefinierte Bestätigungsrichtlinien festlegen.
Die Leistung und Flexibilität des Modells spiegeln sich in Benchmarks wider, die die Computernutzung in verschiedenen Umgebungen testen. Bei OSWorld-Verified, der die Fähigkeit eines Modells misst, anhand von Screenshots sowie Tastatur-/Mausaktionen durch eine Desktop-Umgebung zu navigieren, setzt GPT‑5.4 mit einer Erfolgsquote von 75,0 %, die die von GPT‑5.2 ( 47,3 %) bei Weitem übertrifft, einen neuen Maßstab, mit dem selbst die menschliche Leistung (72,4 %) nicht mithalten kann.1
Auf WebArena-Verified, der die Browsernutzung testet, erreicht GPT‑5.4 eine führende Erfolgsquote von 67,3 % bei der Verwendung sowohl DOM- als auch Screenshot-gestützter Interaktion, verglichen mit 65,4 % von GPT‑5.2. Bei Online-Mind2Web, der ebenfalls die Browsernutzung testet, erreicht GPT‑5.4 allein mit Screenshot-basierten Beobachtungen eine Erfolgsquote von 92,8 % und stellt damit eine Verbesserung gegenüber dem Agentenmodus von ChatGPT Atlas dar, der eine Erfolgsquote von 70,9 % erreicht.
Ein Tool Yield tritt auf, wenn der Assistent die Ausführung unterbricht, um auf Tool-Antworten zu warten. Wenn 3 Tools parallel aufgerufen werden, gefolgt von 3 weiteren Tools, die parallel aufgerufen werden, wäre die Anzahl der Yields 2. Tool Yields sind ein besserer Proxy für Latenz als Tool-Aufrufe, weil sie die Vorteile der Parallelisierung widerspiegeln.
GPT‑5.4 interpretiert Screenshots einer Browseroberfläche und interagiert durch koordinatenbasiertes Klicken mit UI-Elementen, um E-Mails zu senden und ein Kalenderereignis zu planen.
Die verbesserte Computernutzung von GPT‑5.4 basiert auf den verbesserten allgemeinen visuellen Wahrnehmungsfähigkeiten des Modells. Bei MMMU-Pro, einem Test des visuellen Verständnisses und Reasoning eines Modells, erreicht GPT‑5.4 ohne Tool-Nutzung eine Erfolgsquote von 81,2 %, eine Verbesserung gegenüber den 79,5 % von GPT‑5.2. Eine verbesserte visuelle Wahrnehmung führt ebenfalls zu besseren Fähigkeiten beim Parsen von Dokumenten. Bei OmniDocBench erreicht GPT‑5.4 ohne Reasoning-Aufwand einen durchschnittlichen Fehlerwert (gemessen anhand der normalisierten Editierdistanz zwischen der Modellvorhersage und der Ground Truth) von 0,109, eine Verbesserung gegenüber 0,140 bei GPT‑5.2.
MMMUPro wurde mit auf „xhigh“ gesetztem Reasoning-Aufwand ausgeführt. OmniDocBench wurde mit auf „none“ gesetztem Reasoning-Aufwand ausgeführt, um eine kostengünstige Leistung mit niedriger Latenz widerzuspiegeln.
Wir verbessern außerdem das visuelle Verständnis für dichte, hochauflösende Bilder, bei denen es auf volle Wiedergabetreue ankommt. Ab GPT‑5.4 führen wir die Eingabedetail(wird in einem neuen Fenster geöffnet)-Stufe Original für Bilder ein, die eine Wahrnehmung mit voller Wiedergabetreue bis zu insgesamt 10,24 Mio. Pixeln oder 6000 Pixeln maximalem Seitenmaß unterstützt, je nachdem, was niedriger ist. Die Bildeingabe-Detailstufe hoch unterstützt jetzt eine Gesamtzahl von bis zu 2,56 Mio. Pixeln oder ein maximales Seitenmaß von 2048 Pixeln (je nachdem, was niedriger ist). In frühen Tests mit API-Nutzer:innen beobachteten wir deutliche Verbesserungen bei der Lokalisierungsfähigkeit, dem Bildverständnis und der Klickgenauigkeit bei der Verwendung der Detailstufe Original oder hoch.
„In unseren Evals zur Messung der Leistung bei der Computernutzung an ~30.000 HOA- und Grundsteuerportalen erreichte GPT-5.4 beim ersten Versuch eine Erfolgsquote von 95 % und innerhalb von drei Versuchen 100 %, verglichen mit ~73–79 % bei früheren CUA-Modellen. Außerdem schloss es Sitzungen ~3-mal schneller ab und verwendete dabei ~70 % weniger Tokens, was die Zuverlässigkeit und Kosteneffizienz im großen Maßstab deutlich verbesserte.“
In der API können Entwickler:innen mit dem aktualisierten Computer-Tool auf diese Funktionen zugreifen. Bitte sieh dir unsere aktualisierte Dokumentation(wird in einem neuen Fenster geöffnet) für empfohlene bewährte Vorgehensweisen an.
GPT‑5.4 kombiniert die Programmier-Stärken von GPT‑5.3‑Codex mit führenden Fähigkeiten in der professionellen Wissensarbeit und der Computernutzung, die vor allem bei lang andauernden Aufgaben wichtig sind, bei denen das Modell Tools nutzen, iterieren und die Arbeit mit weniger manuellen Eingriffen weiter vorantreiben kann. Es erreicht bei SWE-Bench Pro eine Leistung, die GPT‑5.3‑Codex entspricht oder sie übertrifft, und weist dabei über alle Reasoning-Aufwandsstufen hinweg eine geringere Latenz auf.
Wir schätzen die Latenz, indem wir das Produktionsverhalten unserer Modelle betrachten und dies offline simulieren. Die Latenzschätzung berücksichtigt die Dauer von Tool-Aufrufen (Codeausführungszeit), gesampelte Tokens und Eingabe-Tokens. Die Latenz in der realen Welt kann erheblich variieren und hängt von vielen Faktoren ab, die in unserer Simulation nicht erfasst werden. Es wurden alle Reasoning-Aufwandseinstellungen von „none“ bis „xhigh“ durchlaufen.
Wenn aktiviert, liefert der /fast-Modus in Codex mit GPT‑5.4 eine bis zu 1,5-mal höhere Token-Geschwindigkeit. Es ist dasselbe Modell und dieselbe Intelligenz, nur schneller. Das bedeutet, dass Nutzer:innen Programmieraufgaben, Iterationen und Debugging durchführen können, ohne aus dem Arbeitsfluss herauszukommen. Entwickler:innen können über die API mit denselben hohen Geschwindigkeiten auf GPT‑5.4 zugreifen, indem sie die vorrangige Bearbeitung(wird in einem neuen Fenster geöffnet) verwenden.
In der Evaluierung und in internen Tests haben wir festgestellt, dass GPT‑5.4 besonders bei komplexen Frontend-Aufgaben überzeugt – mit deutlich ästhetischeren und funktionaleren Ergebnissen als bei allen Modellen, die wir zuvor veröffentlicht haben.
Als Demonstration dafür, wie die verbesserten Computernutzungs- und Programmierfähigkeiten des Modells zusammenwirken, veröffentlichen wir außerdem eine experimentelle Codex-Fähigkeit namens „Playwright (Interactive)(wird in einem neuen Fenster geöffnet)“. Dadurch kann Codex Web- und Electron-Apps visuell debuggen; es kann sogar verwendet werden, um eine App zu testen, die es gerade selbst aktiv entwickelt.
Freizeitpark-Simulationsspiel, erstellt mit GPT‑5.4 aus einem einzelnen, nur leicht spezifizierten Prompt, unter Verwendung von Playwright Interactive für Browser-Playtesting und Bildgenerierung für die isometrischen Assets. Die Simulation umfasst kachelbasierte Pfadplatzierung, den Bau von Fahrgeschäften und Dekorationen, die Wegfindung der Gäste, das Anstehen in Warteschlangen und Fahrzyklen, während Parkkennzahlen wie Geld, Gästezahl, Zufriedenheit, Sauberkeit und Bewertung je nach Leistung des Layouts und der Reaktion der Gäste darauf steigen oder fallen. Playwright wurde verwendet, um Browser-Playtests zu automatisieren, indem der Park gebaut und erweitert, Wege und Attraktionen platziert und entfernt, die Kameranavigation geprüft und verifiziert wurde, dass Gäste, Warteschlangen, Fahrzustände und UI-Metriken über mehrere Spielrunden hinweg korrekt aktualisiert wurden.
Prompt: Verwende $playwright-interactive und $imagegen. Erstelle ein interaktives isometrisches Freizeitpark-Simulationsspiel, das ich im Browser bauen und navigieren kann. Nutze imagegen, um die übergeordnete visuelle Vision festzulegen und die Assets des Spiels zu generieren, einschließlich Fahrgeschäften, Wegen, Gelände, Bäumen, Wasser, Imbissständen, Dekorationen, Gebäuden, Icons und UI-Illustrationen. Die Welt sollte stimmig, poliert und visuell reichhaltig wirken, mit einer hochwertigen Art Direction, die aus isometrischer Perspektive gut funktioniert. Lass mich Wege platzieren und entfernen, Attraktionen hinzufügen, Szenerie positionieren und mich flüssig durch den Park bewegen, während ich die Gästeaktivität, den Status der Fahrgeschäfte und das Wachstum des Parks im Blick behalte. Integriere glaubwürdige Gästebewegungen, einfache Park-Management-Systeme wie Geld, Sauberkeit, Anstehen und Zufriedenheit, und sorge dafür, dass sich das Erlebnis verspielt, klar und vollständig anfühlt statt wie ein grober Prototyp. Priorisiere Charme, Lesbarkeit und ein starkes Spielgefühl gegenüber Realismus.
Achte beim Playtesting darauf, einen Park über mehrere Spielrunden hinweg aufzubauen und zu erweitern, zu überprüfen, dass Platzierung und Navigation reibungslos funktionieren, zu bestätigen, dass Gäste auf das Parklayout und die Attraktionen reagieren, und sicherzustellen, dass sich die visuellen Elemente, die Benutzeroberfläche und die Interaktionen stabil und stimmig anfühlen.
„Unsere Entwickler:innen finden GPT-5.4 natürlicher und selbstbewusster als frühere Modelle. Es arbeitet sich durch mehrdeutige Probleme, ohne sich selbst zu hinterfragen, und ist proaktiv darin, Arbeit zu parallelisieren, damit alles in Bewegung bleibt.”
Mit GPT‑5.4 haben wir deutlich verbessert, wie Modelle mit externen Tools arbeiten. Agenten können jetzt in größeren Tool-Ökosystemen agieren, zuverlässiger die richtigen Tools auswählen und mehrstufige Workflows mit geringeren Kosten und niedrigerer Latenz abschließen.
In der API führt GPT‑5.4 die Tool-Suche(wird in einem neuen Fenster geöffnet) ein, die es Modellen ermöglicht, effizient zu arbeiten, wenn ihnen viele Tools zur Verfügung gestellt werden.
Bisher wurden, wenn einem Modell Tools bereitgestellt wurden, alle Tool-Definitionen von Anfang an in den Prompt aufgenommen. Bei Systemen mit vielen Tools könnte dies Tausende – oder sogar Zehntausende – von Tokens zu jeder Anfrage hinzufügen, was die Kosten erhöht, Antworten verlangsamt und den Kontext mit Informationen überlädt, die das Modell möglicherweise nie verwendet.
Mit der Tool-Suche erhält GPT‑5.4 stattdessen eine schlanke Liste verfügbarer Tools zusammen mit einer Tool-Suchfunktion. Wenn das Modell ein Tool verwenden muss, kann es die Definition dieses Tools nachschlagen und sie in diesem Moment an das Gespräch anhängen.
Dieser Ansatz reduziert die Anzahl der für Tool-lastige Workflows erforderlichen Tokens drastisch und schont den Cache, wodurch Anfragen schneller und günstiger werden. Es ermöglicht Agenten außerdem, zuverlässig mit deutlich größeren Tool-Ökosystemen zu arbeiten. Bei MCP-Servern, die möglicherweise Zehntausende von Tokens an Tool-Definitionen enthalten, können die Effizienzgewinne erheblich sein.
Um diese Effizienzgewinne zu demonstrieren, haben wir 250 Aufgaben aus dem MCP Atlas(wird in einem neuen Fenster geöffnet)-Benchmark von Scale ausgewertet. Dabei waren alle 36 MCP-Server aktiviert, und der Test wurde in zwei Modi durchgeführt: (1) alle MCP-Funktionen direkt im Modellkontext bereitzustellen und (2) alle MCP-Server hinter der Tool-Suche zu platzieren. Die Konfiguration mit der Tool-Suche reduzierte die Token-Nutzung insgesamt um 47 % und erreichte dabei die gleiche Genauigkeit.
Die Beispiel-Token-Anzahlen stammen aus dem Durchschnitt von 250 Aufgaben im öffentlichen MCP-Atlas-Datensatz.
GPT‑5.4 verbessert auch Tool-Aufrufe, wodurch die Entscheidung, wann und wie Tools während des Reasoning-Prozesses eingesetzt werden sollen, insbesondere in der API, genauer und effizienter wird. Im Vergleich zu GPT‑5.2 erreicht es auf Toolathlon, einem Benchmark, der testet, wie gut KI-Agenten reale Tools und APIs nutzen können, um mehrstufige Aufgaben zu erledigen, eine höhere Genauigkeit in weniger Runden. Zum Beispiel muss ein Agent E-Mails lesen, Hausaufgaben-Anhänge aus ihnen extrahieren, sie hochladen, sie bewerten und die Ergebnisse in einer Tabelle festhalten.
Ein Tool Yield tritt auf, wenn der Assistent die Ausführung unterbricht, um auf Tool-Antworten zu warten. Wenn 3 Tools parallel aufgerufen werden, gefolgt von 3 weiteren Tools, die parallel aufgerufen werden, wäre die Anzahl der Yields 2. Tool Yields sind ein besserer Proxy für Latenz als Tool-Aufrufe, weil sie die Vorteile der Parallelisierung widerspiegeln.
Für latenzempfindliche Anwendungsfälle, bei denen der Reasoning-Aufwand „None“ bevorzugt wird, bietet GPT‑5.4 eine weitere Verbesserung gegenüber seinen Vorgängern.
In τ2-bench(wird in einem neuen Fenster geöffnet) muss ein Modell Tools einsetzen, um eine Kundendienstaufgabe zu erfüllen, wobei es möglicherweise einen simulierten Benutzer gibt, der kommunizieren und Aktionen am Weltzustand ausführen kann. Der Reasoning-Aufwand wurde auf „None“ gesetzt.
GPT‑5.4 ist besser bei agentischer Websuche. Bei BrowseComp, einem Maß dafür, wie gut KI-Agenten dauerhaft im Web surfen können, um schwer auffindbare Informationen zu finden, verbessert sich GPT‑5.4 um 17 %abs gegenüber GPT‑5.2. Pro setzt mit 89,3 % einen neuen Maßstab.
In der Praxis bedeutet dies, dass GPT‑5.4 Thinking besser darin ist, Fragen zu beantworten, die das Zusammenführen von Informationen aus vielen Quellen im Web erfordern. Es kann über mehrere Runden hinweg beharrlicher suchen, um die relevantesten Quellen zu identifizieren, insbesondere bei „Nadel-im-Heuhaufen“-Fragen, und sie zu einer klaren, gut begründeten Antwort zusammenführen.
In BrowseComp haben wir eine Such-Blocklistw verwendet, die Websites, die Benchmark-Antworten enthalten, von der Evaluierung ausschließt, um Kontamination zu verhindern und eine faire Leistungsmessung sicherzustellen. GPT‑5.4 wurde zu einem späteren Zeitpunkt gemessen als GPT‑5.2, weshalb die Ergebnisse Veränderungen im Modell, unserem Suchsystem und dem Zustand des Internets widerspiegeln. GPT‑5.4 wurde mit einer längeren, aktualisierten Blockliste getestet. Modelle verwenden das ChatGPT‑Suchtool, das kleine Unterschiede zur API-Suche aufweisen kann.
„GPT-5.4 xhigh ist der neue Stand der Technik für mehrstufige Tool-Nutzung. Zapier führt einige der strengsten Benchmarks zur Tool-Nutzung in der Branche durch und testet Modelle anhand von Hunderten fortschrittlicher, realer Workflows. GPT-5.4 hat Aufgaben erledigt, an denen frühere Modelle gescheitert sind – das bisher hartnäckigste Modell.”
Ähnlich wie Codex seinen Ansatz skizziert, wenn es mit der Arbeit beginnt, umreißt GPT‑5.4 Thinking in ChatGPT jetzt seinen Arbeitsansatz bei längeren, komplexeren Anfragen mit einer Einleitung. Du kannst auch Anweisungen hinzufügen oder die Richtung mitten in der Antwort anpassen. Das erleichtert es, das Modell auf genau das gewünschte Ergebnis auszurichten, ohne von vorn anfangen zu müssen oder mehrere zusätzliche Durchläufe zu benötigen. Diese Funktion ist jetzt auf chatgpt.com(wird in einem neuen Fenster geöffnet) und in der Android-App verfügbar (bald auch in der iOS-App).
Das Modell kann bei schwierigen Aufgaben außerdem länger nachdenken und dabei ein stärkeres Bewusstsein für frühere Schritte im Gespräch beibehalten. Dadurch kann es längere Arbeitsabläufe und komplexere Prompts verarbeiten und dabei die Antworten durchgehend kohärent und relevant halten.
Dieses Video wurde zu Illustrationszwecken beschleunigt.
In den letzten Monaten haben wir die Schutzmaßnahmen, die wir mit GPT‑5.3‑Codex eingeführt haben, weiter verbessert und gleichzeitig GPT‑5.4 für die Bereitstellung vorbereitet. Ähnlich wie bei GPT‑5.3‑Codex stufen wir die Fähigkeitsstufe von GPT‑5.4 im Rahmen unseres Preparedness Framework als „Hoch“ im Bereich der Cyberfähigkeiten ein, und wir stellen es mit den entsprechenden Schutzmaßnahmen bereit, wie in der Systemkarte dokumentiert. Dazu gehören ein erweiterter Cybersicherheits-Stack, darunter Überwachungssysteme, Trusted-Access-Kontrollen und asynchrone Blockierung von Anfragen mit höherem Risiko für Kund:innen auf „Keine Datenaufbewahrung“-Oberflächen (Zero Data Retention, ZDR), sowie laufende Investitionen in das breitere Sicherheitsökosystem.
Da Cybersicherheitsfähigkeiten von Natur aus einen Dual-Use-Charakter haben, verfolgen wir einen vorsorglichen Ansatz bei der Bereitstellung, während wir unsere Richtlinien und Klassifikatoren weiter kalibrieren. Für bestimmte Kund:innen auf ZDR-Oberflächen bleibt die Blockierung auf Anfrageebene Teil unseres Stacks zur Minderung von Cyber-Risiken; da die Klassifikatoren noch verbessert werden, kann es weiterhin zu einigen falsch-positiven Ergebnissen kommen, während wir diese Schutzmaßnahmen weiter verfeinern. Diese Updates zielen darauf ab, die Funktionsweise von Schutzmaßnahmen in der Praxis zu verbessern, einschließlich der Reduzierung unnötiger Ablehnungen und übermäßig mit Vorbehalten versehener Antworten, während gleichzeitig ein starker Schutz vor Missbrauch gewahrt bleibt.
Wir haben unsere Sicherheitsforschung zur Überwachbarkeit der Gedankenkette (Chain of Thought, CoT) fortgesetzt, um besser zu verstehen, wie Modelle schlussfolgern, und um potenzielles Fehlverhalten besser erkennen zu können. Im Rahmen dieser Arbeit führen wir eine neue Open-Source-Evaluierung ein, CoT controllability (Gedankenketten-Steuerbarkeit), die misst, ob Modelle ihr Reasoning gezielt verschleiern können, um sich der Überwachung zu entziehen. Wir stellen fest, dass die Fähigkeit von GPT‑5.4 Thinking, seine CoT zu kontrollieren, gering ist, was eine positive Eigenschaft für die Sicherheit ist und darauf hindeutet, dass dem Modell die Fähigkeit fehlt, sein Reasoning zu verbergen, und dass die CoT-Überwachung nach wie vor ein wirksames Sicherheitsinstrument ist.
GPT‑5.4 wird ab heute schrittweise in ChatGPT und Codex eingeführt. In der API ist GPT‑5.4 ab sofort als gpt-5.4 verfügbar. GPT‑5.4 Pro ist ebenfalls in der API als gpt-5.4-pro für Entwickler:innen verfügbar, die bei den komplexesten Aufgaben maximale Leistung benötigen.
In ChatGPT ist GPT‑5.4 Thinking ab heute für ChatGPT Plus-, Team- und Pro-Nutzer:innen verfügbar und ersetzt GPT‑5.2 Thinking. GPT‑5.2 Thinking bleibt für zahlende Nutzer:innen drei Monate lang in der Modellauswahl im Abschnitt „Legacy-Modelle“ verfügbar, danach wird es am 5. Juni 2026 eingestellt. Bei Enterprise- und Edu-Plänen kann der frühzeitige Zugriff über die Admin-Einstellungen aktiviert werden. GPT‑5.4 Pro ist für Pro- und Enterprise-Pläne verfügbar. Kontextfenster(wird in einem neuen Fenster geöffnet) in ChatGPT für GPT‑5.4 Thinking bleiben im Vergleich zu GPT‑5.2 Thinking unverändert.
GPT‑5.4 ist unser erstes Mainline-Reasoning-Modell, das die Frontier-Programmierfähigkeiten von GPT‑5.3‑codex integriert und in ChatGPT, der API und Codex eingeführt wird. Wir nennen es GPT‑5.4, um diesen Sprung widerzuspiegeln und die Auswahl zwischen Modellen bei der Verwendung von Codex zu vereinfachen. Im Laufe der Zeit kannst du damit rechnen, dass sich unsere Instant- und Thinking-Modelle mit unterschiedlicher Geschwindigkeit weiterentwickeln werden.
GPT‑5.4 in Codex umfasst die experimentelle Unterstützung für das Kontextfenster von 1 Mio. Tokens. Entwickler:innen können dies ausprobieren, indem sie model_context_window und model_auto_compact_token_limit konfigurieren. Anfragen, die das standardmäßige Kontextfenster von 272.000 Tokens überschreiten, werden mit dem 2-Fachen des normalen Satzes auf die Nutzungslimits angerechnet.
In der API ist GPT‑5.4 pro Token teurer als GPT‑5.2, um seine verbesserten Fähigkeiten widerzuspiegeln, während seine höhere Token-Effizienz dazu beiträgt, die Gesamtzahl der für viele Aufgaben erforderlichen Tokens zu reduzieren. Die Batch- und Flex-Preisgestaltung ist zum halben Standard-API-Tarif verfügbar, während die vorrangige Verarbeitung zum doppelten Standard-API-Tarif verfügbar ist.
API-Modell | Eingabepreis | Preis für zwischengespeicherte Eingabe | Ausgabepreis |
gpt-5.2 | 1,75 USD / Mio. Tokens | 0,175 USD / Mio. Tokens | 14 USD / Mio. Tokens |
gpt-5.4 | 2,50 USD / Mio. Tokens | 0,25 USD / Mio. Tokens | 15 USD / Mio. Tokens |
gpt-5.2-pro | 21 USD / Mio. Tokens | - | 168 USD / Mio. Tokens |
gpt-5.4-pro | 30 USD / Mio. Tokens | - | 180 USD / Mio. Tokens |
Professionell
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0 % | 82,0 % | 70,9 % | 70,9 % | 74,1 % |
FinanceAgent v1.1 | 56,0 % | 61,5 % | 54,0 % | 59,5 % | — |
Investmentbanking-Modellierungsaufgaben (intern) | 87,3 % | 83,6 % | 79,3 % | 68,4 % | 71,7 % |
OfficeQA | 68,1 % | — | 65,1 % | 63,1 % | — |
Programmierung
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7 % | — | 56,8 % | 55,6 % | — |
Terminal-Bench 2.0 | 75,1 % | — | 77,3 % | 62,2 % | — |
Computernutzung und Bilderkennung (Vision)
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0 % | — | 74,0 % | 47,3 % | — |
MMMU Pro (no tools) | 81,2 % | — | — | 79,5 % | — |
MMMU Pro (mit Tools) | 82,1 % | — | — | 80,4 % | — |
Tool-Nutzung
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7 % | 89,3 % | 77,3 % | 65,8 % | 77,9 % |
MCP Atlas | 67,2 % | — | — | 60,6 % | — |
Toolathlon | 54,6 % | — | 51,9 % | 45,7 % | — |
Tau2-bench Telecom | 98,9 % | — | — | 98,7 % | — |
Wissenschaftliche
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Naturwissenschaftliche Spitzenforschung | 33,0 % | 36,7 % | — | 25,2 % | — |
FrontierMath Stufe 1–3 | 47,6 % | — | — | 40,7 % | — |
FrontierMath Stufe 4 | 27,1 % | 38,0 % | — | 18,8 % | 31,3 % |
GPQA Diamond | 92,8 % | 94,4 % | 92,6 % | 92,4 % | 93,2 % |
Humanity's Last Exam (keine Tools) | 39,8 % | 42,7% | — | 34,5 % | 36,6 % |
Humanity's Last Exam (mit Tools) | 52,1 % | 58,7 % | — | 45,5 % | 50,0 % |
Langer Kontext
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0 % | — | — | 94,0 % | — |
Graphwalks BFS 256K–1M | 21,4 % | — | — | — | — |
Graphwalks parents 0–128K (accuracy) | 89,8 % | — | — | 89,0 % | — |
Graphwalks parents 256K–1M (accuracy) | 32,4 % | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97,3 % | — | — | 98,2 % | — |
OpenAI MRCR v2 8-needle 8K–16K | 91,4 % | — | — | 89,3 % | — |
OpenAI MRCR v2 8-needle 16K–32K | 97,2 % | — | — | 95,3 % | — |
OpenAI MRCR v2 8-needle 32K–64K | 90,5 % | — | — | 92,0 % | — |
OpenAI MRCR v2 8-needle 64K–128K | 86,0 % | — | — | 85,6 % | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3 % | — | — | 77,0 % | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5 % | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36,6 % | — | — | — | — |
Abstraktes Denken
Eval | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (Verified) | 93,7 % | 94,5 % | — | 86,2 % | 90,5 % |
ARC-AGI-2 (Verified) | 73,3 % | 83,3 % | — | 52,9 % | 54,2 % (hoch) |
Evals ohne Reasoning
Eval | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (normalisierte Editierdistanz) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3 % | 57,2 % | 43,6 % |
Evals wurden mit auf „xhigh“ gesetztem Reasoning-Aufwand durchgeführt, sofern nicht anders angegeben. Benchmarks wurden in einer Forschungsumgebung durchgeführt, was in einigen Fällen zu leicht abweichenden Ausgaben im Vergleich zur Produktionsversion von ChatGPT führen kann.
Autor
Fußnoten
1 Leistung von Menschen, wie berichtet in OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(wird in einem neuen Fenster geöffnet).


