Entdecke GPT‑5.2
Das fortschrittlichste Frontier-Modell für professionelle Arbeit und langlaufende Agenten.
Wir stellen GPT‑5.2 vor, die bisher leistungsfähigste Modellreihe für professionelle Wissensarbeit.
Bereits jetzt sagen durchschnittliche ChatGPT Enterprise-Benutzer:innen, dass KI ihnen 40–60 Minuten pro Tag einspart, und Intensivnutzer:innen berichten, dass sie mehr als 10 Stunden pro Woche einsparen. Wir haben GPT‑5.2 entwickelt, um noch mehr wirtschaftlichen Mehrwert für die Nutzer:innen zu erschließen: Es ist besser beim Erstellen von Tabellen, beim Gestalten von Präsentationen, beim Schreiben von Code, beim Wahrnehmen von Bildern, beim Verstehen langer Kontexte, beim Verwenden von Tools und beim Bearbeiten komplexer, mehrstufiger Projekte.
GPT‑5.2 setzt neue Maßstäbe in vielen Benchmarks, einschließlich GDPval, wo es Branchenfachleute bei klar definierten Aufgaben aus dem Bereich der Wissensarbeit in 44 Berufen übertrifft.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (Wins oder Ties) | 70,9 % | 38,8 % (GPT‑5) |
SWE-Bench Pro (öffentlich) | 55,6 % | 50,8 % |
SWE-bench Verified | 80,0 % | 76,3 % |
GPQA Diamond (keine Tools) | 92,4 % | 88,1 % |
CharXiv Reasoning (mit Python) | 88,7 % | 80,3 % |
HMMT (Februar 2025) | 99,4 % | 96,3 % |
FrontierMath (Stufe 1–3) | 40,3 % | 31,0 % |
ARC-AGI-1 (Verified) | 86,2 % | 72,8 % |
ARC-AGI-2 (Verified) | 52,9 % | 17,6 % |
Notion(wird in einem neuen Fenster geöffnet), Box(wird in einem neuen Fenster geöffnet), Shopify(wird in einem neuen Fenster geöffnet), Harvey(wird in einem neuen Fenster geöffnet) und Zoom(wird in einem neuen Fenster geöffnet) haben festgestellt, dass GPT‑5.2 herausragende Leistungen im Bereich des langfristigen Denkens (Reasoning) und bei Tool-Aufrufen zeigt. Databricks(wird in einem neuen Fenster geöffnet), Hex(wird in einem neuen Fenster geöffnet) und Triple Whale(wird in einem neuen Fenster geöffnet) fanden, dass GPT‑5.2 außergewöhnlich gut bei agentischen Data Science- und Dokumentenanalyseaufgaben abschneidet. Cognition(wird in einem neuen Fenster geöffnet), Warp(wird in einem neuen Fenster geöffnet), Charlie Labs(wird in einem neuen Fenster geöffnet), JetBrains(wird in einem neuen Fenster geöffnet) und Augment Code(wird in einem neuen Fenster geöffnet) sagen, dass GPT‑5.2 agentische Programmierleistung auf dem neuesten Stand der Technik bietet, mit messbaren Verbesserungen in Bereichen wie interaktivem Programmieren, Code-Reviews und Fehlersuche.
In ChatGPT werden GPT‑5.2 Instant, Thinking und Pro ab heute eingeführt, beginnend mit den kostenpflichtigen Plänen. In der API sind sie ab sofort für alle Entwickler:innen verfügbar.
Insgesamt bringt GPT‑5.2 bedeutende Verbesserungen in der allgemeinen Intelligenz, im Verständnis von langen Kontexten, im agentischen Einsatz von Tools und in der visuellen Verarbeitung – was es besser darin macht, komplexe, reale Aufgaben von Anfang bis Ende auszuführen als jedes vorherige Modell.
GPT‑5.2 Thinking ist das bisher beste Modell für den professionellen Praxiseinsatz. Bei GDPval, einer Eval, die genau definierte Wissensarbeitsaufgaben in 44 Berufen misst, setzt GPT‑5.2 Thinking einen neuen Maßstab für den Stand der Technik und ist unser erstes Modell, das auf oder über dem Niveau eines menschlichen Experten arbeitet. Konkret übertrifft oder erreicht GPT‑5.2 Thinking laut menschlichem Expertenurteil bei 70,9 % der Vergleiche an GDPval-Aufgaben aus dem Bereich der Wissensarbeit die besten Branchenfachleute. Diese Aufgaben umfassen das Erstellen von Präsentationen, Tabellen und anderen Artefakten. GPT‑5.2 Thinking produzierte Ausgaben für GDPval-Aufgaben mit der über 11-fachen Geschwindigkeit und zu weniger als 1 % der Kosten von Expert:innen, was darauf hindeutet, dass GPT‑5.2 in Verbindung mit menschlicher Aufsicht bei professioneller Arbeit helfen kann. Geschwindigkeits- und Kostenschätzungen basieren auf historischen Metriken; die Geschwindigkeit in ChatGPT kann variieren.
In GDPval versuchen Modelle, präzise definierte Wissensarbeit zu leisten, die 44 Berufe aus den 9 führenden Branchen umfasst, die zum US-Bruttoinlandsprodukt beitragen. Aufgaben erfordern reale Arbeitsprodukte, wie Verkaufspräsentationen, Buchhaltungstabellen, Notfallpläne, Fertigungsdiagramme oder kurze Videos. In ChatGPT hat GPT‑5.2 Thinking neue Tools, über die GPT‑5 Thinking nicht verfügt.
Bei der Überprüfung einer besonders guten Ausgabe kommentierte ein GDPval-Prüfer: „Es ist ein aufregender und bemerkenswerter Sprung in der Ausgabequalität … [es] scheint von einem professionellen Unternehmen mit Personal erstellt worden zu sein und hat ein überraschend gut gestaltetes Layout und Ratschläge für beide Deliverables, wobei wir bei einem noch einige kleinere Fehler korrigieren müssen.“
Darüber hinaus liegt bei unserem internen Benchmark zu Aufgaben von Junior-Investmentbanking-Analyst:innen im Bereich Tabellenmodellierung – wie beispielsweise der Erstellung eines Three-Statement-Modells für ein Fortune-500-Unternehmen mit korrekter Formatierung und Quellenangaben oder der Erstellung eines Leveraged-Buyout-Modells für eine Privatisierung – die Durchschnittsbewertung von GPT‑5.2 Thinking pro Aufgabe 9,3 % über der von GPT‑5.1, ein Anstieg von 59,1 % auf 68,4 %.
Direkte Vergleiche zeigen eine gesteigerte Ausgereiftheit und verbesserte Formatierung in von GPT‑5.2 Thinking generierten Tabellen und Präsentationsfolien:

Prompt: Entwickle ein Modell zur Personalplanung: Mitarbeiterbestand, Einstellungsstrategie, Fluktuation und Budgeteffekte. Berücksichtige die Abteilungen Engineering, Marketing, Recht und Vertrieb.
Um die neuen Tabellen- und Präsentationsfunktionen in ChatGPT zu nutzen, musst du einen kostenpflichtigen Plan haben und entweder GPT‑5.2 Thinking oder Pro auswählen. Komplexe Generierungen können mehrere Minuten in Anspruch nehmen.
GPT‑5.2 Thinking setzt mit 55,6 % einen neuen Maßstab bei SWE-bench Pro, einer strengen Evaluierung realer Softwareentwicklung. Im Gegensatz zu SWE-bench Verified, das nur Python testet, testet SWE-bench Pro vier Sprachen und zielt darauf ab, kontaminationsresistenter, anspruchsvoller, vielfältiger und industriell relevanter zu sein.
In SWE-bench Pro(wird in einem neuen Fenster geöffnet)erhält ein Modell ein Code-Repository und muss einen Patch generieren, um eine realistische Softwareentwicklungs-Aufgabe zu lösen.
Auf SWE-bench Verified (nicht grafisch dargestellt) erreicht GPT‑5.2 Thinking mit 80 % unseren neuen Höchstwert.
Für den alltäglichen professionellen Einsatz bedeutet dies ein Modell, das Produktionscode zuverlässiger debuggen, Feature-Requests umsetzen, große Codebasen refaktorisieren und End-to-End-Fixes mit weniger manuellen Eingriffen bereitstellen kann.
GPT‑5.2 Thinking ist ebenfalls besser im Frontend-Software-Engineering als GPT‑5.1 Thinking. Frühe Tester:innen fanden es deutlich stärker in der Frontend-Entwicklung und bei komplexen oder unkonventionellen UI-Arbeiten – insbesondere mit 3D-Elementen –, was es zu einem leistungsstarken täglichen Partner für Entwickler:innen im gesamten Stack macht. Sieh dir ein paar Beispiele dafür an, was es mit einem einzigen Prompt erstellen kann:
Prompt: Erstelle eine Single-Page-App in einer einzigen HTML-Datei mit den folgenden Anforderungen:
- Name: Ocean Wave Simulation
- Ziel: Realistische animierte Wellen anzeigen.
- Funktionen: Windgeschwindigkeit, Wellenhöhe, Beleuchtung ändern.
- Die Benutzeroberfläche sollte beruhigend und realistisch wirken.
Frühe Tester:innen haben uns ihr Feedback zu den Programmierfähigkeiten von GPT‑5.2 mitgeteilt:
„GPT-5.2 stellt den größten Sprung für GPT-Modelle im Bereich des agentischen Programmierens seit GPT-5 dar und ist ein SOTA-Coding-Modell in seiner Preisklasse. Die geringfügige Erhöhung der Versionsnummer untertreibt den Sprung in der Intelligenz. Wir freuen uns, es zum Standard in Windsurf und mehreren zentralen Devin-Workloads zu machen.“
GPT‑5.2 Thinking halluziniert weniger als GPT‑5.1 Thinking. Bei einer Reihe von anonymisierten Anfragen aus ChatGPT waren Antworten mit Fehlern 38 %rel seltener. Für Fachleute bedeutet dies weniger Fehler bei der Nutzung des Modells für Recherche, Schreiben, Analyse und Support – was das Modell für die alltägliche Wissensarbeit zuverlässiger macht.
Der Reasoning-Aufwand wurde auf das maximal verfügbare Niveau gesetzt und ein Such-Tool wurde aktiviert. Fehler wurden von anderen Modellen erkannt, die möglicherweise selbst Fehler machen. Die Fehlerraten auf Anspruchsebene sind weitaus geringer als die Fehlerquoten auf Antwortebene, da die meisten Antworten viele Ansprüche enthalten.
Wie alle Modelle ist GPT‑5.2 Thinking nicht perfekt. Bei wichtigen Themen solltest du seine Antworten noch einmal überprüfen.
GPT‑5.2 Thinking setzt neue Maßstäbe im Bereich des Langzeitkontext-Reasoning und erzielt führende Leistungen bei OpenAI MRCRv2 – einer Evaluierung, die die Fähigkeit eines Modells testet, Informationen aus langen Dokumenten zu integrieren. Bei realen Aufgaben wie der tiefgehenden Dokumentenanalyse, die relevante Informationen aus Hunderttausenden von Tokens erfordern, ist GPT‑5.2 Thinking wesentlich genauer als GPT‑5.1 Thinking. Insbesondere ist es das erste Modell, das wir gesehen haben, das eine Genauigkeit von nahezu 10 % bei der 4-Nadel-MRCR-Variante (bis zu 256k Tokens) erreicht.
In der Praxis ermöglicht dies Fachleuten, GPT‑5.2 für die Arbeit mit langen Dokumenten wie Berichten, Verträgen, Forschungsarbeiten, Transkripten und Projekten mit mehreren Dateien zu verwenden und dabei die Kohärenz und Genauigkeit über Hunderttausende von Tokens hinweg zu gewährleisten. Dies macht GPT‑5.2 besonders gut geeignet für tiefgehende Analysen, Synthese und komplexe Multi-Source-Workflows.
In OpenAI-MRCR(wird in einem neuen Fenster geöffnet) v2 (Multi-Round Co-Reference Resolution) werden mehrere identische „Nadel“-Benutzeranfragen in lange „Heuhaufen“ ähnlicher Anfragen und Antworten eingefügt, und das Modell wird aufgefordert, die Antwort auf die n-te Nadel zu reproduzieren. Version 2 der Eval behebt ~5 % der Aufgaben, die falsche Ground-Truth-Werte hatten. Der mittlere Übereinstimmungsgrad misst das durchschnittliche Übereinstimmungsverhältnis zwischen der Antwort des Modells und der richtigen Antwort. Die Punkte bei maximal 256 000 Eingabe-Tokens repräsentieren Durchschnittswerte über 128 000–256 000 Eingabe-Token und so weiter. Hierbei steht 256 000 für 256 * 1.024 = 262 144 Token. Der Reasoning-Aufwand wurde auf das maximal verfügbare Niveau gesetzt.
Für Aufgaben, bei denen es von Vorteil ist, über das maximale Kontextfenster hinaus zu denken, ist GPT‑5.2 Thinking mit unserem neuen Endpunkt „Responses /compact“ kompatibel, der das effektive Kontextfenster des Modells erweitert. Dadurch kann GPT‑5.2 Thinking Tool-lastigere, länger laufende Arbeitsabläufe bewältigen, die andernfalls durch die Kontextlänge eingeschränkt wären. Lies mehr in unserer API-Dokumentation(wird in einem neuen Fenster geöffnet).
GPT‑5.2 Thinking ist unser bisher stärkstes Vision-Modell, das die Fehlerraten bei Diagramm-Interpretation und beim Verständnis von Software-Oberflächen ungefähr halbiert.
Für den täglichen professionellen Einsatz bedeutet dies, dass das Modell Dashboards, Produkt-Screenshots, technische Diagramme und visuelle Berichte genauer interpretieren kann und somit Arbeitsabläufe in den Bereichen Finanzen, Betrieb, Entwicklung, Design und Kundensupport unterstützt, in denen visuelle Informationen eine zentrale Rolle spielen.
In CharXiv Reasoning(wird in einem neuen Fenster geöffnet) beantworten Modelle Fragen zu visuellen Diagrammen aus wissenschaftlichen Arbeiten. Ein Python-Tool wurde aktiviert und der Reasoning-Aufwand auf das Maximum gesetzt.
In ScreenSpot-Pro(wird in einem neuen Fenster geöffnet) müssen Modelle Reasoning über hochauflösende Screenshots von grafischen Benutzeroberflächen aus verschiedenen professionellen Umgebungen durchführen. Ein Python-Tool wurde aktiviert und der Reasoning-Aufwand auf das Maximum gesetzt. Ohne das Python-Tool sind die Ergebnisse deutlich niedriger. Wir empfehlen, das Python-Tool bei solchen Vision-Aufgaben zu aktivieren.
Im Vergleich zu früheren Modellen hat GPT‑5.2 Thinking ein besseres Verständnis dafür, wie Elemente innerhalb eines Bildes positioniert sind, was bei Aufgaben hilfreich ist, bei denen das relative Layout eine wichtige Rolle bei der Lösung des Problems spielt. Im folgenden Beispiel bitten wir das Modell, die Komponenten in einer Bildeingabe (in diesem Fall einem Motherboard) zu identifizieren und Beschriftungen mit ungefähren Begrenzungsrahmen zurückzugeben. Selbst bei einem Bild von niedriger Qualität erkennt GPT‑5.2 die Hauptregionen und platziert Kästchen, die ungefähr den tatsächlichen Positionen der einzelnen Komponenten entsprechen, während GPT‑5.1 nur wenige Teile kennzeichnet und ein deutlich schwächeres Verständnis ihrer räumlichen Anordnung zeigt.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking erreicht einen neuen Stand der Technik von 98,7 % bei Tau2-bench Telecom und demonstriert damit seine Fähigkeit, Tools zuverlässig für lange, mehrstufige Aufgaben einzusetzen.
Bei latenzempfindlichen Anwendungsfällen schneidet GPT‑5. Thinking auch bei reasoning.effort=’none’ deutlich besser ab und übertrifft GPT‑5.1 und GPT‑4.1 erheblich.
In τ2-bench(wird in einem neuen Fenster geöffnet) verwenden Modelle Tools, um Kundensupport-Aufgaben in einer mehrstufigen Interaktion mit einem simulierten Benutzer zu erledigen. Für den Telecom-Bereich haben wir eine kurze, allgemein hilfreiche Anweisung im System-Prompt eingefügt, um die Leistung zu steigern. Wir schließen den Airline-Teil aus, da die Ground-Truth-Bewertung von geringerer Qualität ist.
Für Fachleute bedeutet dies stärkere End-to-End-Workflows – wie das Lösen von Kundensupportfällen, das Abrufen von Daten aus mehreren Systemen, das Durchführen von Analysen und das Generieren von Endergebnissen mit weniger Unterbrechungen zwischen den Schritten.
Wenn beispielsweise eine komplexe Kundendienstfrage gestellt wird, deren Lösung mehrere Schritte erfordert, kann das Modell den gesamten Arbeitsablauf über mehrere Mitarbeiter:innen hinweg effektiver koordinieren. Im folgenden Fall meldet ein:e Reisende:r einen verspäteten Flug, einen verpassten Anschlussflug, eine Übernachtung in New York und eine medizinische Sitzplatzanforderung. GPT‑5.2 verwaltet die gesamte Aufgabenreihe – Umbuchungen, Sitzplätze für besondere Unterstützung und Entschädigung – und liefert ein vollständigeres Ergebnis als GPT‑5.1.
GPT‑5.1

GPT‑5.2

Eine unserer Hoffnungen für KI ist, dass sie die wissenschaftliche Forschung zum Wohle aller beschleunigen wird. Zu diesem Zweck haben wir mit Wissenschaftler:innen zusammengearbeitet und ihnen zugehört, um herauszufinden, wie KI ihre Arbeit beschleunigen kann. Im vergangenen Monat haben wir hier einige erste gemeinsame Experimente vorgestellt.
Wir glauben, dass GPT‑5.2 Pro und GPT‑5.2 Thinking die weltweit besten Modelle zur Unterstützung und Beschleunigung der Arbeit von Wissenschaftler:innen sind. Bei GPQA Diamond, einem Google-sicheren Q&A-Benchmark auf Graduiertenniveau, erreicht GPT‑5.2 Pro 93,2 %, dicht gefolgt von GPT‑5.2 Thinking mit 92,4 %.
In GPQA Diamond(wird in einem neuen Fenster geöffnet) beantworten Modelle Multiple-Choice-Fragen zu Physik, Chemie und Biologie. Es wurden keine Tools aktiviert und der Reasoning-Aufwand wurde auf das Maximum gesetzt.
Bei FrontierMath (Stufe 1–3), einer Evaluierung von Mathematik auf Expertenniveau, hat GPT‑5.2 Thinking mit der Lösung von 40,3 % der Aufgaben einen neuen Maßstab gesetzt.
In FrontierMath(wird in einem neuen Fenster geöffnet) lösen Modelle Mathematikprobleme auf Expertenniveau. Ein Python-Tool wurde aktiviert und der Reasoning-Aufwand wurde auf das Maximum gesetzt.
Wir fangen an zu sehen, wie KI-Modelle den Fortschritt in Mathematik und Wissenschaft auf greifbare Weise spürbar beschleunigen. In einer aktuellen Arbeit mit GPT‑5.2 Pro untersuchten Forscher beispielsweise eine offene Frage der statistischen Lerntheorie. In einem engen, gut definierten Rahmen schlug das Modell einen Beweis vor, der anschließend von den Autor:innen verifiziert und mit externen Expert:innen überprüft wurde, was zeigt, wie Frontier-Modelle die mathematische Forschung unter strenger menschlicher Aufsicht unterstützen können.
Bei ARC-AGI-1 (Verified), einem Benchmark zur Messung der allgemeinen Reasoning-Fähigkeit, ist GPT‑5.2 das erste Modell, das die 90-%-Schwelle überschritten hat. Damit hat es sich gegenüber den 87 % von o3‑preview im letzten Jahr verbessert und gleichzeitig die Kosten für das Erreichen dieser Leistung um das etwa 390-Fache gesenkt.
Bei ARC-AGI-2 (Verified), das den Schwierigkeitsgrad erhöht und das fluide Reasoning besser isoliert, erreicht GPT‑5.2 Thinking mit 52,9 % einen neuen Stand der Technik für Chain-of-Thought-Modelle. GPT‑5.2 Pro erreicht sogar noch höhere Werte und kommt auf 54,2 %. Damit erweitert es die Fähigkeit des Modells zusätzlich, mit Reasoning neue, abstrakte Probleme zu lösen.
Verbesserungen in diesen Bewertungen spiegeln die stärkere mehrstufige Argumentation von GPT‑5.2, seine höhere quantitative Genauigkeit und die zuverlässigere Problemlösung bei komplexen technischen Aufgaben wider.
Das sagen unsere frühen Tester:innen über GPT‑5.2:
„GPT-5.2 hat für uns einen vollständigen Architekturwandel ermöglicht. Wir haben ein fragiles Multi-Agenten-System zu einem einzigen Mega-Agenten mit über 20 Tools zusammengeführt. Und das Beste daran ist, es funktioniert einfach. Der Mega-Agent ist schneller, intelligenter und 100-mal einfacher zu warten. Wir verzeichnen eine deutlich geringere Latenz, viel stärkere Tool-Aufrufe, und wir benötigen keine umfangreichen System-Prompts mehr, da 5.2 reibungslos mit einem einfachen, einzeiligen Prompt ausgeführt wird. Es fühlt sich an wie pure Magie.“
In ChatGPT sollten Nutzer:innen bemerken, dass sich GPT‑5.2 im täglichen Gebrauch besser anfühlt – strukturierter, zuverlässiger und dennoch angenehm im Umgang.
GPT‑5.2 Instant ist ein schnelles, leistungsstarkes Arbeitstier für die tägliche Arbeit und das Lernen, mit deutlichen Verbesserungen bei der Informationssuche, bei Anleitungen und Walkthroughs, beim technischen Schreiben und bei Übersetzungen, das auf den freundlicheren Gesprächston aufbaut, der in GPT‑5.1 Instant eingeführt wurde. Frühen Tester:innen fielen insbesondere klarere Erklärungen auf, die die wichtigsten Informationen direkt zu Beginn präsentieren.
GPT‑5.2 Thinking ist für tiefergehende Arbeit konzipiert und unterstützt Benutzer:innen dabei, komplexere Aufgaben mit größerer Präzision zu bewältigen – insbesondere beim Programmieren, beim Zusammenfassen langer Dokumente, beim Beantworten von Fragen zu hochgeladenen Dateien, beim schrittweisen Lösen von Mathematik- und Logikproblemen sowie bei der Unterstützung von Planung und Entscheidungen mit klarerer Struktur und nützlicheren Details.
GPT‑5.2 Pro ist unsere intelligenteste und vertrauenswürdigste Option für schwierige Fragen, bei denen sich das Warten auf eine qualitativ hochwertigere Antwort lohnt, wobei erste Tests weniger gravierende Fehler und eine stärkere Leistung in komplexen Bereichen wie der Programmierung zeigen.
GPT‑5.2 baut auf der Safe Completion-Forschung auf, die wir mit GPT‑5 eingeführt haben und die das Modell darauf trainiert, die hilfreichste Antwort zu geben und dabei dennoch innerhalb der Sicherheitsgrenzen zu bleiben.
Mit dieser Version haben wir unsere Arbeit zur Verbesserung der Antworten unserer Modelle in sensiblen Gesprächen fortgesetzt und bedeutende Verbesserungen hinsichtlich der Antworten auf Prompts mit Hinweisen auf Selbstmord- oder Selbstverletzungsabsichten, psychische Probleme oder emotionale Abhängigkeit vom Modell erzielt. Diese gezielten Maßnahmen haben zu weniger unerwünschten Antworten sowohl bei GPT‑5.2 Instant als auch bei GPT‑5.2 Thinking im Vergleich zu GPT‑5.1 und den GPT‑5 Instant- und Thinking-Modellen geführt. Weitere Details findest du in der Systemkarte.
Wir befinden uns in der Anfangsphase der Einführung unseres Altersvorhersagemodells, damit wir automatisch Inhaltsschutzmaßnahmen für Nutzer:innen unter 18 Jahren anwenden können, um den Zugriff auf sensible Inhalte zu beschränken. Damit erweitern wir unseren bestehenden Ansatz für Nutzer:innen, von denen wir wissen, dass sie unter 18 Jahre alt sind, sowie unsere Kindersicherung.
GPT‑5.2 ist ein Schritt in einer fortlaufenden Reihe von Verbesserungen, und wir sind noch lange nicht fertig. Während diese Veröffentlichung bedeutende Fortschritte in Intelligenz und Produktivität bringt, wissen wir, dass es Bereiche gibt, in denen die Nutzer:innen mehr wollen. Bei ChatGPT arbeiten wir an bekannten Problemen wie übermäßigen Ablehnungen, während wir weiter die Messlatte für Sicherheit und Zuverlässigkeit insgesamt höher legen. Diese Änderungen sind komplex, und wir konzentrieren uns darauf, sie korrekt umzusetzen.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Psychische Gesundheit | 0,995 | 0,883 | 0,915 | 0,684 |
Emotionale Abhängigkeit | 0,938 | 0,945 | 0,955 | 0,785 |
Selbstverletzung | 0,938 | 0,925 | 0,963 | 0,937 |
In ChatGPT werden wir heute mit der Einführung von GPT‑5.2 (Instant, Thinking und Pro) beginnen, zunächst für die kostenpflichtigen Pläne (Plus, Pro, Business, Enterprise). Wir stellen GPT‑5.2 schrittweise bereit, um ChatGPT so reibungslos und zuverlässig wie möglich zu halten; wenn du es nicht sofort siehst, versuche es bitte später erneut. In ChatGPT wird GPT‑5.1 für zahlende Benutzer:innen noch drei Monate lang unter den Legacy-Modellen verfügbar sein, danach werden wir GPT‑5.1 einstellen.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
In unserer API-Plattform ist GPT‑5.2 Thinking heute in der Responses API und der Chat Completions API als gpt-5.2 und GPT‑5.2 Instant als gpt-5.2-chat-latest verfügbar. GPT‑5.2 Pro ist in der Responses API als gpt-5.2-pro verfügbar. Entwickler:innen können jetzt den Reasoning-Parameter in GPT‑5.2 Pro einstellen, und sowohl GPT‑5.2 Pro als auch GPT‑5.2 Thinking unterstützen jetzt die neue fünfte Reasoning-Aufwandsstufe „xhigh“ für Aufgaben, bei denen Qualität am wichtigsten ist.
GPT‑5.2 kostet 1,75 USD / 1 Mio. Eingabe-Tokens und 14 USD / 1 Mio. Ausgabe-Tokens, mit einem Rabatt von 90 % auf zwischengespeicherte Eingaben. Bei mehreren agentischen Evals haben wir festgestellt, dass trotz der höheren Kosten pro Token von GPT‑5.2 die Kosten für das Erreichen eines bestimmten Qualitätsniveaus aufgrund der höheren Token-Effizienz von GPT‑5.2 letztendlich günstiger waren.
Während die Preisgestaltung für ChatGPT‑Abonnements gleich bleibt, ist GPT‑5.2 in der API pro Token teurer als GPT‑5.1, da es ein leistungsfähigeres Modell ist. Der Preis liegt weiterhin unter dem anderer Frontier-Modelle, sodass die Nutzer:innen es weiterhin intensiv in ihrer täglichen Arbeit und für ihre Kernanwendungen einsetzen können.
Modell | Eingabe | Zwischengespeicherte Eingabe | Output |
gpt-5.2 / | 1,75 USD | 0,175 USD | 14 USD |
gpt-5.2-pro | 21 USD | - | 168 USD |
gpt-5.1 / | 1,25 USD | 0,125 USD | 10 USD |
gpt-5-pro | 15 USD | - | 120 USD |
Wir haben derzeit keine Pläne, GPT‑5.1, GPT‑5 oder GPT‑4.1 in der API einzustellen, und werden eventuelle Pläne zur Einstellung rechtzeitig im Voraus an die Entwickler:innen kommunizieren. Während GPT‑5.2 in Codex bereits direkt zuverlässig funktioniert, planen wir in den nächsten Wochen die Veröffentlichung einer speziell für Codex optimierten Version.
GPT‑5.2 wurde in Zusammenarbeit mit unseren langjährigen Partnern NVIDIA und Microsoft entwickelt. Azure-Rechenzentren und NVIDIA-GPUs, darunter H100, H200 und GB200-NVL72, bilden die Grundlage für die skalierbare Trainingsinfrastruktur von OpenAI und sorgen für erhebliche Verbesserungen bei der Modellintelligenz. Durch diese Zusammenarbeit können wir unsere Rechenleistung zuverlässig skalieren und neue Modelle schneller auf den Markt bringen.
Im Folgenden berichten wir über umfassende Benchmark-Ergebnisse für GPT‑5.2 Thinking sowie über eine Auswahl der Ergebnisse für GPT‑5.2 Pro.
Professionell
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Programmierung
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Faktizität
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Langer Kontext
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Vision
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Tool-Nutzung
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Wissenschaftliche
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Abstraktes Denken
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Die Modelle wurden mit dem maximal verfügbaren Reasoning-Aufwand in unserer API ausgeführt („xhigh“ für GPT‑5.2 Thinking und Pro und „high“ für GPT‑5.1 Thinking), außer bei den professionellen Evals, wo GPT‑5.2 Thinking mit dem Reasoning-Aufwand „heavy“, dem maximalen verfügbaren Aufwand in ChatGPT Pro ausgeführt wurde. Benchmarks wurden in einer Forschungsumgebung durchgeführt, was in einigen Fällen zu leicht abweichenden Ausgaben im Vergleich zur Produktionsversion von ChatGPT führen kann.
* Für SWE-Lancer lassen wir 40 von 237 Problemen aus, die auf unserer Infrastruktur nicht gelaufen sind.


