Zum Hauptinhalt springen
OpenAI

7. August 2025

Produkt

Neu: GPT‑5 für Entwickler

Das beste Modell für Programmier- und agentische Aufgaben.

Laden …

Einleitung

Heute führen wir mit GPT‑5 unser bislang bestes Modell für Programmier- und agentische Aufgaben auf unserer API-Plattform ein.

GPT‑5 setzt in allen wichtigen Programmier-Benchmarks neue Maßstäbe und erreicht 74,9 % bei SWE-bench Verified und 88 % bei Aider Polyglot. Wir haben GPT‑5 als einen echten Partner für die Programmierung trainiert. Es eignet sich hervorragend zur Erstellung hochwertiger Codes und für Aufgaben wie Fehlerbehebung, Code-Bearbeitung und Beantwortung von Fragen zu komplexen Codebasen. Das Modell ist steuerbar und kollaborativ. Es kann äußerst detaillierte Anweisungen mit hoher Genauigkeit befolgen sowie seine Aktionen vor und zwischen Tool-Aufrufen im Voraus erklären.  Auch bei der Frontend-Programmierung überzeugt das Modell und schlägt OpenAI o3 bei internen Tests in 70 % der Fälle im Bereich Frontend-Webentwicklung.

Wir haben GPT‑5 in Zusammenarbeit mit frühen Testern aus Startups und Unternehmen anhand von Programmieraufgaben aus der Praxis trainiert. Cursor bezeichnet GPT‑5 als „das bisher cleverste Modell“ und beschreibt es als „überaus intelligent, einfach in der Steuerung und sogar mit einer Persönlichkeit, die [wir] bei anderen Modellen nicht gesehen haben“. Windsurf berichtete, dass GPT‑5 bei seinen Bewertungen den höchsten Stand der Technik und „beim Tool-Aufruf die halbe Fehlerquote von anderen Grenzmodellen aufwies“. Vercel beschreibt seine ersten Eindrücke wie folgt: „Es ist das beste Frontend-KI-Modell, das sowohl in Sachen Ästhetik als auch Codequalität Spitzenleistungen bringt und damit eine Klasse für sich ist.“

Zudem zeichnet sich GPT‑5 bei langfristigen agentischen Aufgaben aus und erreicht Spitzenergebnisse bei τ2-Bench Telecom (96,7 %), einem vor erst zwei Monaten veröffentlichten Benchmark für den Aufruf von Tools. Dank verbesserter Tool-Intelligenz kann GPT‑5 Dutzende von Tool-Aufrufen sowohl sequenziell als auch parallel zuverlässig miteinander verketten, ohne den Überblick zu verlieren. Dadurch ist es wesentlich besser bei der Bewältigung komplexer Aufgaben aus der Praxis. Es ist zudem genauer bei der Befolgung von Tool-Anweisungen, kann besser mit Tool-Fehlern umgehen und zeichnet sich durch die Abfrage von Inhalten mit längerem Kontext aus. Manus berichtet, dass die Leistung, die GPT‑5 in ihren internen Benchmarks erzielte, besser als jedes andere Modell war, das sie gesehen haben. Laut Notion ist GPT‑5 „dank seiner rasanten Antworten, insbesondere im Low-Reasoning-Modus, ein ideales Modell für die Bewältigung mehrerer komplexer Aufgaben gleichzeitig.“ Und laut Inditex ist das „wahre Unterscheidungsmerkmal von [GPT‑5] sein tiefes Reasoning-Vermögen: nuancierte, mehrschichtige Antworten, die von echtem Verständnis des Themas zeugen“.

Wir führen neue Funktionen in unserer API ein, um Entwicklern stärkere Kontrolle über die Reaktionen des Modells zu geben. GPT‑5 unterstützt einen neuen Parameter für Ausführlichkeit (Werte: niedrig, mittel, hoch), um zu steuern, ob Antworten kurz und prägnant oder lang und ausführlich sein sollen. Der Parameter Reasoning_Aufwand von GPT‑5 kann jetzt den Wert minimal annehmen, um schnell und ohne umfangreiches Reasoning Antworten zu erhalten. Außerdem haben wir einen neuen Tool-Typ hinzugefügt – benutzerdefinierte Tools –, mit dem GPT‑5 Tools mit Klartext anstelle von JSON aufrufen kann. Benutzerdefinierte Tools unterstützen Einschränkungen durch vom Entwickler bereitgestellte kontextfreie Grammatik.

GPT‑5 wird in drei Größen in der API veröffentlicht – gpt-5, gpt-5-mini und gpt-5-nano –, damit Entwickler Leistung, Kosten und Latenz flexibler abwägen können. In ChatGPT ist GPT‑5 ein System aus schlussfolgernden, nicht schlussfolgernden und Router-Modellen. In der API-Plattform hingegen ist GPT‑5 das schlussfolgernde Modell, das die maximale Leistung in ChatGPT ermöglicht. Insbesondere GPT‑5 mit minimaler Reasoning-Fähigkeit ist ein anderes Modell als das Modell ohne Reasoning in ChatGPT und besser auf Entwickler abgestimmt. Das in ChatGPT verwendete nicht-schlussfolgernde Modell ist als gpt-5-chat-latest verfügbar.

Mehr über GPT‑5 in ChatGPT und andere Verbesserungen bei ChatGPT findest du in unserem Research-Blog. Mehr dazu, wie Unternehmen GPT‑5 nutzen, findest du in unserem Enterprise-Blogbeitrag.

Programmieren

GPT‑5 ist das leistungsstärkste Programmiermodell, das wir bislang veröffentlicht haben. Es übertrifft o3 bei Codierungs-Benchmarks und praktischen Anwendungsfällen und wurde auf Top-Leistung in agentenbasierten Programmierprodukten wie Cursor, Windsurf, GitHub Copilot und Codex CLI optimiert. Unsere Alphatester waren von GPT‑5 beeindruckt – bei vielen ihrer internen Bewertungen konnte es Rekorde aufstellen. 

Erstes Feedback zu GPT‑5 für Programmieraufgaben aus der Praxis

„GPT-5 ist das intelligenteste Coding-Modell, das wir bisher verwendet haben. „Unser Team empfand GPT-5 als bemerkenswert intelligent, steuerbar und sogar mit einer Persönlichkeit ausgestattet, die wir bei keinem anderen Modell gesehen haben. Es findet nicht nur knifflige, tief versteckte Fehler, sondern kann auch lange, mehrschrittige Hintergrundprozesse ausführen, um komplexe Aufgaben bis zum Ende durchzuziehen – genau die Probleme, an denen andere Modelle früher hängen geblieben sind. Es ist unser täglicher Begleiter und hilft uns bei allem, von der Planung von PR-Aktionen bis hin zur Fertigstellung kompletter Builds.“
Michael Truell, Mitbegründer und CEO von Cursor

Beim SWE-Benchmark „Verified“, einer Bewertung, die auf Softwareentwicklungsaufgaben aus der Praxis basiert, erreicht GPT‑5 74,9 % im Vergleich zu den 69,1 % von o3. In erster Linie erreicht GPT‑5 seine hohe Bewertung durch höhere Effizienz und Geschwindigkeit: Im Vergleich zu o3 verwendet GPT‑5 bei hohem Reasoning-Aufwand 22 % weniger Output-Tokens und 45 % weniger Tool-Aufrufe.

Beim SWE-Benchmark „Verified“ erhält ein Modell ein Code-Repository sowie eine Problembeschreibung und soll einen Lösungs-Patch generieren. Textetiketten geben den Reasoning-Aufwand an. In unseren Bewertungen werden 23 von 500 Problemen, deren Lösungen unsere Infrastruktur nicht zuverlässig bestehen konnten, nicht berücksichtigt. GPT‑5 bekam eine kurze Vorgabe, die darauf abzielte, Lösungen gründlich zu überprüfen. Bei o3 hat diese Vorgabe nicht sonderlich viel gebracht.

Beim Aider-Polyglot-Benchmark, einer Evaluation für das Bearbeiten von Code, erreichte GPT‑5 einen neuen Höchstwert von 88 % und somit eine um ein Drittel geringere Fehlerquote im Vergleich zu o3.

In Aider Polyglot(wird in einem neuen Fenster geöffnet) (Differenz) erhält ein Modell eine Coding-Aufgabe von Exercism und muss seine Lösung als Code-Diff schreiben. Die Reasoning-Modelle wurden mit hohem Reasoning-Aufwand ausgeführt.

Zudem haben wir festgestellt, dass GPT‑5 tief in Codebasen eindringen kann, um Fragen zur Funktionsweise oder Interoperabilität verschiedener Teile zu beantworten. Ein weiteres Ergebnis war, dass GPT‑5 uns in einer so komplexen Codebasis wie dem Reinforcement-Learning-Stack von OpenAI dabei hilft, Fragen zu unserem Code zu verstehen und zu beantworten. Das beschleunigt unsere tägliche Arbeit. 

Frontend-Engineering

Beim Erstellen von Frontend-Code für Web-Anwendungen ist GPT‑5 ästhetischer, anspruchsvoller und präziser. Im direkten Vergleich mit o3 haben unsere Tester GPT‑5 in 70 % der Fälle den Vorzug gegeben.

Wir haben ein paar spannende Beispiele ausgewählt, die zeigen, was GPT‑5 mit einem einzigen Prompt alles kann:

Prompt: Erstelle eine coole, realistische Landingpage für einen Service, der Kaffeefans ein Abonnement für 200 $ im Monat anbietet, inklusive Ausrüstung zum Ausleihen und Tipps zum Kaffeerösten und zur Zubereitung des perfekten Espressos. Die Zielgruppe sind Menschen mittleren Alters aus der Bay Area, die möglicherweise im Tech-Bereich arbeiten, gut ausgebildet sind, über ein gewisses Einkommen verfügen und sich für die Kunst und Wissenschaft des Kaffees begeistern. Optimiere für eine Konversion mit 6-monatigem Abonnement.

Weitere Beispiele von GPT‑5 findest du in unserer Galerie hier(wird in einem neuen Fenster geöffnet).

Zusammenarbeit beim Programmieren

GPT‑5 ist besser bei der Zusammenarbeit, insbesondere bei agentischen Coding-Produkten wie Cursor, Windsurf, GitHub Copilot und Codex CLI. Während es arbeitet, kann GPT‑5 Pläne, Updates und Übersichten zwischen Tool-Aufrufen ausgeben. Gegenüber unseren früheren Modellen erledigt GPT‑5 anspruchsvolle Aufgaben proaktiver, ohne auf deine Freigabe zu warten oder bei hoher Komplexität ins Stocken zu geraten.

Hier ist ein Beispiel dafür, wie GPT‑5 beim Bearbeiten einer komplexen Aufgabe aussehen kann (in diesem Fall die Erstellung einer Website für ein Restaurant):

Nachdem der Benutzer eine Website für sein Restaurant angefordert hat, erstellt GPT‑5 einen groben Plan, bereitet das Gerüst der App vor, installiert Abhängigkeiten, erstellt den Inhalt der Website, führt einen Build durch, um Kompilierungsfehler zu überprüfen, fasst seine Arbeit zusammen und schlägt mögliche nächste Schritte vor. Dieses Video wurde um das Dreifache beschleunigt, damit du nicht so lange warten musst. Die gesamte Erstellung der Website hat etwa drei Minuten gedauert.

Agentische Aufgaben

Neben der Agent-Codierung ist GPT‑5 bei agentischen Aufgaben im Allgemeinen besser. GPT‑5 erreicht neue Höchstwerte bei den Benchmarks für die Anweisungsbefolgung (69,6 % bei Scale MultiChallenge, bewertet durch o3‑mini) und Tool-Aufrufe (96,7 % beim τ2-Benchmark Telecom). Verbesserte Tool-Intelligenz sorgt dafür, dass GPT‑5 Aktionen zuverlässiger miteinander verketten kann, um Aufgaben aus der Praxis zu erledigen.

Erstes Feedback zu GPT‑5 für agentenbezogene Aufgaben

„GPT-5 ist ein großer Schritt nach vorn. Die Leistung, die es in unseren internen Benchmarks erzielte, war besser als jedes andere Modell, das wir gesehen haben. GPT-5 erzielte bei verschiedenen Agentenaufgaben Top-Ergebnisse – noch bevor wir eine einzige Codezeile optimiert oder einen Prompt angepasst haben.“ Die neuen Präambeln und die präzisere Kontrolle über den Tool-Einsatz ermöglichten uns bedeutende Fortschritte bei der Stabilität und Steuerbarkeit unserer Agenten.“
Yichao „Peak“ Ji, Mitbegründer und Chefwissenschaftler von Manus

Befolgt Anweisungen

GPT‑5 ist beim Befolgen von Anweisungen verlässlicher als alle seine Vorgänger und erzielt hohe Werte bei COLLIE, Scale MultiChallenge und unserer internen Evaluierung zur Befolgung von Anweisungen.

In COLLIE(wird in einem neuen Fenster geöffnet) müssen Modelle Text schreiben, der verschiedene Einschränkungen einhält. Bei Scale MultiChallenge(wird in einem neuen Fenster geöffnet) werden Modelle in mehrstufigen Gesprächen herausgefordert, vier Arten von Informationen aus früheren Nachrichten korrekt zu verwenden. Unsere Werte basieren auf der Verwendung von o3‑mini als Bewerter, da dieser genauer war als GPT‑4o. In internen Bewertung der Befolgung von Anweisungen der OpenAI API müssen Modelle schwierige Anweisungen aus echtem Entwickler-Feedback befolgen. Die Reasoning-Modelle wurden mit hohem Reasoning-Aufwand ausgeführt.

Tool-Aufrufe

Wir haben uns große Mühe gegeben, die Tool-Aufrufe in den für Entwickler wichtigen Bereichen zu verbessern. GPT‑5 kann Tool-Anweisungen präziser befolgen, besser mit Tool-Fehlern umgehen und viele Tool-Aufrufe proaktiv nacheinander oder parallel durchführen. Außerdem kann GPT‑5 auf Anweisung vor und zwischen Tool-Aufrufen Einleitungsnachrichten ausgeben, um Benutzer bei längeren Agent-Aufgaben über den Fortschritt zu informieren.

Vor zwei Monaten wurde der τ2-Benchmark Telecom von Sierra.ai als anspruchsvoller Benchmark für die Tool-Nutzung veröffentlicht. Er zeigte, wie die Leistung von Sprachmodellen bei der Interaktion mit einem Umgebungszustand, der von Benutzern geändert werden kann, deutlich abnimmt. Im veröffentlichten Bericht(wird in einem neuen Fenster geöffnet) konnte kein Modell eine Punktzahl von über 49 % erreichen. GPT‑5 erreicht 97 %.

Im τ2-Benchmark(wird in einem neuen Fenster geöffnet) muss ein Modell Tools einsetzen, um eine Kundendienstaufgabe zu erfüllen, die möglicherweise einen Benutzer umfasst, der kommunizieren und Aktionen ausführen kann. Die Reasoning-Modelle wurden mit hohem Reasoning-Aufwand ausgeführt.

Sogar bei langen Kontexten zeigt GPT‑5 deutlich verbesserte Leistungen. Bei OpenAI-MRCR, einem Maß für den Informationsabruf bei längerem Kontext, übertrifft GPT‑5 o3 und GPT‑4.1 um eine Differenz, die bei längeren Eingabelängen noch deutlich zunimmt.

Bei OpenAI-MRCR(wird in einem neuen Fenster geöffnet) (Multi-Round Co-Reference Resolution) werden mehrere identische „Nadel”-Anfragen von Benutzern in lange „Heuhaufen” ähnlicher Anfragen und Antworten eingefügt, und das Modell soll die Antwort auf die i-te Nadel reproduzieren. Der mittlere Übereinstimmungsgrad misst, wie oft die Antwort des Modells mit der richtigen Antwort übereinstimmt. Die Punkte bei maximal 256.000 Eingabetoken sind Durchschnittswerte über 128.000 bis 256.000 Eingabetoken und so weiter. Hier steht 256k für 256 * 1.024 = 262.114 Token. Die Reasoning-Modelle wurden mit hohem Reasoning-Aufwand ausgeführt.

Außerdem stellen wir BrowseComp Long Context(wird in einem neuen Fenster geöffnet), einen neuen Benchmark zur Bewertung von Q&A mit langem Kontext, als Open Source zur Verfügung. In diesem Test wird dem Modell eine Nutzerfrage – eine lange Liste mit passenden Suchergebnissen – vorgelegt, woraufhin es die Frage anhand der Suchergebnisse beantworten muss. Wir haben BrowseComp Long Context so konzipiert, dass es realistisch und anspruchsvoll ist und zuverlässig korrekte Antworten liefert. Bei Eingaben mit 128.000 bis 256.000 Token liefert GPT‑5 in 89 % der Fälle die richtige Antwort.

In der API können alle GPT‑5‑Modelle maximal 272.000 Eingabetoken annehmen und maximal 128.000 Argumentations- und Ausgabetoken ausgeben, was einer Gesamtkontextlänge von 400.000 Token entspricht.

Faktizität

GPT‑5 ist im Vergleich zu unseren früheren Modellen vertrauenswürdiger. Bei Prompts von LongFact- und FactScore-Evaluierungen unterlaufen GPT‑5 etwa 80 % weniger sachliche Fehler als o3. Dadurch ist es besser für agentische Anwendungsfälle geeignet, bei denen Genauigkeit zählt – insbesondere in den Bereichen Code, Daten und Entscheidungsfindung.

Höhere Werte sind schlechter. LongFact(wird in einem neuen Fenster geöffnet) und FActScore(wird in einem neuen Fenster geöffnet) bestehen aus offenen, faktenorientierten Fragen. Wir nutzen einen LLM-basierten Bewerter mit Browsing, um die Antworten auf Fragen aus diesen Benchmarks auf ihre Richtigkeit zu überprüfen und den Anteil der sachlich falschen Aussagen zu messen. Details zur Umsetzung und Bewertung findest du in der Systemkarte. Reasoning-Modelle verwendeten einen hohen Reasoning-Aufwand. Die Suche war nicht aktiviert.

Im Allgemeinen wurde GPT‑5 darauf trainiert, sich seiner eigenen Einschränkungen stärker bewusst zu sein und mit unerwarteten Herausforderungen besser umgehen zu können. Auch bei Fragen zum Thema Gesundheit haben wir GPT‑5 auf mehr Präzision trainiert (mehr dazu findest du in unserem Research-Blog). Bei sehr wichtigen Themen solltest du die Arbeit von GPT‑5, wie bei allen Sprachmodellen, verifizieren.

Neue Funktionen

Minimaler Reasoning-Aufwand

Entwickler können die Denkzeit von GPT‑5 über den Parameter Reasoning_Aufwand in der API steuern. Neben den bisherigen Werten – niedrig, mittel (Standard) und hoch – unterstützt GPT‑5 jetzt auch minimal. Dieser Wert minimiert das verborgene Reasoning von GPT‑5 und antwortet schneller.

Höhere Werte für Reasoning_Aufwand bedeuten mehr Qualität, niedrigere Werte sorgen für mehr Geschwindigkeit. Nicht alle Aufgaben profitieren gleichermaßen von zusätzlichem Reasoning. Du solltest selbst ermitteln, welches für deine Anwendungsfälle am besten funktioniert.

Zum Beispiel bringt das Reasoning über niedrig bei relativ einfachen Abfragen mit langem Kontext nicht viel, aber bei CharXiv Reasoning(wird in einem neuen Fenster geöffnet), einem Benchmark für visuelles Schlussfolgern, verbessert es die Leistung um ein paar Prozentpunkte.

Der Reasoning-Aufwand von GPT‑5 bringt bei verschiedenen Aufgaben unterschiedliche Vorteile. Für CharXiv Reasoning hat GPT‑5 Zugriff auf ein Python-Tool bekommen.

Ausführlichkeit

Um die Standardlänge der Antworten von GPT‑5 zu steuern, haben wir den neuen API-Parameter „Ausführlichkeit“ eingeführt, der die Werte „niedrig“, „mittel“ (Standard) und „hoch“ annehmen kann. Wenn explizite Anweisungen im Widerspruch zu den Ausführlichkeitsparametern stehen, haben explizite Anweisungen Vorrang. Lautet die Aufforderung an GPT‑5 zum Beispiel: „Schreibe einen Aufsatz mit 5 Absätzen“, sollte das Ergebnis des Modells unabhängig von der Ausführlichkeitsstufe immer 5 Absätze enthalten (die Absätze selbst können jedoch länger oder kürzer ausfallen).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Präambelnachrichten vor dem Aufruf von Tools

Auf Anweisung gibt GPT‑5 vor und zwischen Tool-Aufrufen für den Benutzer sichtbare Präambelnachrichten aus. Mit diesen sichtbaren Nachrichten kann GPT‑5 im Gegensatz zu versteckten Reasoning-Nachrichten Pläne und Fortschritte an den Benutzer kommunizieren, sodass Endbenutzer den Ansatz und die Absicht hinter den Tool-Aufrufen besser verstehen können.

Angepasste Tools

Wir führen einen neuen Tool-Typ ein – benutzerdefinierte Tools –, mit dem GPT‑5 ein Tool mit Klartext anstelle von JSON aufrufen kann. Damit GPT‑5 bestimmte Tool-Formate einhält, können Entwickler einen regulären Ausdruck oder sogar eine genauer definierte kontextfreie Grammatik(wird in einem neuen Fenster geöffnet) angeben.

Bislang erforderte unsere Schnittstelle für vom Entwickler definierte Tools einen Aufruf per JSON, einem gängigen Format, das von Web-APIs und allgemein von Entwicklern verwendet wird. Die Ausgabe von gültigem JSON erfordert jedoch, dass das Modell sämtlichen Anführungszeichen, umgekehrten Schrägstrichen, Zeilenumbrüchen und anderen Steuerzeichen perfekt ausweicht. Obwohl unsere Modelle gut auf JSON-Output trainiert sind, wächst bei langen Eingaben wie Hunderten Zeilen Code oder einem fünfseitigen Bericht das Fehlerpotenzial. Mit benutzerdefinierten Tools kann GPT‑5 Tool-Eingaben als Klartext schreiben, ohne dass alle Zeichen, die eine Escape-Sequenz brauchen, extra umgeschrieben werden müssen.

Auf SWE-Bench, getestet mit eigenen Tools statt JSON-Tools, schneidet GPT‑5 ungefähr gleich ab.

Sicherheit

GPT‑5 setzt neue Maßstäbe in Sachen Sicherheit und ist ein robusteres, zuverlässigeres und hilfreicheres Modell. GPT‑5 neigt deutlich weniger zu Halluzinationen als unsere früheren Modelle, kommuniziert seine Aktionen und Fähigkeiten ehrlicher gegenüber dem Benutzer und liefert nach Möglichkeit die hilfreichsten Antworten, ohne dabei die Sicherheitsgrenzen zu überschreiten Mehr dazu findest du in unserem Research-Blog.

Verfügbarkeit und Preisgestaltung

GPT‑5 ist ab sofort in drei Größen in der API-Plattform verfügbar: gpt-5, gpt-5-mini und gpt-5-nano. Es ist über die Responses-API und die Chat Completions-API nutzbar und in Codex CLI standardmäßig aktiviert. Der Preis für GPT‑5 liegt bei 1,25 USD/1 Mio. Eingabe-Token und 10 USD/1 Mio. Output-Token, der Preis für GPT‑5 mini liegt bei 0,25 USD/1 Mio. Eingabe-Token und 2 USD/1 Mio. Output-Token und der Preis für GPT‑5 nano liegt bei 0,05 USD/1 Mio. Eingabe-Token und 0,40 USD/1 Mio. Output-Token.

Diese Modelle unterstützen die API-Parameter Reasoning_Aufwand und Ausführlichkeit sowie benutzerdefinierte Tools. Außerdem unterstützen sie den parallelen Aufruf von Tools, integrierte Tools (Websuche, Dateisuche, Bilderstellung und mehr), zentrale API-Funktionen (Streaming, strukturierte Ausgaben und mehr) sowie kostensparende Funktionen wie Prompt-Caching und Batch-API.

Die nicht-schlussfolgernde Version von GPT‑5, die in ChatGPT verwendet wird, ist in der API als gpt-5-chat-latest verfügbar und kostet ebenfalls 1,25 USD/1 Mio. Eingabe-Token und 10 USD/1 Mio. Output-Token.

GPT‑5 wird zudem auf allen Microsoft-Plattformen eingeführt, darunter Microsoft 365 Copilot, Copilot, GitHub Copilot und Azure AI Foundry.

Detaillierte Benchmarks

Intelligence
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Es besteht eine geringfügige Abweichung von den in unserem vorangegangenen Blog-Beitrag berichteten Zahlen, da diese auf einer früheren Version von HLE ausgeführt wurden.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programmieren
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112.338 $75.156 $49.000 $86.100 $65.792 $34.000 $31.000 $9000 $
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Wir haben 23/500 Probleme ausgelassen, die auf unserer Infrastruktur nicht ausgeführt werden konnten. Die vollständige Liste der ausgelassenen Aufgaben: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.

Befolgt Anweisungen
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Hinweis: Wir stellen fest, dass der Standard-Bewerter in MultiChallenge (GPT-4o) Modellantworten häufig falsch bewertet. Wir stellen fest, dass der Austausch des Bewerters gegen ein schlussfolgerndes Modell wie o3-mini die Bewertungsgenauigkeit bei den von uns geprüften Beispielen deutlich verbessert.

Funktionsaufruf
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Langer Kontext
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Halluzinationen
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI