Zum Hauptinhalt springen
OpenAI

13. November 2025

Produkt

Neu: GPT‑5.1 für Entwickler:innen

Laden …

Heute veröffentlichen wir GPT‑5.1 auf der API-Plattform, das nächste Modell der GPT‑5‑Serie, das Intelligenz und Geschwindigkeit für eine Vielzahl von agentischen und Programmieraufgaben in Einklang bringt. GPT‑5.1 passt die Zeit, die es mit Nachdenken verbringt, dynamisch an die Komplexität der Aufgabe an, wodurch das Modell bei einfacheren Alltagsaufgaben deutlich schneller und Token-effizienter wird. Das Modell verfügt auch über einen „Kein Nachdenken“-Modus, um bei Aufgaben schneller zu antworten, die kein tiefes Denken erfordern, während es die Frontier-Intelligenz von GPT‑5.1 beibehält.

Um GPT‑5.1 noch effizienter zu machen, führen wir ein erweitertes Prompt-Caching (Prompt-Zwischenspeicherung) mit einer Cache-Aufbewahrung von bis zu 24 Stunden ein, was schnellere Antworten auf Folgefragen zu geringeren Kosten ermöglicht. Unsere Kunden mit vorrangiger Bearbeitung(wird in einem neuen Fenster geöffnet) werden zudem eine spürbar schnellere Leistung mit GPT‑5.1 im Vergleich zu GPT‑5 verzeichnen.

Für das Programmieren haben wir eng mit Startups wie Cursor, Cognition, Augment Code, Factory und Warp zusammengearbeitet, um die Programmierpersönlichkeit, Steuerbarkeit und Codequalität von GPT‑5.1 zu verbessern. Im Allgemeinen fühlt sich GPT‑5.1 beim Programmieren intuitiver an und kommuniziert besser mit dem Benutzer, da es dem Benutzer beim Ausführen von Aufgaben Updates gibt.

Schließlich führen wir mit GPT‑5.1 zwei neue Tools ein: ein apply_patch-Tool, das entwickelt wurde, um Code zuverlässiger zu bearbeiten, und ein shell-Tool, mit dem das Modell Shell-Befehle ausführen kann.

GPT‑5.1 ist die nächste Weiterentwicklung der GPT‑5‑Serie, und wir planen, weiterhin in intelligentere und leistungsfähigere Modelle zu investieren, um Entwickler:innen beim Aufbau zuverlässiger agentischer Workflows zu unterstützen.

Effizientes Reasoning bei verschiedenen Aufgaben

Adaptives Reasoning

Um GPT‑5.1 schneller zu machen, haben wir die Denkweise, auf die wir es trainieren, grundlegend überarbeitet. Bei einfachen Aufgaben verbraucht GPT‑5.1 weniger Tokens für das Denken, was zu schnelleren Produkterfahrungen und niedrigeren Token-Kosten führt. Bei schwierigen Aufgaben, die zusätzliches Nachdenken erfordern, bleibt GPT‑5.1 beharrlich, erkundet Optionen und überprüft seine Arbeit, um die Zuverlässigkeit zu maximieren.

Balyasny Asset Management(wird in einem neuen Fenster geöffnet) gab an, dass GPT‑5.1 „sowohl GPT‑4.1 als auch GPT‑5 in unserer vollständigen dynamischen Evaluierungssuite übertroffen hat und dabei 2–3 Mal schneller als GPT‑5 lief.“ Das Unternehmen erklärte außerdem, dass GPT‑5.1 bei seinen Tool-lastigen Reasoning-Aufgaben „durchweg etwa halb so viele Tokens wie führende Konkurrenten bei ähnlicher oder besserer Qualität verwendet hat“. In ähnlicher Weise hat auch das KI-Versicherungs-BPO-Unternehmen Pace(wird in einem neuen Fenster geöffnet) das Modell getestet und festgestellt, dass seine Agenten „mit GPT‑5.1 um 50 % schneller arbeiten und dabei die Genauigkeit von GPT‑5 und anderen führenden Modellen in unseren Evals übertreffen”.

GPT‑5.1 variiert seine Denkzeit dynamischer als GPT‑5. Bei einer repräsentativen Verteilung von ChatGPT‑Aufgaben ist GPT‑5.1 bei den einfacheren Aufgaben deutlich schneller, selbst bei hohem Reasoning-Aufwand.

Wenn GPT‑5.1 beispielsweise gebeten wird: „Zeig einen npm-Befehl zum Auflisten global installierter Pakete an“, antwortet es in 2 Sekunden statt in 10 Sekunden.

GPT-5 (Medium) benötigt ~250 Tokens (~10 Sekunden)

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (Medium) benötigt ~50 Tokens (~2 Sekunden)

show an npm command to list globally installed packages

You can list globally installed npm packages with:

  • Just package names: npm ls -g --depth=0
  • Including their install paths: npm ls -g

The first one is usually what you want.

Neuer „Kein Nachdenken“-Modus

Entwickler können GPT‑5.1 jetzt ohne Reasoning (Nachdenken bzw. Schlussfolgern) verwenden, indem sie reasoning_effort auf 'none' setzen. Dadurch verhält sich das Modell wie ein nicht-schlussfolgerndes Modell für latenzkritische Anwendungsfälle, mit der hohen Intelligenz von GPT‑5.1 und dem zusätzlichen Vorteil von leistungsstarken Tool-Aufrufen. Im Vergleich zu GPT‑5 mit „minimalem“ Reasoning ist GPT‑5.1 ohne Reasoning besser im parallelen Aufrufen von Tools (was wiederum die End-to-End-Aufgabenerledigung beschleunigt), bei Programmieraufgaben, beim Befolgen von Anweisungen und bei der Nutzung von Suchwerkzeugen – und unterstützt die Websuche(wird in einem neuen Fenster geöffnet) auf unserer API-Plattform. Sierra(wird in einem neuen Fenster geöffnet) teilte mit, dass GPT‑5.1 im „Kein Nachdenken“-Modus in den Praxis-Evaluationen des Unternehmens eine „20%ige Verbesserung der Leistung beim Tool-Aufruf mit niedriger Latenz im Vergleich zu GPT‑5 mit minimalem Reasoning“ aufwies.

Mit der Einführung von 'none' als Wert in reasoning_effort haben Entwickler jetzt noch mehr Flexibilität und Kontrolle über das Gleichgewicht zwischen Geschwindigkeit, Kosten und Intelligenz für ihren Anwendungsfall. Die Standardeinstellung bei GPT‑5.1 ist 'none', was ideal für latenzempfindliche Workloads ist. Wir empfehlen Entwickler:innen, 'low' oder 'medium' für Aufgaben mit höherer Komplexität zu wählen und 'high', wenn Intelligenz und Zuverlässigkeit wichtiger sind als Geschwindigkeit.

Erweitertes Prompt-Caching

Erweitertes Caching verbessert die Reasoning-Effizienz, indem es ermöglicht, dass Prompts bis zu 24 Stunden im Cache aktiv bleiben, anstatt nur wenige Minuten wie bisher. Mit einem längeren Aufbewahrungszeitraum können mehr Folgeanfragen zwischengespeicherten Kontext nutzen, was zu geringerer Latenz, reduzierten Kosten und einer reibungsloseren Leistung bei lang andauernden Interaktionen wie mehrstufigen Chats, Programmiersitzungen oder Wissensabruf-Workflows führt.

Die Preisgestaltung für den Prompt-Cache bleibt unverändert, wobei zwischengespeicherte Eingabe-Tokens 90 % günstiger sind als nicht zwischengespeicherte Tokens und keine zusätzlichen Gebühren für Cache-Schreibvorgänge oder Speicher anfallen. Um das erweiterte Caching mit GPT‑5.1 zu verwenden, füge den Parameter "prompt_cache_retention='24h'" in der Responses- oder Chat Completions API hinzu. Weitere Details findest du in der Dokumentation zum Prompt-Caching(wird in einem neuen Fenster geöffnet).

Programmierung

.GPT‑5.1 baut auf den Programmierfähigkeiten von GPT‑5 auf und bietet eine besser steuerbare Programmierpersönlichkeit, weniger übermäßiges Nachdenken, verbesserte Codequalität, bessere benutzergerichtete Update-Nachrichten (Präambeln) bei Sequenzen von Tool-Aufrufen und funktionalere Frontend-Designs – insbesondere bei niedrigem Reasoning-Aufwand

Bei einfacheren Programmieraufgaben, etwa schnellen Code-Änderungen, ermöglichen die höheren Geschwindigkeiten von GPT‑5.1 ein leichteres Hin- und Her-Iterieren. Die höheren Geschwindigkeiten von GPT‑5.1 bei einfachen Aufgaben beeinträchtigen nicht die Leistung bei schwierigen Aufgaben. Bei SWE-bench Verified arbeitet GPT‑5.1 noch länger als GPT‑5 und erreicht 76,3 %.

In SWE-bench Verified⁠ erhält ein Modell ein Code-Repository und eine Problembeschreibung und muss einen Patch generieren, um das Problem zu lösen. Labels geben den Reasoning-Aufwand an. Die Genauigkeit wird über alle 500 Probleme gemittelt. Alle Modelle verwendeten eine Umgebung mit einem JSON-basierten apply_patch-Tool.

Wir haben frühzeitiges Feedback zu GPT‑5.1 von einer Handvoll Programmierunternehmen erhalten. Hier sind ihre Eindrücke:

„GPT 5.1 ist nicht einfach nur ein weiteres LLM – es ist wirklich agentisch, das natürlichste autonome Modell, das ich je getestet habe.“ Es schreibt wie du, programmiert wie du, befolgt mühelos komplexe Anweisungen und glänzt bei Frontend-Aufgaben, die sich nahtlos in deine bestehende Codebase einfügen. Du kannst sein volles Potenzial wirklich in der Responses API ausschöpfen, und wir freuen uns, es in unserer IDE anbieten zu können."
– Denis Shiryaev, Head of AI DevTools Ecosystem, JetBrains

Neue Tools in GPT‑5.1

Wir führen mit GPT‑5.1 zwei neue Tools ein, um Entwicklern zu helfen, das Modell in der Responses API optimal zu nutzen: ein freies apply_patch-Tool, das Code-Änderungen noch zuverlässiger macht, ohne dass JSON-Escaping erforderlich ist, und ein shell-Tool, das es dem Modell ermöglicht, Befehle zu schreiben, die auf deinem lokalen Rechner ausgeführt werden.

Apply_patch-Tool

Das Freiform-Tool apply_patch ermöglicht es GPT‑5.1, Dateien in einer Codebase mithilfe von strukturierten Diffs zu erstellen, zu aktualisieren und zu löschen. Anstatt nur Änderungen vorzuschlagen, gibt das Modell Patch-Operationen aus, die eine Anwendung anwendet und über die sie Bericht erstattet, wodurch iterative, mehrstufige Workflows zur Code-Bearbeitung ermöglicht werden.

Um das apply_patch-Tool in der Responses API zu verwenden, füge es mit "tools": [{“type”: “apply_patch”}] in das Tools-Array ein und füge entweder den Dateiinhalt in deine Eingabe ein oder gib dem Modell Tools für die Interaktion mit deinem Dateisystem. Das Modell generiert apply_patch_call-Elemente zum Erstellen, Aktualisieren oder Löschen von Dateien, die Diffs enthalten, die du auf deinem Dateisystem anwendest. Für weitere Informationen zur Integration mit dem apply_patch-Tool, sieh dir unsere Entwicklerdokumentation(wird in einem neuen Fenster geöffnet) an.

Shell-Tool

Das shell-Tool ermöglicht es dem Modell, über eine kontrollierte Befehlszeilenschnittstelle mit einem lokalen Computer zu interagieren. Das Modell schlägt Shell-Befehle vor; die Integration eines/einer Entwickler:in führt sie aus und gibt die Outputs zurück. Dies erstellt eine einfache Plan-Execute-Schleife, die es Modellen ermöglicht, das System zu inspizieren, Dienstprogramme auszuführen und Daten zu sammeln, bis sie die Aufgabe abschließen können.

Um das shell-Tool in der Responses API zu verwenden, können Entwickler es mit "tools": [{„type“: „shell“}] in das Tools-Array aufnehmen. Die API generiert daraufhin "shell_call"-Elemente, die die auszuführenden Shell-Befehle enthalten. Entwickler führen die Befehle in der lokalen Umgebung aus und übermitteln die Ausführungsergebnisse im Element "shell_call_output" in der nächsten API-Anfrage zurück. Mehr erfahren in unserer Entwicklerdokumentation(wird in einem neuen Fenster geöffnet).

Preisgestaltung und Verfügbarkeit

GPT‑5.1 und gpt-5.1-chat-latest sind für Entwickler:innen auf allen kostenpflichtigen Plänen in der API verfügbar. Preisgestaltung und Ratenlimits(wird in einem neuen Fenster geöffnet) sind dieselben wie bei GPT‑5. Wir veröffentlichen außerdem gpt-5.1-codex und gpt-5.1-codex-mini in der API. Während GPT‑5.1 bei den meisten Programmieraufgaben hervorragende Leistungen erbringt, sind gpt-5.1-codex- Modelle für lang andauernde, agentische Programmieraufgaben in Codex oder Codex-ähnlichen Umgebungen optimiert.

Entwickler:innen können unsere GPT‑5.1‑Entwicklerdokumentation(wird in einem neuen Fenster geöffnet) und den Modell-Prompt-Leitfaden(wird in einem neuen Fenster geöffnet) nutzen, um mit der Entwicklung zu beginnen. Eine Einstellung von GPT‑5 in der API ist derzeit nicht geplant, und wir werden Entwickler:innen im Voraus informieren, falls und wenn wir uns dazu entschließen sollten.

Wie geht‘s weiter?

Wir sind bestrebt, iterativ die leistungsfähigsten und zuverlässigsten Modelle für echte agentische und Programmierarbeiten bereitzustellen – Modelle, die effizient denken, schnell iterieren und komplexe Aufgaben bewältigen, während sie die Entwickler im Arbeitsfluss halten. Mit adaptivem Reasoning, verbesserter Programmierleistung, klareren benutzerorientierten Updates und neuen Tools wie apply_patch und shell ist GPT‑5.1 darauf ausgelegt, dir das Entwickeln mit weniger Reibungsverlusten zu ermöglichen. Und wir investieren weiter massiv in diesem Bereich: Du kannst in den kommenden Wochen und Monaten mit leistungsfähigeren agentischen und Programmiermodellen rechnen.

Anhang: Modellevaluationen

Evaluation

GPT‑5.1 (high)

GPT‑5 (high)

SWE-bench Verified
(alle 500 Probleme)

76,3 %

72,8 %

GPQA Diamond
(keine Tools)

88,1 %

85,7 %

AIME 2025
(keine Tools)

94,0 %

94,6 %

FrontierMath
(mit Python-Tool)

26,7 %

26,3 %

MMMU

85,4 %

84,2 %

Tau2-bench Airline

67,0 %

62,6 %

Tau2-bench Telecom*

95,6 %

96,7 %

Tau2-bench Retail

77,9 %

81,1 %

BrowseComp Long Context 128k

90,0 %

90,0 %

* Für Tau2-bench Telecom haben wir GPT‑5.1 einen kurzen, allgemein nützlichen Prompt gegeben, um seine Leistung zu verbessern.