Entdecke GPT‑5.4 mini und nano
Schnelle und effiziente Modelle, die für Coding und Subagenten optimiert sind
Heute veröffentlichen wir GPT‑5.4 mini und nano, unsere bislang leistungsfähigsten kleinen Modelle. Sie bringen viele der Stärken von GPT‑5.4 in schnellere, effizientere Modelle ein, die für Workloads mit hohem Volumen konzipiert sind.
GPT‑5.4 mini verbessert sich gegenüber GPT‑5 mini deutlich in den Bereichen Coding, Reasoning, multimodales Verständnis und Tool-Nutzung – und läuft dabei mehr als doppelt so schnell. Es erreicht zudem bei mehreren Evaluierungen, darunter SWE-Bench Pro und OSWorld-Verified, eine Leistung, die nahezu an das größere GPT‑5.4‑Modell heranreicht.
GPT‑5.4 nano ist die kleinste, kostengünstigste Version von GPT‑5.4 für Aufgaben, bei denen Geschwindigkeit und Kosten am wichtigsten sind. Es ist außerdem ein erhebliches Upgrade gegenüber GPT‑5 nano. Wir empfehlen es für Klassifizierung, Datenextraktion, Ranking und Coding-Subagenten, die einfachere unterstützende Aufgaben übernehmen.
Diese Modelle sind für die Arten von Workloads entwickelt, bei denen Latenz das Produkterlebnis direkt prägt: Coding-Assistenten, die sich reaktionsschnell anfühlen müssen, Subagenten, die unterstützende Aufgaben schnell erledigen, computernutzende Systeme, die Screenshots erfassen und interpretieren, und multimodale Anwendungen, die in Echtzeit über Bilder schlussfolgern können. In diesen Szenarien ist das beste Modell oft nicht das größte – es ist dasjenige, das schnell reagieren, Tools zuverlässig nutzen und dennoch bei komplexen professionellen Aufgaben gute Leistungen erbringen kann.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Der höchste für GPT‑5 mini verfügbare reasoning_effort ist 'high'.
Das sagen unsere Kunden, nachdem sie GPT‑5.4 mini und nano in ihren Workflows getestet haben:
„GPT-5.4 mini liefert eine starke End-to-End-Leistung für ein Modell in dieser Klasse. In unseren Evaluierungen entsprach oder übertraf es Konkurrenzmodelle bei mehreren Output-Aufgaben und beim Citation Recall zu deutlich geringeren Kosten. Es erzielte außerdem höhere End-to-End-Erfolgsquoten und eine stärkere Quellenzuordnung als das größere GPT-5.4-Modell.“
GPT‑5.4 mini und nano sind besonders effektiv in Coding-Workflows, die von schnellen Iterationen profitieren. Die Modelle unterstützen gezielte Bearbeitungen, Navigation in der Codebase, Frontend-Generierung und Debugging-Schleifen mit niedriger Latenz und eignen sich daher hervorragend für Programmieraufgaben, die schneller und kostengünstiger erledigt werden müssen.
In Benchmarks übertrifft GPT‑5.4 mini bei ähnlichen Latenzzeiten durchweg GPT‑5‑mini und erreicht fast die Erfolgsquote von GPT‑5.4, läuft dabei jedoch deutlich schneller und bietet damit eines der besten Verhältnisse zwischen Leistung und Latenz für Coding-Workflows.
Wir schätzen die Latenz, indem wir das Produktionsverhalten unserer Modelle betrachten und dies offline simulieren. Die Latenzschätzung berücksichtigt die Dauer von Tool-Aufrufen (Codeausführungszeit), gesamplete Tokens und Eingabe-Tokens. Die Latenz in der realen Welt kann erheblich variieren und hängt von vielen Faktoren ab, die in unserer Simulation nicht erfasst werden. Ebenso werden die Kosten auf Grundlage der API-Preisgestaltung dieser Modelle zum Zeitpunkt der Verfassung dieses Artikels geschätzt. Die Kosten können sich in Zukunft ändern. Es wurden alle Reasoning-Aufwandseinstellungen von „low“ bis „xhigh“ durchlaufen.
GPT‑5.4 mini eignet sich auch sehr gut für Systeme, die Modelle unterschiedlicher Größe kombinieren. In Codex kann beispielsweise ein größeres Modell wie GPT‑5.4 die Planung, Koordination und finale Beurteilung übernehmen und dabei an GPT‑5.4‑mini‑Subagenten delegieren, die engere Teilaufgaben parallel bearbeiten – etwa das Durchsuchen einer Codebasis, das Überprüfen einer großen Datei oder das Verarbeiten von Begleitdokumenten. Wie Subagenten in Codex funktionieren, erfährst du in der Dokumentation(wird in einem neuen Fenster geöffnet).
Dieses Muster wird nützlicher, je schneller und leistungsfähiger kleinere Modelle werden. Anstatt ein einziges Modell für alles zu verwenden, können Entwickler:innen Systeme zusammenstellen, in denen größere Modelle entscheiden, was zu tun ist, und kleinere Modelle es schnell im großen Maßstab ausführen. GPT‑5.4 mini ist unser bisher stärkstes mini-Modell für diese Art von Workflow.
GPT‑5.4 mini zeigt auch bei multimodalen Aufgaben eine starke Leistung, insbesondere bei solchen, die mit Computernutzung zusammenhängen. Das Modell kann Screenshots von dichten Benutzeroberflächen schnell interpretieren, um Aufgaben zur Computernutzung zügig zu erledigen. Bei OSWorld-Verified nähert sich GPT‑5.4 mini der Leistung von GPT‑5.4 an, während es GPT‑5 mini deutlich übertrifft.
GPT‑5.4 mini ist ab heute in der API, Codex und ChatGPT verfügbar.
In der API unterstützt GPT‑5.4 mini Text- und Bildeingaben, Tool-Nutzung, Funktionsaufrufe, Websuche, Dateisuche, Computernutzung und Fähigkeiten. Es hat ein Kontextfenster von 400.000 Tokens und kostet 0,75 USD pro 1 Mio. Eingabe-Tokens und 4,50 USD pro 1 Mio. Ausgabe-Tokens.
In Codex ist GPT‑5.4 mini in der Codex App, CLI, IDE-Erweiterung und im Web verfügbar. Es nutzt nur 30 % des GPT‑5.4‑ Kontingents, sodass Entwickler:innen einfachere Programmieraufgaben in Codex schnell und zu etwa einem Drittel der Kosten erledigen können. Codex kann auch an GPT‑5.4‑mini‑Subagenten delegieren, sodass weniger Reasoning-intensive Aufgaben auf dem kostengünstigeren Modell ausgeführt werden.
In ChatGPT ist GPT‑5.4 mini für Free- und Go-Nutzer:innen über die Funktion „Thinking“ im „+“-Menü verfügbar. Für alle anderen Nutzer:innen ist GPT‑5.4 mini als Ratenlimit-Fallback für GPT‑5.4 Thinking verfügbar.
GPT‑5.4 nano ist nur in der API verfügbar und kostet 0,20 USD pro 1 Mio. Eingabe-Tokens und 1,25 USD pro 1 Mio. Ausgabe-Tokens.
Weitere Informationen zu den Sicherheitsvorkehrungen der Modelle findest du im Nachtrag zur Systemkarte in unserem Deployment Safety Hub(wird in einem neuen Fenster geöffnet).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Der höchste für GPT‑5 mini verfügbare reasoning_effort ist 'high'.
Gesamt-Editierdistanz: 2. OmniDocBench wurde mit auf „none“ gesetztem reasoning_effort ausgeführt, um eine kostengünstige Leistung mit niedriger Latenz widerzuspiegeln.


