Dzisiaj przekazujemy w Wasze ręce nasze najbardziej zaawansowane małe modele GPT‑5.4 mini i nano. Wprowadzają one wiele użytecznych aspektów GPT‑5.4 do szybszych, bardziej wydajnych modeli zaprojektowanych z myślą o obsłudze dużych obciążeń.
GPT‑5.4 mini znacząco przewyższa GPT‑5 mini w zakresie kodowania, rozumowania, rozumienia różnych rodzajów plików i korzystania z narzędzi, a jednocześnie działa ponad 2x szybciej. W kilku ocenach (np. SWE-Bench Pro i OSWorld-Verified) osiąga też wyniki zbliżone do większego modelu GPT‑5.4.
GPT‑5.4 nano to najmniejsza i najtańsza wersja GPT‑5.4 do zadań, w których najbardziej liczą się szybkość i koszty. Stanowi on również znaczące usprawnienie w porównaniu do GPT‑5 nano. Zalecamy używać go do klasyfikowania, ekstrahowania danych, opracowywania rankingów oraz korzystania z agentów podrzędnych do kodowania, które realizują prostsze zadania wspomagające.
Te modele mini stworzyliśmy z myślą obciążeniach roboczych, w których opóźnienia bezpośrednio kształtują odbiór produktu: asystentach programowania, które muszą reagować responsywnie, agentach podrzędnych, które szybko wykonują zadania wspierające, systemach korzystających z komputera, które przechwytują i interpretują zrzuty ekranu, oraz aplikacjach obsługujących różne typy plików, które potrafią rozumować na podstawie obrazów w czasie rzeczywistym. Przy takich założeniach najlepszym modelem często nie okazuje się ten największy, tylko taki, który potrafi szybko odpowiadać, niezawodnie korzystać z narzędzi i nadal dobrze radzić sobie ze złożonymi, profesjonalnymi zadaniami.
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-Bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
1 Najwyższy dostępny poziom reasoning_effort dla GPT‑5 mini to „high”.
Co nasi klienci sądzą o GPT‑5.4 mini i nano po testach w swoich procesach pracy:
„GPT-5.4 mini zapewnia wysoką, całościową wydajność jak na model w tej klasie. W naszych ocenach dorównywał konkurencyjnym modelom lub przewyższał je w kilku zadaniach wyjściowych oraz w odtwarzaniu cytowań przy znacznie niższym koszcie. Osiągnął również wyższy odsetek całościowych zaliczeń i większą dokładność przypisywania źródeł niż większy model GPT-5.4”.
GPT‑5.4 mini i nano są szczególnie skuteczne w przepływach pracy związanych z programowaniem, gdzie ważna jest szybka iteracja. Modele obsługują ukierunkowane edycje, nawigację po bazie kodu, generowanie front-endu oraz pętle debugowania z małymi opóźnieniami, przez co doskonale nadają się do zadań związanych z kodowaniem, które wymagają szybszej i niższych kosztów.
W benchmarkach GPT‑5.4 mini konsekwentnie przewyższa GPT‑5‑mini przy podobnych opóźnieniach i zbliża się do poziomu GPT‑5.4, a działa znacznie szybciej, zapewniając jeden z najlepszych kompromisów między wydajnością a opóźnieniami w przepływach pracy związanych z kodowaniem.
Opóźnienie szacujemy, analizując zachowanie naszych modeli w środowisku produkcyjnym przy symulacji offline. Szacowanie opóźnienia uwzględnia czas trwania wywołania narzędzia (czas wykonywania kodu), próbkowane tokeny oraz tokeny wejściowe. Rzeczywiste opóźnienie może się znacznie różnić i zależy od wielu czynników, których nie uwzględniono w naszej symulacji. Koszty są szacowane podobnie na podstawie cennika API tych modeli dostępnego w momencie pisania niniejszego tekstu. Koszty mogą ulec zmianie w przyszłości. Wysiłki rozumowania zostały zwiększone z low do xhigh.
GPT‑5.4 mini to również świetny wybór dla systemów, które łączą modele o różnych rozmiarach. Na przykład w Codex większy model, taki jak GPT‑5.4, może wykonywać planowanie, koordynację i ostateczną ocenę, jednocześnie delegując zadania do agentów podrzędnych w GPT‑5.4 mini, które równolegle realizują precyzyjne podzadania, takie jak przeszukiwanie bazy kodu, przeglądanie dużego pliku lub przetwarzanie dokumentów uzupełniających. Z dokumentacji(otwiera nowe okno) dowiesz się, jak działają agenty podrzędne w Codex.
Ten styl działania staje się bardziej przydatny, gdy mniejsze modele stają się szybsze i bardziej zdolne. Zamiast używać jednego modelu do wszystkiego, programiści mogą opracowywać systemy, w których większe modele decydują, co zrobić, a mniejsze modele szybko wykonują zadania na dużą skalę. GPT‑5.4 mini to nasz najpotężniejszy jak dotąd mini model dla tego stylu pracy.
GPT‑5.4 mini sprawdza się również w zadaniach wymagających obsługi różnych plików, szczególnie tych związanych z obsługą komputera. Model może szybko interpretować zrzuty ekranu z gęstymi interfejsami użytkownika, aby sprawnie wykonywać zadania związane z obsługą komputera. W teście OSWorld-Verified GPT‑5.4 mini zbliża się do GPT‑5.4, jednocześnie znacząco przewyższając GPT‑5 mini.
GPT‑5.4 mini jest od dziś dostępny w API, Codex i ChatGPT.
W interfejsie API GPT‑5.4 mini obsługuje tekstowe i obrazowe dane wejściowe, korzystanie z narzędzi, wywołanie funkcji, wyszukiwanie w sieci, wyszukiwanie plików, obsługę komputera i umiejętności. Ma okno kontekstu 400k i kosztuje 0,75 USD za 1 mln tokenów wejściowych oraz 4,50 USD za 1 mln tokenów wyjściowych.
W Codex model GPT‑5.4 mini jest dostępny w aplikacji Codex, interfejsie CLI, rozszerzeniu IDE i w aplikacji internetowej. Wykorzystuje tylko 30% limitu GPT‑5.4, co pozwala programistom szybko obsługiwać prostsze zadania związane z kodowaniem w Codex za około jedną trzecią kosztów. Codex może również delegować zadania do agentów podrzędnych w GPT‑5.4 mini, dzięki czemu mniej wymagająca praca związana z rozumowaniem jest wykonywana na tańszym modelu.
W ChatGPT model GPT‑5.4 mini jest dostępny dla użytkowników planów Free i Go za pośrednictwem funkcji Thinking w menu +. Dla wszystkich pozostałych użytkowników GPT‑5.4 mini jest dostępny jako awaryjna opcja przy limicie szybkości dla GPT‑5.4 Thinking.
GPT‑5.4 nano jest dostępny tylko w API i kosztuje 0,20 USD za 1 mln tokenów wejściowych oraz 1,25 USD za 1 mln tokenów wyjściowych.
Więcej informacji na temat zabezpieczeń modeli można znaleźć w dodatku do karty systemu w naszym Centrum bezpieczeństwa wdrożeniowego(otwiera nowe okno).
Coding
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| SWE-bench Pro (Public) | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
Tool-calling
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| MCP Atlas | 67.2% | 57.7% | 56.1% | 47.6% |
| Toolathlon | 54.6% | 42.9% | 35.5% | 26.9% |
| τ2-bench (telecom) | 98.9% | 93.4% | 92.5% | 74.1% |
Intelligence
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| HLE w/ tool | 52.1% | 41.5% | 37.7% | 31.6% |
| HLE w/o tools | 39.8% | 28.2% | 24.3% | 18.3% |
MM / Vision / CUA
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
| MMMUPro w/ Python | 81.5% | 78.0% | 69.5% | 74.1% |
| MMMUPro | 81.2% | 76.6% | 66.1% | 67.5% |
| OmniDocBench 1.5 (no tools)² — lower is better | 0.109 | 0.1263 | 0.2419 | 0.1791 |
Long context
| GPT-5.4 (xhigh) | GPT-5.4 mini (xhigh) | GPT-5.4 nano (xhigh) | GPT-5 mini (high¹) | |
|---|---|---|---|---|
| OpenAI MRCR v2 8-needle 64K–128K | 86.0% | 47.7% | 44.2% | 35.1% |
| OpenAI MRCR v2 8-needle 128K–256K | 79.3% | 33.6% | 33.1% | 19.4% |
| Graphwalks BFS 0K–128K | 93.1% | 76.3% | 73.4% | 73.4% |
| Graphwalks parents 0–128K (accuracy) | 89.8% | 71.5% | 50.8% | 64.3% |
1 Najwyższy dostępny poziom reasoning_effort dla GPT‑5 mini to „high”.
2 Ogólna odległość edycyjna. OmniDocBench uruchomiono z parametrem „reasoning_effort” ustawionym na „none”, aby odzwierciedlić wydajność przy niskich kosztach i niewielkich opóźnieniach.


