Dzisiaj udostępniamy model GPT‑5.4 w ChatGPT (jako GPT‑5.4 Thinking), interfejsie API i Codex. Jest to nasz najbardziej zaawansowany i wydajny model pionierski przeznaczony do pracy profesjonalnej. Udostępniamy też GPT‑5.4 Pro w ChatGPT i w API dla użytkowników oczekujących maksymalnej wydajności w złożonych zadaniach.
GPT‑5.4 stanowi zestawienie naszych najlepszych osiągnięć w zakresie rozumowania, programowania i agentowych przepływów pracy w jednym pionierskim modelu. Oferuje on najlepsze w branży możliwości kodowania GPT‑5.3‑Codex, a jednocześnie usprawnia działanie modelu w różnych narzędziach, środowiskach oprogramowania oraz obsłudze profesjonalnych zadań, takich jak przetwarzanie arkuszy kalkulacyjnych, prezentacji i dokumentów. W wasze ręce przekazujemy model, który dokładnie, skutecznie i wydajnie wykonuje złożone, realne zadania, zapewniając oczekiwane wyniki przy minimalnej ilości komunikacji i poprawek.
W ChatGPT model GPT‑5.4 Thinking może teraz z góry przedstawić plan swojego rozumowania, dzięki czemu możecie skorygować jego działania w trakcie odpowiedzi, gdy model jeszcze pracuje, i otrzymać wynik jeszcze lepiej dopasowany do wymogów bez dodatkowej komunikacji z modelem. W modelu GPT‑5.4 Thinking poprawiliśmy również głębokie badania w sieci, szczególnie w przypadku bardzo szczegółowych zapytań, a ponadto model ten jednocześnie lepiej zachowuje kontekst podczas obsługi pytań wymagających dłuższego namysłu. Wszystkie te usprawnienia przekładają się na jeszcze trafniejsze odpowiedzi, które są prezentowane szybciej.
W Codex i w API wersja GPT‑5.4 jest naszym pierwszym modelem ogólnego przeznaczenia wyposażonym w natywne, najnowocześniejsze zdolności korzystania z komputera, co umożliwia agentom obsługę komputerów i realizowanie złożonych przepływów pracy w różnych aplikacjach. Obsługuje on nawet 1 milion tokenów kontekstowych, dzięki czemu agenty mogą planować, wykonywać i weryfikować zadania w długich horyzontach czasowych. GPT‑5.4 usprawnia też sposób działania modelu w dużych ekosystemach obejmujących wiele narzędzi i konektorów dzięki funkcji wyszukiwania narzędzi, a to pozwala agentom szybciej znajdować i wykorzystywać właściwe narzędzia bez utraty inteligencji. Ponadto GPT‑5.4 to nasz najbardziej wydajny model rozumujący, rozwiązujący problemy przy wykorzystaniu znacznie mniejszej liczby tokenów w porównaniu z GPT‑5.2, co zapewnia zmniejszenie użycia liczby tokenów i jednoczesne zwiększenie szybkości działania modelu.
Wraz z poprawą jakości ogólnego rozumowania, kodowania i realizacji profesjonalnej pracy opartej na wiedzy model GPT‑5.4 umożliwia obsługę bardziej niezawodnych agentów, szybsze wykonywanie przepływów pracy programistycznej i oferuje wyższej jakości wyniki w ChatGPT, API i Codex.
GPT‑5.4 | GPT‑5.3‑Codex | GPT‑5.2 | |
GDPval (wygrane lub remisy) | 83,0% | 70,9% | 70,9% |
SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
OSWorld-Verified | 75,0% | 74,0%* | 47,3% |
Toolathlon | 54,6% | 51,9% | 46,3% |
BrowseComp | 82,7% | 77,3% | 65,8% |
*Wcześniejsza wartość to 64,7%. GPT‑5.3‑Codex osiąga wynik 74,0% dzięki nowemu parametrowi API, który zachowuje oryginalną rozdzielczość obrazu.
W oparciu o ogólne możliwości rozumowania wersji GPT‑5.2 ulepszony model GPT‑5.4 zapewnia jeszcze bardziej spójne i dopracowane wyniki w rzeczywistych zadaniach, które są istotne dla specjalistów.
W naszym teście GDPval, który sprawdza zdolności agentów do wykonywania dobrze zdefiniowanych zadań związanych z wiedzą w 44 zawodach, GPT‑5.4 ustanowił nowy rekord, przewyższając wyniki specjalistów branżowych w 83,0% przypadków (lub oferując takie same wyniki). Wynik modelu GPT‑5.2 wynosił 71,0%.
W teście GDPval modele wykonują precyzyjnie opisane zadanie związane z wiedzą w obszarze 44 zawodów z 9 czołowych branż przyczyniających się do PKB w USA. Zadania wymagają opracowania rzeczywistych wyników, takich jak prezentacje sprzedażowe, arkusze kalkulacyjne, harmonogramy opieki doraźnej, schematy produkcyjne lub krótkie filmy. Dla wysiłku rozumowania ustawiono opcję xhigh w GPT‑5.4 i heavy w GPT‑5.2 (nieco niższy poziom w ChatGPT).
„GPT-5.4 to najlepszy model, jaki kiedykolwiek testowaliśmy. Jest teraz na szczycie tabeli wyników w naszym teście porównawczym APEX-Agents, który mierzy wydajność modelu w profesjonalnych usługach. Doskonale sprawdza się w tworzeniu rezultatów o długim horyzoncie, takich jak prezentacje slajdów, modele finansowe i analizy prawne, zapewniając najwyższą wydajność, a jednocześnie działając szybciej i przy niższych kosztach niż konkurencyjne pionierskie modele.”
W GPT‑5.4 szczególnie skupiliśmy się na ulepszeniu funkcji tworzenia i edytowania arkuszy kalkulacyjnych, prezentacji i dokumentów. W naszym wewnętrznym teście porównującym realizację zadań związanych z modelowaniem arkuszy kalkulacyjnych, które mógłby wykonywać młodszy analityk bankowości inwestycyjnej, GPT‑5.4 osiąga średni wynik 87,5%, natomiast GPT‑52. osiągał 68,4%. W zestawie poleceń do weryfikacji prezentacji oceniający preferowali w 68,0% przypadków prezentacje opracowane przez GPT‑5.4 w porównaniu z prezentacjami oferowanymi przez GPT‑5.2 ze względu na lepszą estetykę, większą różnorodność wizualną i skuteczniejsze wykorzystanie funkcji generowania obrazu.

Dokumenty zostały wygenerowane z poziomem rozumowania ustawionym na xhigh
Funkcje te można wypróbować w ChatGPT, korzystając z modelu GPT‑5.4 Thinking lub Pro. Jeśli używasz wersji Enterprise, zalecamy korzystanie z naszych nowych wtyczek ChatGPT dla programu Excel i Arkuszy Google(otwiera nowe okno), które również zostały udostępnione dzisiaj. Zaktualizowaliśmy również funkcje obsługi arkuszy kalkulacyjnych(otwiera nowe okno) i tworzenia prezentacji(otwiera nowe okno) dostępne w Codex i w interfejsie API.
Aby poprawić wyniki GPT‑5.2 w realnych zastosowaniach zawodowych, skupiliśmy się też na ograniczeniu halucynacji i błędów. GPT‑5.4 to nasz najbardziej merytoryczny model: w zestawie zanonimizowanych poleceń, w których użytkownicy zgłaszali błędy faktograficzne, nieprawidłowość poszczególnych stwierdzeń oferowanych przez GPT‑5.2 została zredukowana o 33%, a w przypadku pełnych odpowiedzi liczba jakichkolwiek błędów zmalała o 18% w porównaniu do GPT‑5.2.
„GPT-5.4 wyznacza nowy standard w zakresie prawniczej pracy z dokumentami. W naszej ocenie BigLaw Bench uzyskał wynik 91%. W porównaniu z innymi modelami GPT-5.4 obecnie lepiej radzi sobie ze strukturyzowaniem złożonych analiz transakcyjnych, utrzymywaniem dokładności w długich umowach oraz dostarczaniem wysokiego poziomu szczegółowości, jakiego wymagają prawnicy.”
GPT‑5.4 to nasz pierwszy model ogólnego przeznaczenia wyposażony natywnie w możliwości korzystania z komputera, co stanowi dużą zmianę dla programistów oraz agentów. Jest to aktualnie najlepszy w swojej klasie model dostępny dla programistów tworzących agenty, które wykonują realne zadania w witrynach internetowych i systemach oprogramowania.
Model GPT‑5.4 oferuje wysoką wydajność w szerokim zakresie zadań związanych z obsługą komputera. Znakomicie radzi sobie z pisaniem kodu do obsługi komputerów za pomocą bibliotek takich jak Playwright, a także z kontrolowaniem myszy i klawiatury w odpowiedzi na zrzuty ekranu. Jego zachowaniem można sterować za pomocą wiadomości programistycznych, co oznacza, że użytkownicy mogą dostosować działanie modelu do konkretnych sytuacji. Programiści mogą nawet skonfigurować zachowania dotyczące bezpieczeństwa modelu, aby dopasować je do różnych poziomów tolerancji ryzyka, określając niestandardowe zasady potwierdzania.
Wydajność i elastyczność modelu znajdują odzwierciedlenie w testach porównawczych, które sprawdzają korzystanie z komputera w różnych ustawieniach. W teście OSWorld-Verified, który mierzy zdolność modelu do korzystania ze środowiska pulpitu za pomocą zrzutów ekranu oraz działań wykonywanych klawiaturą i myszą, GPT‑5.4 osiąga najlepszy w swojej klasie odsetek poprawnych operacji wynoszący 75,0%, co znacznie przewyższa wyniki GPT‑5.2 wynoszące 47,3% i wyniki człowieka na poziomie 72,4%.1
W teście WebArena-Verified, który sprawdza korzystanie z przeglądarki, GPT‑5.4 osiąga najwyższy 67,3% współczynnik powodzenia przy użyciu zarówno interakcji opartej na DOM, jak i z zastosowaniem zrzutów ekranu (model GPT‑5.2 osiągnął wynik 65,4%). W teście Online-Mind2Web, który sprawdza także korzystanie z przeglądarki, GPT‑5.4 osiąga współczynnik powodzenia 92,8%, korzystając wyłącznie z obserwacji opartych na zrzutach ekranu, co stanowi poprawę względem trybu agenta w ChatGPT Atlas, który osiąga współczynnik powodzenia 70,9%.
Ustąpienie na rzecz narzędzi ma miejsce, gdy asystent ustępuje, aby oczekiwać na odpowiedzi narzędzi. Jeśli 3 narzędzia są wywoływane równolegle, a następnie 3 kolejne narzędzia są wywoływane równolegle, liczba ustąpień wyniosłaby 2. Ustąpienia narzędzi są lepszym przybliżeniem opóźnienia niż wywołania narzędzi, ponieważ odzwierciedlają korzyści z równoległości działania.
GPT‑5.4 interpretuje zrzuty ekranu interfejsu przeglądarki i wchodzi w interakcję z elementami interfejsu użytkownika poprzez kliknięcia oparte na współrzędnych, aby wysyłać e-maile i planować wydarzenia w kalendarzu.
Ulepszona obsługa komputera przez model GPT‑5.4 opiera się na usprawnionych ogólnych zdolnościach modelu w zakresie percepcji wzrokowej. W teście MMMU-Pro sprawdzającym rozumienie i rozumowanie wizualne model GPT‑5.4 osiąga 81,2% skuteczności bez użycia narzędzi, co stanowi poprawę względem wyniku GPT‑5.2 wynoszącego 79,5%. Lepsze postrzeganie wizualne przekłada się również na większe możliwości analizowania dokumentów. W teście OmniDocBench GPT‑5.4 bez wysiłku rozumowania osiąga średni błąd (mierzony znormalizowaną odległością edycyjną pomiędzy predykcją modelu a wartością referencyjną) na poziomie 0,109, co jest lepszym wynikiem od modelu GPT‑5.2, który uzyskał wartość 0,140.
MMMUPro uruchomiono z wysiłkiem rozumowania ustawionym na bardzo wysoki. OmniDocBench uruchomiono z wysiłkiem rozumowania ustawionym na „brak”, aby odzwierciedlić wydajność przy niskich kosztach i niewielkich opóźnieniach.
Poprawiliśmy także zrozumienie wizualne w przypadku gęstych obrazów o wysokiej rozdzielczości, gdzie istotna jest pełna wierność wizualna. Począwszy od GPT‑5.4, wprowadzamy poziom szczegółowości danych wejściowych(otwiera nowe okno) dla oryginalnego obrazu, co zapewnia obsługę percepcji o pełnej wierności do 10,24 mln łącznej liczby pikseli lub maksymalnego wymiaru 6000 pikseli, w zależności od tego, która wartość jest niższa; wysoki poziom szczegółowości danych wejściowych obrazu teraz również obsługuje do 2,56 mln łącznej liczby pikseli lub maksymalny wymiar 2048 pikseli. Podczas wczesnych testów z użytkownikami API zaobserwowaliśmy znaczące wzrosty zdolności lokalizacyjnych, rozumienia obrazów i dokładności klikania przy użyciu ustawień oryginalnych lub o wysokim poziomie szczegółowości.
„W naszych ewaluacjach mierzących wydajność korzystania z komputera na podstawie ok. 30 tys. portali HOA (Homeowners Association) i podatku od nieruchomości, GPT-5.4 osiągnął 95% współczynnik powodzenia przy pierwszej próbie oraz 100% w ciągu trzech prób, w porównaniu z wynikiem na poziomie ok. 73–79% w przypadku wcześniejszych modeli CUA. Ukończył również sesje ok. 3-krotnie szybciej, zużywając przy tym o ok. 70% mniej tokenów, co znacząco poprawiło niezawodność i opłacalność na dużą skalę.”
W interfejsie API programiści mogą uzyskać dostęp do tych funkcji przy użyciu zaktualizowanego narzędzia do obsługi komputera. Zapoznaj się z naszą zaktualizowaną dokumentacją(otwiera nowe okno), aby poznać zalecane najlepsze działania.
GPT‑5.4 łączy wysokie umiejętności kodowania z modelu GPT‑5.3‑Codex z wiodącymi możliwościami podczas pracy z wiedzą i obsługi komputera, które są kluczowe w długotrwałych zadaniach, gdzie model może korzystać z narzędzi, iterować i realizować zadania przy mniejszej ingerencji manualnej. Dorównuje on modelowi GPT‑5.3‑Codex (a nawet go przewyższa) w teście SWE-Bench Pro, a jednocześnie charakteryzuje się niższymi opóźnieniami w różnych procesach rozumowania.
Opóźnienie szacujemy, analizując zachowanie naszych modeli w środowisku produkcyjnym przy symulacji offline. Szacowanie opóźnienia uwzględnia czas trwania wywołania narzędzia (czas wykonywania kodu), próbkowane tokeny oraz tokeny wejściowe. Rzeczywiste opóźnienie może się znacznie różnić i zależy od wielu czynników, których nie uwzględniono w naszej symulacji. Wysiłki rozumowania zostały zwiększone z none do xhigh.
Po włączeniu trybu /fast w Codex zapewnia nawet 1,5-krotnie większą prędkość tokenów przy GPT‑5.4. To ten sam model i ta sama inteligencja, tylko szybsze działanie. Oznacza to, że użytkownicy mogą realizować zadania związane z kodowaniem, iterować i debugować, zachowując płynność pracy. Programiści mogą uzyskać dostęp do GPT‑5.4 z tą samą wysoką szybkością działania za pośrednictwem API, korzystając z przetwarzania priorytetowego(otwiera nowe okno).
W ocenach i testach wewnętrznych stwierdziliśmy, że GPT‑5.4 świetnie radzi sobie ze złożonymi zadaniami frontendowymi, zapewniając zauważalnie bardziej estetyczne i bardziej funkcjonalne wyniki niż wszystkie inne nasze wcześniejsze modele.
Jako demonstrację ulepszonych możliwości modelu w zakresie korzystania z komputera i programowania, udostępniamy również eksperymentalną umiejętność Codex(otwiera nowe okno) o nazwie „Playwright (Interactive)”. Dzięki niej Codex może wizualnie debugować aplikacje webowe i Electron, a można nawet jej użyć do testowania aplikacji, którą tworzy, w trakcie jej tworzenia.
Gra symulacyjna parku rozrywki stworzona z użyciem GPT‑5.4 na podstawie jednego lekko doprecyzowanego polecenia, z wykorzystaniem Playwright Interactive do testów rozgrywki w przeglądarce oraz generowania obrazu do izometrycznego zestawu zasobów. Symulacja obejmuje rozmieszczanie ścieżek na siatce pól, budowę atrakcji i elementów scenerii, wyznaczanie tras gości, ustawianie się w kolejkach oraz cykle przejazdów, a wskaźniki parku, takie jak pieniądze, liczba gości, zadowolenie, czystość i ocena, rosną lub spadają w zależności od tego, jak sprawdza się układ i jak reagują na niego goście. Playwright został użyty do automatyzacji playtestów w przeglądarce poprzez budowanie i rozbudowywanie parku, umieszczanie i usuwanie ścieżek oraz atrakcji, sprawdzanie nawigacji kamery oraz weryfikowanie, że goście, kolejki, stany przejażdżek i metryki interfejsu użytkownika aktualizowały się poprawnie w kilku rundach rozgrywki.
Polecenie: Użyj $playwright-interactive i $imagegen. Stwórz interaktywną, izometryczną grę symulacyjną o budowie parku rozrywki, którą mogę budować i po której mogę nawigować w przeglądarce. Użyj imagegen, aby ustalić ogólną wizję oprawy wizualnej i wygenerować zasoby gry, w tym atrakcje, ścieżki, teren, drzewa, wodę, stoiska z jedzeniem, dekoracje, budynki, ikony oraz ilustracje interfejsu. Świat powinien sprawiać wrażenie spójnego, dopracowanego i bogatego wizualnie z najwyższej jakości oprawą graficzną, która dobrze sprawdza się w perspektywie izometrycznej. Pozwól mi stawiać i usuwać ścieżki, dodawać atrakcje, ustawiać elementy scenerii oraz płynnie poruszać się po parku, jednocześnie monitorując aktywność gości, status atrakcji i rozwój parku. Uwzględnij wiarygodny ruch gości, proste systemy zarządzania parkiem, takie jak płatności, czystość, kolejki i zadowolenie, i spraw, aby efekt był zabawny, czytelny i kompletny, a nie jak surowy prototyp. Priorytetem niech będą urok, czytelność i wysoka responsywność zamiast realizmu.
Podczas testów rozgrywki zbuduj i rozwijaj park przez kilka rund, sprawdź, czy rozmieszczanie i nawigacja działają płynnie, upewnij się, że goście reagują na elementy parku i atrakcje, oraz że oprawa wizualna, interfejsy i interakcje są stabilne i spójne.
„Nasi inżynierowie uważają, że GPT-5.4 jest bardziej naturalny i asertywny niż poprzednie modele. Radzi sobie z niejednoznacznymi problemami bez podważania własnych decyzji i dąży do równoległego wykonywania zadań, aby zapewnić ciągłość pracy.”
W modelu GPT‑5.4 znacznie usprawniliśmy jego współpracę z narzędziami zewnętrznymi. Agenty mogą teraz działać w ramach większych ekosystemów narzędzi, sprawniej dobierać odpowiednie narzędzia i realizować wieloetapowe przepływy pracy przy niższych kosztach i mniejszych opóźnieniach.
W interfejsie API GPT‑5.4 wprowadziliśmy wyszukiwanie narzędzi(otwiera nowe okno), które umożliwia modelom wydajną pracę, gdy do wyboru jest wiele narzędzi.
Wcześniej, gdy model otrzymywał narzędzia, wszystkie definicje narzędzi były od razu uwzględniane w poleceniu. W przypadku systemów z wieloma narzędziami może to dodawać tysiące, a nawet dziesiątki tysięcy tokenów do każdego żądania, zwiększając koszty, spowalniając odpowiedzi i zapełniając kontekst informacjami, których model może nigdy nie użyć.
Dzięki funkcji wyszukiwania narzędzi GPT‑5.4 otrzymuje zamiast tego krótszą listę dostępnych narzędzi wraz z możliwością ich wyszukiwania. Gdy model musi użyć narzędzia, może wyszukać jego definicję i dołączyć narzędzie do rozmowy w odpowiednim momencie.
Taka strategia znacząco zmniejsza liczbę tokenów wymaganych w procesach roboczych intensywnie korzystających z narzędzi i pozwala zachować pamięć podręczną, dzięki czemu żądania realizowane są szybciej i są tańsze. Umożliwia to również agentom niezawodną pracę z dużo większymi ekosystemami narzędzi. W przypadku serwerów MCP, które mogą zawierać dziesiątki tysięcy tokenów definicji narzędzi, wzrost wydajności może być znaczący.
Aby zademonstrować wzrost wydajności, oceniliśmy 250 zadań z testu Scale MCP Atlas(otwiera nowe okno) przy włączonych wszystkich 36 serwerach MCP w dwóch trybach: (1) udostępnianie każdej funkcji MCP bezpośrednio w kontekście modelu oraz (2) umieszczenie wszystkich serwerów MCP za wyszukiwaniem narzędzi. Konfiguracja wyszukiwania narzędzi zmniejszyła łączną liczbę wykorzystanych tokenów o 47%, przy zachowaniu tej samej dokładności.
Przykładowe liczby tokenów pochodzą z uśrednienia 250 zadań w publicznym zbiorze danych MCP-Atlas.
GPT‑5.4 usprawnia również wywoływanie narzędzi, przez co wzrasta dokładność i wydajność podejmowania decyzji dotyczących tego, kiedy i jak używać narzędzi podczas rozumowania, szczególnie w API. W porównaniu z GPT‑5.2 model GPT‑5.4 osiąga wyższą dokładność w mniejszej liczbie tur w teście Toolathlon sprawdzającym, jak dobrze agenty AI potrafią korzystać z narzędzi i interfejsów API ze świata rzeczywistego do wykonywania wieloetapowych zadań. Na przykład agent musi czytać e-maile, wyodrębniać załączniki z zadaniami, przesyłać je, oceniać i zapisywać wyniki w arkuszu kalkulacyjnym.
Ustąpienie na rzecz narzędzi ma miejsce, gdy asystent ustępuje, aby oczekiwać na odpowiedzi narzędzi. Jeśli 3 narzędzia są wywoływane równolegle, a następnie 3 kolejne narzędzia są wywoływane równolegle, liczba ustąpień wyniosłaby 2. Ustąpienia narzędzi są lepszym przybliżeniem opóźnienia niż wywołania narzędzi, ponieważ odzwierciedlają korzyści z równoległości działania.
W sytuacjach, gdzie najważniejsze są jak najmniejsze opóźnienia, kiedy preferowany jest brak nakładu pracy rozumowania, GPT‑5.4 zapewnia jeszcze lepsze wyniki niż poprzednie wersje.
W teście τ2-bench(otwiera nowe okno) model musi wykorzystać narzędzia, aby wykonać zadanie z zakresu obsługi klienta, w ramach którego może wystąpić symulowany użytkownik, który podejmuje komunikację i oddziałuje na stan otoczenia. Poziom rozumowania ustawiono na „brak”.
GPT‑5.4 lepiej radzi sobie z agentowym wyszukiwaniem w sieci. W teście BrowseComp sprawdzającym sprawność stałego przeszukiwania sieci przez agenty AI w celu znalezienia trudnych do zlokalizowania informacji, GPT‑5.4 wyprzedza GPT‑5.2 o 17%abs, a GPT‑5.4 Pro ustanowił nowy rekord na poziomie 89,3%.
W praktyce oznacza to, że GPT‑5.4 Thinking lepiej odpowiada na pytania, które wymagają zebrania informacji z wielu źródeł w internecie. Może on bardziej konsekwentnie przeszukiwać w zakresie wielu rund wyszukiwania i identyfikować najbardziej odpowiednie źródła, szczególnie w przypadku pytań typu „igła w stogu siana”, i zsyntetyzować znalezione informacje w jasną, dobrze uzasadnioną odpowiedź.
W BrowseComp zastosowaliśmy listę elementów blokowanych w wyszukiwaniu, która wyklucza z oceny strony internetowe zawierające odpowiedzi na testy, aby zapobiec zanieczyszczeniu i zapewnić rzetelny pomiar wydajności. Pomiary GPT‑5.4 wykonano w późniejszym terminie niż GPT‑5.2, tak aby wyniki odzwierciedlały zmiany w modelu, naszym systemie wyszukiwania i stanie internetu. GPT‑5.4 został przetestowany z zastosowaniem dłuższej, zaktualizowanej czarnej listy. Modele korzystają z narzędzia wyszukiwania ChatGPT, co może powodować niewielkie różnice w porównaniu z wyszukiwaniem w interfejsie API.
„GPT-5.4 xhigh to nowy najwyższy poziom w wieloetapowym korzystaniu z narzędzi. Zapier prowadzi jedne z najbardziej rygorystycznych w branży testy porównawcze wykorzystania narzędzi, sprawdzając modele w setkach zaawansowanych, rzeczywistych procesów. GPT-5.4 dowiózł tam, gdzie poprzednie modele się poddały – to najbardziej wytrwały dotychczas model.”
Podobnie jak Codex, który opisuje swoje podejście na początku pracy, GPT‑5.4 Thinking w ChatGPT będzie teraz przedstawiać zarys swojej pracy we wstępie w przypadku odpowiadania na dłuższe i bardziej złożone zapytania. Użytkownik może również dodawać instrukcje lub zmieniać kierunek działań w trakcie otrzymywania odpowiedzi. Ułatwia to naprowadzanie modelu na uzyskanie idealnych rezultatów bez konieczności zaczynania działań od początku lub wykonywania wielu dodatkowych kroków. Ta funkcja jest już dostępna w chatgpt.com(otwiera nowe okno) oraz w aplikacji Android, a wkrótce pojawi się w aplikacji iOS.
Model może też myśleć dłużej nad trudnymi zadaniami, zachowując jednocześnie większą świadomość wcześniejszych kroków w rozmowie. Pozwala to obsługiwać dłuższe sekwencje czynności i bardziej złożone polecenia, zachowując spójność i trafność odpowiedzi przez cały czas.
To wideo zostało przyspieszone w celach ilustracyjnych.
Przez ostatnich kilka miesięcy usprawnialiśmy zabezpieczenia wprowadzone w GPT‑5.3‑Codex, przygotowując jednocześnie GPT‑5.4 do wdrożenia. Podobnie jak w przypadku GPT‑5.3‑Codex model GPT‑5.4 traktujemy jako system o wysokich możliwościach cybernetycznych w ramach naszych Ram gotowości i wdrażamy go z odpowiednimi zabezpieczeniami, zgodnie z dokumentacją przedstawioną w karcie systemu. Obejmuje to rozszerzony zestaw zabezpieczeń cybernetycznych, w tym systemy monitorowania, zaufane mechanizmy kontroli dostępu oraz asynchroniczne blokowanie żądań o podwyższonym ryzyku dla klientów korzystających z powierzchni nieprzechowywania danych (ZDR), a także ciągłe inwestycje w szerszy ekosystem bezpieczeństwa.
Ponieważ możliwości w zakresie cyberbezpieczeństwa mają z natury podwójne zastosowanie, stosujemy podejście ostrożnościowe podczas ich wdrażania, jednocześnie nadal dostosowując nasze zasady i klasyfikatory. W przypadku niektórych klientów korzystających z ZDR blokowanie na poziomie żądania pozostaje częścią naszego zestawu środków ograniczających ryzyko cybernetyczne; ponieważ klasyfikatory wciąż są udoskonalane, mogą występować wyniki fałszywie dodatnie, gdy nadal dopracowujemy te zabezpieczenia. Te aktualizacje mają na celu usprawnienie działania zabezpieczeń w praktyce, w tym ograniczenie niepotrzebnych odmów i prezentowanie odpowiedzi nadmiernie obwarowanych zastrzeżeniami przy jednoczesnym zachowaniu mocnych zabezpieczeń przed nadużyciami.
Nadal prowadzimy badania nad bezpieczeństwem dotyczące możliwości monitorowania łańcucha rozumowania (CoT), aby lepiej poznać sposoby rozumowania modeli i usprawnić wykrywanie potencjalnych niewłaściwych zachowań. W ramach tych prac przedstawiamy nową ocenę open source, Sterowalność CoT pozwalającą zmierzyć, czy modele potrafią celowo tuszować swoje rozumowanie, aby uniknąć monitorowania. Zauważyliśmy, że możliwość kontrolowania swojego CoT w GPT‑5.4 Thinking jest niska, co jest pozytywną właściwością z punktu widzenia bezpieczeństwa i sugeruje, że model nie ma zdolności ukrywania swojego rozumowania i że monitorowanie łańcucha myśli (CoT) pozostaje skutecznym narzędziem bezpieczeństwa.
GPT‑5.4 jest dziś stopniowo wdrażany w ChatGPT i Codex. W interfejsie API model GPT‑5.4 jest już dostępny jako gpt-5.4. GPT‑5.4 Pro jest również dostępny w API jako gpt-5.4-pro dla programistów, którzy potrzebują maksymalnej wydajności przy najbardziej złożonych zadaniach.
W ChatGPT model GPT‑5.4 Thinking jest dostępny od dzisiaj dla użytkowników ChatGPT Plus, Team i Pro, zastępując GPT‑5.2 Thinking. Wersja GPT‑5.2 Thinking będzie dostępna przez trzy miesiące dla płatnych użytkowników w selektorze modeli w sekcji Legacy Models w ramach starszych modeli, po czym wycofamy ją 5 czerwca 2026. Użytkownicy planów Enterprise i Edu mogą włączyć wczesny dostęp w ustawieniach administratora. GPT‑5.4 Pro jest dostępny w planach Pro i Enterprise. Okna kontekstu(otwiera nowe okno) w ChatGPT dla GPT‑5.4 Thinking pozostają niezmienione względem GPT‑5.2 Thinking.
GPT‑5.4 to nasz pierwszy główny model rozumujący, który zawiera pionierskie możliwości kodowania GPT‑5.3‑codex i jest wdrażany w ChatGPT, API i Codex. Nazywamy go GPT‑5.4, aby podkreślić skok jakościowy i wydajnościowy oraz uprościć wybór między modelami podczas korzystania z Codex. Z czasem nasze modele Instant i Thinking będą rozwijać się w różnym tempie.
GPT‑5.4 w Codex zawiera eksperymentalną obsługę okna kontekstu 1M. Programiści mogą ją wypróbować, konfigurując model_context_window i model_auto_compact_token_limit. Żądania przekraczające standardowe okno kontekstu 272K są wliczane do limitów wykorzystania w tempie wynoszącym 2-krotność normalnego.
W interfejsie API cena za token w przypadku GPT‑5.4 jest wyższa niż w GPT‑5.2, co odzwierciedla jego ulepszone możliwości, natomiast mniejsze wykorzystanie tokenów pomaga zredukować łączną liczbę tokenów używanych w wielu zadaniach. Ceny Batch i Flex stanowią połowę standardowej stawki interfejsu API, natomiast przetwarzanie priorytetowe jest dostępne w cenie dwukrotności standardowej stawki interfejsu API.
Model API | Cena wejściowa | Cena buforowanych danych wejściowych | Cena wyjściowa |
gpt-5.2 | 1,75 USD / mln tokenów | 0,175 USD / mln tokenów | 14 USD / mln tokenów |
gpt-5.4 | 2,50 USD / mln tokenów | 0,25 USD / mln tokenów | 15 USD / mln tokenów |
gpt-5.2-pro | 21 USD / mln tokenów | - | 168 USD / mln tokenów |
gpt-5.4-pro | 30 USD / mln tokenów | - | 180 USD / mln tokenów |
Profesjonalne
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
GDPval | 83,0% | 82,0% | 70,9% | 70,9% | 74,1% |
FinanceAgent v1.1 | 56,0% | 61,5% | 54,0% | 59,5% | — |
Zadania modelowania w bankowości inwestycyjnej (wewnętrzne) | 87,3% | 83,6% | 79,3% | 68,4% | 71,7% |
OfficeQA | 68,1% | — | 65,1% | 63,1% | — |
Kodowanie
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
SWE-Bench Pro (Public) | 57,7% | — | 56,8% | 55,6% | — |
Terminal-Bench 2.0 | 75,1% | — | 77,3% | 62,2% | — |
Użytkowanie komputera i funkcje wizualne
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
OSWorld-Verified | 75,0% | — | 74,0% | 47,3% | — |
MMMU Pro (bez narzędzi) | 81,2% | — | — | 79,5% | — |
MMMU Pro (z narzędziami) | 82,1% | — | — | 80,4% | — |
Użycie narzędzi
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
BrowseComp | 82,7% | 89,3% | 77,3% | 65,8% | 77,9% |
MCP Atlas | 67,2% | — | — | 60,6% | — |
Toolathlon | 54,6% | — | 51,9% | 45,7% | — |
Tau2-bench Telecom | 98,9% | — | — | 98,7% | — |
Akademickie
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Pionierskie badania naukowe | 33,0% | 36,7% | — | 25,2% | — |
FrontierMath poziom 1–3 | 47,6% | — | — | 40,7% | — |
FrontierMath poziom 4 | 27,1% | 38,0% | — | 18,8% | 31,3% |
GPQA Diamond | 92,8% | 94,4% | 92,6% | 92,4% | 93,2% |
Humanity's Last Exam (bez narzędzi) | 39,8% | 42,7% | — | 34,5% | 36,6% |
Humanity's Last Exam (z narzędziami) | 52,1% | 58,7% | — | 45,5% | 50,0% |
Długi kontekst
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
Graphwalks BFS 0K–128K | 93,0% | — | — | 94,0% | — |
Graphwalks BFS 256K–1M | 21,4% | — | — | — | — |
Graphwalks parents 0–128K (dokładność) | 89,8% | — | — | 89,0% | — |
Graphwalks parents 256K–1M (dokładność) | 32,4% | — | — | — | — |
OpenAI MRCR v2 8-needle 4K–8K | 97,3% | — | — | 98,2% | — |
OpenAI MRCR v2 8-needle 8K–16K | 91,4% | — | — | 89,3% | — |
OpenAI MRCR v2 8-needle 16K–32K | 97,2% | — | — | 95,3% | — |
OpenAI MRCR v2 8-needle 32K–64K | 90,5% | — | — | 92,0% | — |
OpenAI MRCR v2 8-needle 64K–128K | 86,0% | — | — | 85,6% | — |
OpenAI MRCR v2 8-needle 128K–256K | 79,3% | — | — | 77,0% | — |
OpenAI MRCR v2 8-needle 256K–512K | 57,5% | — | — | — | — |
OpenAI MRCR v2 8-needle 512K–1M | 36,6% | — | — | — | — |
Myślenie abstrakcyjne
Ocena | GPT‑5.4 | GPT‑5.4 | GPT‑5.3-Codex | GPT‑5.2 | GPT‑5.2 |
ARC-AGI-1 (zweryfikowany) | 93,7% | 94,5% | — | 86,2% | 90,5% |
ARC-AGI-2 (zweryfikowany) | 73,3% | 83,3% | — | 52,9% | 54,2% (wysoki) |
Oceny bez rozumowania
Ocena | GPT‑5.4 | GPT‑5.2 | GPT‑4.1 |
OmniDocBench (znormalizowana odległość edycyjna) | 0,109 | 0,140 | — |
Tau2-bench Telecom | 64,3% | 57,2% | 43,6% |
Oceny uruchomiono z poziomem rozumowania ustawionym na xhigh, z wyjątkiem przypadków, w których określono inaczej. Testy porównawcze przeprowadzono w środowisku badawczym, co w niektórych przypadkach może dawać nieco inne wyniki niż wersja produkcyjna ChatGPT.
Autor
Przypisy
1 Wyniki wydajności człowieka przedstawione w OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(otwiera nowe okno).


