Przedstawiamy nowy model, który oferuje jeszcze więcej możliwości: oto GPT‑5.3‑Codex – najbardziej zaawansowany model programowania agentowego. W tym modelu rozwinęliśmy pionierską wydajność kodowania GPT‑5.2‑Codex oraz zdolności rozumowania i wiedzę profesjonalną GPT‑5.2, łącząc wszystko w jednym rozwiązaniu, które również działa o 25% szybciej. Umożliwia ono wykonywanie długotrwałych zadań obejmujących badania, korzystanie z narzędzi i złożoną realizację. Podobnie jak podczas pracy z człowiekiem, można z GPT‑5.3‑Codex wchodzić w interakcje oraz kierować jego działaniami i nie utraci on kontekstu zadania.
GPT‑5.3‑Codex to nasz pierwszy model, który odegrał kluczową rolę w stworzeniu samego siebie. Zespół tworzący Codex używał wczesnych wersji tego modelu do debugowania własnego szkolenia aktualnego modelu, zarządzania wdrożeniem oraz diagnozowania wyników testów i weryfikacji. Nasz zespół był pod ogromnym wrażeniem tego, jak bardzo Codex przyspieszył własny rozwój.
GPT‑5.3‑Codex nie jest już tylko agentem, który potrafi pisać i weryfikować kod, ale stał się rozwiązaniem, które może zrobić niemal wszystko to, co programiści i profesjonaliści pracujący z użyciem komputerów.
GPT‑5.3‑Codex ustanawia nowy branżowy rekord w testach SWE-Bench Pro i Terminal-Bench oraz wykazuje wysoką wydajność w OSWorld i GDPval – czterech testach, które wykorzystujemy do oceny możliwości kodowania, działania agentowego i zastosowań w rzeczywistych zadaniach.
GPT‑5.3‑Codex osiąga najlepsze wyniki w teście SWE-Bench Pro, który jest rygorystyczną oceną rzeczywistej inżynierii oprogramowania. Test SWE‑bench Verified weryfikuje tylko korzystanie z języka Python, natomiast SWE‑Bench Pro obejmuje ocenę czterech języków i jest bardziej odporny na kontaminację, wymagający, zróżnicowany i istotny dla branży. Jego osiągi znacznie przewyższają także poprzedni najlepszy wynik w teście Terminal-Bench 2.0, który ocenia umiejętności terminalowe potrzebne agentowi programistycznemu, takiemu jak Codex. Co ważne, GPT‑5.3‑Codex uzyskuje wyższe wyniki przy użyciu mniejszej liczby tokenów niż jakikolwiek wcześniejszy model, co pozwala użytkownikom zrealizować więcej zadań.
Łącząc pionierskie możliwości kodowania, ulepszenia estetyczne i kompaktowanie, opracowaliśmy model, który potrafi wykonywać imponującą pracę, tworząc od podstaw funkcjonalne, złożone gry i aplikacje w ciągu zaledwie kilku dni. Aby przetestować możliwości modelu w zakresie tworzenia stron internetowych i długotrwałych operacji agentowych, poprosiliśmy GPT‑5.3‑Codex o stworzenie dwóch gier: drugiej wersji gry wyścigowej przedstawionej we wpisie dotyczącym premiery aplikacji Codex oraz gry o nurkowaniu. Korzystając z umiejętności tworzenia gry webowej oraz wstępnie wybranych, ogólnych poleceń uzupełniających, takich jak „napraw błąd” czy „ulepsz grę”, GPT‑5.3‑Codex autonomicznie tworzył kolejne iteracje, wykorzystując miliony tokenów. Obejrzyj zwiastuny i zagraj w gry, aby sprawdzić, co potrafi Codex.
Gra wyścigowa, która zawiera różnych zawodników, osiem map oraz przedmioty do użycia za pomocą spacji. Zagraj tutaj(otwiera nowe okno)!
Gra o nurkowaniu, w której eksplorujesz różne rafy, zbierasz wszystkie ryby, aby uzupełnić swój atlas ryb, jednocześnie zarządzasz ilością tlenu, ciśnieniem i unikasz zagrożeń. Zagraj tutaj(otwiera nowe okno)!
GPT‑5.3‑Codex lepiej niż poprzednia wersja rozumie twoje intencje, gdy prosisz o tworzenie zwykłych stron internetowych. Proste lub nieprecyzyjne polecenia domyślnie zapewniają teraz tworzenie witryn z szerszym zakresem funkcji i rozsądnymi ustawieniami domyślnymi, dając ci lepszy punkt wyjścia do realizacji swoich pomysłów.
Przykładowo: poprosiliśmy GPT‑5.3‑Codex i GPT‑5.2‑Codex o stworzenie dwóch poniższych stron docelowych. GPT‑5.3‑Codex automatycznie pokazał plan roczny jako obniżoną cenę planu miesięcznego, co sprawiało, że zniżka była zaprezentowana w jasny sposób. Dodał także automatycznie zmieniającą się karuzelę z opiniami użytkowników, zawierającą trzy różne cytaty zamiast jednego, co sprawia, że strona wydaje się bardziej kompletna i gotowa do wdrożenia.
Polecenie: Stwórz stronę docelową dla Quiet KPI, przyjaznego dla założycieli cotygodniowego przeglądu wskaźników. Wygląd: delikatny SaaS, szkliste karty, gradient od lawendy do błękitu, subtelne rozmycie. Sekcje, hero z przechwytywaniem adresów e-mail, siatka przykładowych kart raportów, wiersz integracji, karuzela opinii, przełącznik cen miesięcznych/rocznych, sekcja Częste pytania, stopka.
- Krój pisma Satoshi lub podobny geometryczny bezszeryfowy.
- Przyciski z miękko zaokrąglonymi rogami, promień 14 pikseli, wyraźnie oznaczone wskazanie.
- Dodaj jedną subtelną animację ujawniania elementu opartą na przewijaniu ekranu.
Praca inżynierów oprogramowania, projektantów, menedżerów produktu i naukowców przetwarzających dane polega na wielu zadaniach, a nie tylko na generowaniu kodu. GPT‑5.3‑Codex pozwala usprawnić wszystkie etapy cyklu życia oprogramowania – debugowanie, wdrażanie, monitorowanie, pisanie PRD, edytowanie treści, badania użytkowników, testy, metryki i wiele innych. Jego możliwości agentowe wykraczają poza oprogramowanie, co pozwoli ci robić wszystko, od tworzenia prezentacji do analizowanie danych w arkuszach i wiele innych.
Dzięki niestandardowym umiejętnościom podobnym do tych użytych w przypadku wcześniejszych wyników GDPval GPT‑5.3‑Codex również wykazuje wysoką skuteczność w profesjonalnej pracy z wiedzą, zgodnie z wynikami zapewnianymi przez GDPval, co pozwala dorównać mu modelowi GPT‑5.2. GDPval to test, który OpenAI zaprezentowało w 2025 roku. mierzy on wydajność modelu w obsłudze określonych zadań związanych z pracą opartą na wiedzy w 44 branżach. Zadania te obejmują takie czynności jak tworzenie prezentacji, arkuszy kalkulacyjnych i innych wyników pracy.
Poniżej znajduje się kilka przykładów zadań wykonanych przez agenta.
Polecenie + kontekst zadania
GPT-5.3-Codex output

OSWorld to agentowy test użytkowania komputera, gdzie agent musi wykonać zadania związane z wydajnością w wizualnym środowisku pulpitu. GPT‑5.3‑Codex wykazuje znacznie większe zdolności w korzystaniu z komputera niż wcześniejsze modele GPT.
W OSWorld-Verified modele używają funkcji widzenia do realizacji różnorodnych zadań komputerowych. Wynik człowieka – około 72%.
Łącznie wyniki te w obszarach kodowania, frontendu oraz prac związanych z obsługą komputera i zadań w świecie rzeczywistym pokazują, że GPT‑5.3‑Codex nie tylko lepiej radzi sobie z poszczególnymi wyzwaniami, ale staje się uniwersalnym agentem, który potrafi rozumować, tworzyć i wykonywać zadania w pełnym zakresie rzeczywistej pracy technicznej.
W miarę jak możliwości modeli rosną to oczekiwania zmieniają się z tego, co agenty są w stanie zrobić, na to, jak łatwo ludzie mogą wchodzić z nimi w interakcję, kierować nimi i nadzorować wiele agentów pracujących równolegle. Aplikacja Codex znacznie ułatwia zarządzanie i kierowanie agentami, a GPT‑5.3‑Codex jest bardziej interaktywny pod tym względem. Nowa wersja Codex często informuje o kluczowych decyzjach i postępach w jego pracy. Zamiast czekać na ostateczny wynik, możesz wchodzić w interakcję z modelem w czasie rzeczywistym – zadawać pytania, omawiać strategie i kierować działania w stronę rozwiązania. GPT‑5.3‑Codex omawia wykonywane operacje, reaguje na opinie i informuje na bieżąco podczas całej pracy.
Włącz sterowanie, gdy model działa w aplikacji, w sekcji Ustawienia > Ogólne > Zachowanie po odpowiedzi.
Ostatnie szybkie usprawnienia rozwiązania Codex opierają się na wynikach projektów badawczych prowadzonych przez wiele miesięcy lub lat we wszystkich działach OpenAI. Codex pozwolił przyspieszyć te projekty badawcze, a wielu naukowców i inżynierów w OpenAI opisuje swoją dzisiejszą pracę jako zasadniczo inną niż jeszcze dwa miesiące temu. Nawet wczesne wersje GPT‑5.3‑Codex wykazały się wyjątkowymi zdolnościami, co pozwoliło naszemu zespołowi wykorzystywać je do usprawnienia szkolenia i wdrażania kolejnych wersji modelu.
Codex jest przydatny do bardzo szerokiego zakresu zadań, co utrudnia przedstawienie wszystkich sposobów, w jakie wspiera nasze zespoły. Przykładowo: zespół badawczy użył Codex do monitorowania i debugowania przebiegu treningowego tej wersji. Przyspieszyło to badania wykraczające poza debugowanie problemów z infrastrukturą: pomogło śledzić wzorce w trakcie całego procesu szkolenia, zapewniło dogłębną analizę jakości interakcji, zapewniło sugestie dotyczące poprawek i pozwoliło stworzyć rozbudowane aplikacje, aby badacze mogli dokładnie zrozumieć, jak zachowanie modelu różniło się w porównaniu z wcześniejszymi wersjami.
Zespół inżynierów używał Codex do optymalizacji i dostosowania ograniczeń w GPT‑5.3‑Codex. Kiedy zaczęliśmy zauważać dziwne przypadki brzegowe wpływające na użytkowników, członkowie zespołu użyli Codex do identyfikacji błędów renderowania kontekstu i ustalenia przyczyny niskiego współczynnika uzyskiwania danych z pamięci podręcznej. GPT‑5.3‑Codex nadal wspiera zespół podczas całego procesu wdrożenia, dynamicznie skalując klastry GPU, aby zapewnić dostosowanie do wzrostów wykorzystania i utrzymując stabilne opóźnienia.
Podczas testów alfa jeden z badaczy chciał zrozumieć, ile dodatkowej pracy GPT‑5.3‑Codex wykonywał na turę i jaka była związana z tym różnica w produktywności. GPT‑5.3‑Codex opracował kilka prostych wyrażeń regex, aby oszacować częstotliwość doprecyzowań, pozytywnych i negatywnych odpowiedzi użytkowników oraz postęp w realizacji zadania, a następnie uruchomił je z zapewnieniem skalowania we wszystkich dziennikach sesji i sporządził raport z wnioskami. Użytkownicy modelu Codex byli bardziej zadowoleni z wyników, ponieważ agent lepiej rozumiał ich intencje i robił większe postępy w każdej turze przy mniejszej liczbie pytań doprecyzujących.
Z powodu znacznych różnic między GPT‑5.3‑Codex i jego poprzednikami dane z testów alfa wykazały wiele nietypowych i nieintuicyjnych wyników. Pewien członek zespołu zajmujący danymi wykorzystał GPT‑5.3‑Codex do stworzenia nowych potoków danych i zwizualizowania wyników w znacznie bardziej szczegółowy sposób niż zapewniały to nasze standardowe narzędzia. Wyniki zostały przeanalizowane wspólnie z Codex, który zwięźle podsumował kluczowe wnioski z tysięcy punktów danych w czasie krótszym niż trzy minuty.
Każde z tych zadań z osobna jest interesującym przykładem na to, jak Codex może pomagać badaczom i twórcom produktów. Podsumowując: odkryliśmy, że te nowe możliwości znacząco przyspieszyły pracę naszych zespołów badawczych, inżynieryjnych i produktowych.
W ostatnich miesiącach zaobserwowaliśmy znaczące zwiększenie wydajności modeli w zadaniach związanych z cyberbezpieczeństwem, co przynosi korzyści zarówno deweloperom, jak i specjalistom ds. bezpieczeństwa. Równocześnie przygotowujemy wzmocnione zabezpieczenia cybernetyczne, aby wspomagać zastosowania defensywne i zwiększać odporność ekosystemu.
GPT‑5.3‑Codex to pierwszy model, który klasyfikujemy jako dysponujący wysokimi możliwościami w kontekście zadań związanych z cyberbezpieczeństwem w ramach naszych Ram gotowości, i pierwszy, który bezpośrednio przeszkoliliśmy do identyfikacji luk w zabezpieczeniach oprogramowania. Chociaż nie mamy jednoznacznych dowodów na to, że model ten może w pełni automatyzować cyberataki, podchodzimy ostrożnie do tej kwestii i wdrażamy w jego przypadku nasz najbardziej kompleksowy pakiet zabezpieczeń cybernetycznych. Nasze działania zapobiegawcze obejmują szkolenia z zakresu bezpieczeństwa, zautomatyzowane monitorowanie, zaufany dostęp do zaawansowanych funkcji oraz ścieżki egzekwowania, w tym wykorzystanie informacji o zagrożeniach.
Cyberbezpieczeństwo można traktować na dwa sposoby, więc stosujemy podejście oparte na dowodach i iteracyjne, które przyspiesza możliwości obrońców dotyczące wykrywania i naprawiania luk w zabezpieczeniach, jednocześnie spowalniając ich nadużywanie. W ramach tych działań rozpoczynamy program pilotażowy Trusted Access for Cyber, którego celem jest przyspieszenie badań nad cyberobroną.
Skupiamy się na rozwoju zabezpieczeń ekosystemu, takich jak: zwiększenie dostępu do prywatnej wersji beta rozwiązania Aardvark, naszego agenta badawczego ds. bezpieczeństwa, stanowiącego pierwszą pozycję w naszej gamie produktów i narzędzi Codex Security; oraz nawiązaniu współpracy z opiekunami projektów open source, aby zapewnić bezpłatne skanowanie kodu w powszechnie używanych projektach, takich jak Next.js, w którym specjalista ds. bezpieczeństwa użył Codex do wykrycia luk w zabezpieczeniach ujawnionych(otwiera nowe okno) w zeszłym tygodniu.
Rozwijając nasz program grantowy Cybersecurity Grant Program o wartości 1 mln USD uruchomiony w 2023 roku, dodajemy do niego również 10 mln USD w kredytach API, aby sprawniej rozwijać obronę cybernetyczną dzięki naszym najbardziej zaawansowanym modelom, zwłaszcza w przypadku oprogramowania open source i systemów infrastruktury krytycznej. Organizacje prowadzące badania nad zapewnianiem bezpieczeństwa mogą ubiegać się o kredyty API i wsparcie w ramach Cybersecurity Grant Program.
GPT‑5.3‑Codex jest dostępny w płatnych planach ChatGPT zapewniających obsługę Codex: w aplikacji, CLI, rozszerzeniu IDE i w aplikacji internetowej. Wkrótce zapewnimy bezpieczny dostęp również w API.
Wraz z tą aktualizacją zapewniamy również 25% przyspieszenie działania GPT‑5.3‑Codex dla użytkowników Codex. Jest to możliwe dzięki usprawnieniom w naszej infrastrukturze i stosie wnioskowania, co skutkuje szybszymi interakcjami i krótszym czasem oczekiwania na wyniki.
GPT‑5.3‑Codex powstał z myślą o systemach NVIDIA GB200 NVL72, na których był trenowany i na których jest udostępniany. Jesteśmy wdzięczni firmie NVIDIA za ich partnerstwo.
GPT‑5.3‑Codex zapewnia znacznie więcej możliwości poza tworzeniem kodu i stanowi narzędzie do obsługi komputera oraz realizacji działań roboczych w pełnym zakresie. Zwiększając zakres możliwości agenta programistycznego, rozszerzamy również kategorię pracy opartej na wiedzy – od tworzenia i wdrażania oprogramowania po badania, analizę i realizację złożonych zadań. Początkowo Codex miał być najlepszym agentem programistycznym, a stał bazą dla bardziej ogólnego współpracownika komputerowego dysponującego znacznie szerszymi możliwościami realizowania pracy.
GPT‑5.3‑Codex (xhigh) | GPT‑5.2‑Codex (xhigh) | GPT‑5.2 (xhigh) | |
SWE-Bench Pro (Public) | 56,8% | 56,4% | 55,6% |
Terminal-Bench 2.0 | 77,3% | 64,0% | 62,2% |
OSWorld-Verified | 64,7% | 38,2% | 37,9% |
GDPval (wygrane lub remisy) | 70,9% | - | 70,9% (wysoki) |
Wyzwania z zakresu cyberbezpieczeństwa: Capture The Flag | 77,6% | 67,4% | 67,7% |
SWE-lancer IC Diamond | 81,4% | 76,0% | 74,6% |


