Dziś udostępniamy wersję poglądową GPT‑5.3‑Codex‑Spark, czyli mniejszego wydania GPT‑5.3‑Codex, który jest naszym pierwszym modelem stworzonym z myślą o programowaniu czasie rzeczywistym. Zoptymalizowaliśmy go tak, aby działał niemal natychmiastowo i zapewniał 15-krotnie szybsze generowanie wyników przy jednoczesnym zachowaniu wysokiej wydajności w rzeczywistych zadaniach programistycznych.
Codex-Spark stanowi pierwszy ważny etap w naszym partnerstwie z Cerebras, które ogłosiliśmy w styczniu. Model ten udostępniamy jako badawczą wersję poglądową użytkownikom ChatGPT Pro. Dzięki temu programiści będą mogli szybciej zacząć go poznawać. W tym czasie wraz z Cerebras będziemy wspólnie pracować nad zwiększeniem przepustowości centrów danych, kompleksowym usprawnieniem modelu i jak najszybszym wdrożeniem naszego większego modelu pionierskiego.
Nasze najnowsze modele pionierskie pokazują lwi pazur podczas realizacji długotrwałych zadań, kiedy to działają autonomicznie przez wiele godzin, dni lub tygodni bez potrzeby interwencji. Codex-Spark to nasz pierwszy model zaprojektowany specjalnie do pracy z Codex w czasie rzeczywistym, który umożliwia wprowadzanie precyzyjnych zmian, przebudowywanie logiki lub dopracowywanie interfejsów i natychmiastowe oglądanie wyników tych modyfikacji. Dzięki Codex-Spark rodzina produktów Codex może realizować teraz zarówno długotrwałe, ambitne zadania, jak i codzienne działania. Ciekawi nas, jak programiści z niego korzystają i uwzględnić ich opinie w kolejnych aktualizacjach.
Na premierze Codex-Spark dysponuje oknem kontekstu 128 tys. i działa wyłącznie na warstwie tekstowej. Podczas okresu testowego w Codex-Spark zastosujemy oddzielne limity wykorzystania, a zużywanie ich nie będzie wliczane do standardowych limitów. Jednak w przypadku dużego zainteresowania tym modelem, mogą wystąpić spowolnienia działania lub tymczasowe kolejkowanie, ponieważ staramy się zrównoważyć niezawodność i dostępność modelu dla wszystkich użytkowników.
Codex-Spark jest przeznaczony do pracy interaktywnej, gdzie opóźnienia są tak samo istotne jak inteligencja. Modelu można używać jak współpracownika pomagającego w czasie rzeczywistym — można mu przerywać lub kierunkować jego działania podczas pracy oraz szybko iterować bez czekania na zakończenie wdrożenia. W Codex-Spark skupiliśmy się na szybkości działania, wiec cechuje go lekki domyślny styl pracy – wprowadza minimalne, celowe poprawki i nie uruchamia testów automatycznie, chyba że użytkownik o to poprosi.
Codex-Spark to bardzo zaawansowany zwinny model zoptymalizowany do szybkiego wnioskowania. Podczas testów SWE-Bench Pro i Terminal-Bench 2.0 oceniających zdolności agentowego tworzenia oprogramowania GPT‑5.3‑Codex‑Spark wypada gorzej niż GPT‑5.3‑Codex, ale za to potrafi wykonywać zadania nieproporcjonalnie szybciej.
Czas trwania szacuje się jako sumę (1) czasu generowania danych wyjściowych (tokeny wyjściowe ÷ szybkość próbkowania), (2) czasu wstępnego wypełniania (tokeny wstępne ÷ szybkość wstępnego wypełniania), (3) całkowitego czasu działania narzędzia oraz (4) całkowitego narzutu sieciowego.
Podczas trenowania Codex-Spark okazało się, że szybkość modelu to tylko jedna z cech wymaganych w przypadku współpracy w czasie rzeczywistym, poza tym musieliśmy również zredukować opóźnienia w całym potoku żądań i odpowiedzi. Zmniejszyliśmy opóźnienia end-to-end w całym środowisku, co pozytywnie wpłynęło na działanie wszystkich modeli. Zoptymalizowaliśmy też sposób, w jaki odpowiedzi są przesyłane strumieniowo od klienta do serwera i z powrotem, przepisaliśmy kluczowe elementy naszego stosu inferencyjnego oraz zmodyfikowaliśmy sposób inicjowania sesji, aby pierwszy widoczny token pojawiał się szybciej, a responsywność Codex nie malała podczas iteracji. Dzięki wprowadzeniu trwałego połączenia WebSocket oraz ukierunkowanym optymalizacjom w Responses API zmniejszyliśmy narzut na każdy cykl klient/serwer o 80%, narzut na token o 30% oraz czas do pierwszego tokena o 50%. Więc aktualnie wszystkie modle Codex działają sprawniej.
Codex-Spark wykorzystuje rozwiązanie Wafer Scale Engine 3(otwiera nowe okno) od firmy Cerebras, które stanowi specjalistyczny akcelerator AI do szybkiego wnioskowania, zapewniający Codex warstwę obsługi z priorytetem niskiego opóźnienia. Nawiązaliśmy współpracę z Cerebras, aby móc dodać tę ścieżkę o niskim opóźnieniu do produkcyjnego stosu obsługi, z którego korzystają inne nasze rozwiązania, dzięki czemu działa on bezproblemowo w całym ekosystemie Codex i umożliwi dalsze rozwijanie modeli w przyszłości.
„Najbardziej ekscytuje nas w GPT-5.3-Codex-Spark współpraca z OpenAI oraz społecznością deweloperów i odkrywanie możliwości kryjących się w szybkim wnioskowaniu — nowe wzorce interakcji, nowe przypadki użycia i zasadniczo inne doświadczenie pracy z modelem. Ta wersja poglądowa to tylko wstęp”.
GPU pozostają fundamentem naszych potoków szkoleniowych i wnioskowania, zapewniając najbardziej opłacalne tokeny do szerokiego zastosowania. Cerebras stanowi uzupełnienie tych fundamentów poprzez usprawnianie przepływów pracy wymagających bardzo niskiego opóźnienia, co skraca czas wykonania całej pętli zadań, dzięki czemu Codex jest bardziej responsywny podczas iteracji.
Codex-Spark jest dostępny od dziś jako wersja poglądowa dla wszystkich użytkowników ChatGPT Pro w najnowszych wersjach aplikacji Codex, CLI i rozszerzenia VS Code. Model ten działa na wyspecjalizowanym sprzęcie o niskich opóźnieniach, więc obowiązują inne limit użycia, które mogą być dostosowywane w zależności od zapotrzebowania podczas korzystania z poglądowej wersji badawczej. Ponadto Codex-Spark udostępniamy w API niewielkiej grupie partnerów projektowych, aby dowiedzieć się, jak programiści będą chcieli wdrażać Codex-Spark w swoich produktach. W najbliższych tygodniach rozszerzymy dostęp dla innych użytkowników, dopasowując integrację do rzeczywistego zapotrzebowania.
Codex-Spark działa obecnie tylko na warstwie tekstowej, dysponuje oknem kontekstu o pojemności 128 000 i jest pierwszym z rodziny ultraszybkich modeli. W miarę jak będziemy dowiadywać się od programistów, kiedy model ten się sprawdza najlepiej, wprowadzimy kolejne funkcje – w tym większe modele, dłuższe konteksty i obsługę różnego rodzaju danych wejściowych.
Codex-Spark podlega tym samym szkoleniom z zakresu bezpieczeństwa, co nasze główne modele, w tym szkoleniom dotyczącym cyberbezpieczeństwa. Oceniliśmy go w ramach naszego standardowego procesu wdrażania, który obejmuje oceny bazowe dla możliwości cybernetycznych i innych umiejętności, i ustaliliśmy, że nie ma on realnych szans na osiągnięcie wysokiego wyniku w obszarze cyberbezpieczeństwa według zasad oceniania określonych w programie Ram gotowości.
Codex-Spark to pierwszy krok w kierunku opracowania rozwiązania Codex cechującego się dwoma uzupełniającymi się trybami: długoterminowym rozumowaniem i wykonywaniem zadań oraz współpracą w czasie rzeczywistym umożliwiającą szybkę iterację. Z czasem tryby te będą się przenikać – Codex może operować w ramach szybkiej, interaktywnej pętli, jednocześnie delegując zadania wymagające dłuższego przetwarzania do podagentów w tle lub rozdzielając zadania na wiele modeli równolegle, gdy użytkownikowi zależy na szerokich możliwościach i szybkości pracy. Dzięki takiemu podejściu nie trzeba z góry decydować się na jeden tryb pracy.
W miarę jak możliwości modeli rosną, szybkość interakcji staje się wyraźną blokadą. Ultraszybkie wnioskowanie domyka tę pętlę, powodując, że korzystanie z Codex jest bardziej naturalne i rozszerza możliwości użytkowników zmieniających swoje pomysły w realne oprogramowanie.


