Przejdź do treści głównej
OpenAI

19 listopada 2025

ProduktWersja

Więcej możliwości z GPT‑5.1‑Codex‑Max

$ npm i -g @openai/codex
Ładowanie…

Wprowadzenie

GPT‑5.1‑Codex‑Max, nasz nowy model kodowania oparty na agentach, jest od dziś dostępny w Codex.  GPT‑5.1‑Codex‑Max to rozwinięcie naszego podstawowego modelu rozumowania, który jest szkolony na zadaniach agentowych z obszaru inżynierii oprogramowania, matematyki, badań i innych. Model tej jest szybszy, bardziej inteligentny i wydajniej wykorzystuje tokeny na każdym etapie cyklu rozwojowego. Stanowi również kolejny krok w kierunku zapewniania niezawodnego wsparcia programistom.

GPT‑5.1‑Codex‑Max jest przeznaczony do długotrwałych, precyzyjnych zadań. To nasz pierwszy model przeszkolony z myślą o działaniu w wielu oknach kontekstowych w procesie zwanym kompaktowaniem, dzięki któremu może on spójnie przetwarzać miliony tokenów w jednym zadaniu. Umożliwia to refaktoryzację w skali całego projektu, dogłębne debugowanie oraz wielogodzinne pętle zadaniowe agentów.

GPT‑5.1‑Codex‑Max jest już dostępny w środowisku Codex do zastosowań w interfejsie CLI, rozszerzeniu IDE, chmurze i podczas recenzji kodu, a dostęp przez API zapewnimy już niedługo.

Pionierskie możliwości programowania

GPT‑5.1‑Codex‑Max przewyższa nasze poprzednie modele w wielu ocenach umiejętności kodowania, ponieważ przeszkoliliśmy go w zakresie rzeczywistych zadań z zakresu inżynierii oprogramowania, takich jak tworzenie żądań pull request, przegląd kodu, kodowanie frontendu oraz obsługa pytań i odpowiedzi. Wyższe wyniki w testach porównawczych wiążą się również z ulepszeniami w praktycznych zastosowaniach: GPT‑5.1‑Codex‑Max to pierwszy model, który przeszkoliliśmy do działania w środowiskach Windows, a do zakresu treningu dodaliśmy zadania usprawniające jego pomoc w terminalu Codex CLI.

* Wszystkie testy przeprowadzono z włączoną funkcją kompaktowania przy najwyższym poziomie rozumowania
* Terminal-Bench2.0 działał z Codex CLI w
środowisku testowym Laude Institute Harbor(otwiera nowe okno)

Prędkość i koszt

GPT‑5.1‑Codex‑Max znacznie wydajniej wykorzystuje tokeny dzięki bardziej efektywnemu rozumowaniu. W teście porównawczym SWE-bench Verified GPT‑5.1‑Codex‑Max z ustawionym „średnim” poziomem rozumowania osiąga lepszą wydajność niż GPT‑5.1‑Codex przy tym samym wysiłku rozumowania i używa o 30% mniej tokenów. W przypadku zadań kiedy szybkość myślenia nie jest najistotniejsza, wprowadzamy również nowy bardzo wysoki („xhigh”) poziom rozumowania, który pozwala modelowi myśleć jeszcze dłużej, aby uzyskać lepszą odpowiedź. Do codziennych zadań nadal zalecamy wybranie poziomu średniego.

Przewidujemy, że sprawniejsze wykorzystywanie tokenów przełoży się na rzeczywiste oszczędności dla programistów.

Przykładowo: GPT‑5.1‑Codex‑Max potrafi tworzyć wysokiej jakości projekty frontendowe o podobnej funkcjonalności i estetyce, ale przy znacznie niższych kosztach niż GPT‑5.1‑Codex.

Polecenie: Wygeneruj jedną samodzielną aplikację działającą w przeglądarce, która renderuje interaktywne środowisko sandbox CartPole RL z grafiką canvas, niewielkim kontrolerem gradientu polityki, metrykami i wizualizatorem sieci SVG.

Funkcje

  • Musi zapewniać realne trenowanie polityki, aby poprawić model w zadaniu CartPole
  • Wizualizator aktywacji/wag podczas trenowania modelu lub wnioskowania
  • Kroki w odcinku, nagrody w tym odcinku
  • Ostatni czas przetrwania i najlepszy czas przetrwania w krokach

Zapisz w pliku index.html

Długotrwałe zadania

Kompaktowanie pozwala GPT‑5.1‑Codex‑Max na wykonywanie zadań, które wcześniej nie były wykonalne z powodu ograniczeń okna kontekstowego, takich jak złożone refaktoryzowanie i długotrwałe pętle agentów. Osiągnęliśmy ten efekt poprzez przycinanie historii przy jednoczesnym zachowaniu najważniejszego kontekstu podczas długotrwałych działań. W zastosowaniach Codex model GPT‑5.1‑Codex‑Max automatycznie kompaktuje sesję, gdy zbliża się do limitu długości okna kontekstowego i zapewnia nowe okno kontekstowe. Proces ten jest powtarzany aż do ukończenia zadania.

Możliwość utrzymywania spójności podczas długotrwałego działania jest kluczową umiejętnością na drodze do opracowania bardziej ogólnych i niezawodnych systemów sztucznej inteligencji. GPT‑5.1‑Codex‑Max może pracować samodzielnie przez wiele godzin. Podczas wewnętrznych testów zaobserwowaliśmy, że GPT‑5.1‑Codex‑Max może pracować nad zadaniami przez ponad 24 godziny. W tym czasie konsekwentnie iterował działania, naprawiał błędy i ostatecznie pomyślnie wygenerował wynik.

W tym przykładzie GPT‑5.1‑Codex‑Max niezależnie refaktoryzuje open-source'owe repozytorium Codex CLI.

Gdy długość sesji zbliża się do limitu obsługiwanego w oknie kontekstowym modelu, sesja jest automatycznie kompaktowana, aby zwolnić miejsce na kontynuowanie zadania bez utraty postępów.

Fil został skrócony i przyspieszony, aby lepiej zobrazować proces.

Tworzenie bezpiecznych i niezawodnych agentów AI

GPT‑5.1‑Codex‑Max sprawdza się znacznie lepiej w zadaniach wymagających trwałego, długoterminowego rozumowania. Jest on w stanie spójnie działać w wielu oknach kontekstowych dzięki kompaktowaniu, więc dostarcza lepsze wyniki w zadaniach związanych z cyberbezpieczeństwem i wymagających długotrwałego programowania. Przeanalizowaliśmy wydajność tego modelu w testach własnych i zewnętrznych, a wyniki prezentujemy w opisie systemu.

GPT‑5.1‑Codex‑Max nie osiąga jeszcze najwyższych wyników w zakresie cyberbezpieczeństwa w naszym programie oceny gotowości, ale jest to jak do tej pory nasz najbardziej zaawansowany model w tej dziedzinie, a możliwości agentowe w zakresie cyberbezpieczeństwa szybko się rozwijają. W związku z tym podejmujemy już działania przygotowujące do osiągnięcia poziomu wysokich możliwości w tej dziedzinie i wzmacniamy także zabezpieczenia w cyberprzestrzeni. Jednocześnie pracujemy nad zapewnieniem osobom odpowiedzialnym za ochronę systemów możliwości korzystania z ulepszonych funkcji tych modeli, m.in. dzięki programom takim jak Aardvark.

Po udostępnieniu modelu GPT‑5‑Codex wdrożyliśmy dedykowane funkcje monitorowania związane z cyberbezpieczeństwem pozwalające wykrywać i zakłócać złośliwe działania. Chociaż nie zaobserwowaliśmy znaczącego wzrostu poważnych nadużyć, przygotowujemy dodatkowe środki zaradcze dla zaawansowanych funkcji. Nasze zespoły już skutecznie zneutralizowały działania cyberprzestępcze, podczas których sprawcy próbowali niewłaściwie wykorzystać nasze modele, a podejrzane zachowania są kierowane do analizy w naszych systemach monitorowania zgodności.

Codex jest domyślne zaprojektowany do działania w bezpiecznym środowisku sandbox: zapisywanie plików jest ograniczone do wewnętrznego obszaru roboczego, a dostęp do sieci jest wyłączony, chyba że programista go włączy. Zalecamy niezmienianie tego ustawienia, ponieważ zapewnienie dostępu do internetu lub wyszukiwarki może narażać na atak prompt-injection ze strony niezaufanych treści.

W miarę jak możliwości obsługi długotrwałych zadań w Codex rosną, coraz ważniejsze jest, aby programiści weryfikowali pracę agenta przed zatwierdzeniem zmian lub wdrożeniem do produkcji. Aby im w tym pomóc, Codex tworzy dzienniki z działań w terminalu i cytuje wywołania narzędzi oraz wyniki testów. Funkcje weryfikacji kodu zmniejszają ryzyko wdrożenia błędów modelu lub błędów ludzkich do produkcji, jednak rozwiązanie to nadal należy traktować jako dodatkowego recenzenta, a nie zastępcę człowieka.

Możliwości z zakresu cyberbezpieczeństwa mogą być wykorzystywane zarówno do obrony, jak i ataku, dlatego stosujemy iteracyjne podejście do wdrażania: uczymy się na bazie rzeczywistych zastosowań, aktualizujemy zabezpieczenia i zachowujemy ważne narzędzia obronne, takie jak automatyczne skanowanie luk i pomoc w ich naprawie.

Dostępność

GPT‑5.1‑Codex‑Max jest dostępny w Codex w planach ChatGPT Plus, Pro, Business, Edu i Enterprise. Szczegółowe informacje przedstawiamy w tych dokumentach(otwiera nowe okno).

Dla programistów korzystających z Codex CLI za pomocą klucza API planujemy wkrótce udostępnić GPT‑5.1‑Codex‑Max w interfejsie API.

Od dzisiaj GPT‑5.1‑Codex‑Max zastępuje GPT‑5.1‑Codex jako domyślny model w środowiskach Codex. Model GPT‑5.1 służy do zastosowań ogólnych, natomiast GPT‑5.1‑Codex‑Max oraz całej rodziny modeli Codex zalecamy używać tylko do zadań kodowania opartego na agentach w środowiskach Codex lub podobnych.

Podsumowanie

GPT‑5.1‑Codex‑Max pokazuje, jak bardzo rozwinęły się funkcje długotrwałego przetwarzania zadań kodowania, zarządzania złożonymi przepływami pracy i tworzenia wysokiej jakości rozwiązań przy znacznie mniejszym wykorzystaniu tokenów. Zauważyliśmy, że model ten w połączeniu usprawnionymi narzędziami CLI, rozszerzeniami IDE, integracją z chmurą i rozwiązaniami do przeglądu kodu pozwala na znaczne zwiększenie wydajności programowania: 95% programistów w OpenAI używa Codex do codziennej prac, a od czasu wdrożenia Codex wysyłają oni około 70% więcej pull requestów. Rozwijając możliwości agentów, z ciekawością obserwujemy, do jakich zastosowań wykorzystają je programiści.

Załącznik: Oceny modeli

GPT‑5.1‑Codex (high)

GPT‑5.1‑Codex‑Max (xhigh)

SWE-bench Verified (n=500)

73,7%

77,9%

SWE-Lancer IC SWE

66,3%

79,9%

Terminal-Bench 2.0

52,8%

58,1%

Autor

OpenAI