Przedstawiamy GPT‑5.1 dla programistów
Dzisiaj na platformę API wprowadzamy GPT‑5.1 — kolejny model z serii GPT‑5, który łączy inteligencję i szybkość pozwalające na realizowanie wielu zadań programistycznych i opartych na agentach. GPT‑5.1 dynamicznie dostosowuje czas myślenia w zależności od złożoności zadania, co sprawia, że model działa znacznie szybciej i bardziej efektywnie wykorzystuje tokeny podczas realizacji prostszych, codziennych zadań. Model ten wyposażyliśmy również w tryb „bez rozumowania”, który umożliwia szybsze reagowanie na zadania niewymagające głębokiego myślenia przy jednoczesnym zachowaniu zaawansowanej inteligencji GPT‑5.1.
Aby jeszcze bardziej zwiększyć wydajność GPT‑5.1, wprowadzamy rozszerzone buforowanie poleceń, które będą przechowywane nawet przez 24 godziny, co pozwala na szybsze uzyskiwanie odpowiedzi na pytania uzupełniające i obniżenie kosztów. Nasi klienci korzystający z Przetwarzania priorytetowego(otwiera nowe okno) odczują zauważalnie większą wydajność modelu GPT‑5.1 w porównaniu z GPT‑5.
W przypadku zagadnień związanych z kodowaniem współpracowaliśmy ze startupami takimi jak Cursor, Cognition, Augment Code, Factory i Warp, aby z ich pomocą poprawić styl tworzenia kodu, sterowalność i jego jakość. Ogólnie: podczas tworzenia kodu GPT‑5.1 jest bardziej intuicyjny w użyciu i lepiej komunikuje się z użytkownikiem w zakresie informacji przekazywanych podczas wykonywania zadań.
W GPT‑5.1 wprowadzamy także dwa nowe narzędzia: apply_patch umożliwiające bardziej niezawodne edytowanie kodu oraz narzędzie shell, które pozwala modelowi uruchamiać polecenia powłoki.
GPT‑5.1 to kolejna iteracja serii GPT‑5, w ramach której zwiększamy możliwości i inteligencję modelu, dzięki czemu programiści mogą tworzyć bardziej sprawne rozwiązania oparte na agentach.
Aby przyspieszyć pracę GPT‑5.1, zmieniliśmy sposób trenowania metod myślenia modelu. Do przetwarzania prostych zadań GPT‑5.1 zużywa mniej tokenów, co umożliwia szybsze działanie produktów i obniża koszty związane z tokenami. Przy trudnych zadaniach wymagających dodatkowego myślenia GPT‑5.1 jest wytrwały, bada różne podejścia i sprawdza swoją pracę, aby zmaksymalizować jakość wyników przekazywanych użytkownikowi.
Przedstawicie firmy Balyasny Asset Management(otwiera nowe okno) stwierdzili, że GPT‑5.1 „przewyższył zarówno GPT‑4.1, jak i GPT‑5 w naszym pełnym zestawie ocen dynamicznych, a do tego działał 2-3 razy szybciej niż GPT‑5”. Dodali również, że w zadaniach wymagających myślenia i wykorzystujących wiele narzędzi GPT‑5.1 „konsekwentnie używał o około połowę mniej tokenów w porównaniu z analogicznymi modelami konkurencyjnymi i zapewniał podobną lub lepszą jakość wyników”. Podobne wnioski przekazała firma AI insurance BPO Pace(otwiera nowe okno), która również przetestowała model i poinformowała, że ich agenty „działają 50% szybciej na GPT‑5.1, a jednocześnie otrzymywane wyniki są lepsze niż w przypadku GPT‑5 i innych konkurencyjnych modeli”.
GPT‑5.1 dostosowuje czas myślenia bardziej dynamicznie niż GPT‑5. Na reprezentatywnym rozkładzie zadań model GPT‑5.1 znacznie szybciej rozwiązuje łatwiejsze zadania, nawet przy dużym zaangażowaniu w rozumowanie.
Przykładowo: wykonanie zadania „za pomocą polecenia npm wyświetl wszystkie zainstalowane pakiety” zajęło modelowi GPT‑5.1 tylko 2 sekundy zamiast 10 sekund.
GPT-5 (średni): ~250 tokenów (~10 sekund)
GPT-5.1 (średni): ~50 tokenów (~2 sekundy)
Programiści mogą teraz używać GPT‑5.1 w trybie bez rozumowania. W tym celu należy ustawić wartość „none” w parametrze „reasoning_effort”. Po użyciu tego parametru GPT‑5.1 będzie działać jako model bez rozumowania w przypadku zadań, których czas wykonania jest kluczowy, i nadal będzie oferował wysoką inteligencję GPT‑5.1 oraz dodatkową zaletę w postaci wydajnego wywoływania narzędzi. W porównaniu do GPT‑5 z „minimalnym” rozumowaniem model GPT‑5.1 bez rozumowania lepiej radzi sobie z równoległym wywoływaniem narzędzi (co samo w sobie zwiększa szybkość realizacji zadań), zadaniami programistycznymi, wykonywaniem instrukcji i korzystaniem z narzędzi wyszukiwania, a także pozwala na używanie funkcji wyszukiwania w sieci(otwiera nowe okno) na platformie API. Firma Sierra(otwiera nowe okno) przekazała, że GPT‑5.1 w trybie „bez rozumowania” wykazał „20% poprawę wydajności wywoływania narzędzi z niskim opóźnieniem w porównaniu z GPT‑5 z minimalnym rozumowaniem” w ich rzeczywistych testach.
Dodanie opcji „none” jako wartości parametru reasoning_effort zapewnia programistom jeszcze większą elastyczność i możliwość sterowania szybkością, kosztem i inteligencją modelu w każdym zastosowaniu. Wartość „none” jest domyślnie ustawiona w GPT‑5.1, co doskonale sprawdza się w przypadku zadań, gdzie kluczowa jest szybkość ich wykonania. Wartości „low” lub „medium” zaleca się wybrać dla zadań o większej złożoności, a wartość „high” powinna być wybierania dla zadań, w przypadku których inteligencja i niezawodność są ważniejsze niż szybkość realizacji.
Rozszerzone buforowanie zwiększa efektywność rozumowania, umożliwiając utrzymanie aktywności poleceń w pamięci podręcznej przez maksymalnie 24 godziny, a nie tylko przez kilka minut, jak było wcześniej. Dzięki dłuższemu czasowi przechowywania więcej kolejnych żądań może korzystać z kontekstu w buforze, co skutkuje mniejszymi opóźnieniami, niższymi kosztami i płynniejszym działaniem w przypadku długotrwałych interakcji, takich jak czat wieloetapowy, sesje kodowania albo zadania związane z pozyskiwaniem wiedzy.
Cennik pamięci podręcznej poleceń pozostaje niezmieniony: buforowane tokeny wejściowe będą o 90% tańsze niż niebuforowane, nie będą obowiązywać dodatkowe opłaty za zapisy do pamięci podręcznej ani jej przechowywanie. Aby używać rozszerzonego buforowania GPT‑5.1, w API odpowiedzi lub ukończeń czatów należy dodać parametr "prompt_cache_retention='24h'". Więcej informacji zawarliśmy w dokumentacji dotyczącej buforowania poleceń(otwiera nowe okno).
Szersze możliwości tworzenia kodu w GPT‑5.1 obejmują więcej funkcji sterowania stylem kodowania, mniej zbędnego zastanawiania się, wyższą jakość kodu, lepiej dopasowane do użytkownika komunikaty o aktualizacjach (wstępy) podczas sekwencji wywołań narzędzi oraz bardziej funkcjonalne projekty frontendowe — zwłaszcza przy niskim nakładzie pracy na rozumowanie.
W przypadku prostszych zadań kodowania, takich jak niewielkie edycje kodu, GPT‑5.1 szybciej wykonuje iteracje w przód i wstecz. Szybsze tempo wykonywania prostych zadań przez GPT‑5.1 nie powoduje pogorszenia wydajności w przypadku trudnych zadaniach. Benchmark SWE-bench Verified wykazał, że GPT‑5.1 pracował nawet dłużej niż GPT‑5 i osiągał dokładność 76,3%.
W SWE-bench Verified model otrzymuje repozytorium kodu i opis problemu, a następnie musi wygenerować poprawkę, aby rozwiązać problem. Oznaczenia wskazują, że rozumowanie wymagało wysiłku, a dokładność jest uśredniana dla wszystkich 500 problemów. Wszystkie modele korzystały z narzędzia apply_patch opartego na JSON.
Od kilku firm programistycznych otrzymaliśmy pierwsze opinie na temat GPT‑5.1. Oto ich wrażenia:
- Augment Code(otwiera nowe okno) określili GPT‑5.1 jako „bardziej przemyślany z mniejszą liczbą niepotrzebnych działań, oferujący bardziej efektywne rozumowanie i lepsze skupienie na zadaniach”. Ponadto zauważyli oni „dokładniejsze zmiany, bardziej płynne realizowane żądania pull request oraz szybszą iterację w projektach wieloplikowych”.
- Cline(otwiera nowe okno) stwierdzili, że „GPT‑5.1 osiągnął najwyższy wynik w naszym teście porównawczym edycji różnicowej (diff), wykazując poprawę o 7%, a do tego rezultaty złożonych zadań kodowania cechowały się wyjątkową jakością”.
- CodeRabbit(otwiera nowe okno) nazwali GPT‑5.1 „najlepszym modelem do weryfikowania PR”.
- Cognition(otwiera nowe okno) przekazali, że GPT‑5.1 „zauważalnie lepiej rozumie, o co się go prosi, i współpracuje z użytkownikiem podczas realizacji zadań”.
- Factory(otwiera nowe okno) uznali, że „GPT‑5.1 zauważalnie szybciej przekazuje odpowiedzi i dostosowuje głębokość rozumowania do zadania, redukując nadmierne myślenie, przez co programistom znacznie przyjemniej korzysta się z tego modelu”.
- Warp(otwiera nowe okno) wybrali GPT‑5.1 jako model domyślny dla nowych użytkowników, twierdząc, że „jeszcze bardziej poprawia jakość inteligencji oferowanej w serii GPT‑5 przy jednoczesnym zwiększeniu responsywności”.
„GPT 5.1 to nie tylko kolejny LLM — to najbardziej naturalnie autonomiczny model, jaki kiedykolwiek testowałem, który rzeczywiście jest oparty na agentach. Pisze jak człowiek, koduje jak człowiek, bezproblemowo wykonuje złożone instrukcje i doskonale radzi sobie z zadaniami front-endowymi, idealnie wpasowując się w istniejącą bazę kodu. W Responses API można korzystać z jego pełnego potencjału. Cieszymy się, że możemy zaoferować go w naszym IDE”.
W GPT‑5.1 wprowadzamy dwa nowe narzędzia, które pomogą programistom w pełni wykorzystać model w interfejsie Responses API: apply_patch zapewnia bardziej niezawodne edytowanie kodu bez potrzeby stosowania znaków „\” w JSON, oraz narzędzie shell pozwalające modelowi pisać polecenia do uruchomienia na twoim lokalnym komputerze.
Narzędzie apply_patch pozwala GPT‑5.1 na swobodne tworzenie, aktualizowanie i usuwanie plików w bazie kodu za pomocą strukturalnych zestawień różnic (diff). Model nie tylko sugeruje edycje, ale generuje operacje poprawek, które są stosowane w aplikacji, a przesyłane informacje zwrotne pozwalają na iteracyjne, wieloetapowe edytowanie kodu.
Aby użyć narzędzia apply_patch w interfejsie API Responses, umieść je w tablicy narzędzi za pomocą polecenia "tools": [{“type”: “apply_patch”}] i dodaj zawartość pliku w danych wejściowych albo zapewnij modelowi narzędzia do interakcji z systemem plików. Model wygeneruje elementy apply_patch_call odpowiadające za tworzenie, aktualizowanie lub usuwanie plików zawierających różnicówki (diff), które zastosujesz w swoim systemie plików. Więcej informacji na temat integracji z narzędziem apply_patch znajdziesz w naszej dokumentacji dla programistów(otwiera nowe okno).
Narzędzie shell pozwala modelowi na interakcję z komputerem lokalnym poprzez kontrolowany interfejs wiersza poleceń. Model proponuje polecenia powłoki, które z pomocą programisty są wykonywane i zwracane są dane wyjściowe. W ten sposób powstaje prosta pętla „planu i wykonania”, która pozwala modelom na inspekcję systemu, uruchamianie narzędzi i zbieranie danych, aż do momentu zakończenia zadania.
Aby użyć narzędzia shell w interfejsie Responses API, należy je dodać do tablicy tools za pomocą polecenia "tools": [{“type”: “shell”}]. Interfejs API wygeneruje elementy "shell_call", które zawierają polecenia powłoki do wykonania. Programiści wykonują polecenia w środowisku lokalnym i przekazują wyniki w elemencie "shell_call_output" w następnym żądaniu API. Więcej informacji zawarliśmy w naszej dokumentacji dla programistów(otwiera nowe okno).
Modele GPT‑5.1 i gpt-5.1-chat-latest są dostępne dla programistów we wszystkich płatnych planach w API. Cennik i limity(otwiera nowe okno) są takie same jak w przypadku GPT‑5. W API dostępne są również modele gpt-5.1-codex oraz gpt-5.1-codex-mini. GPT‑5.1 radzi sobie najlepiej z opracowywaniem kodu, a gpt-5.1-codex jest zoptymalizowany pod kątem długotrwałych zadań programowania z użyciem agentów w środowiskach Codex lub podobnych.
Programiści mogą też skorzystać z pomocy zawartej w naszej dokumentacji dla programistów(otwiera nowe okno) GPT‑5.1 i w przewodniku do tworzenia poleceń w modelu(otwiera nowe okno). Obecnie nie planujemy wycofania modelu GPT‑5 w interfejsie API i powiadomimy programistów z wyprzedzeniem, jeśli i kiedy podejmiemy taką decyzję.
W przyszłości nadal będziemy iteracyjne wdrażać najbardziej wydajne, niezawodne modele do obsługi zadań opartych na agentach i związanych z kodowaniem. Skupimy się na efektywności ich myślenia, szybkości iteracji i obsłudze złożonych zadań ułatwiających pracę programistów. Model GPT‑5.1 usprawnia pracę dzięki adaptacyjnemu rozumowaniu, lepszej wydajności kodowania, bardziej przejrzystym informacjom przekazywanym użytkownikom oraz nowym narzędziom, takim jak apply_patch i shell. To nie koniec naszych nowości i zmian, a bardziej zaawansowane modele agentowe i programistyczne pojawią się już w kolejnych tygodniach i miesiącach.
Ocena | GPT‑5.1 (wysoka) | GPT‑5 (wysoka) |
SWE-bench Verified | 76,3% | 72,8% |
GPQA Diamond | 88,1% | 85,7% |
AIME 2025 | 94,0% | 94,6% |
FrontierMath | 26,7% | 26,3% |
MMMU | 85,4% | 84,2% |
Tau2-bench Airline | 67,0% | 62,6% |
Tau2-bench Telecom* | 95,6% | 96,7% |
Tau2-bench Retail | 77,9% | 81,1% |
BrowseComp Long Context 128k | 90,0% | 90,0% |
* W przypadku Tau2-bench Telecom przesłaliśmy do GPT‑5.1 krótkie, ogólne i pomocne polecenie, aby poprawić jego wydajność.


