Aktualizacja z 24 kwietnia 2026 r.: GPT‑5.5 i GPT‑5.5 Pro są już dostępne w API. Karta systemu została również zaktualizowana i zawiera opis dodatkowych stosowanych zabezpieczeń.
Dziś prezentujemy GPT‑5.5 – nasz najinteligentniejszy i najbardziej intuicyjny w obsłudze model, który stanowi kolejny krok w kierunku nowego sposobu wykonywania pracy na komputerze.
GPT‑5.5 szybciej rozumie twoje zamiary i może też samodzielnie wykonać większy zakres pracy. Świetnie nadaje się do pisania i debugowania kodu, wyszukiwania informacji online, analizowania danych, tworzenia dokumentów i arkuszy kalkulacyjnych, obsługi oprogramowania oraz wydajnego korzystania z różnych narzędzi. Zamiast uważnie nadzorować każdy etap, możesz powierzyć GPT‑5.5 chaotyczne, wieloetapowe zadanie i mieć pewność, że zaplanuje działania, skorzysta z narzędzi, sprawdzi wyniki swojej pracy, poradzi sobie z niejednoznacznością i będzie konsekwentnie realizować pracę.
Postępy są szczególnie wyraźne w kodowaniu agentowym, obsłudze komputera, pracy opartej na wiedzy oraz we wczesnych badaniach naukowych, czyli w obszarach, w których rozwój zależy od rozumowania kontekstowego i podejmowania kolejnych działań. GPT‑5.5 zapewnia wyższy poziom inteligencji bez rezygnacji z szybkości pracy: większe i bardziej zaawansowane modele często działają wolniej, ale GPT‑5.5 dorównuje GPT‑5.4 pod względem opóźnienia na token w warunkach produkcyjnych, oferując jednocześnie znacznie wyższy poziom inteligencji. Model ten wykorzystuje również znacznie mniej tokenów do realizacji tych samych zadań w Codex, dzięki czemu jest bardziej wydajny i oferuje więcej możliwości.
GPT‑5.5 wprowadzamy z najbardziej zasobnym zestawem zabezpieczeń ograniczających nadużycia, a jednocześnie zachowujących dostęp do wydajnych zastosowań. Przed udostępnieniem oceniliśmy ten model w ramach naszego pełnego zestawu ram bezpieczeństwa i gotowości, współpracowaliśmy z wewnętrznymi i zewnętrznymi zespołami red team, dodaliśmy ukierunkowane testy zaawansowanych zdolności w zakresie cyberbezpieczeństwa i biologii oraz zebraliśmy opinie dotyczące rzeczywistych przypadków użycia od niemal 200 zaufanych partnerów programie wczesnego dostępu.
Od dzisiaj GPT‑5.5 jest dostępny dla użytkowników korzystających z planów Plus, Pro, Business i Enterprise w ChatGPT i Codex, a GPT‑5.5 Pro jest udostępniany użytkownikom korzystającym z planów Pro, Business i Enterprise w ChatGPT. Wdrożenia API wymagają różnych zabezpieczeń, a my ściśle współpracujemy z partnerami i klientami nad wymaganiami dotyczącymi bezpieczeństwa i ochrony przy ich udostępnianiu na dużą skalę. Już wkrótce GPT‑5.5 i GPT‑5.5 Pro dodamy do API.
GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro | |
Terminal-Bench 2.0 | 82,7% | 75,1% | - | - | 69,4% | 68,5% |
Expert-SWE (Internal) | 73,1% | 68,5% | - | - | - | - |
GDPval (wygrane lub remisy) | 84,9% | 83,0% | 82.3% | 82,0% | 80,3% | 67,3% |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
BrowseComp | 84,4% | 82,7% | 90,1% | 89,3% | 79,3% | 85,9% |
FrontierMath poziom 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath poziom 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
OpenAI buduje globalną infrastrukturę dla agentowej AI, umożliwiając osobom prywatnym i firmom na całym świecie realizację zadań z pomocą AI. W ciągu ostatniego roku obserwowaliśmy, jak AI znacząco przyspiesza inżynierię oprogramowania. Wraz z GPT‑5.5 w Codex i ChatGPT ta sama transformacja zaczyna obejmować badania naukowe i szerszy zakres pracy wykonywanej na komputerach.
We wszystkich tych obszarach GPT‑5.5 jest nie tylko inteligentniejszy, ale także wydajniej rozwiązuje problemy, często osiągając lepsze wyniki przy użyciu mniejszej liczby tokenów i mniejszej liczby ponownych prób. W rankingu Coding Index Artificial Analysis GPT‑5.5 oferuje najlepszy poziom inteligencji przy koszcie o połowę niższym niż w przypadku konkurencyjnych pionierskich modeli do tworzenia oprogramowania.
Artificial Analysis Intelligence Index(otwiera nowe okno) to średnia ważona 10 ocen przeprowadzonych przez podmiot zewnętrzny: AA-LCR, AA-Omniscience, CritPt, GDPval-AA, GPQA Diamond, Humanity’s Last Exam, IFBench, SciCode, Terminal-Bench Hard, τ²-Bench Telecom.
GPT‑5.5 to nasz najsilniejszy model programowania agentowego. W ocenie Terminal-Bench 2.0, która testuje złożone przepływy pracy w wierszu poleceń, wymagające planowania, iteracje i koordynację narzędzi, osiąga najwyższą w branży skuteczność na poziomie 82,7%. W teście SWE-Bench Pro, który ocenia rozwiązywanie rzeczywistych zgłoszeń GitHub, osiąga wynik 58,6%, rozwiązując więcej zadań kompleksowo w jednym podejściu niż wcześniejsze modele. W Expert-SWE, naszym wewnętrznym pionierskim teście dla długoterminowych zadań programistycznych, w przypadku których mediana szacowanego czasu wykonania przez człowieka wynosi 20 godzin, GPT‑5.5 również przewyższa GPT‑5.4.
We wszystkich trzech testach GPT‑5.5 uzyskuje lepsze wyniki niż GPT‑5.4, zużywając mniej tokenów.
Mocne strony modelu w kodowaniu są szczególnie wyraźnie widoczne w Codex, gdzie może on podejmować się prac inżynieryjnych obejmujących wszystkie zadanie – od implementacji i refaktoryzacji po debugowanie, testowanie i walidację. Wstępne testy wskazują, że GPT‑5.5 lepiej radzi sobie z zachowaniami, od których zależy rzeczywista praca inżynieryjna, takimi jak utrzymywanie kontekstu w dużych systemach, rozumowanie przez niejednoznaczne awarie, sprawdzanie założeń za pomocą narzędzi oraz przenoszenie zmian na otaczającą bazę kodu.
Wyrenderowana trajektoria wykorzystuje dane wektorowe NASA/JPL Horizons dla Oriona, Księżyca i Słońca, z zastosowanym skalowaniem wyświetlania dla lepszej czytelności.
Polecenie: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.
Poza wynikami benchmarków pierwsi testerzy stwierdzili, że GPT‑5.5 wykazuje większą zdolność rozumienia struktury systemu: dlaczego coś nie działa, gdzie należy wprowadzić poprawkę i na co jeszcze w kodzie źródłowym miałoby to wpływ.

„Pierwszy model do programowania, z którego korzystałem, który cechuje się naprawdę dużą klarownością koncepcyjną”.
Dan Shipper, założyciel i dyrektor generalny firmy Every, określił GPT‑5.5 jako „pierwszy model do kodowania, z którego korzystałem, który cechuje się naprawdę dużą klarownością koncepcyjną”.
Po uruchomieniu aplikacji spędził kilka dni na rozwiązywaniu problemu, zanim zaangażował jednego ze swoich najlepszych inżynierów, aby przepisał część systemu. Aby przetestować GPT‑5.5, cofnął się niejako w czasie: czy model mógł spojrzeć na stan po awarii i zaproponować ten sam rodzaj przeróbki, na którą inżynier ostatecznie się zdecydował? GPT‑5.4 nie poradził sobie. GPT‑5.5 już tak.

„Naprawdę mam wrażenie, że pracuję z inteligencją wyższego rzędu i nawet czuję do niej pewnego rodzaju szacunek”,
Pietro Schirano, dyrektor generalny MagicPath, zaobserwował podobny skok jakościowy, gdy GPT‑5.5 scalił gałąź zawierającą setki zmian w interfejsie i zmian refaktoryzacyjnych z główną gałęzią, która również uległa znacznym zmianom. Rozwiązanie wymagało jednej operacji trwającej około 20 minut.
Starsi inżynierowie, którzy testowali model, stwierdzili, że GPT‑5.5 wyraźnie przewyższał GPT‑5.4 i Claude Opus 4.7 pod względem rozumowania i autonomii, wykrywając problemy z wyprzedzeniem oraz przewidując potrzeby w zakresie testów i weryfikacji bez wyraźnych poleceń. W jednym przypadku inżynier poprosił model o przebudowanie architektury systemu komentarzy w edytorze Markdown do współpracy, a po powrocie zastał stos 12 zestawów zmian, który był niemal gotowy. Inni twierdzili, że potrzebowali zaskakująco niewiele poprawek we wdrożeniu i mieli większe zaufanie do planów GPT‑5.5 niż w przypadku GPT‑5.4.
Jak ujął to inżynier z firmy NVIDIA, który miał wczesny dostęp do modelu, „utrata dostępu do GPT‑5.5 jest jak amputacja kończyny”.
„GPT-5.5 jest wyraźnie inteligentniejszy i bardziej wytrwały niż GPT-5.4. Cechuje się też lepszą wydajnością kodowania i bardziej niezawodnym korzystaniem z narzędzi. Dłużej skupia się na zadaniu i przedwcześnie nie przerywa pracy, co ma największe znaczenie w przypadku złożonych, długotrwałych zadań, które nasi użytkownicy delegują do Cursor”,
Te same zalety, dzięki którym GPT‑5.5 świetnie radzi sobie z kodowaniem, sprawiają również, że jest potężnym narzędziem do codziennej pracy na komputerze. Model lepiej rozumie intencje, więc może w bardziej naturalny sposób realizować pełny cykl pracy z wiedzą: wyszukiwanie informacji, rozumienie tego, co istotne, korzystanie z narzędzi, sprawdzanie wyników i przekształcanie surowych materiałów w użyteczne wyniki.
W Codex model GPT‑5.5 lepiej radzi sobie niż GPT‑5.4 z generowaniem dokumentów, arkuszy kalkulacyjnych i prezentacji slajdów. Testerzy wersji alfa stwierdzili, że przewyższał wcześniejsze modele w zadaniach takich jak badania operacyjne, modelowanie arkuszy kalkulacyjnych oraz przekształcanie nieuporządkowanych danych biznesowych w plany. W połączeniu z umiejętnościami obsługi komputera przez Codex model GPT‑5.5 przybliża nas do stwierdzenia, że model może faktycznie korzystać z komputera razem z użytkownikiem: widzieć, co jest na ekranie, klikać, pisać, poruszać się po interfejsach i sprawnie przechodzić między narzędziami.
Zespoły w OpenAI już wykorzystują te mocne strony w rzeczywistych procesach pracy. Dziś ponad 85% firmy korzysta z Codex co tydzień w różnych obszarach, w tym w inżynierii oprogramowania, finansach, komunikacji, marketingu, analizie danych i zarządzaniu produktem. W dziale komunikacji zespół wykorzystał GPT‑5.5 w Codex do analizy danych z sześciu miesięcy dotyczących próśb o wystąpienia, zbudowania systemu oceny i ram ryzyka oraz zweryfikowania zautomatyzowanego agenta Slack, tak aby zgłoszenia o niskim ryzyku mogły być obsługiwane automatycznie, podczas gdy zgłoszenia o wyższym ryzyku nadal trafiały do weryfikacji przez człowieka. W dziale finansów zespół używał Codex do weryfikacji 24 771 formularzy podatkowych K-1 obejmujących łącznie 71 637 stron, w ramach procesu, który wykluczał dane osobowe i pomógł zespołowi skrócić realizację tego zadania o dwa tygodnie w porównaniu z poprzednim rokiem. W zespole strategii wprowadzenia na rynek pracownik zautomatyzował generowanie cotygodniowych raportów biznesowych, oszczędzając 5-10 godzin pracy tygodniowo.
W ChatGPT model GPT‑5.5 Thinking zapewnia szybszą pomoc w rozwiązywaniu trudniejszych problemów dzięki inteligentniejszym i bardziej zwięzłym odpowiedziom, które pomagają sprawniej realizować złożone zadania. Świetnie nadaje się on do zadań profesjonalnych, takich jak programowanie, badania, synteza informacji i analiza oraz zadania opierające się w dużej mierze na dokumentach, zwłaszcza przy korzystaniu z wtyczek.
W przypadku modelu GPT‑5.5 Pro pierwsi testerzy obserwują znaczący wzrost zarówno poziomu złożoności, jak i jakości pracy, jakiej może podejmować się ChatGPT, a także odnotowują krótsze opóźnienia, dzięki którym znacznie lepiej sprawdza się on w wymagających zadaniach. W porównaniu z GPT‑5.4 Pro testerzy uznali, że odpowiedzi GPT‑5.5 Pro są znacznie bardziej kompleksowe, uporządkowane, trafne i użyteczne, a model szczególnie dobrze radzi sobie w zagadnieniach z dziedziny biznesu, prawa, edukacji i analizy danych.
GPT‑5.5 osiąga najlepsze wyniki w wielu testach porównawczych odzwierciedlających tego rodzaju pracę. W naszym teście GDPval, który sprawdza zdolności agentów do wykonywania dobrze zdefiniowanych zadań związanych z wiedzą w 44 zawodach, GPT‑5.5 uzyskuje wynik 84,9%. W teście OSWorld-Verified, który mierzy, czy model potrafi samodzielnie obsługiwać rzeczywiste środowiska komputerowe, osiąga on wynik 78,7%. A w Tau2-bench Telecom, który testuje złożone przepływy pracy w zakresie obsługi klienta, osiąga wynik 98,0% bez dostrajania polecenia. GPT‑5.5 osiąga również bardzo dobre wyniki w innych testach porównawczych dotyczących pracy umysłowej: 60,0% w FinanceAgent, 88,5% w wewnętrznych zadaniach modelowania w bankowości inwestycyjnej oraz 54,1% w OfficeQA Pro.
Tau2-bench Telecom uruchomiono bez dostrajania polecenia (a jako model użytkownika wykorzystano GPT‑4.1). GPT‑5.5 lepiej rozumie podwaliny zadania i wydajniej wykorzystuje tokeny niż poprzednie modele.
„GPT-5.5 zapewnia stabilną wydajność wymaganą podczas realizacji intensywnych zadań. Stworzony z myślą o systemach NVIDIA GB200 NVL72, na których jest udostępniany, model umożliwia naszym zespołom wdrażanie kompleksowych funkcje na podstawie poleceń w języku naturalnym, skrócenie czasu debugowania z wielu dni do kilku godzin oraz realizowanie długotrwałych eksperymentów i uzyskiwanie wyników z dnia na dzień przy korzystaniu ze złożonych baz kodu. Rozwiązanie to zapewnia znacznie więcej niż szybsze kodowanie – to nowy sposób pracy, który pomaga ludziom działać w zasadniczo innym tempie”,
GPT‑5.5 wykazuje również postępy w naukowych i technicznych przepływach pracy badawczej, które wymagają większego nakładu pracy niż tylko udzielania odpowiedzi na trudne pytanie. Naukowcy muszą zgłębiać pomysły, gromadzić dowody, testować założenia, interpretować wyniki i decydować o testowaniu kolejnych hipotez. GPT‑5.5 lepiej radzi sobie z utrzymywaniem ciągłości działania w tej pętli niż inne modele.
Co istotne, GPT‑5.5 wykazuje wyraźną poprawę względem GPT‑5.4 w teście GeneBench(otwiera nowe okno) będącym nowym zestawem ewaluacyjnym koncentrującym się na wieloetapowej analizie danych naukowych z zakresu genetyki i biologii ilościowej. Problemy tego typu wymagają od modeli analizowania potencjalnie niejednoznacznych lub obarczonych błędami danych przy minimalnym wsparciu nadzorczym, radzenia sobie z realistycznymi problemami, takimi jak ukryte czynniki zakłócające lub kontrole jakości zakończone niepowodzeniem, oraz prawidłowego wdrażania i interpretowania nowoczesnych metod statystycznych. Wyniki modelu robią tym większe wrażenie, że te zadania często odpowiadają wielodniowym projektom realizowanym przez ekspertów naukowych.
Podobnie w teście porównawczym BixBench(otwiera nowe okno), opracowanym z myślą o rzeczywistych zastosowaniach w bioinformatyce i analizie danych, GPT‑5.5 osiągnął najlepszy wynik wśród modeli z opublikowanymi wynikami. Możliwości naukowe modelu są teraz na tyle zaawansowane, że może on w istotny sposób przyspieszać postępy w pionierskich obszarach badań biomedycznych jako pełnoprawny partner naukowy.
W innym przykładzie wewnętrzna wersja GPT‑5.5 z niestandardowym środowiskiem testowym pomogła odkryć nowy dowód(otwiera nowe okno) dotyczący liczb Ramseya, jednego z centralnych obiektów badań w kombinatoryce. Kombinatoryka bada, w jaki sposób obiekty dyskretne łączą się ze sobą: grafy, sieci, zbiory i wzorce. Liczby Ramseya mówią w przybliżeniu o tym, jak duża musi być sieć, zanim pojawi się w niej pewien rodzaj uporządkowania. Wyniki w tym obszarze są rzadkie i często trudne do uzyskania pod względem technicznym. Tutaj GPT‑5.5 znalazł dowód od dawna znanego faktu asymptotycznego dotyczącego pozaprzekątniowych liczb Ramseya, który później zweryfikowano w Lean. Wynik ten stanowi konkretny przykład tego, że GPT‑5.5 wnosi wkład nie tylko w postaci kodu czy wyjaśnień, lecz także zaskakującego i użytecznego argumentu matematycznego w podstawowym obszarze badań.
Pierwsi testerzy korzystali z GPT‑5.5 Pro w ChatGPT bardziej jako z partnera badawczego niż z mechanizmu generowania odpowiedzi z jednym przykładem: recenzując rękopisy w wielu podejściach, poddając techniczne argumenty rygorystycznej próbie, proponując analizy oraz pracując z kodem, notatkami i kontekstem z plików PDF. Wspólnym mianownikiem jest to, że GPT‑5.5 lepiej pomaga badaczom przechodzić od pytania przez eksperyment do wyników.
Derya Unutmaz, profesor immunologii i badacz w Jackson Laboratory for Genomic Medicine, wykorzystał GPT‑5.5 Pro do przeanalizowania zbioru danych dotyczących ekspresji genów obejmującego 62 próbki i niemal 28 000 genów, tworząc szczegółowy raport badawczy, który nie tylko podsumowywał wyniki, ale także wskazywał kluczowe pytania i wnioski — praca ta, jak stwierdził, zajęłaby jego zespołowi wiele miesięcy.
Bartosz Naskręcki, adiunkt matematyki na Uniwersytecie im. Adama Mickiewicza w Poznaniu, użył GPT‑5.5 w Codex do stworzenia aplikacji do geometrii algebraicznej. Wykorzystał do tego jedno polecenie, a operacja trwała 11 minut. Utworzona aplikacja wizualizuje przecięcie powierzchni kwadratowych i przekształca otrzymaną krzywą na model Weierstrassa.
Później rozbudował aplikację o bardziej stabilną wizualizację osobliwości oraz dokładne współczynniki, które można ponownie wykorzystać w dalszych pracach. Dla niego większa zmiana polega na tym, że Codex może teraz pomagać we wdrażaniu niestandardowych procesów pracy związanych z wizualizacją matematyczną i algebrą komputerową, które wcześniej wymagały wyspecjalizowanych narzędzi. Te przykłady pokazują, jak GPT‑5.5 przekształca zamierzenia ekspertów w działające narzędzia badawcze i analizy.

Źródło: Bartosz Naskręcki(otwiera nowe okno)
Polecenie: # Algebraic geometry surface intersection
Make an app which draws two quadratic surfaces and colors in red the intersection curve. Use computational Riemann-Roch theorem to convert this into Weierstrass curve.
## Main window
Two tinted surfaces with a slightly transparent shading, high quality rendering intersect along a red colored algebraic curve
Rotation with mouses in both directions, full pinch mechanism for zoom, haptic press to show the little menu with sliders for changing the coefficients of each surface; detection via Z-buffor level
## Side right window
Short Weierstrass equation (over Q or quadratic field extension) computed on the go via effective Riemann-Roch theorem formulas
## Ambient mode where all the controls are hidden and the user can admire the beauty of the shapes
## Specs
App is running in the browser, light-weight implementation with full stack newest libraries, portable, deployable
## Docs
Git repo, journal, plan (Markdown files)
„To niezwykle ekscytujące, kiedy możemy korzystać z nowego modelu GPT-5.5 od OpenAI w naszym środowisku testowym, analizować za jego pomocą ogromne biochemiczne zbiory danych, aby przewidywać działanie leków u ludzi, a następnie widzimy, jak zapewnia on znaczną poprawę dokładności w naszych najtrudniejszych ewaluacjach dotyczących odkrywania leków. Jeśli OpenAI nadal będzie działać w takim tempie, podstawy odkrywania leków ulegną zmianie do końca roku”,
Udostępnianie GPT‑5.5 przy opóźnieniu GPT‑5.4 wymagało przemyślenia inferencji jako zintegrowanego systemu, a nie zbioru odizolowanych optymalizacji. GPT‑5.5 powstał z myślą o systemach NVIDIA GB200 i GB300 NVL72, na których był trenowany i na których jest udostępniany. Codex i GPT‑5.5 odegrały kluczową rolę w osiągnięciu naszych celów wydajnościowych. Codex pomógł zespołowi szybciej przechodzić od pomysłu do implementacji, którą można było poddać testom, szkicując podejścia, łącząc elementy eksperymentów i pomagając określić, które optymalizacje były warte dalszego zgłębiania. GPT‑5.5 pomógł zidentyfikować i wdrożyć kluczowe usprawnienia w samym stosie. Mówiąc prościej, model pomógł usprawnić infrastrukturę, która go obsługuje.
Jednym z takich usprawnień było równoważenie obciążenia i heurystyki partycjonowania. Przed GPT‑5.5 dzieliliśmy żądania na akceleratorze na stałą liczbę fragmentów, aby równomiernie rozłożyć obciążenie między rdzenie obliczeniowe, dzięki czemu duże i małe żądania mogły być wykonywane na tym samym GPU. Jednak z góry określona liczba statycznych fragmentów nie jest optymalna dla wszystkich charakterystyk ruchu. Aby lepiej wykorzystać procesory graficzne, Codex przeanalizował wzorce ruchu produkcyjnego z wielu tygodni i opracował niestandardowe algorytmy heurystyczne, aby optymalnie podzielić i zrównoważyć obciążenie. Wysiłek ten miał nieproporcjonalnie duży wpływ, zwiększając szybkość generowania tokenów o ponad 20%.
Przygotowanie świata na modele, które bardzo dobrze radzą sobie z wykrywaniem i usuwaniem luk w zabezpieczeniach, jest wysiłkiem zespołowym i będzie wymagać od całego ekosystemu intensywnej pracy nad budowaniem odporności, przy demokratycznym dostępie do modeli i wdrażaniu iteracyjnym na potrzeby kolejnej ery cyberobrony.
Modele pionierskie stają się coraz bardziej kompetentne w dziedzinie cyberbezpieczeństwa. Funkcje te staną się szeroko dostępne i uważamy, że najlepszym kolejnym krokiem jest dopilnowanie, aby można je było wykorzystać do przyspieszenia rozwoju ochrony cybernetycznej i wzmacniania ekosystemu.
GPT‑5.5 to kolejny, ale ważny krok w kierunku sztucznej inteligencji, która może pomóc rozwiązywać niektóre z najtrudniejszych wyzwań na świecie, takich jak cyberbezpieczeństwo. W grudniu, wraz z premierą modelu GPT‑5.2, wdrożyliśmy niezbędne zabezpieczenia cybernetyczne, aby ograniczyć potencjalne nadużycia cybernetyczne związane z naszymi modelami; teraz, w wersji GPT‑5.5 wdrażamy bardziej rygorystyczne klasyfikatory pod kątem potencjalnego ryzyka cybernetycznego, co początkowo może być dla niektórych użytkowników uciążliwe, ponieważ stopniowo będziemy je dostrajać.
Od lat uznajemy cyberbezpieczeństwo za jedną z istotnych kategorii w naszych Ramach gotowości(otwiera nowe okno), ponieważ nasze modele były stopniowo doskonalone, a my iteracyjnie opracowujemy i kalibrujemy środki zaradcze, aby móc odpowiedzialnie udostępniać modele o znacznych możliwościach w zakresie cyberbezpieczeństwa.
- Wdrażamy czołowe w branży zabezpieczenia dla tego poziomu możliwości cybernetycznych. Po raz pierwszy wprowadziliśmy zabezpieczenia specyficzne dla cyberbezpieczeństwa w zeszłym roku w modelu GPT‑5.2(otwiera nowe okno), a teraz nadal je testujemy, udoskonalamy i rozwijamy w kolejnych wdrożeniach. W przypadku GPT‑5.5 zaprojektowaliśmy bardziej rygorystyczne mechanizmy kontroli dotyczące działań o podwyższonym ryzyku i wrażliwych żądań związanych z cyberbezpieczeństwem, a także dodatkowe zabezpieczenia przed powtarzającymi się nadużyciami. Szeroki dostęp jest możliwy dzięki naszym inwestycjom w bezpieczeństwo modelu, uwierzytelnione korzystanie oraz monitorowanie niedozwolonego użycia. Od wielu miesięcy współpracujemy z zewnętrznymi ekspertami, aby opracowywać, testować i udoskonalać odporność tych zabezpieczeń. Dzięki GPT‑5.5 dbamy o to, aby programiści mogli łatwo zabezpieczać swój kod, a jednocześnie wprowadzamy bardziej rygorystyczne mechanizmy kontroli wobec procesów cybernetycznych, które z największym prawdopodobieństwem mogą zostać wykorzystane przez osoby o złych zamiarach do wyrządzenia szkód.
- Rozszerzamy dostęp do modelu, aby przyspieszyć obronę cybernetyczną na każdym poziomie. Udostępniamy nasze modele cyber-permissive za pośrednictwem Trusted Access for Cyber, zaczynając od Codex, który zapewnia rozszerzony dostęp do zaawansowanych możliwości GPT‑5.5 w zakresie cyberbezpieczeństwa z mniejszą liczbą ograniczeń dla zweryfikowanych użytkowników spełniających określone sygnały zaufania(otwiera nowe okno) w momencie uruchomienia. Organizacje odpowiedzialne za obronę infrastruktury krytycznej mogą ubiegać się o dostęp do modeli cyber-permissive, takich jak GPT‑5.4‑Cyber, spełniając rygorystyczne wymogi bezpieczeństwa, aby wykorzystywać te modele do zabezpieczania swoich systemów wewnętrznych. Dzięki temu szerokie grono zweryfikowanych obrońców otrzyma bardziej zaawansowane narzędzia do uzasadnionych działań związanych z bezpieczeństwem, przy mniejszej liczbie zbędnych przeszkód, aby zapewnić demokratyzację dostępu do ważnych zdolności obronnych. Użytkownicy mogą ubiegać się o zaufany dostęp na stronie chatgpt.com/cyber(otwiera nowe okno), aby ograniczyć niepotrzebne odmowy podczas korzystania z GPT‑5.5 do zweryfikowanych działań obronnych.
- Współpracujemy z partnerami z administracji publicznej, aby chronić infrastrukturę krytyczną z myślą o społeczeństwie. Wspólnie badamy, w jaki sposób zaawansowana AI może wspierać działania obronne zaufanych urzędników odpowiedzialnych za istotne systemy – od systemów cyfrowych zabezpieczających ważne dane podatników po sieć energetyczną i dostawy wody.
Traktujemy zdolności biologiczne/chemiczne i z zakresu cyberbezpieczeństwa modelu GPT‑5.5 jako wysokie w ramach naszych Ram gotowości(otwiera nowe okno). Chociaż GPT‑5.5 nie osiągnął krytycznego poziomu zdolności w zakresie cyberbezpieczeństwa, nasze oceny i testy wykazały, że jego możliwości w tym zakresie stanowią krok naprzód w porównaniu z GPT‑5.4.
Ponadto GPT‑5.5 przeszedł pełny proces dotyczący bezpieczeństwa i nadzoru przed udostępnieniem, obejmujący oceny w obszarze Ram gotowości, testy specyficzne dla poszczególnych dziedzin, nowe ukierunkowane oceny zaawansowanych możliwości w dziedzinie biologii i cyberbezpieczeństwa oraz gruntowne testy z udziałem zewnętrznych ekspertów. Więcej szczegółów przedstawiamy w karcie systemu(otwiera nowe okno) GPT‑5.5.
Niniejsza praca odzwierciedla nasze szersze podejście do odporności AI, które naszym zdaniem jest niezbędne w miarę tego jak rozwijają się możliwości modeli. Chcemy, aby potężna sztuczna inteligencja była dostępna dla osób, które z niej korzystają do obrony systemów, instytucji i społeczeństwa. Właściwa droga to zaufany dostęp, solidne zabezpieczenia, które rosną wraz z możliwościami, oraz zdolność operacyjna do wykrywania poważnych nadużyć i reagowania na nie.
Od dzisiaj GPT‑5.5 jest dostępny dla użytkowników korzystających z planów Plus, Pro, Business i Enterprise w ChatGPT i Codex, a GPT‑5.5 Pro jest udostępniany użytkownikom korzystającym z planów Pro, Business i Enterprise w ChatGPT. Już wkrótce GPT‑5.5 i GPT‑5.5 Pro dodamy do API.
W ChatGPT GPT‑5.5 Thinking jest dostępny dla użytkowników Plus, Pro, Business i Enterprise. GPT‑5.5 Pro, zaprojektowany z myślą o jeszcze trudniejszych pytaniach i pracy wymagającej większej dokładności, jest dostępny dla użytkowników planów Pro, Business i Enterprise.
W Codex GPT‑5.5 jest dostępny w planach Plus, Pro, Business, Enterprise, Edu i Go z oknem kontekstowym 400K. GPT‑5.5 jest również dostępny w trybie Fast, generując tokeny 1,5x szybciej przy 2,5x wyższym koszcie.
Dla programistów API model gpt-5.5 będzie wkrótce dostępny w interfejsach API Responses i API Chat Completions w cenie 5 USD za 1 mln tokenów wejściowych i 30 USD za 1 mln tokenów wyjściowych, z oknem kontekstu 1 mln. Ceny Batch i Flex stanowią połowę standardowej stawki interfejsu API, natomiast przetwarzanie priorytetowe jest dostępne w cenie 2,5-krotności standardowej stawki. Udostępnimy również model gpt-5.5-pro w API, aby zapewnić jeszcze wyższą dokładność; cena wynosi 30 USD za 1 mln tokenów wejściowych i 180 USD za 1 mln tokenów wyjściowych. Zobacz stronę cennika, aby uzyskać pełne informacje.
Chociaż GPT‑5.5 jest droższy niż GPT‑5.4, jest też bardziej inteligentny, jak i znacznie wydajniej wykorzystuje tokeny. W Codex starannie dopracowaliśmy sposób działania usługi, aby GPT‑5.5 zapewniał lepsze wyniki przy użyciu mniejszej liczby tokenów niż GPT‑5.4 dla większości użytkowników, a jednocześnie nadal oferował hojne limity użytkowania na wszystkich poziomach subskrypcji.
Kodowanie
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
SWE-Bench Pro (Public) * | 58,6% | 57,7% | - | - | 64,3% | 54,2% |
Terminal-Bench 2.0 | 82,7% | 75,1% | - | - | 69,4% | 68,5% |
Expert-SWE (Internal) | 73,1% | 68,5% | - | - | - | - |
*Laboratoria odnotowały oznaki zapamiętania(otwiera nowe okno) w tej ocenie
Profesjonalne
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GDPval (wygrane lub remisy) | 84,9% | 83,0% | 82.3% | 82,0% | 80,3% | 67,3% |
FinanceAgent v1.1 | 60,0% | 56,0% | - | 61,5% | 64,4% | 59,7% |
Zadania modelowania w bankowości inwestycyjnej (wewnętrzne) | 88,5% | 87,3% | 88,6% | 83,6% | - | - |
OfficeQA Pro | 54,1% | 53,2% | - | - | 43,6% | 18,1% |
Użytkowanie komputera i funkcje wizualne
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
OSWorld-Verified | 78,7% | 75,0% | - | - | 78,0% | - |
MMMU Pro (bez narzędzi) | 81,2% | 81,2% | - | - | - | 80,5% |
MMMU Pro (z narzędziami) | 83,2% | 82,1% | - | - | - | - |
Użycie narzędzi
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
BrowseComp | 84,4% | 82,7% | 90,1% | 89,3% | 79,3% | 85,9% |
MCP Atlas** | 75,3% | 70,6% | - | - | 79.1% | 78,2% |
Toolathlon | 55,6% | 54,6% | - | - | - | 48,8% |
Tau2-bench Telecom*** | 98,0% | 92,8% | - | - | - | - |
** MCP Atlas: wyniki od Scale AI po najnowszej kwietniowej aktualizacji z 2026 r.
*** Tau2-bench Telecom: wyniki dla wersji 5.5 i 5.4 z oryginalnym poleceniem, tj. bez dostosowania. Pomijane są wyniki z innych laboratoriów, które zostały ocenione z modyfikacjami polecenia.
Akademickie
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
GeneBench | 25,0% | 19,0% | 33,2% | 25,6% | - | - |
FrontierMath poziom 1–3 | 51,7% | 47,6% | 52,4% | 50,0% | 43,8% | 36,9% |
FrontierMath poziom 4 | 35,4% | 27,1% | 39,6% | 38,0% | 22,9% | 16,7% |
BixBench | 80,5% | 74,0% | - | - | - | - |
GPQA Diamond | 93,6% | 92,8% | - | 94,4% | 94,2% | 94,3% |
Humanity's Last Exam (bez narzędzi) | 41,4% | 39,8% | 43,1% | 42,7% | 46,9% | 44,4% |
Humanity's Last Exam (z narzędziami) | 52,2% | 52,1% | 57,2% | 58,7% | 54,7% | 51,4% |
Cyberbezpieczeństwo
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Zadania typu Capture–the–Flag (wewnętrzne)**** | 88,1% | 83,7% | - | - | - | - |
CyberGym | 81,8% | 79,0% | - | - | 73,1% | - |
**** Rozszerzenie najtrudniejszych zadań CTF używanych w kartach systemu z dodatkowymi trudnymi zadaniami.
Długi kontekst
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
Graphwalks BFS 256k f1 | 73,7% | 62,5% | - | - | 76,9% | - |
Graphwalks BFS 1 mln f1 | 45,4% | 9,4% | - | - | 41,2% (Opus 4.6) | - |
Graphwalks parents 256 000 f1 | 90,1% | 82,8% | - | - | 93,6% | - |
Graphwalks parents 1mil f1 | 58,5% | 44,4% | - | - | 72.0% (Opus 4.6) | - |
OpenAI MRCR v2 8-needle 4K-8K | 98,1% | 97,3% | - | - | - | - |
OpenAI MRCR v2 8-needle 8K-16K | 93,0% | 91,4% | - | - | - | - |
OpenAI MRCR v2 8-needle 16K-32K | 96,5% | 97,2% | - | - | - | - |
OpenAI MRCR v2 8-needle 32K-64K | 90,0% | 90,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 64K-128K | 83,1% | 86,0% | - | - | - | - |
OpenAI MRCR v2 8-needle 128K-256K | 87,5% | 79,3% | - | - | 59,2% | - |
OpenAI MRCR v2 8-needle 256K-512K | 81,5% | 57,5% | - | - | - | - |
OpenAI MRCR v2 8-needle 512K-1M | 74,0% | 36,6% | - | - | 32,2% | - |
Myślenie abstrakcyjne
Ocena | GPT‑5.5 | GPT‑5.4 | GPT‑5.5 Pro | GPT‑5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
ARC-AGI-1 (zweryfikowany) | 95,0% | 93,7% | - | 94,5% | 93,5% | 98,0% |
ARC-AGI-2 (zweryfikowany) | 85,0% | 73,3% | - | 83,3% | 75,8% | 77,1% |
Oceny GPT uruchomiono z poziomem rozumowania ustawionym na xhigh i przeprowadzono w środowisku badawczym, co w niektórych przypadkach może dawać nieco inne wyniki niż wersja produkcyjna ChatGPT.








