Przejdź do treści głównej
OpenAI

11 grudnia 2025

ProduktWersja

Przedstawiamy model GPT‑5.2

Najbardziej zaawansowany model pionierski do pracy profesjonalnej i obsługi agentów działających przez długi czas.

Ładowanie…

Przedstawiamy GPT‑5.2 — naszą najbardziej zaawansowaną serię modeli przeznaczoną do zastosowań profesjonalnych.

Już teraz użytkownicy ChatGPT Enterprise twierdzią, że średnio AI oszczędza im 40–60 minut dziennie, a użytkownicy intensywnie korzystający ze sztucznej inteligencji mówią, że oszczędzają nawet 10 godzin tygodniowo. Zaprojektowaliśmy GPT‑5.2, aby zapewnić jeszcze większe korzyści. Model ten lepiej tworzy arkusze kalkulacyjne, prezentacje, kod programistyczny, wydajniej rozpoznaje obrazy, obsługuje długie konteksty, korzysta z narzędzi i przetwarza złożone, wieloetapowe projekty.

GPT‑5.2 ustanawia nowy standard w wielu testach porównawczych, w tym w GDPval, gdzie w 44 zawodach przewyższa specjalistów branżowych w precyzyjnie opisanych zadaniach związanych z wiedzą.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (wygrane lub remisy)
Zadania związane z pracą opartą na wiedzy

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (public)
Inżynieria oprogramowania

55,6%

50,8%

SWE-bench Verified
Inżynieria oprogramowania

80,0%

76,3%

GPQA Diamond (bez narzędzi)
Pytania naukowe

92,4%

88,1%

Rozumowanie CharXiv (z Python)
Pytania dotyczące wykresów naukowych

88,7%

80,3%

HMMT (luty 2025)
Turniej matematyczny

99,4%

96,3%

FrontierMath (Poziom 1–3)
Zaawansowana matematyka

40,3%

31,0%

ARC-AGI-1 (Verified)
Abstrakcyjne rozumowanie

86,2%

72,8%

ARC-AGI-2 (Verified)
Abstrakcyjne rozumowanie

52,9%

17,6%

Firmy Notion(otwiera nowe okno), Box(otwiera nowe okno), Shopify(otwiera nowe okno), Harvey(otwiera nowe okno) i Zoom(otwiera nowe okno) zauważyły, że GPT‑5.2 wykazuje największe możliwości w zakresie długotrwałego rozumowania i korzystania z narzędzi. Databricks,(otwiera nowe okno) Hex(otwiera nowe okno) i Triple Whale(otwiera nowe okno) uznali, że GPT‑5.2 jest wyjątkowy w zadaniach z zakresu opracowywania danych z użyciem agentów oraz analizy dokumentów. Cognition(otwiera nowe okno), Warp(otwiera nowe okno), Charlie Labs(otwiera nowe okno), JetBrains(otwiera nowe okno) i Augment Code(otwiera nowe okno) twierdzą, że GPT‑5.2 oferuje najlepszą wydajność w programowaniu z wykorzystaniem agentów i zapewnia mierzalne usprawnienia w takich obszarach jak interaktywne kodowanie, przeglądy kodu i wykrywanie błędów.

W ChatGPT model GPT‑5.2 Instant, Thinking i Pro będą udostępniane od dzisiaj, począwszy od płatnych planów. W interfejsie API są teraz dostępne dla wszystkich programistów.

W modelu GPT‑5.2 wprowadzamy znaczące ulepszenia w zakresie ogólnej inteligencji, rozumienia długiego kontekstu, wywoływania narzędzi z użyciem agentów i samej wizji — co sprawia, że lepiej niż jakikolwiek wcześniejszy model radzi on sobie z całościową realizacją złożonych, rzeczywistych zadań.

Wydajność modelu

Zadania cenne z perspektywy zysków

GPT‑5.2 Thinking to nasz najlepszy model do realizacji rzeczywistych, profesjonalnych zastosowań. W naszym teście GDPval mierzącym dobrze zdefiniowane zadania związane z wiedzą w obrębie 44 zawodów GPT‑5.2 Thinking jako nasz pierwszy model uzyskał wyniki na poziomie eksperta lub wyższe. Według ocen ekspertów GPT‑5.2 Thinking dorównuje czołowym specjalistom branżowym, lub ich przewyższa, w 70,9% zadań GDPval związanych z pracą opartą na wiedzy, według naszych sędziów. Zadania te obejmują tworzenie prezentacji, arkuszy kalkulacyjnych i innych materiałów. GPT‑5.2 Thinking generował wyniki w zadaniach GDPval z prędkością ponad 11 razy większą przy koszcie poniżej 1% w porównaniu z ekspertami, co sugeruje, że w połączeniu z nadzorem ludzkim, GPT‑5.2 może wspierać pracę zawodową. Prędkość i szacunki kosztów opierają się na historycznych danych; prędkość w ChatGPT może się różnić.

W teście GDPval modele wykonują precyzyjnie opisane zadanie związane z wiedzą w obszarze 44 zawodów z 9 czołowych branż przyczyniających się do PKB USA. Zadania wymagają opracowania rzeczywistych wyników, takich jak prezentacje sprzedażowe, arkusze kalkulacyjne, harmonogramy opieki doraźnej, schematy produkcyjne lub krótkie filmy. W ChatGPT model GPT‑5.2 Thinking otrzymał nowe narzędzia, którymi nie dysponował w wersji GPT‑5 Thinking.

Podczas weryfikacji pewnego szczególnie dobrego wyniku jeden z sędziów GDPval stwierdził: „To niesamowity i zauważalny skok w jakości otrzymywanych rezultatów… [wydaje się], że działanie to zostało wykonane przez profesjonalną firmę przy współpracy całego zespołu, a układ i porady dotyczące obu produktów są zaskakująco dobrze zaprojektowane, choć w jednym nadal należy poprawić drobne błędy”.

Ponadto w naszym wewnętrznym teście porównawczym dotyczącym modelowania arkuszy kalkulacyjnych na poziomie młodszych analityków bankowości inwestycyjnej, który obejmuje na przykład stworzenie modelu trzech sprawozdań finansowych dla firmy z listy Fortune 500 z odpowiednim formatowaniem i cytowaniami oraz budowę modelu wykupu lewarowanego na potrzeby wycofania spółki z giełdy, GPT‑5.2 Thinking uzyskał średni wynik o 9,3% lepszy niż GPT‑5.1: wzrost z 59,1% do 68,4%.

Porównania równoległe pokazują poprawę wyrafinowania i formatowania w arkuszach kalkulacyjnych i slajdach generowanych przez GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Polecenie: Utwórz model planowania zasobów ludzkich: liczba etatów, plan zatrudnienia, rotacja i wpływ na budżet. Uwzględnij działy inżynierii, marketingu, prawnego i sprzedaży.

Aby korzystać z nowych funkcji arkusza kalkulacyjnego i prezentacji w ChatGPT, musisz mieć płatny plan i wybrać model GPT‑5.2 Thinking lub Pro. Skomplikowane operacje generowania mogą zająć wiele minut.

Kodowanie

GPT‑5.2 Thinking ustanowił nowy rekord na poziomie 55,6% w teście SWE-Bench Pro, który jest rygorystycznym testem rzeczywistych operacji z zakresu inżynierii oprogramowania. W przeciwieństwie do SWE-bench Verified, który bada tylko wyniki w zakresie języka Python, SWE-bench Pro testuje cztery języki i skupia się na redukcji niepotrzebnych elementów kodu, wysokich wymaganiach, zróżnicowaniu i istotności rozwiązań dla branży.

W SWE-bench Pro(otwiera nowe okno) model otrzymuje repozytorium kodu i musi wygenerować poprawkę, aby rozwiązać realistyczne zadanie z zakresu inżynierii oprogramowania.

W SWE-bench Verified (brak na wykresie) GPT‑5.2 Thinking osiągnął nowy rekordowy wynik 80%.

W codziennym użytku profesjonalnym oznacza to, że model potrafi bardziej niezawodnie debugować kod produkcyjny, wdrażać żądania funkcji, refaktoryzować duże bazy kodu i całościowo tworzyć poprawki przy mniejszej liczbie interwencji ze strony użytkownika.

GPT‑5.2 Thinking lepiej również sprawdza się w działaniach front-endowych z zakresu inżynierii oprogramowania niż GPT‑5.1 Thinking. Pierwsi testerzy uznali, że model znacznie lepiej opracowuje front-end oraz lepiej sprawdza się w złożonych lub nietypowych zadaniach dotyczących interfejsu użytkownika – zwłaszcza dotyczy to elementów 3D – co czyni go potężnym codziennym pomocnikiem dla wszystkich programistów. Oto kilka przykładów tego, co można uzyskać, wpisując tylko jedno polecenie:

Polecenie: Stwórz aplikację jednostronicową w jednym pliku HTML z następującymi wymaganiami:
- Nazwa: Symulacja fal oceanicznych
- Cel: Wyświetlanie realistycznych animowanych fal.
- Funkcje: Zmiana prędkości wiatru, wysokości fal, oświetlenia.
- Interfejs użytkownika powinien być spokojny i realistyczny.

Pierwsi testerzy podzielili się swoimi opiniami na temat możliwości kodowania oferowanych przez GPT‑5.2:

"GPT-5.2 stanowi największy skok dla modeli GPT w programowaniu agentowym od czasów GPT-5 i jest najlepszym modelem w swojej kategorii cenowej. Podniesienie wersji nie oddaje w pełni skoku w inteligencji. Cieszymy się, że możemy ustawić go jako domyślną opcję w całym Windsurf i kilku kluczowych zadaniach Devin".
Jeff Wang, dyrektor generalny, Windsurf

Faktyczność

GPT‑5.2 Thinking halucynuje mniej niż GPT‑5.1 Thinking. W zestawie zanonimizowanych zapytań do ChatGPT współczynnik odpowiedzi z błędami był o 38% niższy. Dla profesjonalistów oznacza to mniej błędów przy korzystaniu z modelu do badań, pisania, analizy i wsparcia w podejmowaniu decyzji, co czyni model bardziej niezawodnym w codziennym korzystaniu z funkcji związanych z wiedzą.

Ustawiono maksymalny dostępny poziom rozumowania, a narzędzie wyszukiwania zostało włączone. Błędy zostały wykryte przez inne modele, które same mogą popełniać błędy. Wskaźniki błędów na poziomie pojedynczych stwierdzeń są znacznie niższe niż wskaźniki błędów na poziomie całych odpowiedzi, ponieważ większość odpowiedzi zawiera wiele stwierdzeń.

Podobnie jak wszystkie modele GPT‑5.2 Thinking jest niedoskonały. W przypadku wszystkich istotnych aspektów wszelkie odpowiedzi udzielane przez model należy dokładnie weryfikować.

Długi kontekst

GPT‑5.2 Thinking ustanawia nowy standard w rozumowaniu w długich kontekstach, osiągając doskonałe wyniki w teście OpenAI MRCRv2 sprawdzającym zdolność modelu do integracji informacji rozproszonych w długich dokumentach. W rzeczywistych zadaniach, takich jak dogłębna analiza dokumentów, które wymagają powiązanych informacji w setkach tysięcy tokenów, GPT‑5.2 Thinking jest znacznie dokładniejszy od GPT‑5.1 Thinking. Jest to też pierwszy model, który osiąga niemal 100% dokładności w wariancie MRCR z 4 „igłami” (z 256 000 tokenów).

W praktyce pozwala to profesjonalistom na używanie GPT‑5.2 do pracy z długimi dokumentami, takimi jak raporty, umowy, prace naukowe, transkrypcje i projekty wieloplikowe, przy jednoczesnym zachowaniu spójności i dokładności w zakresie setek tysięcy tokenów. Dzięki temu GPT‑5.2 wyjątkowo dobrze radzi sobie podczas głębokiej analizy, syntezy oraz obsługi złożonych przepływów pracy z wieloma źródłami.

W teście OpenAI-MRCR⁠(otwiera nowe okno) v2 (wieloetapowe rozwiązywanie wzajemnych referencji) wiele identycznych zapytań użytkownika z „igłami” jest wstawianych do długich „stogów siana” obejmujących podobne zapytania i odpowiedzi, a model ma za zadanie odtworzyć odpowiedź na n-tą igłę. Wersja 2 oceny poprawia około 5% zadań, które miały niepoprawne wartości prawdziwe. Średni współczynnik dopasowania mierzy średni współczynnik dopasowania ciągu pomiędzy odpowiedzią modelu a poprawną odpowiedzią. Punkty przy maksymalnie 256 tys. tokenów wejściowych reprezentują średnie wartości dla 128-256 tys. tokenów wejściowych, i tak dalej. Tutaj 256 tys. oznacza 256 * 1,024 = 262,114 tokenów. Wybrano maksymalny dostępny poziom rozumowania.

W przypadku zadań wymagających myślenia poza maksymalnym zakresem kontekstu GPT‑5.2 Thinking współpracuje z nowym punktem końcowym /compact, który pozwala efektywnie rozszerzyć dostępny kontekst. W ten sposób GPT‑5.2 Thinking może realizować długotrwałe przepływy pracy wymagające używania wielu narzędzi, obsługa których w przeciwnym razie byłaby ograniczona przez długość kontekstu. Więcej informacji zawarliśmy w naszej dokumentacji API(otwiera nowe okno).

Wizja

GPT‑5.2 Thinking to nasz najpotężniejszy model wizualny w historii, w którym ilość błędów w zakresie rozumienia wykresów i interfejsów oprogramowania zredukowaliśmy mniej więcej o połowę.

W obszarze codziennego użytku zawodowego oznacza to, że model może dokładniej interpretować panele kontrolne, zrzuty ekranowe produktów, wykresy techniczne i raporty wizualne, wspomagając pracę działów finansów, operacji, inżynierii, projektowania i wsparcia klienta — czyli we wszystkich, gdzie informacje wizualne są kluczowe.

W teście CharXiv Reasoning(otwiera nowe okno) modele odpowiadają na pytania dotyczące wizualnych wykresów pochodzących z prac naukowych. Narzędzie Python zostało włączone, a poziom rozumowania ustawiono na maksymalny.

W teście ScreenSpot-Pro(otwiera nowe okno) modele muszą analizować zrzuty ekranu interfejsów użytkownika o wysokiej rozdzielczości z różnych środowisk profesjonalnych. Narzędzie Python zostało włączone, a poziom rozumowania ustawiono na maksymalny. Bez narzędzia Python wyniki są znacznie gorsze. Zalecamy włączenie narzędzia Python w zadaniach wizualnych, takich jak te.

W porównaniu z poprzednimi modelami, GPT‑5.2 Thinking lepiej rozumie, jak elementy są rozmieszczone w obrazie, co pomaga w zadaniach, gdzie układ względny odgrywa kluczową rolę w rozwiązaniu problemu. W poniższym przykładzie prosimy model o zidentyfikowanie komponentów na obrazie (w tym przypadku jest to płyta główna) i zwrócenie etykiet z obramowaniami wskazującymi dane komponenty. Nawet na obrazie o niskiej jakości GPT‑5.2 identyfikuje główne obszary i umieszcza ramki, które w przybliżeniu odpowiadają rzeczywistym lokalizacjom każdego komponentu, podczas gdy GPT‑5.1 oznacza tylko kilka części i wykazuje znacznie słabsze zrozumienie ich układu przestrzennego.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Wywoływanie narzędzi

GPT‑5.2 Thinking uzyskał najwyższy wynik w teście Tau2-bench Telecom wynoszący 98,7%, wykazując tym samym niezawodną umiejętność korzystania z narzędzi w długich, wieloetapowych zadaniach.

Podczas operacji wymagających szybkości działania GPT‑5.2 Thinking również pracuje wyraźnie lepiej przy ustawieniu reasoning.effort=’none’, znacznie przewyższając modele GPT‑5.1 oraz GPT‑4.1.

W teście τ2-bench⁠(otwiera nowe okno) modele używają narzędzi do realizacji zadań dotyczących obsługi klienta w ramach wieloturowej interakcji z symulowanym użytkownikiem. W dziedzinie Telecom w poleceniu systemowym dołączyliśmy krótką, ogólnie pomocną instrukcję, aby poprawić wydajność. Wykluczamy podzbiór Airline z powodu niższej jakości oceny prawdziwej wartości.

Dla profesjonalistów oznacza to sprawniej działające kompleksowe przepływy pracy – takie jak rozwiązywanie zgłoszeń do działu pomocy klienta, pobieranie danych z wielu systemów, przeprowadzanie analiz i szybsze generowanie ostatecznych wyników.

Przykładowo: po zadaniu złożonego pytania dotyczącego obsługi klienta, które wymaga wieloetapowego rozwiązania, model może skuteczniej koordynować pełny przepływ pracy między wieloma agentami. W poniższym przypadku podróżny zgłasza opóźniony lot, przegapione połączenie, nocleg w Nowym Jorku oraz wymagania dotyczące miejsc siedzących ze względów medycznych. GPT‑5.2 zarządza całym łańcuchem zadań – przebukowywaniem, miejscami dla osób wymagających specjalnej pomocy oraz rekompensatą – zapewniając bardziej kompletny wynik działań niż GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Nauka i matematyka

Jedną z naszych nadziei związanych ze sztuczną inteligencją jest to, że przyspieszy ona badania naukowe z korzyścią dla wszystkich. W tym celu współpracujemy z naukowcami, słuchamy ich sugestii i badamy, w jaki sposób AI może przyspieszyć ich pracę. W zeszłym miesiącu podzieliliśmy się wynikami pierwszych eksperymentów z naszej współpracy tutaj.

Wierzymy, że GPT‑5.2 Pro i GPT‑5.2 Thinking to najlepsze na świecie modele wspomagające pracę naukowców. W teście Diament GPQA składającym się z pytań i odpowiedzi na poziomie magisterskim „odpornym” na rozwiązanie z użyciem Google model GPT‑5.2 Pro osiągnął już wynik 93,2%, a tuż za nim plasuje się GPT‑5.2 Thinking z oceną 92,4%.

W teście GPQA Diamond(otwiera nowe okno) modele odpowiadają na pytania wielokrotnego wyboru z fizyki, chemii i biologii. Nie włączono żadnych narzędzi, a poziom rozumowania ustawiono na maksymalny.

W teście FrontierMath (poziom 1–3) badającym umiejętności matematyczne na poziomie eksperckim GPT‑5.2 Thinking ustanowił nowy standard, rozwiązując 40,3% problemów.

W teście FrontierMath(otwiera nowe okno) modele rozwiązują problemy matematyczne na poziomie eksperckim. Włączono narzędzie Python, a poziom rozumowania ustawiono na maksymalny.

Zaczynamy dostrzegać, że modele AI znacząco przyspieszają postępy w dziedzinie matematyki i nauk ścisłych w namacalny sposób. Na przykład podczas niedawnej pracy z użyciem GPT‑5.2 Pro naukowcy badali otwarte zagadnienie w teorii uczenia statystycznego. W wąskim, dobrze określonym kontekście model zaproponował dowód, który następnie został weryfikowany przez autorów i zrecenzowany przez zewnętrznych ekspertów, co pokazuje, jak modele pionierskie mogą wspierać badania matematyczne pod ścisłym nadzorem człowieka.

Test ARC-AGI 2

W teście ARC-AGI-1 (Verified) zaprojektowanym do mierzenia ogólnej zdolności rozumowania, GPT‑5.2 okazał się pierwszym modelem, który przekroczył próg 90%, poprawiając wynik 87% osiągnięty przez o3‑preview w zeszłym roku, jednocześnie zmniejszając koszt osiągnięcia tej wydajności o około 390 razy.

W teście ARC-AGI-2 (Cerified), który jest znacznie trudniejszy i wymaga większej płynności rozumowania, GPT‑5.2 Thinking osiągnął nowy rekord dla modeli łańcucha myśli, uzyskując wynik 52,9%. GPT‑5.2 Pro osiągnął jeszcze wyższy wynik, wynoszący 54,2%, co dodatkowo rozszerza zdolność rozumowania modelu w obszarze nowych, abstrakcyjnych problemów.

Coraz wyższe oceny odzwierciedlają postępy GPT‑5.2 w obszarach wieloetapowego rozumowania, dokładności ilościowej i niezawodnego rozwiązywania problemów w złożonych zadaniach technicznych.

Oto, co mówią o GPT‑5.2 nasi pierwsi testerzy:

"GPT-5.2 wywołał całkowitą zmianę architektury u nas. Zredukowaliśmy kruchy, wieloagentowy system do jednego mega-agenta z ponad 20 narzędziami. Najlepsze jest to, że to po prostu działa. Mega-agent działa szybciej, jest bardziej inteligentny i 100 razy łatwiejszy w utrzymaniu. Obserwujemy znacznie niższe opóźnienia, znacznie lepsze wywoływanie narzędzi i nie potrzebujemy już rozbudowanych poleceń systemowych, ponieważ wersja 5.2 będzie działać płynnie na podstawie prostego, jednowierszowego polecenia. To czysta magia".
AJ Orbach, dyrektor generalny, Triple Whale

GPT‑5.2 w ChatGPT

W ChatGPT użytkownicy powinni zauważyć, że model GPT‑5.2 lepiej sprawdza się w codziennym użytkowaniu – jest bardziej uporządkowany, niezawodny i nadal przyjemny w rozmowie.

GPT‑5.2 Instant to szybki, wszechstronny pomocnik do codziennej pracy i nauki, z wyraźnymi ulepszeniami w obszarze poleceń dotyczących poszukiwania informacji, instrukcji i przewodników, pisania tekstów technicznych oraz tłumaczeń, bazujący na cieplejszym, bardziej rozmownym tonie wprowadzonym w GPT‑5.1 Instant. Pierwsi testerzy zdecydowanie chwalili bardziej przejrzyste wyjaśnienia, które przedstawiają kluczowe informacje na początku.

GPT‑5.2 Thinking jest zaprojektowany do głębszej analizy i ma za zadanie pomagać użytkownikom w realizacji bardziej złożonych zadań z większą precyzją – szczególnie w kodowaniu, streszczaniu długich dokumentów, odpowiadaniu na pytania dotyczące przesłanych plików, analizowaniu etapowych zagadnień matematycznych i logicznych oraz wspieraniu planowania i podejmowania decyzji z bardziej przejrzystą strukturą i bardziej użytecznymi szczegółami.

GPT‑5.2 Pro to nasz najinteligentniejszy i niezawodny model do trudnych zadań, w przypadku których warto poczekać na odpowiedź o wyższej jakości. Wstępne testy pokazują mniej poważnych błędów i lepszą wydajność w złożonych dziedzinach, takich jak programowanie.

Bezpieczeństwo

GPT‑5.2 rozwija obszar bezpiecznego uzupełniania, który wprowadziliśmy wraz z GPT‑5, ucząc model udzielania najbardziej pomocnych odpowiedzi przy jednoczesnym zachowaniu granic bezpieczeństwa.

W tej wersji kontynuowaliśmy nasze prace nad usprawnianiem odpowiedzi udzielanych przez modele podczas wrażliwych konwersacji i wprowadziliśmy znaczące ulepszenia w sposobie, w jaki reagują na polecenia wskazujące na oznaki samobójstwa lub samookaleczenia, problemy ze zdrowiem psychicznym czy emocjonalne uzależnienie od modelu. Te ukierunkowane interwencje doprowadziły do zmniejszenia liczby niepożądanych odpowiedzi w GPT‑5.2. Instant i GPT‑5.2 Thinking w porównaniu z modelami GPT‑5.1, GPT‑5 Instant i GPT‑5 Thinking. Więcej szczegółów można znaleźć w karcie systemu.

Rozpoczęliśmy również wstępne wdrażanie naszego modelu przewidywania wieku, aby automatycznie stosować zabezpieczenia treści dla użytkowników poniżej 18. roku życia i ograniczyć ich dostęp do treści wrażliwych. Wynika to z naszego dotychczasowego podejścia do użytkowników, w przypadku których mamy pewność, że nie ukończyli 18 lat, oraz naszych mechanizmów kontroli rodzicielskiej.

GPT‑5.2 to następny krok w serii usprawnień, a jeszcze wiele przed nami. Chociaż ta wersja przynosi znaczące postępy w zakresie inteligencji i wydajności, wiemy, że nadal są obszary, w których nasi użytkownicy oczekują jeszcze więcej. W ChatGPT pracujemy nad rozwiązaniem znanych problemów, takich jak nadmierne odmowy, jednocześnie kontynuując podnoszenie standardów bezpieczeństwa i niezawodności. Wdrażanie zmian to skomplikowany proces, a nam zależy na jak najlepszym przeprowadzeniu go.

Oceny zdrowia psychicznego


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Zdrowie psychiczne

0,995

0,883

0,915

0,684

Emocjonalna zależność

0,938

0,945

0,955

0,785

Samookaleczenie

0,938

0,925

0,963

0,937

Dostępność i cennik

W ChatGPT zaczynamy dzisiaj wprowadzać model GPT‑5.2 (Instant, Thinking i Pro), począwszy od płatnych planów (Plus, Pro, Business, Enterprise). GPT‑5.2 wdrażamy stopniowo, aby ChatGPT działał jak najpłynniej i bezawaryjnie. Jeśli nowy model nie jest dostępny od razu, sprawdź ponownie później. GPT‑5.1 będzie nadal dostępny w ChatGPT dla płatnych użytkowników przez trzy miesiące w ramach starszych modeli, po czym wycofamy model GPT‑5.1.

Nazewnictwo modeli w ChatGPT i API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

Na naszej platformie API model GPT‑5.2 Thinking jest już dziś dostępny w Responses API i Chat Completions API jako gpt-5.2, natomiast GPT‑5.2 Instant jako GPT‑5.2‑chat‑latest. GPT‑5.2 Pro jest dostępny w Responses API jako gpt-5.2-pro. Programiści mogą teraz ustawić parametr reasoning w GPT‑5.2 Pro, a GPT‑5.2 Pro i GPT‑5.2 Thinking obsługują nowy, piąty poziom rozumowania xhigh, dla zadań, w których jakość jest najważniejsza.

Cena za GPT‑5.2 wynosi 1,75 USD za 1 mln tokenów wejściowych i 14 USD za 1 mln tokenów wyjściowych, z 90% zniżką na buforowane dane wejściowe. Podczas wielu ocen działań agentowych odkryliśmy, że pomimo wyższej ceny za token w GPT‑5.2, koszt osiągnięcia określonego poziomu jakości okazał się niższy dzięki większej efektywności tokenów w GPT‑5.2.

Cennik subskrypcji ChatGPT pozostaje bez zmian, jednak cena w przeliczeniu na token w przypadku API GPT‑5.2 jest wyższa niż w GPT‑5.1, ponieważ jest to bardziej zaawansowany model. Jest on nadal wyceniany poniżej innych modeli pionierskich, więc użytkownicy z powodzeniem mogą nadal intensywnie go wykorzystywać w swojej codziennej pracy i do podstawowych zastosowań.

Cena za 1 mln tokenów

Model

Dane wejściowe

Dane wejściowe w pamięci podręcznej

Wyjściowe

gpt-5.2 /
gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 /
gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

120 USD

Obecnie nie mamy planów wycofania modeli GPT‑5.1, GPT‑5 ani GPT‑4.1 w interfejsie API i z odpowiednim wyprzedzeniem powiadomimy programistów o wszelkich planach usunięcia tych modeli. Model GPT‑5.2 będzie działać dobrze od razu w Codex, jednak w kolejnych tygodniach planujemy wydać wersję GPT‑5.2 zoptymalizowaną pod kątem Codex.

Nasi partnerzy

GPT‑5.2 został opracowany we współpracy z naszymi długoletnimi partnerami, NVIDIA i Microsoft. Centra danych Azure i procesory graficzne NVIDIA, w tym H100, H200 i GB200-NVL72, stanowią podstawę wielkoskalowej infrastruktury treningowej OpenAI zapewniającej znaczące postępy w rozwoju inteligencji modeli. Niniejsza współpraca pozwala nam skalować moc obliczeniową i szybciej wprowadzać nowe modele na rynek.

Aneks

Szczegółowe testy

Poniżej przedstawiamy szczegółowe wyniki testów porównawczych dla GPT‑5.2. Thinking, wraz z podzbiorem dla GPT‑5.2 Pro.

Profesjonalne
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Kodowanie
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Faktyczność
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Długi kontekst
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Wizja
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Korzystanie z narzędzia
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Akademickie
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Myślenie abstrakcyjne
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Modele były uruchamiane z maksymalnym dostępnym poziomem rozumowania w naszym API (xhigh dla GPT‑5.2 Thinking oraz Pro i wysokim poziomem dla GPT‑5.1 Thinking), z wyjątkiem profesjonalnych ocen, gdzie GPT‑5.2 Thinking był uruchamiany z wysokim poziomem rozumowania, maksymalnym dostępnym w ChatGPT Pro. Testy porównawcze przeprowadzono w środowisku badawczym, co w niektórych przypadkach może dawać nieco inne wyniki niż wersja produkcyjna ChatGPT.

* W przypadku SWE-Lancer pomijamy 40/237 problemów, które nie działały na naszej infrastrukturze.

Autor

OpenAI