Przejdź do treści głównej
OpenAI

7 sierpnia 2025

Produkt

Przedstawiamy model GPT‑5 dla programistów

Najlepszy w swojej klasie model do zadań programowania i agentowych.

Ładowanie…

Wstęp

Dzisiaj na naszej platformie API udostępniamy model GPT‑5. Jest to jak dotąd nasz najlepszy model do zadań programowania i agentowych.

GPT‑5 uzyskuje obecnie najlepsze wyniki w testach porównawczych z zakresu programowania, na poziomie 74,9% w teście SWE-bench Verified i 88% w teście Aider polyglot. Model GPT‑5 został wytrenowany, aby pełnić funkcję prawdziwego współpracownika podczas programowania. Doskonale sprawdza się w zadaniach związanych z tworzeniem wysokiej jakości kodu, a także naprawianiem błędów, edytowaniem kodu czy udzielaniem odpowiedzi na pytania dotyczące złożonych baz kodu. Model jest bardzo sterowalny i łatwy we współpracy – potrafi wykonywać bardzo szczegółowe instrukcje z dużą dokładnością i z wyprzedzeniem wyjaśniać swoje działania przed i pomiędzy wywołaniami narzędzi.  Model radzi sobie również świetnie z programowaniem interfejsów użytkownika. W testach wewnętrznych dotyczących tworzenia stron internetowych z interfejsami użytkowników w 70% przypadków uzyskał wyniki lepsze niż model OpenAI o3.

Przeszkoliliśmy GPT‑5 w zakresie rzeczywistych zadań kodowania, we współpracy z pierwszymi testerami ze start-upów i dużych przedsiębiorstw. Firma Cursor uważa, że model GPT‑5 to „najinteligentniejszy model, jakiego kiedykolwiek używała”. Jest „wyjątkowo inteligentny, można nim łatwo sterować, a nawet ma osobowość, jakiej nie obserwowano w innych modelach”. Jak zauważaWindsurf, GPT‑5 uzyskał poziom SOTA w ocenach wewnętrznych i „wykazuje o połowę niższy wskaźnik błędów wywołań narzędzi w porównaniu z innymi modelami granicznymi”. Firma Vercel uważa, że „jest to obecnie najlepszy model AI do tworzenia interfejsów użytkownika, osiągający najlepsze rezultaty zarówno pod względem estetyki, jak i jakości kodu, przez co stanowi klasę samą w sobie”.

Model GPT‑5 znakomicie radzi sobie także z długotrwałymi zadaniami agentowymi, osiągając najlepsze obecnie wyniki w teście porównawczym wywoływania narzędzi τ2-bench telecom (96,7%), opublikowanym zaledwie 2 miesiące temu. Ulepszona inteligencja narzędzi GPT‑5 umożliwia niezawodne łączenie ze sobą kilkudziesięciu wywołań narzędzi – zarówno sekwencyjnie, jak i równolegle – bez gubienia kierunku, dzięki czemu model znacznie lepiej radzi sobie z realizacją złożonych, rzeczywistych zadań od początku do końca. Ponadto program ten dokładniej wykonuje instrukcje narzędzi, lepiej radzi sobie z obsługą błędów narzędzi i znakomicie nadaje się do pobierania treści o długim kontekście. Firma Manus stwierdziła, że model GPT‑5 „osiągnął najwyższe wyniki, jakie do tej pory obserwowaliśmy w naszych wewnętrznych testach porównawczych pojedynczego modelu”. Firma Notion jest zdania, że: „szybkie odpowiedzi [modelu], zwłaszcza w trybie niskiego rozumowania, sprawiają, że GPT‑5 to idealny model w sytuacjach, gdy potrzebne jest rozwiązanie złożonego problemu już za pierwszym podejściem”. Inditex zauważa, że „tym, co naprawdę wyróżnia [GPT‑5], jest głębia jego rozumowania: pełne niuansów, wielowarstwowe odpowiedzi, które odzwierciedlają rzeczywiste zrozumienie tematu”.

Wprowadzamy nowe funkcje do naszego interfejsu API, aby dać programistom większą kontrolę nad odpowiedziami modelu. GPT‑5 obsługuje nowy parametr szczegółowości (wartości: low (niski), medium (średni), high (wysoki)), który pozwala określić, czy odpowiedzi mają być krótkie i na temat, czy długie i wyczerpujące. Parametrreasoning_effort modelu GPT‑5 może teraz przyjmować wartość minimal, co pozwala na szybsze uzyskiwanie odpowiedzi bez konieczności wcześniejszego przeprowadzania rozszerzonego rozumowania. Dodaliśmy również nowy typ narzędzia – narzędzia niestandardowe – który umożliwia GPT‑5 wywoływanie narzędzi przy użyciu zwykłego tekstu zamiast pliku JSON. Narzędzia niestandardowe obsługują ograniczanie przy użyciu gramatyki bezkontekstowej programisty.

Udostępniamy GPT‑5 w ramach API w trzech wersjach: gpt-5, gpt-5-mini i gpt-5-nano, aby dać programistom większą elastyczność w zakresie kompromisów między wydajnością, kosztami i opóźnieniami. GPT‑5 w ChatGPT jest systemem modeli rozumowania, bez rozumowania i modeli routerów, a GPT‑5 na platformie API to model rozumowania zapewniający maksymalne wyniki w ChatGPT. Warto zauważyć, że GPT‑5 wykorzystujący minimalne rozumowanie jest innym modelem niż ten pracujący bez rozumowania w ChatGPT i jest lepiej dostosowany do potrzeb programistów. Model bez rozumowania używany w ChatGPT jest dostępny jako gpt-5-chat-latest.

Aby dowiedzieć się więcej o modelu GPT‑5 w ChatGPT i innych jego udoskonaleniach, przeczytaj nasz wpis na blogu o badaniach. Więcej informacji na temat powodów, dla których przedsiębiorstwa czekają z niecierpliwością na GPT‑5, znajdziesz na naszym blogu biznesowym.

Programowanie

GPT‑5 to najsilniejszy model kodowania, jaki kiedykolwiek udostępniliśmy. W testach porównawczych programowania i rzeczywistych zastosowaniach osiąga wyniki lepsze niż model o3. Jego konfiguracja precyzyjna została dostosowana tak, aby świetnie nadawał się do produktów programowania agentowego, takich jak Cursor, Windsurf, GitHub Copilot i Codex CLI. Wersja GPT‑5 zrobiła wrażenie na naszych alfa testerach, bijąc rekordy w wielu ich prywatnych testach wewnętrznych. 

Wczesne opinie na temat modelu GPT‑5 w kontekście rzeczywistych zastosowań z zakresu programowania

„GPT-5 to najinteligentniejszy model programowania, jakiego używaliśmy. Nasz zespół stwierdził, że model GPT-5 jest wyjątkowo inteligentny, można nim łatwo sterować, a nawet ma osobowość, jakiej nie obserwowano w innych modelach. Nie tylko jest w stanie wychwycić trudne, głęboko ukryte błędy, lecz również obsługiwać długie, wieloetapowe agenty, aby wykonywać złożone zadania od początku do końca. Radzi sobie z problemami, które przerastają inne modele. Obecnie wykorzystujemy ten model w naszej codziennej pracy do wszelkiego rodzaju zadań – od wyznaczania zakresów i planowania PR-ów po tworzenie całościowych kompilacji”.
Michael Truell, współzałożyciel i dyrektor generalny firmy Cursor

W teście SWE-bench Verified, opartym na rzeczywistych zadaniach inżynierii oprogramowania, model GPT‑5 uzyskał wynik 74,9%, podczas gdy o3 – 69,1%. Warto zauważyć, że GPT‑5 osiąga wysoki wynik dzięki większej wydajności i szybkości: w porównaniu do o3 przy dużym nakładzie pracy na rozumowanie, GPT‑5 wykorzystuje o 22% mniej tokenów wyjściowych i o 45% mniej wywołań narzędzi.

W benchmarku SWE-bench Verified model otrzymuje dostęp do magazynu kodu i opis problemu, a jego zadaniem jest wygenerowanie poprawki, która go rozwiąże. Etykiety tekstowe wskazują poziom rozumowania. W naszych wynikach pominięto 23 z 500 problemów, dla których rozwiązania nie sprawdziły się w sposób niezawodny w ramach naszej infrastruktury. GPT‑5 otrzymywał krótkie polecenie podkreślające konieczność dogłębnej weryfikacji rozwiązań; to samo polecenie nie poprawiało wyników w przypadku o3.

W ocenie edycji kodu Aider polyglot model GPT‑5 ustanowił nowy rekord na poziomie 88%, co oznacza zmniejszenie współczynnika błędów o jedną trzecią w porównaniu z modelem o3.

W teście porównawczym aider polygot(otwiera nowe okno) (diff) model otrzymuje zadanie związane z programowaniem i musi stworzyć rozwiązanie w formie kodu diff. Modele rozumowania pracowały przy wysokim poziomie rozumowania.

Odkryliśmy również, że GPT‑5 doskonale sprawdza się w dogłębnej analizie baz kodu w celu uzyskania odpowiedzi na pytania dotyczące sposobu działania i współpracy różnych jego fragmentów. W bazie kodu tak skomplikowanej jak stosowany przez OpenAI stos uczenia przez wzmacnianie obserwujemy, że GPT‑5 jest w stanie wspomagać rozumowanie i odpowiadanie na pytania w kontekście naszego własnego kodu, usprawniając naszą codzienną pracę. 

Inżynieria interfejsu użytkownika

Podczas tworzeniu kodu interfejsu użytkownika dla aplikacji internetowych model GPT‑5 jest rozwiązaniem bardziej ukierunkowanym na estetykę, ambitnym i dokładnym. W bezpośrednim porównaniu z modelem o3, model GPT‑5 był wybierany przez naszych testerów w 70% przypadków.

Oto kilka ciekawych, wybranych przykładów tego, co GPT‑5 potrafi zrobić na podstawie jednego polecenia:

Polecenie: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Więcej przykładów wyników wygenerowanych przez GPT‑5 znajdziesz w naszej galerii tutaj(otwiera nowe okno).

Współpraca w kodowaniu

Model GPT‑5 potrafi lepiej współpracować, szczególnie w przypadku produktów do programowania agentowego, takich jak Cursor, Windsurf, GitHub Copilot i Codex CLI. Podczas działania GPT‑5 może generować plany, aktualizacje i podsumowania pomiędzy wywołaniami narzędzi. W porównaniu z naszymi poprzednimi modelami GPT‑5 jest bardziej proaktywny w realizacji ambitnych zadań, nie czekając na decyzję użytkownika ani nie unikając wysokiej złożoności.

Oto przykład, jak może wyglądać GPT‑5 podczas realizacji złożonego zadania (w tym przypadku tworzenia witryny internetowej dla restauracji):

Po tym jak użytkownik prosi o stworzenia strony internetowej dla swojej restauracji, GPT‑5 przedstawia krótki plan działania, tworzy szkielet aplikacji, instaluje zależności, tworzy treść strony, uruchamia wersję w celu sprawdzenia potencjalnych błędów kompilacji, streszcza swoją pracę i sugeruje możliwe dalsze kroki. Nagranie zostało 3-krotnie przyspieszone dla Twojej wygody; pełen czas, jakiego model potrzebował na stworzenie strony, to około trzy minuty.

Zadania agentowe

Oprócz programowania agentowego model GPT‑5 ogólnie lepiej wykonuje zadania agentowe. GPT‑5 ustanawia nowe rekordy w testach przestrzegania instrukcji (69,6% w skali Scale MultiChallenge, ocenianej przez o3‑mini) i korzystania z narzędzi (96,7% w teście τ2 -bench telecom). Dzięki udoskonaleniu inteligencji narzędzi GPT‑5 może niezawodnie łączyć ze sobą działania w celu realizacji zadań w świecie rzeczywistym.

Wczesne opinie na temat GPT‑5 w kontekście zadań agentowych

„GPT-5 to duży krok naprzód. Osiągnął najwyższe wyniki, jakie do tej pory obserwowaliśmy w naszych wewnętrznych testach porównawczych dla pojedynczego modelu. GPT-5 doskonale radził sobie z różnymi zadaniami agentowymi – jeszcze zanim zmieniliśmy choćby jedną linijkę kodu lub polecenie. Nowe komunikaty wprowadzające i bardziej precyzyjna kontrola nad wykorzystaniem narzędzi znacznie poprawiły stabilność i sterowalność naszych agentów”.
Yichao ‘Peak’ Ji, współzałożyciel i dyrektor naukowy w firmie Manus

Wykonywanie instrukcji

Model GPT‑5 bardziej niezawodnie wykonuje instrukcje niż którykolwiek z jego poprzedników. Uzyskał wysokie wyniki w testach COLLIE, Scale MultiChallenge oraz w naszej wewnętrznej ocenie wykonywania instrukcji.

W teście COLLIE(otwiera nowe okno) modele muszą napisać tekst zgodny z różnymi ograniczeniami. W teście Scale MultiChallenge(otwiera nowe okno) modele są sprawdzane w konwersacjach wieloturowych pod kątem prawidłowego użycia czterech rodzajów informacji z poprzednich wiadomości. Wyniki zostały uzyskane przy użyciu modelu o3‑mini stosowanego jako rozwiązanie do oceniania. To rozwiązanie jest dokładniejsze niż rozwiązanie z użyciem modelu GPT‑4o. W naszym wewnętrznych ocenach dotyczących wykonywania instrukcji przez interfejs API OpenAI modele muszą wykonywać trudne instrukcje pochodzące z rzeczywistych informacji od programistów. Modele rozumowania pracowały przy wysokim poziomie rozumowania.

Wywołanie narzędzi

Pracowaliśmy intensywnie nad udoskonaleniem wywoływania narzędzi w sposób, który jest istotny dla programistów. GPT‑5 radzi sobie lepiej z wykonywaniem instrukcji narzędzi i z błędami narzędzi oraz lepiej proaktywnie wykonuje wiele wywołań narzędzi sekwencyjnie lub równolegle. Jeżeli otrzyma takie polecenie, GPT‑5 może również wysyłać komunikaty wstępne przed wywołaniem narzędzia i pomiędzy nim, aby informować użytkowników o postępie w wykonywaniu dłuższych zadań agentowych.

Dwa miesiące temu firma Sierra.ai opublikowała test τ 2 -bench telecom jako wymagający test porównawczy wykorzystania narzędzi, który pokazał, jak wydajność modelu językowego znacznie spada podczas interakcji ze stanem środowiska, który może być zmieniany przez użytkowników. W ich publikacji(otwiera nowe okno) żaden model nie uzyskał wyniku powyżej 49%. GPT‑5 uzyskał 97%.

W benchmarku τ2-bench(otwiera nowe okno) model musi wykorzystać narzędzia, aby wykonać zadanie z zakresu obsługi klienta, w ramach którego może wystąpić użytkownik, który podejmuje komunikację i oddziałuje na stan otoczenia. Modele rozumowania działały przy wysokim poziomie rozumowania.

Gpt-5 wykazuje również znaczną poprawę wydajności w działaniach o długim kontekście. W OpenAI-MRCR, mierniku wyszukiwania informacji w długim kontekście, GPT‑5 przewyższa o3 i GPT‑4.1, a przewaga ta znacznie wzrasta w przypadku dłuższych danych wejściowych.

W teście porównawczym OpenAI-MRCR(otwiera nowe okno) (wieloetapowe rozwiązywanie koreferencji), wiele identycznych „igieł” (zapytań użytkownika) zostaje umieszczonych w długich „stogach siana” podobnych zapytań i odpowiedzi, zaś model ma za zadanie odtworzyć odpowiedź do i-tej igły. Średni współczynnik dopasowania określa średni współczynnik dopasowania ciągu pomiędzy odpowiedzią udzieloną przez model a odpowiedzią poprawną. Wynik dla 256 tys. tokenów odzwierciedla średnie wartości dla 128-256 tys. tokenów, i tak dalej. W tym przypadku 256 tys. oznacza 256 * 1024 = 262 114 tokenów. Modele rozumowania działały przy wysokim poziomie rozumowania.

Wykorzystujemy również BrowseComp Long Context(otwiera nowe okno), nowy test porównawczy do oceny działania w zakresie pytań i odpowiedzi o długim kontekście. W tym badaniu model otrzymuje pytanie użytkownika oraz długą listę istotnych wyników wyszukiwania, po czym generuje odpowiedź na podstawie tych wyników. Zaprojektowaliśmy BrowseComp Long Context tak, aby był realistyczny i trudny oraz aby umożliwiał wskazanie bazowych, poprawnych odpowiedzi. W wynikach wykorzystujących 128-256 tys. tokenów GPT‑5 udzielał poprawnych odpowiedzi w 89% przypadków.

W API wszystkie modele GPT‑5 mogą przyjąć maksymalnie 272 000 tokenów wejściowych i wyemitować maksymalnie 128 000 tokenów rozumowania i wyjściowych, co daje całkowitą długość kontekstu wynoszącą 400 000 tokenów.

Zgodność z faktami

Model GPT‑5 jest bardziej wiarygodny niż nasze poprzednie modele. W przypadku poleceń z testów porównawczych LongFact i FactScore model GPT‑5 popełnia o około 80% mniej błędów merytorycznych niż model o3. Dzięki temu lepiej nadaje się do zastosowań agentowych, w których liczy się poprawność – zwłaszcza w przypadku kodu, danych i podejmowania decyzji.

Im wyższy wynik, tym gorzej. Testy porównawcze LongFact(otwiera nowe okno) i FActScore(otwiera nowe okno) obejmują otwarte pytania wymagające wyszukania informacji. Wykorzystujemy system oceny oparty na LLM z dostępem do sieci, aby sprawdzać faktyczną poprawność odpowiedzi udzielanych na polecenia w ramach tych benchmarków i mierzyć częstotliwość występowania nieprawdziwych stwierdzeń. Szczegółowe informacje na temat implementacji i rozwiązania do oceniania można znaleźć w karcie systemu. Modele rozumowania pracowały przy wysokim poziomie rozumowania. Wyszukiwanie nie było dostępne.

Ogólnie rzecz biorąc, model GPT‑5 został wytrenowany tak, aby był bardziej świadomy własnych ograniczeń i lepiej sobie radził w nieoczekiwanych sytuacjach. Wytrenowaliśmy również model GPT‑5, aby udzielał znacznie dokładniejszych odpowiedzi na pytania dotyczące zdrowia (więcej informacji zawiera nasz blog dotyczący badań). Jak w przypadku wszystkich modeli językowych zalecamy weryfikację wyników GPT‑5 w odniesieniu do działań o potencjalnie poważnych konsekwencjach.

Nowe funkcje

Minimalny wysiłek związany z rozumowaniem

Programiści mogą kontrolować czas myślenia GPT‑5 za pomocą parametru reasoning_effort w API. Oprócz poprzednich wartości – low (niski), medium (średni) i high (wysoki) – GPT‑5 obsługuje również opcję minimal (minimalny), która minimalizuje rozumowanie GPT‑5 i zwraca natychmiastową odpowiedź, aby szybciej udzielić odpowiedzi.

Wykorzystanie wyższych wartości reasoning_effort pozwala zmaksymalizować jakość, zaś niższych wartości, zmaksymalizować szybkość. Nie wszystkie zadania korzystają w równym stopniu z dodatkowego rozumowania, dlatego zalecamy eksperymentowanie z modelem, aby dowiedzieć się, co najlepiej sprawdzi się w istotnych dla użytkownika przypadkach użycia.

Na przykład rozumowanie powyżej poziomu low (niskiego) nie wnosi prawie nic do stosunkowo prostego odzyskiwania długiego kontekstu, ale dodaje całkiem sporo punktów procentowych w przypadku CharXiv Reasoning(otwiera nowe okno), testu porównawczego rozumowania wizualnego.

Zdolności rozumowania GPT‑5 dają różne korzyści w kontekście różnych działań. Na potrzeby rozumowania CharXiv GPT‑5 uzyskał dostęp do narzędzia python.

Szczegółowość

Aby ułatwić sterowanie domyślną długością odpowiedzi GPT‑5, wprowadziliśmy nowy parametr API o nazwie verbosity (szczegółowość), który przyjmuje wartości low (niska), medium (średnia) i high (wysoka). Jeżeli instrukcje jawne kolidują z parametrami szczegółowości, pierwszeństwo mają instrukcje jawne. Na przykład jeśli wydasz GPT‑5 polecenie „napisz esej składający się z 5 akapitów”, odpowiedź modelu zawsze powinna zawierać 5 akapitów, niezależnie od poziomu szczegółowości (jednak same akapity mogą być dłuższe lub krótsze).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Komunikaty wstępne przed wywołaniem narzędzi

Jeśli zostanie o to poproszony, GPT‑5 będzie wysyłał widoczne dla użytkownika komunikaty wstępne przed wywołaniami narzędzi i pomiędzy nimi. W przeciwieństwie do ukrytych komunikatów dotyczących rozumowania, te widoczne wiadomości umożliwiają GPT‑5 komunikowanie zamiarów i postępów, a tym samym pomagają użytkownikom końcowym w lepszym zrozumieniu podejścia i intencji modelu w zakresie poszczególnych wywołań narzędzi.

Narzędzia niestandardowe

Wprowadzamy nowy typ narzędzia – narzędzia niestandardowe – które umożliwiają GPT‑5 wywoływanie narzędzia przy użyciu zwykłego tekstu zamiast pliku JSON. Aby ograniczyć GPT‑5 do wykorzystania niestandardowych formatów narzędzi, programiści mogą wykorzystać wyrażenie regularne lub nawet bardziej konkretnie ukierunkowaną gramatykę bezkontekstową(otwiera nowe okno).

W przeszłości nasz interfejs do narzędzi definiowanych przez użytkownika wymagał korzystania z wywołań JSON, formatu powszechnie stosowanego w sieciowych API i ogólnie przez programistów. Jednak wygenerowanie poprawnego formatu JSON wymaga od modelu skutecznego pomijania wszelkich cudzysłowów, ukośników, podziałów wierszy i innych znaków kontrolnych. Choć nasze modele zostały dobrze wytrenowane pod kątem generowania plików JSON, w przypadku długich danych wyjściowych obejmujących np. setki linijek kodu lub 5-stronicowy raport, rośnie prawdopodobieństwo wystąpienia błędu. Dzięki narzędziom niestandardowym GPT‑5 może tworzyć dane wyjściowe narzędzia w formie zwykłego tekstu, bez konieczności pomijania wszystkich znaków wymagających pominięcia.

W teście porównawczym SWE-bench Verified GPT‑5 uzyskuje porównywalne wyniki, korzystając z narzędzi niestandardowych zamiast narzędzi JSON.

Bezpieczeństwo

GPT‑5 wyznacza nowe możliwości w kontekście bezpieczeństwa i stanowi rozbudowany, wiarygodny i wysoce użyteczny model. GPT‑5 ma znacznie mniejszą skłonność do halucynacji w porównaniu z naszymi wcześniejszymi modelami, w bardziej uczciwy sposób informuje użytkownika o swoich działaniach i zdolnościach oraz udziela możliwie najbardziej przydatnych odpowiedzi w danym kontekście, zachowując jednocześnie granice bezpieczeństwa. Więcej informacji na ten temat można znaleźć na naszym blogu dotyczącym badań.

Dostępność i ceny

Model GPT‑5 jest obecnie dostępny na platformie API w trzech wersjach: gpt-5, gpt-5-mini i gpt-5-nano. Można z niego korzystać w ramach interfejsów Responses API i Chat Completions API; jest również domyślnie stosowany w Codex CLI. Ceny dotyczące modelu GPT‑5 to 1,25 USD za 1 mln tokenów wejściowych i 10 USD za 1 mln tokenów wyjściowych; ceny dotyczące użycia modelu GPT‑5 mini to 0,25 USD za 1 mln tokenów wejściowych i 2 USD za 1 mln tokenów wyjściowych, a ceny dotyczące modelu GPT‑5 nano to 0,05 USD za 1 mln tokenów wejściowych i 0,40 USD za 1 mln tokenów wyjściowych.

Te modele obsługują parametry reasoning_effort i verbosity, a także narzędzia niestandardowe. Obsługują również funkcje równoległego wywoływania narzędzi, wbudowane narzędzia (wyszukiwanie w sieci, generowanie obrazów i inne), kluczowe funkcje API (streaming, ustrukturyzowane dane wyjściowe i inne) oraz funkcje redukowania kosztów, takie jak przechwytywanie poleceń czy Batch API.

Wersja modelu GPT‑5 bez rozumowania, używana w ChatGPT, dostępna przez interfejs API to gpt-5-chat-latest. Ceny to 1,25 USD za 1 mln tokenów wejściowych i 10 USD za 1 mln tokenów wyjściowych.

Model GPT‑5 jest również wdrażany na platformach firmy Microsoft, w tym Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.

Szczegółowe testy porównawcze

Inteligencja
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Istnieje niewielka rozbieżność w danych liczbowych w poprzednim wpisie na blogu, ponieważ pochodzą one z poprzedniej wersji testu HLE.

Multimodalne
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Programowanie
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tys. USD75 tys. USD49 tys. USD86 tys. USD66 tys. USD34 tys. USD31 tys. USD9 tys. USD
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Pomijamy 23 z 500 problemów, których nie można uruchomić w naszej infrastrukturze. Pełna lista 23 pominiętych zadań: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' i 'sphinx-doc__sphinx-9367'.

Wykonywanie instrukcji
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Stwierdziliśmy, że domyślne rozwiązanie do oceniania w teście MultiChallenge (GPT-4o) często błędnie ocenia odpowiedzi modeli. Zauważyliśmy, że zmiana tego rozwiązania na model rozumowania, taki jak o3-mini, znacznie poprawia dokładność oceniania w przypadku sprawdzonych przez nas próbek.

Wywoływanie funkcji
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Długi kontekst
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Halucynacje
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Autor

OpenAI