Przedstawiamy model GPT‑5 dla programistów
Najlepszy w swojej klasie model do zadań programowania i agentowych.
Dzisiaj na naszej platformie API udostępniamy model GPT‑5. Jest to jak dotąd nasz najlepszy model do zadań programowania i agentowych.
GPT‑5 uzyskuje obecnie najlepsze wyniki w testach porównawczych z zakresu programowania, na poziomie 74,9% w teście SWE-bench Verified i 88% w teście Aider polyglot. Model GPT‑5 został wytrenowany, aby pełnić funkcję prawdziwego współpracownika podczas programowania. Doskonale sprawdza się w zadaniach związanych z tworzeniem wysokiej jakości kodu, a także naprawianiem błędów, edytowaniem kodu czy udzielaniem odpowiedzi na pytania dotyczące złożonych baz kodu. Model jest bardzo sterowalny i łatwy we współpracy – potrafi wykonywać bardzo szczegółowe instrukcje z dużą dokładnością i z wyprzedzeniem wyjaśniać swoje działania przed i pomiędzy wywołaniami narzędzi. Model radzi sobie również świetnie z programowaniem interfejsów użytkownika. W testach wewnętrznych dotyczących tworzenia stron internetowych z interfejsami użytkowników w 70% przypadków uzyskał wyniki lepsze niż model OpenAI o3.
Przeszkoliliśmy GPT‑5 w zakresie rzeczywistych zadań kodowania, we współpracy z pierwszymi testerami ze start-upów i dużych przedsiębiorstw. Firma Cursor uważa, że model GPT‑5 to „najinteligentniejszy model, jakiego kiedykolwiek używała”. Jest „wyjątkowo inteligentny, można nim łatwo sterować, a nawet ma osobowość, jakiej nie obserwowano w innych modelach”. Jak zauważaWindsurf, GPT‑5 uzyskał poziom SOTA w ocenach wewnętrznych i „wykazuje o połowę niższy wskaźnik błędów wywołań narzędzi w porównaniu z innymi modelami granicznymi”. Firma Vercel uważa, że „jest to obecnie najlepszy model AI do tworzenia interfejsów użytkownika, osiągający najlepsze rezultaty zarówno pod względem estetyki, jak i jakości kodu, przez co stanowi klasę samą w sobie”.
Model GPT‑5 znakomicie radzi sobie także z długotrwałymi zadaniami agentowymi, osiągając najlepsze obecnie wyniki w teście porównawczym wywoływania narzędzi τ2-bench telecom (96,7%), opublikowanym zaledwie 2 miesiące temu. Ulepszona inteligencja narzędzi GPT‑5 umożliwia niezawodne łączenie ze sobą kilkudziesięciu wywołań narzędzi – zarówno sekwencyjnie, jak i równolegle – bez gubienia kierunku, dzięki czemu model znacznie lepiej radzi sobie z realizacją złożonych, rzeczywistych zadań od początku do końca. Ponadto program ten dokładniej wykonuje instrukcje narzędzi, lepiej radzi sobie z obsługą błędów narzędzi i znakomicie nadaje się do pobierania treści o długim kontekście. Firma Manus stwierdziła, że model GPT‑5 „osiągnął najwyższe wyniki, jakie do tej pory obserwowaliśmy w naszych wewnętrznych testach porównawczych pojedynczego modelu”. Firma Notion jest zdania, że: „szybkie odpowiedzi [modelu], zwłaszcza w trybie niskiego rozumowania, sprawiają, że GPT‑5 to idealny model w sytuacjach, gdy potrzebne jest rozwiązanie złożonego problemu już za pierwszym podejściem”. Inditex zauważa, że „tym, co naprawdę wyróżnia [GPT‑5], jest głębia jego rozumowania: pełne niuansów, wielowarstwowe odpowiedzi, które odzwierciedlają rzeczywiste zrozumienie tematu”.
Wprowadzamy nowe funkcje do naszego interfejsu API, aby dać programistom większą kontrolę nad odpowiedziami modelu. GPT‑5 obsługuje nowy parametr szczegółowości (wartości: low (niski), medium (średni), high (wysoki)), który pozwala określić, czy odpowiedzi mają być krótkie i na temat, czy długie i wyczerpujące. Parametrreasoning_effort modelu GPT‑5 może teraz przyjmować wartość minimal, co pozwala na szybsze uzyskiwanie odpowiedzi bez konieczności wcześniejszego przeprowadzania rozszerzonego rozumowania. Dodaliśmy również nowy typ narzędzia – narzędzia niestandardowe – który umożliwia GPT‑5 wywoływanie narzędzi przy użyciu zwykłego tekstu zamiast pliku JSON. Narzędzia niestandardowe obsługują ograniczanie przy użyciu gramatyki bezkontekstowej programisty.
Udostępniamy GPT‑5 w ramach API w trzech wersjach: gpt-5, gpt-5-mini i gpt-5-nano, aby dać programistom większą elastyczność w zakresie kompromisów między wydajnością, kosztami i opóźnieniami. GPT‑5 w ChatGPT jest systemem modeli rozumowania, bez rozumowania i modeli routerów, a GPT‑5 na platformie API to model rozumowania zapewniający maksymalne wyniki w ChatGPT. Warto zauważyć, że GPT‑5 wykorzystujący minimalne rozumowanie jest innym modelem niż ten pracujący bez rozumowania w ChatGPT i jest lepiej dostosowany do potrzeb programistów. Model bez rozumowania używany w ChatGPT jest dostępny jako gpt-5-chat-latest.
Aby dowiedzieć się więcej o modelu GPT‑5 w ChatGPT i innych jego udoskonaleniach, przeczytaj nasz wpis na blogu o badaniach. Więcej informacji na temat powodów, dla których przedsiębiorstwa czekają z niecierpliwością na GPT‑5, znajdziesz na naszym blogu biznesowym.
GPT‑5 to najsilniejszy model kodowania, jaki kiedykolwiek udostępniliśmy. W testach porównawczych programowania i rzeczywistych zastosowaniach osiąga wyniki lepsze niż model o3. Jego konfiguracja precyzyjna została dostosowana tak, aby świetnie nadawał się do produktów programowania agentowego, takich jak Cursor, Windsurf, GitHub Copilot i Codex CLI. Wersja GPT‑5 zrobiła wrażenie na naszych alfa testerach, bijąc rekordy w wielu ich prywatnych testach wewnętrznych.
Wczesne opinie na temat modelu GPT‑5 w kontekście rzeczywistych zastosowań z zakresu programowania
„GPT-5 to najinteligentniejszy model programowania, jakiego używaliśmy. Nasz zespół stwierdził, że model GPT-5 jest wyjątkowo inteligentny, można nim łatwo sterować, a nawet ma osobowość, jakiej nie obserwowano w innych modelach. Nie tylko jest w stanie wychwycić trudne, głęboko ukryte błędy, lecz również obsługiwać długie, wieloetapowe agenty, aby wykonywać złożone zadania od początku do końca. Radzi sobie z problemami, które przerastają inne modele. Obecnie wykorzystujemy ten model w naszej codziennej pracy do wszelkiego rodzaju zadań – od wyznaczania zakresów i planowania PR-ów po tworzenie całościowych kompilacji”.
W teście SWE-bench Verified, opartym na rzeczywistych zadaniach inżynierii oprogramowania, model GPT‑5 uzyskał wynik 74,9%, podczas gdy o3 – 69,1%. Warto zauważyć, że GPT‑5 osiąga wysoki wynik dzięki większej wydajności i szybkości: w porównaniu do o3 przy dużym nakładzie pracy na rozumowanie, GPT‑5 wykorzystuje o 22% mniej tokenów wyjściowych i o 45% mniej wywołań narzędzi.
W benchmarku SWE-bench Verified model otrzymuje dostęp do magazynu kodu i opis problemu, a jego zadaniem jest wygenerowanie poprawki, która go rozwiąże. Etykiety tekstowe wskazują poziom rozumowania. W naszych wynikach pominięto 23 z 500 problemów, dla których rozwiązania nie sprawdziły się w sposób niezawodny w ramach naszej infrastruktury. GPT‑5 otrzymywał krótkie polecenie podkreślające konieczność dogłębnej weryfikacji rozwiązań; to samo polecenie nie poprawiało wyników w przypadku o3.
W ocenie edycji kodu Aider polyglot model GPT‑5 ustanowił nowy rekord na poziomie 88%, co oznacza zmniejszenie współczynnika błędów o jedną trzecią w porównaniu z modelem o3.
W teście porównawczym aider polygot(otwiera nowe okno) (diff) model otrzymuje zadanie związane z programowaniem i musi stworzyć rozwiązanie w formie kodu diff. Modele rozumowania pracowały przy wysokim poziomie rozumowania.
Odkryliśmy również, że GPT‑5 doskonale sprawdza się w dogłębnej analizie baz kodu w celu uzyskania odpowiedzi na pytania dotyczące sposobu działania i współpracy różnych jego fragmentów. W bazie kodu tak skomplikowanej jak stosowany przez OpenAI stos uczenia przez wzmacnianie obserwujemy, że GPT‑5 jest w stanie wspomagać rozumowanie i odpowiadanie na pytania w kontekście naszego własnego kodu, usprawniając naszą codzienną pracę.
Podczas tworzeniu kodu interfejsu użytkownika dla aplikacji internetowych model GPT‑5 jest rozwiązaniem bardziej ukierunkowanym na estetykę, ambitnym i dokładnym. W bezpośrednim porównaniu z modelem o3, model GPT‑5 był wybierany przez naszych testerów w 70% przypadków.
Oto kilka ciekawych, wybranych przykładów tego, co GPT‑5 potrafi zrobić na podstawie jednego polecenia:
Polecenie: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Więcej przykładów wyników wygenerowanych przez GPT‑5 znajdziesz w naszej galerii tutaj(otwiera nowe okno).
Model GPT‑5 potrafi lepiej współpracować, szczególnie w przypadku produktów do programowania agentowego, takich jak Cursor, Windsurf, GitHub Copilot i Codex CLI. Podczas działania GPT‑5 może generować plany, aktualizacje i podsumowania pomiędzy wywołaniami narzędzi. W porównaniu z naszymi poprzednimi modelami GPT‑5 jest bardziej proaktywny w realizacji ambitnych zadań, nie czekając na decyzję użytkownika ani nie unikając wysokiej złożoności.
Oto przykład, jak może wyglądać GPT‑5 podczas realizacji złożonego zadania (w tym przypadku tworzenia witryny internetowej dla restauracji):
Po tym jak użytkownik prosi o stworzenia strony internetowej dla swojej restauracji, GPT‑5 przedstawia krótki plan działania, tworzy szkielet aplikacji, instaluje zależności, tworzy treść strony, uruchamia wersję w celu sprawdzenia potencjalnych błędów kompilacji, streszcza swoją pracę i sugeruje możliwe dalsze kroki. Nagranie zostało 3-krotnie przyspieszone dla Twojej wygody; pełen czas, jakiego model potrzebował na stworzenie strony, to około trzy minuty.
Oprócz programowania agentowego model GPT‑5 ogólnie lepiej wykonuje zadania agentowe. GPT‑5 ustanawia nowe rekordy w testach przestrzegania instrukcji (69,6% w skali Scale MultiChallenge, ocenianej przez o3‑mini) i korzystania z narzędzi (96,7% w teście τ2 -bench telecom). Dzięki udoskonaleniu inteligencji narzędzi GPT‑5 może niezawodnie łączyć ze sobą działania w celu realizacji zadań w świecie rzeczywistym.
Wczesne opinie na temat GPT‑5 w kontekście zadań agentowych
„GPT-5 to duży krok naprzód. Osiągnął najwyższe wyniki, jakie do tej pory obserwowaliśmy w naszych wewnętrznych testach porównawczych dla pojedynczego modelu. GPT-5 doskonale radził sobie z różnymi zadaniami agentowymi – jeszcze zanim zmieniliśmy choćby jedną linijkę kodu lub polecenie. Nowe komunikaty wprowadzające i bardziej precyzyjna kontrola nad wykorzystaniem narzędzi znacznie poprawiły stabilność i sterowalność naszych agentów”.
Model GPT‑5 bardziej niezawodnie wykonuje instrukcje niż którykolwiek z jego poprzedników. Uzyskał wysokie wyniki w testach COLLIE, Scale MultiChallenge oraz w naszej wewnętrznej ocenie wykonywania instrukcji.
W teście COLLIE(otwiera nowe okno) modele muszą napisać tekst zgodny z różnymi ograniczeniami. W teście Scale MultiChallenge(otwiera nowe okno) modele są sprawdzane w konwersacjach wieloturowych pod kątem prawidłowego użycia czterech rodzajów informacji z poprzednich wiadomości. Wyniki zostały uzyskane przy użyciu modelu o3‑mini stosowanego jako rozwiązanie do oceniania. To rozwiązanie jest dokładniejsze niż rozwiązanie z użyciem modelu GPT‑4o. W naszym wewnętrznych ocenach dotyczących wykonywania instrukcji przez interfejs API OpenAI modele muszą wykonywać trudne instrukcje pochodzące z rzeczywistych informacji od programistów. Modele rozumowania pracowały przy wysokim poziomie rozumowania.
Pracowaliśmy intensywnie nad udoskonaleniem wywoływania narzędzi w sposób, który jest istotny dla programistów. GPT‑5 radzi sobie lepiej z wykonywaniem instrukcji narzędzi i z błędami narzędzi oraz lepiej proaktywnie wykonuje wiele wywołań narzędzi sekwencyjnie lub równolegle. Jeżeli otrzyma takie polecenie, GPT‑5 może również wysyłać komunikaty wstępne przed wywołaniem narzędzia i pomiędzy nim, aby informować użytkowników o postępie w wykonywaniu dłuższych zadań agentowych.
Dwa miesiące temu firma Sierra.ai opublikowała test τ 2 -bench telecom jako wymagający test porównawczy wykorzystania narzędzi, który pokazał, jak wydajność modelu językowego znacznie spada podczas interakcji ze stanem środowiska, który może być zmieniany przez użytkowników. W ich publikacji(otwiera nowe okno) żaden model nie uzyskał wyniku powyżej 49%. GPT‑5 uzyskał 97%.
W benchmarku τ2-bench(otwiera nowe okno) model musi wykorzystać narzędzia, aby wykonać zadanie z zakresu obsługi klienta, w ramach którego może wystąpić użytkownik, który podejmuje komunikację i oddziałuje na stan otoczenia. Modele rozumowania działały przy wysokim poziomie rozumowania.
Gpt-5 wykazuje również znaczną poprawę wydajności w działaniach o długim kontekście. W OpenAI-MRCR, mierniku wyszukiwania informacji w długim kontekście, GPT‑5 przewyższa o3 i GPT‑4.1, a przewaga ta znacznie wzrasta w przypadku dłuższych danych wejściowych.
W teście porównawczym OpenAI-MRCR(otwiera nowe okno) (wieloetapowe rozwiązywanie koreferencji), wiele identycznych „igieł” (zapytań użytkownika) zostaje umieszczonych w długich „stogach siana” podobnych zapytań i odpowiedzi, zaś model ma za zadanie odtworzyć odpowiedź do i-tej igły. Średni współczynnik dopasowania określa średni współczynnik dopasowania ciągu pomiędzy odpowiedzią udzieloną przez model a odpowiedzią poprawną. Wynik dla 256 tys. tokenów odzwierciedla średnie wartości dla 128-256 tys. tokenów, i tak dalej. W tym przypadku 256 tys. oznacza 256 * 1024 = 262 114 tokenów. Modele rozumowania działały przy wysokim poziomie rozumowania.
Wykorzystujemy również BrowseComp Long Context(otwiera nowe okno), nowy test porównawczy do oceny działania w zakresie pytań i odpowiedzi o długim kontekście. W tym badaniu model otrzymuje pytanie użytkownika oraz długą listę istotnych wyników wyszukiwania, po czym generuje odpowiedź na podstawie tych wyników. Zaprojektowaliśmy BrowseComp Long Context tak, aby był realistyczny i trudny oraz aby umożliwiał wskazanie bazowych, poprawnych odpowiedzi. W wynikach wykorzystujących 128-256 tys. tokenów GPT‑5 udzielał poprawnych odpowiedzi w 89% przypadków.
W API wszystkie modele GPT‑5 mogą przyjąć maksymalnie 272 000 tokenów wejściowych i wyemitować maksymalnie 128 000 tokenów rozumowania i wyjściowych, co daje całkowitą długość kontekstu wynoszącą 400 000 tokenów.
Model GPT‑5 jest bardziej wiarygodny niż nasze poprzednie modele. W przypadku poleceń z testów porównawczych LongFact i FactScore model GPT‑5 popełnia o około 80% mniej błędów merytorycznych niż model o3. Dzięki temu lepiej nadaje się do zastosowań agentowych, w których liczy się poprawność – zwłaszcza w przypadku kodu, danych i podejmowania decyzji.
Im wyższy wynik, tym gorzej. Testy porównawcze LongFact(otwiera nowe okno) i FActScore(otwiera nowe okno) obejmują otwarte pytania wymagające wyszukania informacji. Wykorzystujemy system oceny oparty na LLM z dostępem do sieci, aby sprawdzać faktyczną poprawność odpowiedzi udzielanych na polecenia w ramach tych benchmarków i mierzyć częstotliwość występowania nieprawdziwych stwierdzeń. Szczegółowe informacje na temat implementacji i rozwiązania do oceniania można znaleźć w karcie systemu. Modele rozumowania pracowały przy wysokim poziomie rozumowania. Wyszukiwanie nie było dostępne.
Ogólnie rzecz biorąc, model GPT‑5 został wytrenowany tak, aby był bardziej świadomy własnych ograniczeń i lepiej sobie radził w nieoczekiwanych sytuacjach. Wytrenowaliśmy również model GPT‑5, aby udzielał znacznie dokładniejszych odpowiedzi na pytania dotyczące zdrowia (więcej informacji zawiera nasz blog dotyczący badań). Jak w przypadku wszystkich modeli językowych zalecamy weryfikację wyników GPT‑5 w odniesieniu do działań o potencjalnie poważnych konsekwencjach.
Programiści mogą kontrolować czas myślenia GPT‑5 za pomocą parametru reasoning_effort w API. Oprócz poprzednich wartości – low (niski), medium (średni) i high (wysoki) – GPT‑5 obsługuje również opcję minimal (minimalny), która minimalizuje rozumowanie GPT‑5 i zwraca natychmiastową odpowiedź, aby szybciej udzielić odpowiedzi.
Wykorzystanie wyższych wartości reasoning_effort pozwala zmaksymalizować jakość, zaś niższych wartości, zmaksymalizować szybkość. Nie wszystkie zadania korzystają w równym stopniu z dodatkowego rozumowania, dlatego zalecamy eksperymentowanie z modelem, aby dowiedzieć się, co najlepiej sprawdzi się w istotnych dla użytkownika przypadkach użycia.
Na przykład rozumowanie powyżej poziomu low (niskiego) nie wnosi prawie nic do stosunkowo prostego odzyskiwania długiego kontekstu, ale dodaje całkiem sporo punktów procentowych w przypadku CharXiv Reasoning(otwiera nowe okno), testu porównawczego rozumowania wizualnego.
Zdolności rozumowania GPT‑5 dają różne korzyści w kontekście różnych działań. Na potrzeby rozumowania CharXiv GPT‑5 uzyskał dostęp do narzędzia python.
Aby ułatwić sterowanie domyślną długością odpowiedzi GPT‑5, wprowadziliśmy nowy parametr API o nazwie verbosity (szczegółowość), który przyjmuje wartości low (niska), medium (średnia) i high (wysoka). Jeżeli instrukcje jawne kolidują z parametrami szczegółowości, pierwszeństwo mają instrukcje jawne. Na przykład jeśli wydasz GPT‑5 polecenie „napisz esej składający się z 5 akapitów”, odpowiedź modelu zawsze powinna zawierać 5 akapitów, niezależnie od poziomu szczegółowości (jednak same akapity mogą być dłuższe lub krótsze).
Verbosity=low
Verbosity=medium
Verbosity=high
Jeśli zostanie o to poproszony, GPT‑5 będzie wysyłał widoczne dla użytkownika komunikaty wstępne przed wywołaniami narzędzi i pomiędzy nimi. W przeciwieństwie do ukrytych komunikatów dotyczących rozumowania, te widoczne wiadomości umożliwiają GPT‑5 komunikowanie zamiarów i postępów, a tym samym pomagają użytkownikom końcowym w lepszym zrozumieniu podejścia i intencji modelu w zakresie poszczególnych wywołań narzędzi.
Wprowadzamy nowy typ narzędzia – narzędzia niestandardowe – które umożliwiają GPT‑5 wywoływanie narzędzia przy użyciu zwykłego tekstu zamiast pliku JSON. Aby ograniczyć GPT‑5 do wykorzystania niestandardowych formatów narzędzi, programiści mogą wykorzystać wyrażenie regularne lub nawet bardziej konkretnie ukierunkowaną gramatykę bezkontekstową(otwiera nowe okno).
W przeszłości nasz interfejs do narzędzi definiowanych przez użytkownika wymagał korzystania z wywołań JSON, formatu powszechnie stosowanego w sieciowych API i ogólnie przez programistów. Jednak wygenerowanie poprawnego formatu JSON wymaga od modelu skutecznego pomijania wszelkich cudzysłowów, ukośników, podziałów wierszy i innych znaków kontrolnych. Choć nasze modele zostały dobrze wytrenowane pod kątem generowania plików JSON, w przypadku długich danych wyjściowych obejmujących np. setki linijek kodu lub 5-stronicowy raport, rośnie prawdopodobieństwo wystąpienia błędu. Dzięki narzędziom niestandardowym GPT‑5 może tworzyć dane wyjściowe narzędzia w formie zwykłego tekstu, bez konieczności pomijania wszystkich znaków wymagających pominięcia.
W teście porównawczym SWE-bench Verified GPT‑5 uzyskuje porównywalne wyniki, korzystając z narzędzi niestandardowych zamiast narzędzi JSON.
GPT‑5 wyznacza nowe możliwości w kontekście bezpieczeństwa i stanowi rozbudowany, wiarygodny i wysoce użyteczny model. GPT‑5 ma znacznie mniejszą skłonność do halucynacji w porównaniu z naszymi wcześniejszymi modelami, w bardziej uczciwy sposób informuje użytkownika o swoich działaniach i zdolnościach oraz udziela możliwie najbardziej przydatnych odpowiedzi w danym kontekście, zachowując jednocześnie granice bezpieczeństwa. Więcej informacji na ten temat można znaleźć na naszym blogu dotyczącym badań.
Model GPT‑5 jest obecnie dostępny na platformie API w trzech wersjach: gpt-5, gpt-5-mini i gpt-5-nano. Można z niego korzystać w ramach interfejsów Responses API i Chat Completions API; jest również domyślnie stosowany w Codex CLI. Ceny dotyczące modelu GPT‑5 to 1,25 USD za 1 mln tokenów wejściowych i 10 USD za 1 mln tokenów wyjściowych; ceny dotyczące użycia modelu GPT‑5 mini to 0,25 USD za 1 mln tokenów wejściowych i 2 USD za 1 mln tokenów wyjściowych, a ceny dotyczące modelu GPT‑5 nano to 0,05 USD za 1 mln tokenów wejściowych i 0,40 USD za 1 mln tokenów wyjściowych.
Te modele obsługują parametry reasoning_effort i verbosity, a także narzędzia niestandardowe. Obsługują również funkcje równoległego wywoływania narzędzi, wbudowane narzędzia (wyszukiwanie w sieci, generowanie obrazów i inne), kluczowe funkcje API (streaming, ustrukturyzowane dane wyjściowe i inne) oraz funkcje redukowania kosztów, takie jak przechwytywanie poleceń czy Batch API.
Wersja modelu GPT‑5 bez rozumowania, używana w ChatGPT, dostępna przez interfejs API to gpt-5-chat-latest. Ceny to 1,25 USD za 1 mln tokenów wejściowych i 10 USD za 1 mln tokenów wyjściowych.
Model GPT‑5 jest również wdrażany na platformach firmy Microsoft, w tym Microsoft 365 Copilot, Copilot, GitHub Copilot i Azure AI Foundry.
Zapoznaj się z dokumentacją(otwiera nowe okno) GPT‑5, cennikiem(otwiera nowe okno) i przewodnikiem tworzenia poleceń(otwiera nowe okno), aby rozpocząć pracę.
Inteligencja
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Istnieje niewielka rozbieżność w danych liczbowych w poprzednim wpisie na blogu, ponieważ pochodzą one z poprzedniej wersji testu HLE.
Multimodalne
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Programowanie
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tys. USD | 75 tys. USD | 49 tys. USD | 86 tys. USD | 66 tys. USD | 34 tys. USD | 31 tys. USD | 9 tys. USD |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Pomijamy 23 z 500 problemów, których nie można uruchomić w naszej infrastrukturze. Pełna lista 23 pominiętych zadań: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' i 'sphinx-doc__sphinx-9367'.
Wykonywanie instrukcji
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Stwierdziliśmy, że domyślne rozwiązanie do oceniania w teście MultiChallenge (GPT-4o) często błędnie ocenia odpowiedzi modeli. Zauważyliśmy, że zmiana tego rozwiązania na model rozumowania, taki jak o3-mini, znacznie poprawia dokładność oceniania w przypadku sprawdzonych przez nas próbek.
Wywoływanie funkcji
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Długi kontekst
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Halucynacje
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


