Přeskoč na hlavní obsah
OpenAI

7. srpna 2025

Produkt

Představujeme GPT‑5 pro vývojáře

Nejlepší model pro kódování a agentní úkoly.

Načítání…

Úvod

Dnes uvádíme GPT‑5 na naší API platformě – náš dosud nejlepší model pro programování a agentické úkoly.

GPT‑5 je na špičkové úrovni (SOTA) v klíčových kódovacích benchmarcích, dosahuje 74,9 % v testu SWE-bench Verified a 88 % v testu Aider polyglot. Vytrénovali jsme GPT‑5, aby byl skutečným partnerem při kódování. Vyniká ve vytváření vysoce kvalitního kódu a zvládá úkoly, jako je oprava chyb, úprava kódu a zodpovídání otázek týkajících se složitých kódových základen. Model je řiditelný a spolupracující – dokáže se řídit velmi podrobnými pokyny s vysokou přesností a může poskytnout předběžná vysvětlení svých akcí před a mezi voláním nástrojů.  Model také vyniká v kódování front-endu a v interním testování překonává OpenAI o3 ve vývoji front-endu webu v 70 % případů.

Trénovali jsme GPT‑5 na reálných úkolech ve spolupráci s ranými testery napříč startupy a podniky. Cursor říká, že GPT‑5 je „nejchytřejší model, jaký kdy použili“ a „pozoruhodně inteligentní, snadno ovladatelný a dokonce má i osobnost, kterou u jiných modelů neviděli“. Windsurf sdílel, že GPT‑5 je v jejich hodnocení SOTA a „má poloviční míru chybovosti při volání nástrojů oproti jiným špičkovým modelům“. Vercel říká: „Je to nejlepší model umělé inteligence pro frontend, který dosahuje špičkového výkonu jak z hlediska estetického vnímání, tak i kvality kódu, což ho řadí do samostatné kategorie.“

GPT‑5 také vyniká v dlouhodobých agentických úkolech – dosahuje výsledků SOTA na τ2-bench Telecom (96,7 %), což je benchmark pro volání nástrojů, který byl zveřejněn před pouhými 2 měsíci. Vylepšená inteligence nástrojů GPT‑5 mu umožňuje spolehlivě řetězit desítky volání nástrojů – jak za sebou, tak paralelně – aniž by ztratil směr, což ho činí mnohem lepším při provádění složitých, reálných úkolů od začátku do konce. Také přesněji dodržuje pokyny nástroje, lépe zvládá chyby nástroje a vyniká při načítání obsahu s dlouhým kontextem. Manus říká, že GPT‑5 „dosáhl v interních benchmarkech nejlepšího výkonu, jaký kdy u jednoho modelu viděli.“ Notion říká: „Rychlé reakce modelu, zejména v režimu nízkého uvažování, činí z GPT‑5 ideální model, když potřebuješ složité úkoly vyřešit najednou.“ Inditex sdílel: „To, co skutečně odlišuje [GPT‑5], je hloubka jeho uvažování: nuancované, vícevrstvé odpovědi, které odrážejí skutečné porozumění dané problematice.“

Zavádíme nové funkce do našeho API, abychom vývojářům poskytli větší kontrolu nad odpověďmi modelu. GPT‑5 má novou podporu parametru verbosity (míra podrobnosti) (hodnoty: nízká, střední, vysoká), která pomáhá řídit, zda jsou odpovědi krátké a výstižné, nebo dlouhé a podrobné. Parametr reasoning_effort (hloubka uvažování) GPT‑5 nyní může mít minimální hodnotu, aby se odpovědi vrátily zpět rychleji, bez rozsáhlého uvažování. Také jsme přidali nový typ nástroje – vlastní nástroje – aby GPT‑5 mohl volat nástroje s prostým textem namísto JSON. Vlastní nástroje poskytují podporu omezení pomocí bezkontextových gramatik dodaných vývojářem.

V API uvolňujeme GPT‑5 ve třech velikostech – gpt-5, gpt-5-mini a gpt-5-nano – abychom vývojářům poskytli větší flexibilitu při vyvažování výkonu, nákladů a latence. Zatímco GPT‑5 v ChatGPT je systém modelů uvažování, neuvažování a routeru, GPT‑5 v platformě API je model uvažování, který v ChatGPT zajišťuje maximální výkon. Je pozoruhodné, že GPT‑5 s minimálním uvažováním je jiný model než model bez uvažování v ChatGPT a je lépe přizpůsobený pro vývojáře. Model bez uvažování používaný v ChatGPT je k dispozici jako gpt-5-chat-latest.

Chceš-li si přečíst o GPT‑5 v ChatGPT a dozvědět se více o dalších vylepšeních ChatGPT, podívej se na náš výzkumný blog. Pro více informací o tom, jak jsou podniky nadšené z používání GPT‑5, podívej se na náš podnikový blog.

Programování

GPT‑5 je nejsilnější kódovací model, jaký jsme kdy vydali. Překonává o3 v kódovacích benchmarcích a reálných případech použití a byl vyladěn, aby vynikal v agentních kódovacích produktech, jako jsou Cursor, Windsurf, GitHub Copilot a Codex CLI. GPT‑5 zapůsobil na naše alfa testery a překonal rekordy v mnoha jejich soukromých interních hodnoceních. 

Raná zpětná vazba na GPT‑5 pro úkoly kódování v reálném světě

„GPT-5 je nejchytřejší kódovací model, který jsme kdy použili. Náš tým zjistil, že GPT-5 je pozoruhodně inteligentní, snadno ovladatelný a dokonce má osobnost, kterou jsme u žádného jiného modelu neviděli. Nejenže zachytí složité, hluboce skryté chyby, ale také dokáže spustit dlouhé, vícekolové agenty na pozadí, aby dokončily složité úkoly až do konce – tedy takové problémy, na kterých se dříve ostatní modely zasekly. Stalo se naším každodenním nástrojem pro všechno od stanovení rozsahu a plánování PR až po dokončení komplexních sestav.“
Michael Truell, spoluzakladatel a generální ředitel Cursor

Na SWE-bench Verified, hodnocení založeném na reálných úkolech softwarového inženýrství, GPT‑5 dosahuje skóre 74,9 %, což je nárůst oproti 69,1 % u o3. Pozoruhodné je, že GPT‑5 dosahuje svého vysokého skóre s větší efektivitou a rychlostí: ve srovnání s o3 při vysoké hloubce uvažování používá GPT‑5 o 22 % méně výstupních tokenů a o 45 % méně volání nástrojů.

V SWE-bench Verified je modelu přidělen repozitář kódu a popis problému a musí vytvořit opravu k vyřešení problému. Textové popisky označují hloubku uvažování. Naše skóre vynechává 23 z 500 problémů, jejichž řešení na naší infrastruktuře spolehlivě neprošla. GPT‑5 obdržel krátký prompt, který zdůrazňoval důkladně ověřit řešení; stejný prompt nebyl pro o3 přínosný.

Na Aider polyglot, při hodnocení editace kódu, GPT‑5 dosáhl nového rekordu 88 %, což znamená snížení míry chyb o třetinu ve srovnání s o3.

V Aider polygot(otevře se v novém okně) (diff) je modelu zadáno kódovací cvičení z Exercism a musí napsat jeho řešení jako kódový diff. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.

Zjistili jsme také, že GPT‑5 je vynikající při hlubokém prozkoumávání kódových základen a odpovídání na otázky o tom, jak různé části fungují nebo spolupracují. V kódové základně tak složité, jako je posilovací výukový stack OpenAI, zjišťujeme, že GPT‑5 nám může pomoci uvažovat a odpovídat na otázky ohledně našeho kódu, což urychluje naši každodenní práci. 

Frontendové inženýrství

Při tvorbě frontendového kódu pro webové aplikace je GPT‑5 více zaměřený na estetiku, ambicióznější a přesnější. Při srovnání vedle sebe s o3 naši testeři preferovali GPT‑5 v 70 % případů.

Zde jsou některé zábavné, pečlivě vybrané příklady toho, co GPT‑5 dokáže s jediným promptem:

Prompt: Vytvoř krásnou, realistickou vstupní stránku pro službu, která poskytuje milovníkům kávy předplatné za 200 dolarů měsíčně, které zahrnuje pronájem vybavení a školení v oblasti pražení kávy a přípravy dokonalého espressa. Cílovou skupinou jsou lidé středního věku z oblasti San Francisco Bay Area, kteří pravděpodobně pracují v technologickém odvětví, mají vysokoškolské vzdělání, disponují volnými finančními prostředky a jsou nadšenci do umění a vědy o kávě. Optimalizuj stránku pro konverzi na 6měsíční předplatné.

Podívej se na další příklady GPT‑5 v naší galerii zde(otevře se v novém okně).

Spolupráce na kódování

GPT‑5 je lepší spolupracovník, zejména v agentních kódovacích produktech, jako jsou Cursor, Windsurf, GitHub Copilot a Codex CLI. Když funguje, GPT‑5 může mezi voláním nástrojů poskytovat výstupy, plány, aktualizace a rekapitulace. Ve srovnání s našimi předchozími modely je GPT‑5 proaktivnější při plnění ambiciózních úkolů, aniž by čekal na tvé schválení nebo se zdráhal kvůli vysoké složitosti.

Tady je příklad, jak může GPT‑5 vypadat při řešení složitého úkolu (v tomto případě při vytvoření webové stránky pro restauraci):

Poté, co uživatel požádá o webové stránky pro svou restauraci, GPT‑5 sdílí rychlý plán, vytvoří základ aplikace, nainstaluje závislosti, vytvoří obsah webu, spustí sestavení pro kontrolu chyb při kompilaci, shrne svou práci a navrhne možné další kroky. Toto video bylo zrychleno přibližně 3x, aby ti ušetřilo čekání; celková doba na vytvoření webových stránek byla asi tři minuty.

Agentní úkoly

Kromě agentního kódování je GPT‑5 obecně lepší v agentních úkolech. GPT‑5 stanovuje nové rekordy v benchmarcích dodržování pokynů (69,6 % na Scale MultiChallenge, hodnoceno o3‑mini) a volání nástrojů (96,7 % na τ2-bench telecom). Vylepšená inteligence nástrojů umožňuje GPT‑5 spolehlivěji řetězit akce k dosažení úkolů v reálném světě.

Počáteční zpětná vazba na GPT‑5 pro agentní úkoly

„GPT-5 je velkým krokem vpřed. V našich interních benchmarkech dosáhl nejlepšího výkonu, jaký jsme kdy u jednoho modelu viděli. GPT-5 vynikal v různých agentických úkolech – ještě předtím, než jsme upravili jediný řádek kódu nebo přizpůsobili prompt. Nové preambule a přesnější kontrola nad používáním nástrojů povolily významný skok ve stabilitě a ovladatelnosti našich agentů.“
Yichao „Peak“ Ji, spoluzakladatel a hlavní vědecký pracovník ve společnosti Manus

Dodržování pokynů

GPT‑5 se řídí instrukcemi spolehlivěji než kterýkoli z jeho předchůdců a dosahuje vysokých výsledků v testech COLLIE, Scale MultiChallenge a v našem interním hodnocení dodržování pokynů.

V COLLIE(otevře se v novém okně) musí modely psát text, který splňuje různá omezení. V Scale MultiChallenge(otevře se v novém okně) jsou modely vyzvány, aby při vícekolových konverzacích správně využily čtyři typy informací z předchozích zpráv. Naše skóre pochází z použití o3‑mini jako hodnotitele, který byl přesnější než GPT‑4o. V našem interním hodnocení dodržování pokynů OpenAI API musí modely dodržovat obtížné instrukce odvozené ze skutečné zpětné vazby od vývojářů. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.

Volání nástroje

Usilovně jsme pracovali na vylepšení volání nástrojů způsoby, které jsou pro vývojáře důležité. GPT‑5 lépe dodržuje instrukce nástroje, lépe řeší chyby nástroje a lépe proaktivně provádí mnoho volání nástrojů v pořadí nebo paralelně. Na pokyn může GPT‑5 také vytvářet výstupní úvodní zprávy před a mezi voláními nástrojů, aby uživatele informoval o pokroku během delších agentických úkolů.

Před dvěma měsíci Sierra.ai publikovala τ2-bench telecom jako náročný benchmark pro používání nástrojů, který zdůraznil, jak výkon jazykového modelu výrazně klesá při interakci se stavem prostředí, který mohou uživatelé měnit. V jejich publikaci(otevře se v novém okně) žádný model nezískal více než 49 %. GPT‑5 dosahuje 97 %.

V τ2-bench(otevře se v novém okně) musí model používat nástroje k provedení úkolu zákaznického servisu, kde může být uživatel, který může komunikovat a provádět akce ve stavu světa. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.

GPT‑5 vykazuje také výrazné zlepšení výkonu v dlouhém kontextu. Na OpenAI-MRCR, měřítku vyhledávání informací v dlouhém kontextu, GPT‑5 překonává o3 a GPT‑4.1 s rozdílem, který podstatně roste s delšími délkami vstupu.

V OpenAI-MRCR(otevře se v novém okně) (vícekolové rozlišení koreferencí) se více identických uživatelů požadavků typu „jehla“ vkládá do dlouhých „kupek sena“ podobných požadavků a odpovědí a model je požádán, aby reprodukoval odpověď na i-tou jehlu. Průměrný poměr shody měří průměrnou shodu řetězců mezi odpovědí modelu a správnou odpovědí. Body při maximálně 256k vstupních tokenech představují průměry přes 128k–256k vstupních tokenů a tak dále. Zde 256k představuje 256 * 1 024 = 262 144 tokenů. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.

Také zveřejňujeme jako open source BrowseComp Long Context(otevře se v novém okně), nový benchmark pro hodnocení otázek a odpovědí v dlouhém kontextu. V tomto benchmarku je modelu zadán uživatelův dotaz, dlouhý seznam relevantních výsledků vyhledávání a musí odpovědět na otázku na základě těchto výsledků. Navrhli jsme BrowseComp Long Kontext tak, aby byl realistický, obtížný a spolehlivě poskytoval správné a pravdivé odpovědi. Na vstupech o velikosti 128K–256K tokenů dává GPT‑5 správnou odpověď v 89 % případů.

V API mohou všechny modely GPT‑5 přijmout maximálně 272 000 vstupních tokenů a vygenerovat maximálně 128 000 tokenů pro uvažování a výstup, což představuje celkovou délku kontextu 400 000 tokenů.

Věcná správnost

GPT‑5 je důvěryhodnější než naše předchozí modely. Na základě promptů z benchmarků LongFact a FactScore dělá GPT‑5 přibližně o 80 % méně faktických chyb než o3. To ho činí vhodnějším pro agentní případy použití, kde je důležitá správnost – zejména v kódu, datech a rozhodování.

Vyšší skóre jsou horší. LongFact(otevře se v novém okně) a FActScore(otevře se v novém okně) se skládají z otevřených otázek zaměřených na hledání faktů. Ke kontrole odpovědí na prompt z těchto referenčních úrovní a k měření podílu věcně nesprávných tvrzení používáme hodnotící nástroj založený na LLM s procházením. Podrobnosti o implementaci a hodnocení najdeš v systémové kartě. Modely uvažování vyžadovaly vysokou hloubku uvažování. Vyhledávání nebylo povoleno.

Obecně byl GPT‑5 trénován, aby si více uvědomoval své vlastní omezení a lépe zvládal neočekávané výzvy. Také jsme natrénovali GPT‑5, aby byl mnohem přesnější v otázkách týkajících se zdraví (více si přečti v našem výzkumném blogu). Stejně jako u všech jazykových modelů doporučujeme ověřit práci GPT‑5, když jsou sázky vysoké.

Nové funkce

Minimální hloubka uvažování

Vývojáři mohou řídit dobu přemýšlení GPT‑5 pomocí parametru reasoning_effort (hloubka uvažování) v API. Kromě předchozích hodnot – nízká, střední (výchozí) a vysoká – GPT‑5 také podporuje minimální, což minimalizuje uvažování GPT‑5, aby rychle vrátil odpověď.

Vyšší hodnoty parametru reasoning_effort (hloubka uvažování) maximalizují kvalitu a nižší hodnoty maximalizují rychlost. Ne všechny úkoly mají stejný prospěch z dodatečného uvažování, proto doporučujeme experimentovat, abyste zjistili, co nejlépe funguje pro případy, na kterých vám záleží.

Například uvažování nad hodnotou nízká přidává málo k relativně jednoduchému vyhledávání v dlouhém kontextu, ale přidává poměrně mnoho procentních bodů k CharXiv Reasoning(otevře se v novém okně), což je benchmark vizuálního uvažování.

Hloubka uvažování GPT‑5 přináší různé výhody při různých úkolech. Pro CharXiv Reasoning byl GPT‑5 poskytnut přístup k nástroji Python.

Míra podrobnosti

Abychom pomohli řídit výchozí délku odpovědí GPT‑5, zavedli jsme nový parametr API verbosity (míra podrobnosti), který nabývá hodnot nízká, střední (výchozí) a vysoká. Pokud jsou explicitní pokyny v rozporu s parametry verbosisty (míra podrobnosti), mají explicitní pokyny přednost. Například když požádáš GPT‑5, aby „napsal esej o 5 odstavcích“, odpověď modelu by měla vždy mít 5 odstavců bez ohledu na úroveň míry podrobnosti (samotné odstavce však mohou být delší nebo kratší).

Míra podrobnosti=nízká

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Míra podrobnosti=střední

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Míra podrobnosti=vysoká

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Úvodní zprávy před voláním nástrojů

Pokud bude zadáno, GPT‑5 zobrazí uživatelsky viditelné úvodní zprávy před a mezi voláním nástroje. Na rozdíl od skrytých zpráv o uvažování umožňují tyto viditelné zprávy GPT‑5 sdělovat uživateli plány a postup, což pomáhá koncovým uživatelům pochopit jeho přístup a záměr za voláním nástrojů.

Vlastní nástroje

Představujeme nový typ nástroje – vlastní nástroje – které umožňují GPT‑5 volat nástroj s prostým textem místo JSON. Aby vývojáři omezili GPT‑5 na dodržování vlastních formátů nástrojů, mohou poskytnout regulární výraz nebo dokonce plně specifikovanou bezkontextovou gramatiku(otevře se v novém okně).

Dříve naše rozhraní pro nástroje definované vývojáři vyžadovalo jejich volání pomocí JSON, což je běžný formát používaný webovými API a vývojáři obecně. Nicméně, pro výstup platného JSON je nutné, aby model dokonale unikl všem uvozovkám, zpětným lomítkům, novým řádkům a dalším řídicím znakům. Ačkoli jsou naše modely dobře vyškoleny pro výstup JSON, u dlouhých vstupů, jako jsou stovky řádků kódu nebo pětistránková zpráva, se pravděpodobnost chyby zvyšuje. S vlastními nástroji může GPT‑5 zapisovat vstupy nástrojů jako prostý text, aniž by bylo nutné upravovat všechny znaky, které vyžadují úpravu.

Na SWE-bench Verified s použitím vlastních nástrojů místo JSON nástrojů, GPT‑5 dosahuje přibližně stejného skóre.

Bezpečnost

GPT‑5 posouvá hranice bezpečnosti a je robustnějším, spolehlivějším a užitečnějším modelem. GPT‑5 je výrazně méně náchylný k halucinacím než naše předchozí modely, upřímněji sděluje své akce a schopnosti uživateli a poskytuje co nejvíce užitečné odpovědi, kde je to možné, přičemž zůstává v rámci bezpečnostních hranic. Více si můžeš přečíst v našem výzkumném blogu.

Dostupnost a stanovení cen

GPT‑5 je nyní k dispozici na platformě API ve třech velikostech: gpt-5, gpt-5-mini a gpt-5-nano. Je dostupné v Responses API, Chat Completions API a je výchozí v Codex CLI. GPT‑5 je oceněn na 1,25 $/1M vstupních tokenů a 10 $/1M výstupních tokenů, GPT‑5 mini je oceněn na 0,25 $/1M vstupních tokenů a 2 $/1M výstupních tokenů, a GPT‑5 nano je oceněn na 0,05 $/1M vstupních tokenů a 0,40 $/1M výstupních tokenů.

Tyto modely podporují parametry API reasoning_effort (hloubka uvažování) a verbosity (míra podrobnosti), stejně jako vlastní nástroje. Podpora zahrnuje také paralelní volání nástrojů, vestavěné nástroje (webové vyhledávání, vyhledávání souborů, generování obrázků a další), základní funkce API (streamování, strukturované výstupy a další) a úsporné funkce jako ukládání promptů do mezipaměti a dávkové API.

Verze GPT‑5 bez uvažování používaná v ChatGPT je v API dostupná pod názvem gpt-5-chat-latest, také za cenu 1,25 $/1 M vstupních tokenů a 10 $/1 M výstupních tokenů.

GPT‑5 se také spouští na platformách Microsoftu, včetně Microsoft 365 Copilot, Copilot, GitHub Copilot a Azure AI Foundry.

Podrobné benchmarky

Inteligence
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Existuje malý nesoulad s čísly uvedenými v našem předchozím příspěvku na blogu, protože byly zpracovány na starší verzi HLE.

Multimodalita
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programování
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tis. US$75 tis. US$49 tis. US$86 tis. US$66 tis. US$34 tis. US$31 tis. US$9 tis. US$
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Vynecháváme 23/500 problémů, které nemohly běžet na naší infrastruktuře. Úplný seznam 23 vynechaných úkolů je „astropy__astropy-7606“, „astropy__astropy-8707“, „astropy__astropy-8872“, „django__django-10097“, „django__django-7530“, „matplotlib__matplotlib-20488“, „matplotlib__matplotlib-20676“, „matplotlib__matplotlib-20826“, „matplotlib__matplotlib-23299“, „matplotlib__matplotlib-24970“, „matplotlib__matplotlib-25479“, „matplotlib__matplotlib-26342“, „psf__requests-6028“, „pylint-dev__pylint-6528“, „pylint-dev__pylint-7080“, „pylint-dev__pylint-7277“, „pytest-dev__pytest-5262“, „pytest-dev__pytest-7521“, „scikit-learn__scikit-learn-12973“, „sphinx-doc__sphinx-10466“, „sphinx-doc__sphinx-7462“, „sphinx-doc__sphinx-8265“ a „sphinx-doc__sphinx-9367“.

Dodržování pokynů
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Poznámka: Zjistili jsme, že výchozí hodnotitel v MultiChallenge (GPT-4o) často nesprávně hodnotí odpovědi modelu. Zjistili jsme, že výměna hodnotícího modelu za model pro uvažování, jako je o3-mini, výrazně zlepšuje přesnost hodnocení u vzorků, které jsme zkontrolovali.

Volání funkcí
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Dlouhý kontext
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Halucinace
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI