Dnes uvádíme GPT‑5 na naší API platformě – náš dosud nejlepší model pro programování a agentické úkoly.
GPT‑5 je na špičkové úrovni (SOTA) v klíčových kódovacích benchmarcích, dosahuje 74,9 % v testu SWE-bench Verified a 88 % v testu Aider polyglot. Vytrénovali jsme GPT‑5, aby byl skutečným partnerem při kódování. Vyniká ve vytváření vysoce kvalitního kódu a zvládá úkoly, jako je oprava chyb, úprava kódu a zodpovídání otázek týkajících se složitých kódových základen. Model je řiditelný a spolupracující – dokáže se řídit velmi podrobnými pokyny s vysokou přesností a může poskytnout předběžná vysvětlení svých akcí před a mezi voláním nástrojů. Model také vyniká v kódování front-endu a v interním testování překonává OpenAI o3 ve vývoji front-endu webu v 70 % případů.
Trénovali jsme GPT‑5 na reálných úkolech ve spolupráci s ranými testery napříč startupy a podniky. Cursor říká, že GPT‑5 je „nejchytřejší model, jaký kdy použili“ a „pozoruhodně inteligentní, snadno ovladatelný a dokonce má i osobnost, kterou u jiných modelů neviděli“. Windsurf sdílel, že GPT‑5 je v jejich hodnocení SOTA a „má poloviční míru chybovosti při volání nástrojů oproti jiným špičkovým modelům“. Vercel říká: „Je to nejlepší model umělé inteligence pro frontend, který dosahuje špičkového výkonu jak z hlediska estetického vnímání, tak i kvality kódu, což ho řadí do samostatné kategorie.“
GPT‑5 také vyniká v dlouhodobých agentických úkolech – dosahuje výsledků SOTA na τ2-bench Telecom (96,7 %), což je benchmark pro volání nástrojů, který byl zveřejněn před pouhými 2 měsíci. Vylepšená inteligence nástrojů GPT‑5 mu umožňuje spolehlivě řetězit desítky volání nástrojů – jak za sebou, tak paralelně – aniž by ztratil směr, což ho činí mnohem lepším při provádění složitých, reálných úkolů od začátku do konce. Také přesněji dodržuje pokyny nástroje, lépe zvládá chyby nástroje a vyniká při načítání obsahu s dlouhým kontextem. Manus říká, že GPT‑5 „dosáhl v interních benchmarkech nejlepšího výkonu, jaký kdy u jednoho modelu viděli.“ Notion říká: „Rychlé reakce modelu, zejména v režimu nízkého uvažování, činí z GPT‑5 ideální model, když potřebuješ složité úkoly vyřešit najednou.“ Inditex sdílel: „To, co skutečně odlišuje [GPT‑5], je hloubka jeho uvažování: nuancované, vícevrstvé odpovědi, které odrážejí skutečné porozumění dané problematice.“
Zavádíme nové funkce do našeho API, abychom vývojářům poskytli větší kontrolu nad odpověďmi modelu. GPT‑5 má novou podporu parametru verbosity (míra podrobnosti) (hodnoty: nízká, střední, vysoká), která pomáhá řídit, zda jsou odpovědi krátké a výstižné, nebo dlouhé a podrobné. Parametr reasoning_effort (hloubka uvažování) GPT‑5 nyní může mít minimální hodnotu, aby se odpovědi vrátily zpět rychleji, bez rozsáhlého uvažování. Také jsme přidali nový typ nástroje – vlastní nástroje – aby GPT‑5 mohl volat nástroje s prostým textem namísto JSON. Vlastní nástroje poskytují podporu omezení pomocí bezkontextových gramatik dodaných vývojářem.
V API uvolňujeme GPT‑5 ve třech velikostech – gpt-5, gpt-5-mini a gpt-5-nano – abychom vývojářům poskytli větší flexibilitu při vyvažování výkonu, nákladů a latence. Zatímco GPT‑5 v ChatGPT je systém modelů uvažování, neuvažování a routeru, GPT‑5 v platformě API je model uvažování, který v ChatGPT zajišťuje maximální výkon. Je pozoruhodné, že GPT‑5 s minimálním uvažováním je jiný model než model bez uvažování v ChatGPT a je lépe přizpůsobený pro vývojáře. Model bez uvažování používaný v ChatGPT je k dispozici jako gpt-5-chat-latest.
Chceš-li si přečíst o GPT‑5 v ChatGPT a dozvědět se více o dalších vylepšeních ChatGPT, podívej se na náš výzkumný blog. Pro více informací o tom, jak jsou podniky nadšené z používání GPT‑5, podívej se na náš podnikový blog.
GPT‑5 je nejsilnější kódovací model, jaký jsme kdy vydali. Překonává o3 v kódovacích benchmarcích a reálných případech použití a byl vyladěn, aby vynikal v agentních kódovacích produktech, jako jsou Cursor, Windsurf, GitHub Copilot a Codex CLI. GPT‑5 zapůsobil na naše alfa testery a překonal rekordy v mnoha jejich soukromých interních hodnoceních.
Raná zpětná vazba na GPT‑5 pro úkoly kódování v reálném světě
„GPT-5 je nejchytřejší kódovací model, který jsme kdy použili. Náš tým zjistil, že GPT-5 je pozoruhodně inteligentní, snadno ovladatelný a dokonce má osobnost, kterou jsme u žádného jiného modelu neviděli. Nejenže zachytí složité, hluboce skryté chyby, ale také dokáže spustit dlouhé, vícekolové agenty na pozadí, aby dokončily složité úkoly až do konce – tedy takové problémy, na kterých se dříve ostatní modely zasekly. Stalo se naším každodenním nástrojem pro všechno od stanovení rozsahu a plánování PR až po dokončení komplexních sestav.“
Na SWE-bench Verified, hodnocení založeném na reálných úkolech softwarového inženýrství, GPT‑5 dosahuje skóre 74,9 %, což je nárůst oproti 69,1 % u o3. Pozoruhodné je, že GPT‑5 dosahuje svého vysokého skóre s větší efektivitou a rychlostí: ve srovnání s o3 při vysoké hloubce uvažování používá GPT‑5 o 22 % méně výstupních tokenů a o 45 % méně volání nástrojů.
V SWE-bench Verified je modelu přidělen repozitář kódu a popis problému a musí vytvořit opravu k vyřešení problému. Textové popisky označují hloubku uvažování. Naše skóre vynechává 23 z 500 problémů, jejichž řešení na naší infrastruktuře spolehlivě neprošla. GPT‑5 obdržel krátký prompt, který zdůrazňoval důkladně ověřit řešení; stejný prompt nebyl pro o3 přínosný.
Na Aider polyglot, při hodnocení editace kódu, GPT‑5 dosáhl nového rekordu 88 %, což znamená snížení míry chyb o třetinu ve srovnání s o3.
V Aider polygot(otevře se v novém okně) (diff) je modelu zadáno kódovací cvičení z Exercism a musí napsat jeho řešení jako kódový diff. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.
Zjistili jsme také, že GPT‑5 je vynikající při hlubokém prozkoumávání kódových základen a odpovídání na otázky o tom, jak různé části fungují nebo spolupracují. V kódové základně tak složité, jako je posilovací výukový stack OpenAI, zjišťujeme, že GPT‑5 nám může pomoci uvažovat a odpovídat na otázky ohledně našeho kódu, což urychluje naši každodenní práci.
Při tvorbě frontendového kódu pro webové aplikace je GPT‑5 více zaměřený na estetiku, ambicióznější a přesnější. Při srovnání vedle sebe s o3 naši testeři preferovali GPT‑5 v 70 % případů.
Zde jsou některé zábavné, pečlivě vybrané příklady toho, co GPT‑5 dokáže s jediným promptem:
Prompt: Vytvoř krásnou, realistickou vstupní stránku pro službu, která poskytuje milovníkům kávy předplatné za 200 dolarů měsíčně, které zahrnuje pronájem vybavení a školení v oblasti pražení kávy a přípravy dokonalého espressa. Cílovou skupinou jsou lidé středního věku z oblasti San Francisco Bay Area, kteří pravděpodobně pracují v technologickém odvětví, mají vysokoškolské vzdělání, disponují volnými finančními prostředky a jsou nadšenci do umění a vědy o kávě. Optimalizuj stránku pro konverzi na 6měsíční předplatné.
Podívej se na další příklady GPT‑5 v naší galerii zde(otevře se v novém okně).
GPT‑5 je lepší spolupracovník, zejména v agentních kódovacích produktech, jako jsou Cursor, Windsurf, GitHub Copilot a Codex CLI. Když funguje, GPT‑5 může mezi voláním nástrojů poskytovat výstupy, plány, aktualizace a rekapitulace. Ve srovnání s našimi předchozími modely je GPT‑5 proaktivnější při plnění ambiciózních úkolů, aniž by čekal na tvé schválení nebo se zdráhal kvůli vysoké složitosti.
Tady je příklad, jak může GPT‑5 vypadat při řešení složitého úkolu (v tomto případě při vytvoření webové stránky pro restauraci):
Poté, co uživatel požádá o webové stránky pro svou restauraci, GPT‑5 sdílí rychlý plán, vytvoří základ aplikace, nainstaluje závislosti, vytvoří obsah webu, spustí sestavení pro kontrolu chyb při kompilaci, shrne svou práci a navrhne možné další kroky. Toto video bylo zrychleno přibližně 3x, aby ti ušetřilo čekání; celková doba na vytvoření webových stránek byla asi tři minuty.
Kromě agentního kódování je GPT‑5 obecně lepší v agentních úkolech. GPT‑5 stanovuje nové rekordy v benchmarcích dodržování pokynů (69,6 % na Scale MultiChallenge, hodnoceno o3‑mini) a volání nástrojů (96,7 % na τ2-bench telecom). Vylepšená inteligence nástrojů umožňuje GPT‑5 spolehlivěji řetězit akce k dosažení úkolů v reálném světě.
Počáteční zpětná vazba na GPT‑5 pro agentní úkoly
„GPT-5 je velkým krokem vpřed. V našich interních benchmarkech dosáhl nejlepšího výkonu, jaký jsme kdy u jednoho modelu viděli. GPT-5 vynikal v různých agentických úkolech – ještě předtím, než jsme upravili jediný řádek kódu nebo přizpůsobili prompt. Nové preambule a přesnější kontrola nad používáním nástrojů povolily významný skok ve stabilitě a ovladatelnosti našich agentů.“
GPT‑5 se řídí instrukcemi spolehlivěji než kterýkoli z jeho předchůdců a dosahuje vysokých výsledků v testech COLLIE, Scale MultiChallenge a v našem interním hodnocení dodržování pokynů.
V COLLIE(otevře se v novém okně) musí modely psát text, který splňuje různá omezení. V Scale MultiChallenge(otevře se v novém okně) jsou modely vyzvány, aby při vícekolových konverzacích správně využily čtyři typy informací z předchozích zpráv. Naše skóre pochází z použití o3‑mini jako hodnotitele, který byl přesnější než GPT‑4o. V našem interním hodnocení dodržování pokynů OpenAI API musí modely dodržovat obtížné instrukce odvozené ze skutečné zpětné vazby od vývojářů. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.
Usilovně jsme pracovali na vylepšení volání nástrojů způsoby, které jsou pro vývojáře důležité. GPT‑5 lépe dodržuje instrukce nástroje, lépe řeší chyby nástroje a lépe proaktivně provádí mnoho volání nástrojů v pořadí nebo paralelně. Na pokyn může GPT‑5 také vytvářet výstupní úvodní zprávy před a mezi voláními nástrojů, aby uživatele informoval o pokroku během delších agentických úkolů.
Před dvěma měsíci Sierra.ai publikovala τ2-bench telecom jako náročný benchmark pro používání nástrojů, který zdůraznil, jak výkon jazykového modelu výrazně klesá při interakci se stavem prostředí, který mohou uživatelé měnit. V jejich publikaci(otevře se v novém okně) žádný model nezískal více než 49 %. GPT‑5 dosahuje 97 %.
V τ2-bench(otevře se v novém okně) musí model používat nástroje k provedení úkolu zákaznického servisu, kde může být uživatel, který může komunikovat a provádět akce ve stavu světa. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.
GPT‑5 vykazuje také výrazné zlepšení výkonu v dlouhém kontextu. Na OpenAI-MRCR, měřítku vyhledávání informací v dlouhém kontextu, GPT‑5 překonává o3 a GPT‑4.1 s rozdílem, který podstatně roste s delšími délkami vstupu.
V OpenAI-MRCR(otevře se v novém okně) (vícekolové rozlišení koreferencí) se více identických uživatelů požadavků typu „jehla“ vkládá do dlouhých „kupek sena“ podobných požadavků a odpovědí a model je požádán, aby reprodukoval odpověď na i-tou jehlu. Průměrný poměr shody měří průměrnou shodu řetězců mezi odpovědí modelu a správnou odpovědí. Body při maximálně 256k vstupních tokenech představují průměry přes 128k–256k vstupních tokenů a tak dále. Zde 256k představuje 256 * 1 024 = 262 144 tokenů. Modely uvažování byly spuštěny s vysokou hloubkou uvažování.
Také zveřejňujeme jako open source BrowseComp Long Context(otevře se v novém okně), nový benchmark pro hodnocení otázek a odpovědí v dlouhém kontextu. V tomto benchmarku je modelu zadán uživatelův dotaz, dlouhý seznam relevantních výsledků vyhledávání a musí odpovědět na otázku na základě těchto výsledků. Navrhli jsme BrowseComp Long Kontext tak, aby byl realistický, obtížný a spolehlivě poskytoval správné a pravdivé odpovědi. Na vstupech o velikosti 128K–256K tokenů dává GPT‑5 správnou odpověď v 89 % případů.
V API mohou všechny modely GPT‑5 přijmout maximálně 272 000 vstupních tokenů a vygenerovat maximálně 128 000 tokenů pro uvažování a výstup, což představuje celkovou délku kontextu 400 000 tokenů.
GPT‑5 je důvěryhodnější než naše předchozí modely. Na základě promptů z benchmarků LongFact a FactScore dělá GPT‑5 přibližně o 80 % méně faktických chyb než o3. To ho činí vhodnějším pro agentní případy použití, kde je důležitá správnost – zejména v kódu, datech a rozhodování.
Vyšší skóre jsou horší. LongFact(otevře se v novém okně) a FActScore(otevře se v novém okně) se skládají z otevřených otázek zaměřených na hledání faktů. Ke kontrole odpovědí na prompt z těchto referenčních úrovní a k měření podílu věcně nesprávných tvrzení používáme hodnotící nástroj založený na LLM s procházením. Podrobnosti o implementaci a hodnocení najdeš v systémové kartě. Modely uvažování vyžadovaly vysokou hloubku uvažování. Vyhledávání nebylo povoleno.
Obecně byl GPT‑5 trénován, aby si více uvědomoval své vlastní omezení a lépe zvládal neočekávané výzvy. Také jsme natrénovali GPT‑5, aby byl mnohem přesnější v otázkách týkajících se zdraví (více si přečti v našem výzkumném blogu). Stejně jako u všech jazykových modelů doporučujeme ověřit práci GPT‑5, když jsou sázky vysoké.
Vývojáři mohou řídit dobu přemýšlení GPT‑5 pomocí parametru reasoning_effort (hloubka uvažování) v API. Kromě předchozích hodnot – nízká, střední (výchozí) a vysoká – GPT‑5 také podporuje minimální, což minimalizuje uvažování GPT‑5, aby rychle vrátil odpověď.
Vyšší hodnoty parametru reasoning_effort (hloubka uvažování) maximalizují kvalitu a nižší hodnoty maximalizují rychlost. Ne všechny úkoly mají stejný prospěch z dodatečného uvažování, proto doporučujeme experimentovat, abyste zjistili, co nejlépe funguje pro případy, na kterých vám záleží.
Například uvažování nad hodnotou nízká přidává málo k relativně jednoduchému vyhledávání v dlouhém kontextu, ale přidává poměrně mnoho procentních bodů k CharXiv Reasoning(otevře se v novém okně), což je benchmark vizuálního uvažování.
Hloubka uvažování GPT‑5 přináší různé výhody při různých úkolech. Pro CharXiv Reasoning byl GPT‑5 poskytnut přístup k nástroji Python.
Abychom pomohli řídit výchozí délku odpovědí GPT‑5, zavedli jsme nový parametr API verbosity (míra podrobnosti), který nabývá hodnot nízká, střední (výchozí) a vysoká. Pokud jsou explicitní pokyny v rozporu s parametry verbosisty (míra podrobnosti), mají explicitní pokyny přednost. Například když požádáš GPT‑5, aby „napsal esej o 5 odstavcích“, odpověď modelu by měla vždy mít 5 odstavců bez ohledu na úroveň míry podrobnosti (samotné odstavce však mohou být delší nebo kratší).
Míra podrobnosti=nízká
Míra podrobnosti=střední
Míra podrobnosti=vysoká
Pokud bude zadáno, GPT‑5 zobrazí uživatelsky viditelné úvodní zprávy před a mezi voláním nástroje. Na rozdíl od skrytých zpráv o uvažování umožňují tyto viditelné zprávy GPT‑5 sdělovat uživateli plány a postup, což pomáhá koncovým uživatelům pochopit jeho přístup a záměr za voláním nástrojů.
Představujeme nový typ nástroje – vlastní nástroje – které umožňují GPT‑5 volat nástroj s prostým textem místo JSON. Aby vývojáři omezili GPT‑5 na dodržování vlastních formátů nástrojů, mohou poskytnout regulární výraz nebo dokonce plně specifikovanou bezkontextovou gramatiku(otevře se v novém okně).
Dříve naše rozhraní pro nástroje definované vývojáři vyžadovalo jejich volání pomocí JSON, což je běžný formát používaný webovými API a vývojáři obecně. Nicméně, pro výstup platného JSON je nutné, aby model dokonale unikl všem uvozovkám, zpětným lomítkům, novým řádkům a dalším řídicím znakům. Ačkoli jsou naše modely dobře vyškoleny pro výstup JSON, u dlouhých vstupů, jako jsou stovky řádků kódu nebo pětistránková zpráva, se pravděpodobnost chyby zvyšuje. S vlastními nástroji může GPT‑5 zapisovat vstupy nástrojů jako prostý text, aniž by bylo nutné upravovat všechny znaky, které vyžadují úpravu.
Na SWE-bench Verified s použitím vlastních nástrojů místo JSON nástrojů, GPT‑5 dosahuje přibližně stejného skóre.
GPT‑5 posouvá hranice bezpečnosti a je robustnějším, spolehlivějším a užitečnějším modelem. GPT‑5 je výrazně méně náchylný k halucinacím než naše předchozí modely, upřímněji sděluje své akce a schopnosti uživateli a poskytuje co nejvíce užitečné odpovědi, kde je to možné, přičemž zůstává v rámci bezpečnostních hranic. Více si můžeš přečíst v našem výzkumném blogu.
GPT‑5 je nyní k dispozici na platformě API ve třech velikostech: gpt-5, gpt-5-mini a gpt-5-nano. Je dostupné v Responses API, Chat Completions API a je výchozí v Codex CLI. GPT‑5 je oceněn na 1,25 $/1M vstupních tokenů a 10 $/1M výstupních tokenů, GPT‑5 mini je oceněn na 0,25 $/1M vstupních tokenů a 2 $/1M výstupních tokenů, a GPT‑5 nano je oceněn na 0,05 $/1M vstupních tokenů a 0,40 $/1M výstupních tokenů.
Tyto modely podporují parametry API reasoning_effort (hloubka uvažování) a verbosity (míra podrobnosti), stejně jako vlastní nástroje. Podpora zahrnuje také paralelní volání nástrojů, vestavěné nástroje (webové vyhledávání, vyhledávání souborů, generování obrázků a další), základní funkce API (streamování, strukturované výstupy a další) a úsporné funkce jako ukládání promptů do mezipaměti a dávkové API.
Verze GPT‑5 bez uvažování používaná v ChatGPT je v API dostupná pod názvem gpt-5-chat-latest, také za cenu 1,25 $/1 M vstupních tokenů a 10 $/1 M výstupních tokenů.
GPT‑5 se také spouští na platformách Microsoftu, včetně Microsoft 365 Copilot, Copilot, GitHub Copilot a Azure AI Foundry.
Podívej se na dokumentaci(otevře se v novém okně) k GPT‑5, stanovení cen(otevře se v novém okně) a průvodce pro zadávání(otevře se v novém okně), abys mohl začít.
Inteligence
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Existuje malý nesoulad s čísly uvedenými v našem předchozím příspěvku na blogu, protože byly zpracovány na starší verzi HLE.
Multimodalita
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Programování
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tis. US$ | 75 tis. US$ | 49 tis. US$ | 86 tis. US$ | 66 tis. US$ | 34 tis. US$ | 31 tis. US$ | 9 tis. US$ |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Vynecháváme 23/500 problémů, které nemohly běžet na naší infrastruktuře. Úplný seznam 23 vynechaných úkolů je „astropy__astropy-7606“, „astropy__astropy-8707“, „astropy__astropy-8872“, „django__django-10097“, „django__django-7530“, „matplotlib__matplotlib-20488“, „matplotlib__matplotlib-20676“, „matplotlib__matplotlib-20826“, „matplotlib__matplotlib-23299“, „matplotlib__matplotlib-24970“, „matplotlib__matplotlib-25479“, „matplotlib__matplotlib-26342“, „psf__requests-6028“, „pylint-dev__pylint-6528“, „pylint-dev__pylint-7080“, „pylint-dev__pylint-7277“, „pytest-dev__pytest-5262“, „pytest-dev__pytest-7521“, „scikit-learn__scikit-learn-12973“, „sphinx-doc__sphinx-10466“, „sphinx-doc__sphinx-7462“, „sphinx-doc__sphinx-8265“ a „sphinx-doc__sphinx-9367“.
Dodržování pokynů
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Poznámka: Zjistili jsme, že výchozí hodnotitel v MultiChallenge (GPT-4o) často nesprávně hodnotí odpovědi modelu. Zjistili jsme, že výměna hodnotícího modelu za model pro uvažování, jako je o3-mini, výrazně zlepšuje přesnost hodnocení u vzorků, které jsme zkontrolovali.
Volání funkcí
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Dlouhý kontext
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Halucinace
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


