Preskočiť na hlavný obsah
OpenAI

7. augusta 2025

Produkt

Predstavujeme GPT‑5 pre vývojárov

Najlepší model pre kódovanie a agentné úlohy.

Načítava sa…

Úvod

Dnes vydávame GPT‑5 v našej API platforme – náš zatiaľ najlepší model pre kódovanie a agentné úlohy.

GPT‑5 je najmodernejší štandard v kľúčových kódovacích benchmarkoch, pričom dosiahol skóre 74,9 % v teste SWE-bench Verified a 88 % v teste Aider polyglot. Vytrénovali sme GPT‑5, aby bol skutočným spolupracovníkom pri kódovaní. Vyniká v produkcii vysokokvalitného kódu a zvládaní úloh, ako je oprava chýb, úprava kódu a odpovedanie na otázky týkajúce sa zložitých kódových základní. Model je ovládateľný a kolaboratívny– dokáže s vysokou presnosťou nasledovať veľmi podrobné pokyny a poskytovať vopred vysvetlenia svojich akcií pred a medzi získavaním nástrojov.  Model tiež vyniká vo front-endovom kódovaní, keď v internom testovaní prekonáva OpenAI o3 vo front-endovom webovom vývoji v 70 % prípadov.

Vyškolili sme GPT‑5 na reálnych kódovacích úlohách v spolupráci s prvými testermi z rôznych startupov a podnikov. Cursor hovorí, že GPT‑5 je „najinteligentnejší model, aký kedy použili“ a „pozoruhodne inteligentný, ľahko ovládateľný a dokonca má osobnosť, akú v iných modeloch nevideli“. Windsurf zdieľal, že GPT‑5 je špičkový v ich hodnoteniach a „má polovičnú chybovosť získavania nástrojov v porovnaní s inými poprednými modelmi.“ Vercel hovorí: „Je to najlepší model umelej inteligencie pre frontend, ktorý dosahuje špičkový výkon v estetickom zmysle aj v kvalite kódu, čím ho radí do samostatnej kategórie.“

GPT‑5 tiež vyniká v dlhotrvajúcich agentných úlohách – dosahuje špičkové výsledky na τ2-bench telecom (96,7 %), čo je benchmark pre získavanie nástrojov, ktorý bol vydaný len pred 2 mesiacmi. Vylepšená inteligencia nástrojov GPT‑5 umožňuje spoľahlivo spájať desiatky získavaní nástrojov – postupne aj paralelne – bez straty orientácie, čo ho robí oveľa lepším pri vykonávaní zložitých úloh z reálneho sveta od začiatku do konca. Taktiež presnejšie dodržiava pokyny nástroja, lepšie spracováva chyby nástroja a vyniká pri vyhľadávaní obsahu s dlhým kontextom. Manus hovorí, že GPT‑5 „dosiahol v interných benchmarkoch najlepší výkon, aký kedy od jedného modelu videli.“ Notion hovorí: „rýchle reakcie [modelu], najmä v režime nízkeho myslenia, robia z GPT‑5 ideálny model, keď potrebujete vyriešiť zložité úlohy naraz.“ Inditex uviedol, že „to, čo skutočne odlišuje [GPT‑5], je hĺbka jeho myslenia: diferencovanejšie, viacvrstvové odpovede, ktoré odrážajú skutočné pochopenie problematiky.“

V našom API zavádzame nové funkcie, ktoré vývojárom poskytnú väčšiu kontrolu nad odpoveďami modelov. GPT‑5 podporuje nový parameter verbosity (hodnoty: nízka, stredná, vysoká), ktorý pomáha kontrolovať, či sú odpovede krátke a výstižné alebo dlhé a komplexné. Parameter reasoning_effort v GPT‑5 teraz môže nadobúdať minimálnu hodnotu, aby sa odpovede získali rýchlejšie bez rozsiahleho predchádzajúceho myslenia. Taktiež sme pridali nový typ nástroja – vlastné nástroje – aby GPT‑5 mohol získavať nástroje s obyčajným textom namiesto JSON. Vlastné nástroje podporujú obmedzenia pomocou bezkontextových gramatík dodaných vývojármi.

V rozhraní API vydávame GPT‑5 v troch veľkostiachgpt-5, gpt-5-mini a gpt-5-nano– aby sme vývojárom poskytli väčšiu flexibilitu pri kompromisoch medzi výkonom, nákladmi a latenciou. Zatiaľ čo GPT‑5 v ChatGPT je systém modelov myslenia, nemyslenia a smerovania, GPT‑5 v platforme API je model myslenia, ktorý zabezpečuje maximálny výkon v ChatGPT. Zaujímavé je, že GPT‑5 s minimálnym myslením je iný model ako model bez myslenia v ChatGPT a je lepšie prispôsobený pre vývojárov. Model nemyslenia použitý v ChatGPT je k dispozícii ako gpt-5-chat-latest.

Ak si chcete prečítať o GPT‑5 v ChatGPT a dozvedieť sa viac o ďalších vylepšeniach ChatGPT, pozrite si náš výskumný blog. Viac informácií o tom, ako sú podniky nadšené z používania GPT‑5, nájdete v našom firemnom blogu.

Programovanie

GPT‑5 je najsilnejší model kódovania, aký sme kedy vydali. Prekonáva o3 v kódovacích benchmarkoch a prípadoch použitia v reálnom čase a bol doladený tak, aby vynikal v agentných kódovacích produktoch, ako sú Cursor, Windsurf, GitHub Copilot a Codex CLI. GPT‑5 zapôsobil na našich alfa testerov a prekonal rekordy v mnohých ich súkromných interných hodnoteniach. 

Prvá spätná väzba o GPT‑5 pre úlohy kódovania v reálnom svete

„GPT-5 je najinteligentnejší kódovací model, aký sme doteraz použili. Náš tím zistil, že GPT-5 je pozoruhodne inteligentný, ľahko ovládateľný a dokonca má osobnosť, akú sme u žiadneho iného modelu nevideli. Nielenže zachytáva zložité, hlboko skryté chyby, ale dokáže aj spúšťať dlhé, viacstupňové agenty na pozadí, aby dotiahol zložité úlohy až do konca – tie druhy problémov, pri ktorých sa iné modely zasekli. Stal sa naším každodenným nástrojom pre všetko od stanovenia rozsahu a plánovania PR až po dokončenie end-to-end zostavení.“
Michael Truell, spoluzakladateľ a generálny riaditeľ spoločnosti Cursor

V teste SWE-bench Verified, ktorý je založený na reálnych úlohách softvérového inžinierstva, dosiahol GPT‑5 skóre 74,9 %, čo je nárast oproti 69,1 % u o3. Je pozoruhodné, že GPT‑5 dosahuje svoje vysoké skóre s vyššou efektivitou a rýchlosťou: v porovnaní s o3 pri vysokom úsilí myslenia používa GPT‑5 o 22 % menej výstupných tokenov a o 45 % menej získavania nástrojov.

V teste SWE-bench Verified je modelu pridelený repozitár kódu a popis problému a musí vygenerovať opravu na vyriešenie problému. Textové štítky označujú úsilie pri myslení. Naše skóre vynecháva 23 z 500 problémov, ktorých riešenia neprešli spoľahlivo na našej infraštruktúre. GPT‑5 dostal krátky príkaz, ktorý zdôrazňoval dôkladné overenie riešení; ten istý príkaz nebol prospešný pre o3.

V teste Aider polyglot, ktorý slúži na vyhodnotenie úpravy kódu, GPT‑5 dosahuje nový rekord 88 %, čo predstavuje zníženie miery chybovosti o tretinu v porovnaní s o3.

V Aider polygot(otvorí sa v novom okne) (diff) je modelu zadané kódovacie cvičenie z Exercism a musí napísať svoje riešenie ako kódový diff. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.

Zistili sme tiež, že GPT‑5 je vynikajúci pri hlbokom skúmaní kódových základní, aby dokázal odpovedať na otázky o tom, ako rôzne časti fungujú alebo spolupracujú. V kódovej základni takej zložitej, ako je systém učenia posilňovaním OpenAI, zisťujeme, že GPT‑5 nám môže pomôcť uvažovať o našom kóde a odpovedať na otázky týkajúce sa kódu, čím urýchľuje našu každodennú prácu. 

Frontendové inžinierstvo

Pri tvorbe frontendového kódu pre webové aplikácie je GPT‑5 esteticky zmysluplnejší, ambicióznejší a presnejší. V porovnávacích testoch s o3 naši testeri uprednostnili GPT‑5 v 70 % prípadov.

Tu je niekoľko zábavných, starostlivo vybraných príkladov toho, čo dokáže GPT‑5 s jedným príkazom:

Príkaz: Vytvor krásnu a realistickú vstupnú stránku pre službu, ktorá poskytuje dokonalému kávovému nadšencovi mesačné predplatné za 200 USD, ktoré zahŕňa prenájom vybavenia a koučing pre praženie kávy a prípravu dokonalého espressa. Cieľovou skupinou je človek stredného veku z oblasti Sanfranciského zálivu, ktorý pracuje v oblasti technológií, je vzdelaný, má dostatočný príjem a je nadšený umením a vedou o káve. Optimalizuj pre konverziu s registráciou na 6 mesiacov.

Pozrite si ďalšie príklady od GPT‑5 v našej galérii tu(otvorí sa v novom okne).

Spolupráca na kódovaní

GPT‑5 je lepším spolupracovníkom, najmä v produktoch agentného kódovania ako Cursor, Windsurf, GitHub Copilot a Codex CLI. GPT‑5 počas svojej činnosti dokáže medzi získavaním nástrojov vygenerovať plány, aktualizácie a zhrnutia. V porovnaní s našimi predchádzajúcimi modelmi je GPT‑5 proaktívnejší pri plnení ambicióznych úloh bez toho, aby čakal na váš súhlas alebo sa zdráhal zvládnuť vysokú zložitosť.

Tu je príklad, ako môže GPT‑5 vyzerať pri riešení zložitej úlohy (v tomto prípade vytvorenie webovej stránky pre reštauráciu):

Keď používateľ požiada o webovú stránku pre svoju reštauráciu, GPT‑5 zdieľa rýchly plán, vytvorí aplikáciu, nainštaluje závislosti, vytvorí obsah stránky, spustí zostavenie na kontrolu chýb kompilácie, zhrnie svoju prácu a navrhne možné ďalšie kroky. Toto video bolo zrýchlené približne trikrát, aby ste zbytočne nečakali; celková doba na vytvorenie webovej stránky bola približne tri minúty.

Agentné úlohy

Okrem agentného kódovania je GPT‑5 vo všeobecnosti lepší v agentných úlohách. GPT‑5 dosahuje nové rekordy v testoch sledovania inštrukcií (69,6 % na Scale MultiChallenge, podľa hodnotenia o3‑mini) a získavania nástrojov (96,7 % na τ2-bench telecom). Vylepšená inteligencia nástrojov umožňuje GPT‑5 spoľahlivejšie reťaziť akcie na plnenie úloh v reálnom svete.

Prvé pripomienky k GPT‑5 pre agentné úlohy

GPT-5 je veľký krok vpred. V našich interných testoch dosiahol najlepší výkon, aký sme kedy od jedného modelu videli. GPT-5 vynikal v rôznych agentných úlohách – ešte predtým, ako sme upravili čo i len jeden riadok kódu alebo prispôsobili príkaz. Nové úvody a presnejšia kontrola nad používaním nástrojov umožnili významný skok v stabilite a ovládateľnosti našich agentov.“
Yichao „Peak“ Ji, spoluzakladateľ a hlavný vedec v spoločnosti Manus

Dodržiavanie pokynov

GPT‑5 sa riadi pokynmi spoľahlivejšie ako ktorýkoľvek z jeho predchodcov a dosahuje vysoké skóre v testoch COLLIE, Scale MultiChallenge a v našich interných testoch hodnotenia sledovania pokynov.

V COLLIE(otvorí sa v novom okne) musia modely písať text, ktorý spĺňa rôzne obmedzenia. V Scale MultiChallenge(otvorí sa v novom okne) sú modely v rámci viacnásobných konverzácií vyzvané, aby správne využili štyri typy informácií z predchádzajúcich správ. Naše skóre pochádza z použitia o3‑mini ako hodnotiteľa, ktorý bol presnejší ako GPT‑4o. V našom internom hodnotení OpenAI API sledovania pokynov musia modely dodržiavať zložité pokyny odvodené od skutočných spätných väzieb od vývojárov. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.

Získavanie nástrojov

Usilovne sme pracovali na zlepšení získavania nástrojov spôsobmi, ktoré sú pre vývojárov dôležité. GPT‑5 lepšie dodržiava pokyny nástroja, lepšie rieši chyby nástroja a lepšie proaktívne vykonáva viacero získavaní nástrojov postupne alebo paralelne. Na pokyn môže GPT‑5 tiež vydávať úvodné správy pred získavaním nástrojov a medzi ním, aby informoval používateľov o priebehu dlhších agentných úloh.

Pred dvoma mesiacmi publikovala spoločnosť Sierra.ai τ2-bench telecom ako náročný benchmark používania nástrojov, ktorý zdôraznil, ako výrazne klesá výkon jazykového modelu pri interakcii so stavom prostredia, ktorý môžu používatelia zmeniť. V jej publikácii(otvorí sa v novom okne) žiadny model nezískal viac ako 49 %. GPT‑5 dosahuje skóre 97 %.

Pri teste τ2-bench(otvorí sa v novom okne) musí model používať nástroje na splnenie úlohy zákazníckeho servisu, kde môže byť používateľ, ktorý dokáže komunikovať a vykonávať akcie týkajúce sa stavu sveta. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.

GPT‑5 vykazuje aj výrazné zlepšenie výkonu v dlhodobom kontexte. Na OpenAI-MRCR, čo je miera vyhľadávania informácií v dlhodobom kontexte, GPT‑5 prekonáva o3 a GPT‑4.1 s rozdielom, ktorý sa podstatne zvyšuje pri dlhších vstupných dĺžkach.

V OpenAI-MRCR(otvorí sa v novom okne) (viackolové koreferenčné rozlíšenie) sa viacero identických používateľských požiadaviek typu „ihla“ vloží do dlhých „kôp sena“ podobných požiadaviek a odpovedí a model je požiadaný, aby reprodukoval odpoveď na i-tú ihlu. Priemerný pomer zhody meria priemerný pomer zhody reťazcov medzi odpoveďou modelu a správnou odpoveďou. Body pri maximálnom počte vstupných tokenov 256 tisíc predstavujú priemery pre 128 tisíc – 256 tisíc vstupných tokenov atď. Tu 256 tisíc predstavuje 256 * 1 024 = 262 144 tokenov. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.

Taktiež sprístupňujeme BrowseComp Long Context(otvorí sa v novom okne), nový štandard pre hodnotenie otázok a odpovedí s dlhým kontextom. V tomto benchmarku dostane model zadaný používateľský dopyt, dlhý zoznam relevantných výsledkov vyhľadávania a musí odpovedať na otázku na základe výsledkov vyhľadávania. Navrhli sme BrowseComp Long Context tak, aby bol realistický, náročný a poskytoval spoľahlivo správne a pravdivé odpovede. Pri vstupoch s veľkosťou 128 000 – 256 000 tokenov poskytuje GPT‑5 správnu odpoveď v 89 % prípadov.

V rozhraní API môžu všetky modely GPT‑5 akceptovať maximálne 272 000 vstupných tokenov a vygenerovať maximálne 128 000 tokenov myslenia a výstupu, čo predstavuje celkovú dĺžku kontextu 400 000 tokenov.

Faktickosť

GPT‑5 je dôveryhodnejší ako naše predchádzajúce modely. Na základe príkazov z benchmarkov LongFact a FactScore robí GPT‑5 o ~80 % menej faktických chýb ako o3. Toto ho robí vhodnejším pre agentné prípady použitia, kde je dôležitá správnosť—najmä v kóde, údajoch a rozhodovaní.

Vyššie skóre sú horšie. LongFact(otvorí sa v novom okne) a FActScore(otvorí sa v novom okne) pozostávajú z otvorených otázok zameraných na zisťovanie faktov. Na overenie faktov v odpovediach na príkazy z týchto benchmarkov a meranie podielu fakticky nesprávnych tvrdení používame hodnotiteľ založený na LLM s prehliadaním. Podrobnosti o implementácii a hodnotení nájdete v systémovej karte. Pri modeloch myslenia sa používala vysoká miera úsilia pri myslení. Hľadanie nebolo povolené.

Vo všeobecnosti bol GPT‑5 trénovaný tak, aby si bol viac vedomý svojich vlastných obmedzení a lepšie zvládal neočakávané výzvy. Taktiež sme natrénovali GPT‑5, aby bol oveľa presnejší v otázkach týkajúcich sa zdravia (viac si prečítajte v našom výskumnom blogu). Rovnako ako pri všetkých jazykových modeloch odporúčame overiť funkčnosť GPT‑5, keď je v stávke veľa.

Nové funkcie

Minimálne úsilie pri myslení

Vývojári môžu ovládať čas, ktorý GPT‑5 potrebuje na premýšľanie, a to pomocou parametra reasoning_effort v rozhraní API. Okrem predchádzajúcich hodnôt –nízka, stredná (predvolená) a vysoká– GPT‑5 podporuje aj minimálnu hodnotu, čo minimalizuje potrebu GPT‑5 rýchlo vrátiť odpoveď.

Vyššie hodnoty reasoning_effort maximalizujú kvalitu a nižšie hodnoty maximalizujú rýchlosť. Nie všetky úlohy majú rovnaký úžitok z dodatočného myslenia, preto odporúčame experimentovať, aby sa zistilo, ktorá z nich funguje najlepšie pre prípady použitia, ktoré vás zaujímajú.

Napríklad myslenie nad úrovňou nízka nepridáva veľa k relatívne jednoduchému dlhému kontextovému vyhľadávaniu, ale pridáva pomerne veľa percentuálnych bodov k CharXiv Reasoning(otvorí sa v novom okne), benchmarku vizuálneho myslenia.

Úsilie pri myslení GPT‑5 prináša rôzne výhody pri rôznych úlohách. Pre účely myslenia v CharXiv dostal GPT‑5 prístup k nástroju v jazyku Python.

Výrečnosť

Aby sme pomohli riadiť predvolenú dĺžku odpovedí GPT‑5, zaviedli sme nový parameter API výrečnosť, ktorý nadobúda hodnoty nízka), stredná (predvolená) a vysoká). Ak sú explicitné pokyny v konflikte s parametrami výrečnosti, majú prednosť explicitné pokyny. Napríklad, ak požiadate model GPT‑5, aby „napísal esej s 5 odsekmi“, odpoveď modelu by mala byť vždy 5 odsekov bez ohľadu na úroveň výrečnosti (samotné odseky však môžu byť dlhšie alebo kratšie).

Výrečnosť = nízka

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Výrečnosť = stredná

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Výrečnosť = vysoká

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Úvodné správy pred získavaním nástrojov

Ak je to potrebné, GPT‑5 vygeneruje úvodné správy viditeľné pre používateľa pred získavaním nástrojov a medzi ním. Na rozdiel od skrytých zdôvodňovacích správ umožňujú tieto viditeľné správy GPT‑5 komunikovať plány a pokrok s používateľom, čím pomáhajú koncovým používateľom pochopiť jeho prístup a zámer, ktorý sa skrýva za získavaním nástrojov.

Vlastné nástroje

Predstavujeme nový typ nástroja – vlastné nástroje – ktoré umožňujú GPT‑5 získať nástroj s obyčajným textom namiesto JSON. Aby sa GPT‑5 obmedzil na vlastné formáty nástrojov, vývojári môžu poskytnúť regex alebo dokonca podrobnejšie špecifikovanú bezkontextovú gramatiku(otvorí sa v novom okne).

Predtým naše rozhranie pre nástroje definované vývojármi vyžadovalo ich získavanie pomocou JSON, čo je bežný formát používaný webovými API a vývojármi vo všeobecnosti. Na výstup platného JSON je však potrebné, aby model dokonale eliminoval všetky úvodzovky, opačné lomky, nový riadok a ďalšie riadiace znaky. Hoci sú naše modely dobre natrénované na výstup JSON, pri dlhých vstupoch, ako sú stovky riadkov kódu alebo päťstranová správa, sa pravdepodobnosť chyby zvyšuje. S vlastnými nástrojmi môže GPT‑5 zapisovať vstupy nástrojov ako obyčajný text bez nutnosti eliminácie všetkých znakov, ktoré vyžadujú elimináciu.

V teste SWE-bench Verified s použitím vlastných nástrojov namiesto nástrojov JSON dosahuje GPT‑5 približne rovnaké skóre.

Bezpečnosť

GPT‑5 posúva hranice bezpečnosti a je robustnejší, spoľahlivejší a užitočnejší model. GPT‑5 má výrazne menšiu pravdepodobnosť halucinácií ako naše predchádzajúce modely, úprimnejšie komunikuje svoje činnosti a možnosti používateľovi a poskytuje najužitočnejšiu odpoveď, kde je to možné, pričom stále zostáva v rámci bezpečnostných hraníc. Viac si môžete prečítať v našom výskumnom blogu.

Dostupnosť a ceny

GPT‑5 je teraz k dispozícii na platforme API v troch veľkostiach: gpt-5, gpt-5-mini a gpt-5-nano. Je k dispozícii v rozhraní Responses API, Chat Completions API a je predvolenou funkciou v rozhraní Codex CLI. Cena GPT‑5 je 1,25 USD/1 milión vstupných tokenov a 10 USD/1 milión výstupných tokenov, cena GPT‑5 mini je 0,25 USD/1 milión vstupných tokenov a 2 USD/1 milión výstupných tokenov a cena GPT‑5 nano je 0,05 USD/1 milión vstupných tokenov a 0,40 USD/1 milión výstupných tokenov.

Tieto modely  podporujú parametre API reasoning_effort a verbosity , ako aj vlastné nástroje. Podporujú tiež paralelné získavanie nástrojov, vstavané nástroje (vyhľadávanie na webe, vyhľadávanie súborov, generovanie obrázkov a ďalšie), základné funkcie API (streamovanie, štruktúrované výstupy a ďalšie) a funkcie šetriace náklady, ako je napríklad ukladanie príkazov Batch API.

Verzia GPT‑5 bez schopnosti myslenia použitá v ChatGPT je dostupná v API ako gpt-5-chat-latest, tiež za cenu 1,25 USD/1M vstupných tokenov a 10 USD/1M výstupných tokenov.

GPT‑5 sa spúšťa aj na platformách Microsoft, vrátane Microsoft 365 Copilot, Copilot, GitHub Copilot a Azure AI Foundry.

Podrobné benchmarky

Inteligencia
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] V číslach sa nachádza malý nesúlad oproti údajom uvedeným v našom predchádzajúcom blogovom príspevku, keďže tie boli založené na staršej verzii HLE.

Multimodálne
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Programovanie
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 tis. USD75 tis. USD49 tis. USD86 tis. USD66 tis. USD34 tis. USD31 tis. USD9 tis. USD
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Vynechávame 23/500 problémov, ktoré nebolo možné spustiť na našej infraštruktúre. Úplný zoznam 23 vynechaných úloh je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' a 'sphinx-doc__sphinx-9367'.

Dodržiavanie pokynov
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Poznámka: zistili sme, že predvolený hodnotiaci model v MultiChallenge (GPT-4o) často nesprávne hodnotí odpovede modelov. Zistili sme, že keď nahradíme hodnotiaci model modelom s uvažovaním, napríklad o3-mini, presnosť hodnotenia sa pri nami skontrolovaných vzorkách výrazne zlepší.

Získavanie funkcií
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Dlhý kontext
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Halucinácie
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Autor

OpenAI