Dnes vydávame GPT‑5 v našej API platforme – náš zatiaľ najlepší model pre kódovanie a agentné úlohy.
GPT‑5 je najmodernejší štandard v kľúčových kódovacích benchmarkoch, pričom dosiahol skóre 74,9 % v teste SWE-bench Verified a 88 % v teste Aider polyglot. Vytrénovali sme GPT‑5, aby bol skutočným spolupracovníkom pri kódovaní. Vyniká v produkcii vysokokvalitného kódu a zvládaní úloh, ako je oprava chýb, úprava kódu a odpovedanie na otázky týkajúce sa zložitých kódových základní. Model je ovládateľný a kolaboratívny– dokáže s vysokou presnosťou nasledovať veľmi podrobné pokyny a poskytovať vopred vysvetlenia svojich akcií pred a medzi získavaním nástrojov. Model tiež vyniká vo front-endovom kódovaní, keď v internom testovaní prekonáva OpenAI o3 vo front-endovom webovom vývoji v 70 % prípadov.
Vyškolili sme GPT‑5 na reálnych kódovacích úlohách v spolupráci s prvými testermi z rôznych startupov a podnikov. Cursor hovorí, že GPT‑5 je „najinteligentnejší model, aký kedy použili“ a „pozoruhodne inteligentný, ľahko ovládateľný a dokonca má osobnosť, akú v iných modeloch nevideli“. Windsurf zdieľal, že GPT‑5 je špičkový v ich hodnoteniach a „má polovičnú chybovosť získavania nástrojov v porovnaní s inými poprednými modelmi.“ Vercel hovorí: „Je to najlepší model umelej inteligencie pre frontend, ktorý dosahuje špičkový výkon v estetickom zmysle aj v kvalite kódu, čím ho radí do samostatnej kategórie.“
GPT‑5 tiež vyniká v dlhotrvajúcich agentných úlohách – dosahuje špičkové výsledky na τ2-bench telecom (96,7 %), čo je benchmark pre získavanie nástrojov, ktorý bol vydaný len pred 2 mesiacmi. Vylepšená inteligencia nástrojov GPT‑5 umožňuje spoľahlivo spájať desiatky získavaní nástrojov – postupne aj paralelne – bez straty orientácie, čo ho robí oveľa lepším pri vykonávaní zložitých úloh z reálneho sveta od začiatku do konca. Taktiež presnejšie dodržiava pokyny nástroja, lepšie spracováva chyby nástroja a vyniká pri vyhľadávaní obsahu s dlhým kontextom. Manus hovorí, že GPT‑5 „dosiahol v interných benchmarkoch najlepší výkon, aký kedy od jedného modelu videli.“ Notion hovorí: „rýchle reakcie [modelu], najmä v režime nízkeho myslenia, robia z GPT‑5 ideálny model, keď potrebujete vyriešiť zložité úlohy naraz.“ Inditex uviedol, že „to, čo skutočne odlišuje [GPT‑5], je hĺbka jeho myslenia: diferencovanejšie, viacvrstvové odpovede, ktoré odrážajú skutočné pochopenie problematiky.“
V našom API zavádzame nové funkcie, ktoré vývojárom poskytnú väčšiu kontrolu nad odpoveďami modelov. GPT‑5 podporuje nový parameter verbosity (hodnoty: nízka, stredná, vysoká), ktorý pomáha kontrolovať, či sú odpovede krátke a výstižné alebo dlhé a komplexné. Parameter reasoning_effort v GPT‑5 teraz môže nadobúdať minimálnu hodnotu, aby sa odpovede získali rýchlejšie bez rozsiahleho predchádzajúceho myslenia. Taktiež sme pridali nový typ nástroja – vlastné nástroje – aby GPT‑5 mohol získavať nástroje s obyčajným textom namiesto JSON. Vlastné nástroje podporujú obmedzenia pomocou bezkontextových gramatík dodaných vývojármi.
V rozhraní API vydávame GPT‑5 v troch veľkostiachgpt-5, gpt-5-mini a gpt-5-nano– aby sme vývojárom poskytli väčšiu flexibilitu pri kompromisoch medzi výkonom, nákladmi a latenciou. Zatiaľ čo GPT‑5 v ChatGPT je systém modelov myslenia, nemyslenia a smerovania, GPT‑5 v platforme API je model myslenia, ktorý zabezpečuje maximálny výkon v ChatGPT. Zaujímavé je, že GPT‑5 s minimálnym myslením je iný model ako model bez myslenia v ChatGPT a je lepšie prispôsobený pre vývojárov. Model nemyslenia použitý v ChatGPT je k dispozícii ako gpt-5-chat-latest.
Ak si chcete prečítať o GPT‑5 v ChatGPT a dozvedieť sa viac o ďalších vylepšeniach ChatGPT, pozrite si náš výskumný blog. Viac informácií o tom, ako sú podniky nadšené z používania GPT‑5, nájdete v našom firemnom blogu.
GPT‑5 je najsilnejší model kódovania, aký sme kedy vydali. Prekonáva o3 v kódovacích benchmarkoch a prípadoch použitia v reálnom čase a bol doladený tak, aby vynikal v agentných kódovacích produktoch, ako sú Cursor, Windsurf, GitHub Copilot a Codex CLI. GPT‑5 zapôsobil na našich alfa testerov a prekonal rekordy v mnohých ich súkromných interných hodnoteniach.
Prvá spätná väzba o GPT‑5 pre úlohy kódovania v reálnom svete
„GPT-5 je najinteligentnejší kódovací model, aký sme doteraz použili. Náš tím zistil, že GPT-5 je pozoruhodne inteligentný, ľahko ovládateľný a dokonca má osobnosť, akú sme u žiadneho iného modelu nevideli. Nielenže zachytáva zložité, hlboko skryté chyby, ale dokáže aj spúšťať dlhé, viacstupňové agenty na pozadí, aby dotiahol zložité úlohy až do konca – tie druhy problémov, pri ktorých sa iné modely zasekli. Stal sa naším každodenným nástrojom pre všetko od stanovenia rozsahu a plánovania PR až po dokončenie end-to-end zostavení.“
V teste SWE-bench Verified, ktorý je založený na reálnych úlohách softvérového inžinierstva, dosiahol GPT‑5 skóre 74,9 %, čo je nárast oproti 69,1 % u o3. Je pozoruhodné, že GPT‑5 dosahuje svoje vysoké skóre s vyššou efektivitou a rýchlosťou: v porovnaní s o3 pri vysokom úsilí myslenia používa GPT‑5 o 22 % menej výstupných tokenov a o 45 % menej získavania nástrojov.
V teste SWE-bench Verified je modelu pridelený repozitár kódu a popis problému a musí vygenerovať opravu na vyriešenie problému. Textové štítky označujú úsilie pri myslení. Naše skóre vynecháva 23 z 500 problémov, ktorých riešenia neprešli spoľahlivo na našej infraštruktúre. GPT‑5 dostal krátky príkaz, ktorý zdôrazňoval dôkladné overenie riešení; ten istý príkaz nebol prospešný pre o3.
V teste Aider polyglot, ktorý slúži na vyhodnotenie úpravy kódu, GPT‑5 dosahuje nový rekord 88 %, čo predstavuje zníženie miery chybovosti o tretinu v porovnaní s o3.
V Aider polygot(otvorí sa v novom okne) (diff) je modelu zadané kódovacie cvičenie z Exercism a musí napísať svoje riešenie ako kódový diff. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.
Zistili sme tiež, že GPT‑5 je vynikajúci pri hlbokom skúmaní kódových základní, aby dokázal odpovedať na otázky o tom, ako rôzne časti fungujú alebo spolupracujú. V kódovej základni takej zložitej, ako je systém učenia posilňovaním OpenAI, zisťujeme, že GPT‑5 nám môže pomôcť uvažovať o našom kóde a odpovedať na otázky týkajúce sa kódu, čím urýchľuje našu každodennú prácu.
Pri tvorbe frontendového kódu pre webové aplikácie je GPT‑5 esteticky zmysluplnejší, ambicióznejší a presnejší. V porovnávacích testoch s o3 naši testeri uprednostnili GPT‑5 v 70 % prípadov.
Tu je niekoľko zábavných, starostlivo vybraných príkladov toho, čo dokáže GPT‑5 s jedným príkazom:
Príkaz: Vytvor krásnu a realistickú vstupnú stránku pre službu, ktorá poskytuje dokonalému kávovému nadšencovi mesačné predplatné za 200 USD, ktoré zahŕňa prenájom vybavenia a koučing pre praženie kávy a prípravu dokonalého espressa. Cieľovou skupinou je človek stredného veku z oblasti Sanfranciského zálivu, ktorý pracuje v oblasti technológií, je vzdelaný, má dostatočný príjem a je nadšený umením a vedou o káve. Optimalizuj pre konverziu s registráciou na 6 mesiacov.
Pozrite si ďalšie príklady od GPT‑5 v našej galérii tu(otvorí sa v novom okne).
GPT‑5 je lepším spolupracovníkom, najmä v produktoch agentného kódovania ako Cursor, Windsurf, GitHub Copilot a Codex CLI. GPT‑5 počas svojej činnosti dokáže medzi získavaním nástrojov vygenerovať plány, aktualizácie a zhrnutia. V porovnaní s našimi predchádzajúcimi modelmi je GPT‑5 proaktívnejší pri plnení ambicióznych úloh bez toho, aby čakal na váš súhlas alebo sa zdráhal zvládnuť vysokú zložitosť.
Tu je príklad, ako môže GPT‑5 vyzerať pri riešení zložitej úlohy (v tomto prípade vytvorenie webovej stránky pre reštauráciu):
Keď používateľ požiada o webovú stránku pre svoju reštauráciu, GPT‑5 zdieľa rýchly plán, vytvorí aplikáciu, nainštaluje závislosti, vytvorí obsah stránky, spustí zostavenie na kontrolu chýb kompilácie, zhrnie svoju prácu a navrhne možné ďalšie kroky. Toto video bolo zrýchlené približne trikrát, aby ste zbytočne nečakali; celková doba na vytvorenie webovej stránky bola približne tri minúty.
Okrem agentného kódovania je GPT‑5 vo všeobecnosti lepší v agentných úlohách. GPT‑5 dosahuje nové rekordy v testoch sledovania inštrukcií (69,6 % na Scale MultiChallenge, podľa hodnotenia o3‑mini) a získavania nástrojov (96,7 % na τ2-bench telecom). Vylepšená inteligencia nástrojov umožňuje GPT‑5 spoľahlivejšie reťaziť akcie na plnenie úloh v reálnom svete.
Prvé pripomienky k GPT‑5 pre agentné úlohy
GPT-5 je veľký krok vpred. V našich interných testoch dosiahol najlepší výkon, aký sme kedy od jedného modelu videli. GPT-5 vynikal v rôznych agentných úlohách – ešte predtým, ako sme upravili čo i len jeden riadok kódu alebo prispôsobili príkaz. Nové úvody a presnejšia kontrola nad používaním nástrojov umožnili významný skok v stabilite a ovládateľnosti našich agentov.“
GPT‑5 sa riadi pokynmi spoľahlivejšie ako ktorýkoľvek z jeho predchodcov a dosahuje vysoké skóre v testoch COLLIE, Scale MultiChallenge a v našich interných testoch hodnotenia sledovania pokynov.
V COLLIE(otvorí sa v novom okne) musia modely písať text, ktorý spĺňa rôzne obmedzenia. V Scale MultiChallenge(otvorí sa v novom okne) sú modely v rámci viacnásobných konverzácií vyzvané, aby správne využili štyri typy informácií z predchádzajúcich správ. Naše skóre pochádza z použitia o3‑mini ako hodnotiteľa, ktorý bol presnejší ako GPT‑4o. V našom internom hodnotení OpenAI API sledovania pokynov musia modely dodržiavať zložité pokyny odvodené od skutočných spätných väzieb od vývojárov. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.
Usilovne sme pracovali na zlepšení získavania nástrojov spôsobmi, ktoré sú pre vývojárov dôležité. GPT‑5 lepšie dodržiava pokyny nástroja, lepšie rieši chyby nástroja a lepšie proaktívne vykonáva viacero získavaní nástrojov postupne alebo paralelne. Na pokyn môže GPT‑5 tiež vydávať úvodné správy pred získavaním nástrojov a medzi ním, aby informoval používateľov o priebehu dlhších agentných úloh.
Pred dvoma mesiacmi publikovala spoločnosť Sierra.ai τ2-bench telecom ako náročný benchmark používania nástrojov, ktorý zdôraznil, ako výrazne klesá výkon jazykového modelu pri interakcii so stavom prostredia, ktorý môžu používatelia zmeniť. V jej publikácii(otvorí sa v novom okne) žiadny model nezískal viac ako 49 %. GPT‑5 dosahuje skóre 97 %.
Pri teste τ2-bench(otvorí sa v novom okne) musí model používať nástroje na splnenie úlohy zákazníckeho servisu, kde môže byť používateľ, ktorý dokáže komunikovať a vykonávať akcie týkajúce sa stavu sveta. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.
GPT‑5 vykazuje aj výrazné zlepšenie výkonu v dlhodobom kontexte. Na OpenAI-MRCR, čo je miera vyhľadávania informácií v dlhodobom kontexte, GPT‑5 prekonáva o3 a GPT‑4.1 s rozdielom, ktorý sa podstatne zvyšuje pri dlhších vstupných dĺžkach.
V OpenAI-MRCR(otvorí sa v novom okne) (viackolové koreferenčné rozlíšenie) sa viacero identických používateľských požiadaviek typu „ihla“ vloží do dlhých „kôp sena“ podobných požiadaviek a odpovedí a model je požiadaný, aby reprodukoval odpoveď na i-tú ihlu. Priemerný pomer zhody meria priemerný pomer zhody reťazcov medzi odpoveďou modelu a správnou odpoveďou. Body pri maximálnom počte vstupných tokenov 256 tisíc predstavujú priemery pre 128 tisíc – 256 tisíc vstupných tokenov atď. Tu 256 tisíc predstavuje 256 * 1 024 = 262 144 tokenov. Modely myslenia boli spúšťané s vysokou mierou úsilia pri myslení.
Taktiež sprístupňujeme BrowseComp Long Context(otvorí sa v novom okne), nový štandard pre hodnotenie otázok a odpovedí s dlhým kontextom. V tomto benchmarku dostane model zadaný používateľský dopyt, dlhý zoznam relevantných výsledkov vyhľadávania a musí odpovedať na otázku na základe výsledkov vyhľadávania. Navrhli sme BrowseComp Long Context tak, aby bol realistický, náročný a poskytoval spoľahlivo správne a pravdivé odpovede. Pri vstupoch s veľkosťou 128 000 – 256 000 tokenov poskytuje GPT‑5 správnu odpoveď v 89 % prípadov.
V rozhraní API môžu všetky modely GPT‑5 akceptovať maximálne 272 000 vstupných tokenov a vygenerovať maximálne 128 000 tokenov myslenia a výstupu, čo predstavuje celkovú dĺžku kontextu 400 000 tokenov.
GPT‑5 je dôveryhodnejší ako naše predchádzajúce modely. Na základe príkazov z benchmarkov LongFact a FactScore robí GPT‑5 o ~80 % menej faktických chýb ako o3. Toto ho robí vhodnejším pre agentné prípady použitia, kde je dôležitá správnosť—najmä v kóde, údajoch a rozhodovaní.
Vyššie skóre sú horšie. LongFact(otvorí sa v novom okne) a FActScore(otvorí sa v novom okne) pozostávajú z otvorených otázok zameraných na zisťovanie faktov. Na overenie faktov v odpovediach na príkazy z týchto benchmarkov a meranie podielu fakticky nesprávnych tvrdení používame hodnotiteľ založený na LLM s prehliadaním. Podrobnosti o implementácii a hodnotení nájdete v systémovej karte. Pri modeloch myslenia sa používala vysoká miera úsilia pri myslení. Hľadanie nebolo povolené.
Vo všeobecnosti bol GPT‑5 trénovaný tak, aby si bol viac vedomý svojich vlastných obmedzení a lepšie zvládal neočakávané výzvy. Taktiež sme natrénovali GPT‑5, aby bol oveľa presnejší v otázkach týkajúcich sa zdravia (viac si prečítajte v našom výskumnom blogu). Rovnako ako pri všetkých jazykových modeloch odporúčame overiť funkčnosť GPT‑5, keď je v stávke veľa.
Vývojári môžu ovládať čas, ktorý GPT‑5 potrebuje na premýšľanie, a to pomocou parametra reasoning_effort v rozhraní API. Okrem predchádzajúcich hodnôt –nízka, stredná (predvolená) a vysoká– GPT‑5 podporuje aj minimálnu hodnotu, čo minimalizuje potrebu GPT‑5 rýchlo vrátiť odpoveď.
Vyššie hodnoty reasoning_effort maximalizujú kvalitu a nižšie hodnoty maximalizujú rýchlosť. Nie všetky úlohy majú rovnaký úžitok z dodatočného myslenia, preto odporúčame experimentovať, aby sa zistilo, ktorá z nich funguje najlepšie pre prípady použitia, ktoré vás zaujímajú.
Napríklad myslenie nad úrovňou nízka nepridáva veľa k relatívne jednoduchému dlhému kontextovému vyhľadávaniu, ale pridáva pomerne veľa percentuálnych bodov k CharXiv Reasoning(otvorí sa v novom okne), benchmarku vizuálneho myslenia.
Úsilie pri myslení GPT‑5 prináša rôzne výhody pri rôznych úlohách. Pre účely myslenia v CharXiv dostal GPT‑5 prístup k nástroju v jazyku Python.
Aby sme pomohli riadiť predvolenú dĺžku odpovedí GPT‑5, zaviedli sme nový parameter API výrečnosť, ktorý nadobúda hodnoty nízka), stredná (predvolená) a vysoká). Ak sú explicitné pokyny v konflikte s parametrami výrečnosti, majú prednosť explicitné pokyny. Napríklad, ak požiadate model GPT‑5, aby „napísal esej s 5 odsekmi“, odpoveď modelu by mala byť vždy 5 odsekov bez ohľadu na úroveň výrečnosti (samotné odseky však môžu byť dlhšie alebo kratšie).
Výrečnosť = nízka
Výrečnosť = stredná
Výrečnosť = vysoká
Ak je to potrebné, GPT‑5 vygeneruje úvodné správy viditeľné pre používateľa pred získavaním nástrojov a medzi ním. Na rozdiel od skrytých zdôvodňovacích správ umožňujú tieto viditeľné správy GPT‑5 komunikovať plány a pokrok s používateľom, čím pomáhajú koncovým používateľom pochopiť jeho prístup a zámer, ktorý sa skrýva za získavaním nástrojov.
Predstavujeme nový typ nástroja – vlastné nástroje – ktoré umožňujú GPT‑5 získať nástroj s obyčajným textom namiesto JSON. Aby sa GPT‑5 obmedzil na vlastné formáty nástrojov, vývojári môžu poskytnúť regex alebo dokonca podrobnejšie špecifikovanú bezkontextovú gramatiku(otvorí sa v novom okne).
Predtým naše rozhranie pre nástroje definované vývojármi vyžadovalo ich získavanie pomocou JSON, čo je bežný formát používaný webovými API a vývojármi vo všeobecnosti. Na výstup platného JSON je však potrebné, aby model dokonale eliminoval všetky úvodzovky, opačné lomky, nový riadok a ďalšie riadiace znaky. Hoci sú naše modely dobre natrénované na výstup JSON, pri dlhých vstupoch, ako sú stovky riadkov kódu alebo päťstranová správa, sa pravdepodobnosť chyby zvyšuje. S vlastnými nástrojmi môže GPT‑5 zapisovať vstupy nástrojov ako obyčajný text bez nutnosti eliminácie všetkých znakov, ktoré vyžadujú elimináciu.
V teste SWE-bench Verified s použitím vlastných nástrojov namiesto nástrojov JSON dosahuje GPT‑5 približne rovnaké skóre.
GPT‑5 posúva hranice bezpečnosti a je robustnejší, spoľahlivejší a užitočnejší model. GPT‑5 má výrazne menšiu pravdepodobnosť halucinácií ako naše predchádzajúce modely, úprimnejšie komunikuje svoje činnosti a možnosti používateľovi a poskytuje najužitočnejšiu odpoveď, kde je to možné, pričom stále zostáva v rámci bezpečnostných hraníc. Viac si môžete prečítať v našom výskumnom blogu.
GPT‑5 je teraz k dispozícii na platforme API v troch veľkostiach: gpt-5, gpt-5-mini a gpt-5-nano. Je k dispozícii v rozhraní Responses API, Chat Completions API a je predvolenou funkciou v rozhraní Codex CLI. Cena GPT‑5 je 1,25 USD/1 milión vstupných tokenov a 10 USD/1 milión výstupných tokenov, cena GPT‑5 mini je 0,25 USD/1 milión vstupných tokenov a 2 USD/1 milión výstupných tokenov a cena GPT‑5 nano je 0,05 USD/1 milión vstupných tokenov a 0,40 USD/1 milión výstupných tokenov.
Tieto modely podporujú parametre API reasoning_effort a verbosity , ako aj vlastné nástroje. Podporujú tiež paralelné získavanie nástrojov, vstavané nástroje (vyhľadávanie na webe, vyhľadávanie súborov, generovanie obrázkov a ďalšie), základné funkcie API (streamovanie, štruktúrované výstupy a ďalšie) a funkcie šetriace náklady, ako je napríklad ukladanie príkazov Batch API.
Verzia GPT‑5 bez schopnosti myslenia použitá v ChatGPT je dostupná v API ako gpt-5-chat-latest, tiež za cenu 1,25 USD/1M vstupných tokenov a 10 USD/1M výstupných tokenov.
GPT‑5 sa spúšťa aj na platformách Microsoft, vrátane Microsoft 365 Copilot, Copilot, GitHub Copilot a Azure AI Foundry.
Ak chcete začať, pozrite si dokumentáciu(otvorí sa v novom okne) k GPT‑5, podrobnosti o cenách(otvorí sa v novom okne) a sprievodcu príkazmi(otvorí sa v novom okne) .
Inteligencia
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] V číslach sa nachádza malý nesúlad oproti údajom uvedeným v našom predchádzajúcom blogovom príspevku, keďže tie boli založené na staršej verzii HLE.
Multimodálne
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Programovanie
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 tis. USD | 75 tis. USD | 49 tis. USD | 86 tis. USD | 66 tis. USD | 34 tis. USD | 31 tis. USD | 9 tis. USD |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Vynechávame 23/500 problémov, ktoré nebolo možné spustiť na našej infraštruktúre. Úplný zoznam 23 vynechaných úloh je 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' a 'sphinx-doc__sphinx-9367'.
Dodržiavanie pokynov
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Poznámka: zistili sme, že predvolený hodnotiaci model v MultiChallenge (GPT-4o) často nesprávne hodnotí odpovede modelov. Zistili sme, že keď nahradíme hodnotiaci model modelom s uvažovaním, napríklad o3-mini, presnosť hodnotenia sa pri nami skontrolovaných vzorkách výrazne zlepší.
Získavanie funkcií
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Dlhý kontext
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Halucinácie
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


