Пређите на главни садржај
OpenAI

7. август 2025.

Производ

Представљамо GPT‑5 за програмере

Најбољи модел за кодирање и агентске задатке.

Учитавање…

Увод

Данас објављујемо GPT‑5 на нашој API платформи — наш до сада најбољи модел за кодирање и агентске задатке.

GPT‑5 је најсавременији (SOTA) на кључним бенчмарцима кодирања, са резултатом од 74,9% на SWE-bench Verified и 88% на Aider polyglot. Обучили смо GPT‑5 да буде прави сарадник у кодирању. Истиче се у производњи висококвалитетног кода и у задацима као што су исправљање багова, уређивање кода и одговарање на питања о сложеним базама кода. Модел је управљив и сараднички настројен — може да прати веома детаљне инструкције са великом тачношћу и може да пружи уводна објашњења својих радњи пре и између позива алата. Модел се такође истиче у фронтенд кодирању, надмашујући OpenAI o3 у фронтенд веб развоју у 70% случајева у интерном тестирању.

Обучавали смо GPT‑5 на стварним задацима кодирања у сарадњи са раним тестерима из стартапа и великих компанија. Cursor каже да је GPT‑5 „најпаметнији модел [који су] користили” и „изузетно интелигентан, лак за усмеравање, па чак има и личност [какву] нису видели код других модела”. Windsurf је поделио да је GPT‑5 SOTA на њиховим евалуацијама и да „има упола мању стопу грешака при позивању алата у односу на друге граничне моделе”. Vercel каже да је „то најбољи фронтенд AI модел, са врхунским перформансама и у естетском осећају и у квалитету кода, што га ставља у сопствену категорију”.

GPT‑5 се такође истиче у дуготрајним агентским задацима — постиже SOTA резултате на τ2-bench telecom (96,7%), бенчмарку за позивање алата објављеном пре само 2 месеца. Побољшана интелигенција алата у GPT‑5 омогућава му да поуздано повезује десетине позива алата — и узастопно и паралелно — без губљења правца, што га чини далеко бољим у енд-ту-енд извршавању сложених задатака из стварног света. Такође прецизније прати инструкције за алате, боље се носи са грешкама алата и истиче се у преузимању садржаја из дугог контекста. Manus каже да је GPT‑5 „постигао најбоље перформансе [које су] икада видели од једног модела на [њиховим] интерним бенчмарцима”. Notion каже да „[брзи одговори модела], посебно у режиму ниског резоновања, чине GPT‑5 идеалним моделом када вам треба да се сложени задаци реше из једног покушаја”. Inditex је поделио да је „оно што [GPT‑5] заиста издваја дубина његовог резоновања: нијансирани, вишеслојни одговори који одражавају стварно разумевање теме”.

Уводимо нове функције у наш API како бисмо програмерима дали већу контролу над одговорима модела. GPT‑5 подржава нови параметар verbosity (вредности: low, medium, high) да помогне у контроли тога да ли су одговори кратки и директни или дуги и свеобухватни. GPT‑5 параметар reasoning_effort сада може да има и минималну вредност како би се одговори добили брже, без опсежног претходног резоновања. Додали смо и нови тип алата — custom tools — како бисмо омогућили GPT‑5 да позива алате обичним текстом уместо JSON-ом. Custom tools подржавају ограничавање помоћу контекстно слободних граматика које обезбеђује програмер.

Објављујемо GPT‑5 у три величине на API-ју — gpt-5, gpt-5-mini и gpt-5-nano — како бисмо програмерима дали већу флексибилност у балансирању перформанси, цене и кашњења. Док је GPT‑5 у ChatGPT‑у систем модела за резоновање, без резоновања и рутирања, GPT‑5 на API платформи је модел резоновања који покреће максималне перформансе у ChatGPT‑у. Важно је да је GPT‑5 са минималним резоновањем другачији модел од модела без резоновања у ChatGPT‑у и боље је подешен за програмере. Модел без резоновања који се користи у ChatGPT‑у доступан је као gpt-5-chat-latest.

Да бисте читали о GPT‑5 у ChatGPT‑у и сазнали више о другим побољшањима ChatGPT‑а, погледајте наш истраживачки блог. За више о томе како компаније са узбуђењем планирају да користе GPT‑5, погледајте наш блог за предузећа.

Кодирање

GPT‑5 је најјачи модел за кодирање који смо икада објавили. Надмашује o3 на бенчмарцима кодирања и у стварним случајевима употребе, а фино је подешен да се истакне у агентским производима за кодирање као што су Cursor, Windsurf, GitHub Copilot и Codex CLI. GPT‑5 је импресионирао наше алфа тестере, постављајући рекорде на многим њиховим приватним интерним евалуацијама.

Ране повратне информације о GPT‑5 за стварне задатке кодирања

„GPT-5 је најпаметнији модел за кодирање који смо користили. Наш тим је установио да је GPT-5 изузетно интелигентан, лак за усмеравање, па чак има и личност какву нисмо видели ни код једног другог модела. Не само да хвата незгодне, дубоко скривене багове, већ може и да покреће дуготрајне позадинске агенте у више корака разговора како би сложене задатке довео до краја — врсте проблема на којима су други модели остајали заглављени. Постао је наш свакодневни избор за све, од дефинисања обима и планирања PR-ова до довршавања енд-ту-енд изградњи.“
Michael Truell, суоснивач и CEO у Cursor

На SWE-bench Verified, евалуацији заснованој на стварним задацима софтверског инжењерства, GPT‑5 постиже 74,9%, у односу на o3 са 69,1%. Важно је да GPT‑5 свој висок резултат постиже уз већу ефикасност и брзину: у односу на o3 са високим напором резоновања, GPT‑5 користи 22% мање излазних токена и 45% мање позива алата.

У SWE-bench Verified, модел добија депо кода и опис проблема и мора да генерише patch да реши проблем. Текстуалне ознаке указују на напор резоновања. Наши резултати изостављају 23 од 500 проблема чија решења нису поуздано пролазила на нашој инфраструктури. GPT‑5 је добио кратку инструкцију која је наглашавала темељну проверу решења; иста инструкција није користила моделу o3.

На Aider polyglot, евалуацији уређивања кода, GPT‑5 поставља нови рекорд од 88%, што је смањење стопе грешака за једну трећину у односу на o3.

У Aider polygot(отвара се у новом прозору) (diff), модел добија задатак програмирања са Exercism-а и мора да напише решење као разлику у коду. Модели резоновања су покретани са високим напором резоновања.

Такође смо открили да је GPT‑5 одличан у дубоком копању по базама кода како би одговорио на питања о томе како различити делови раде или међусобно сарађују. У бази кода сложеној као OpenAI стек за подстицајно учење, видимо да GPT‑5 може да нам помогне да резонујемо о свом коду и одговоримо на питања о њему, убрзавајући наш свакодневни рад.

Фронтенд инжењеринг

При производњи фронтенд кода за веб апликације, GPT‑5 је естетски освешћенији, амбициознији и прецизнији. У упоредним тестовима један-поред-другог са o3, GPT‑5 су наши тестери преферирали у 70% случајева.

Ево неколико забавних, намерно одабраних примера шта GPT‑5 може да уради са једном инструкцијом:

Инструкција: Направите лепу, реалистичну landing page страницу за услугу која врхунском љубитељу кафе нуди претплату од $200 месечно, укључујући изнајмљивање опреме и обуку за пржење кафе и прављење врхунског еспреса. Циљна публика је особа средњих година из Bay Area, која можда ради у технологији, образована је, има расположив приход и страствено воли уметност и науку кафе. Оптимизујте за конверзију на пријаву од 6 месеци.

Погледајте још примера GPT‑5 у нашој галерији овде(отвара се у новом прозору).

Сарадња у кодирању

GPT‑5 је бољи сарадник, нарочито у агентским производима за кодирање као што су Cursor, Windsurf, GitHub Copilot и Codex CLI. Док ради, GPT‑5 може да исписује планове, ажурирања и сажетке између позива алата. У односу на наше раније моделе, GPT‑5 је проактивнији у довршавању амбициозних задатака без застајања ради вашег одобрења или повлачења пред великом сложеношћу.

Ево примера како GPT‑5 може да изгледа док се бави сложеним задатком (у овом случају, прављењем веб-сајта за ресторан):

Након што корисник затражи веб-сајт за свој ресторан, GPT‑5 дели кратак план, поставља основу апликације, инсталира зависности, креира садржај сајта, покреће изградњу да провери грешке при компилацији, сумира свој рад и предлаже могуће наредне кораке. Овај видео је убрзан око 3x да вам уштеди чекање; пуно трајање израде веб-сајта било је око три минута.

Агентски задаци

Поред агентског кодирања, GPT‑5 је бољи и у агентским задацима уопште. GPT‑5 поставља нове рекорде на бенчмарцима праћења инструкција (69,6% на Scale MultiChallenge, по оцени o3‑mini) и позивања алата (96,7% на τ2-bench telecom). Побољшана интелигенција алата омогућава GPT‑5 да поузданије повезује радње ради извршавања задатака из стварног света.

Ране повратне информације о GPT‑5 за агентске задатке

„GPT-5 је велики искорак. Постигао је најбоље перформансе које смо икада видели од једног модела на нашим интерним бенчмарцима. GPT-5 се истакао у разним агентским задацима — чак и пре него што смо изменили иједну линију кода или прилагодили инструкцију. Нови уводни текстови и прецизнија контрола употребе алата омогућили су значајан скок у стабилности и управљивости наших агената.“
Yichao ‘Peak’ Ji, суоснивач и главни научник у Manus

Праћење инструкција

GPT‑5 прати инструкције поузданије него било који његов претходник, постижући високе резултате на COLLIE, Scale MultiChallenge и нашој интерној евалуацији праћења инструкција.

У COLLIE(отвара се у новом прозору), модели морају да напишу текст који испуњава различита ограничења. У Scale MultiChallenge(отвара се у новом прозору), модели се тестирају у разговорима са више размена како би правилно користили четири врсте информација из претходних порука. Наши резултати потичу из коришћења o3‑mini као оцењивача, који је био прецизнији од GPT‑4o. У нашој интерној OpenAI API евалуацији праћења инструкција, модели морају да прате тешке инструкције изведене из стварних повратних информација програмера. Модели резоновања су покретани са високим напором резоновања.

Позивање алата

Напорно смо радили на побољшању позивања алата на начине који су важни програмерима. GPT‑5 боље прати инструкције за алате, боље се носи са грешкама алата и бољи је у проактивном прављењу великог броја позива алата узастопно или паралелно. Када добије инструкцију, GPT‑5 може да исписује и уводне поруке пре и између позива алата како би кориснике обавештавао о напретку током дужих агентских задатака.

Пре два месеца, Sierra.ai је објавио τ2-bench telecom као захтеван бенчмарк употребе алата који је показао како перформансе језичких модела значајно опадају када комуницирају са стањем окружења које корисници могу да мењају. У њиховој публикацији(отвара се у новом прозору), ниједан модел није постигао више од 49%. GPT‑5 постиже 97%.

У τ2-bench(отвара се у новом прозору), модел мора да користи алате да би обавио задатак корисничке службе, где може постојати корисник који може да комуницира и да предузима радње над стањем света. Модели резоновања су покретани са високим напором резоновања.

GPT‑5 такође показује снажна побољшања у перформансама дугог контекста. На OpenAI-MRCR, мери преузимања информација из дугог контекста, GPT‑5 надмашује o3 и GPT‑4.1, и то са разликом која значајно расте при већим дужинама улаза.

У OpenAI-MRCR(отвара се у новом прозору) (вишекружно разрешење кореференци), више идентичних корисничких захтева „игла” убацује се у дугачке „пластове сена” сличних захтева и одговора, а модел треба да репродукује одговор на i-ту иглу. Средњи однос поклапања мери просечан однос поклапања стринга између одговора модела и тачног одговора. Тачке на 256k максималних улазних токена представљају просеке за 128k–256k улазних токена, и тако даље. Овде 256k представља 256 * 1,024 = 262,114 токена. Модели резоновања су покретани са високим напором резоновања.

Такође отварамо код BrowseComp Long Context(отвара се у новом прозору), новог бенчмарка за евалуацију Q&A над дугим контекстом. У овом бенчмарку, модел добија кориснички упит, дугачак списак релевантних резултата претраге и мора да одговори на питање на основу резултата претраге. Дизајнирали смо BrowseComp Long Context тако да буде реалистичан, тежак и да има поуздано тачне одговоре у основној истини. На улазима од 128K–256K токена, GPT‑5 даје тачан одговор у 89% случајева.

У API-ју, сви GPT‑5 модели могу да прихвате највише 272.000 улазних токена и да емитују највише 128.000 токена за резоновање и излаз, што даје укупну дужину контекста од 400.000 токена.

Чињеничност

GPT‑5 је поузданији од наших претходних модела. На инструкцијама из бенчмарка LongFact и FactScore, GPT‑5 прави око 80% мање чињеничних грешака него o3. То га чини погоднијим за агентске случајеве употребе где је исправност важна — посебно у коду, подацима и доношењу одлука.

Виши резултати су лошији. LongFact(отвара се у новом прозору) и FActScore(отвара се у новом прозору) састоје се од отворених питања која траже чињенице. Користимо оцењивач заснован на LLM-у са прегледањем веба да бисмо проверили чињенице у одговорима на инструкције из ових бенчмарка и меримо удео чињенично нетачних тврдњи. Детаљи имплементације и оцењивања могу се наћи у системској картици. Модели резоновања користили су висок напор резоновања. Претрага није била омогућена.

Уопштено, GPT‑5 је обучен да буде свеснији сопствених ограничења и способнији да се носи са неочекиваним изазовима. Такође смо обучили GPT‑5 да буде много прецизнији на здравственим питањима (више прочитајте у нашем истраживачком блогу). Као и код свих језичких модела, препоручујемо да проверите рад GPT‑5 када су улози високи.

Нове функције

Минималан напор резоновања

Програмери могу да контролишу време размишљања GPT‑5 помоћу параметра reasoning_effort у API-ју. Поред претходних вредности — low, medium (подразумевано) и high — GPT‑5 подржава и minimal, што минимизује резоновање GPT‑5 да би брзо вратио одговор.

Више вредности параметра reasoning_effort максимизују квалитет, а ниже вредности максимизују брзину. Не добијају сви задаци подједнако од додатног резоновања, па препоручујемо експериментисање да бисте видели шта најбоље функционише за случајеве употребе који су вам важни.

На пример, резоновање изнад low мало доприноси релативно једноставном преузимању из дугог контекста, али додаје доста процентних поена на CharXiv Reasoning(отвара се у новом прозору), бенчмарку визуелног резоновања.

Напор резоновања GPT‑5 доноси различите користи на различитим задацима. За CharXiv Reasoning, GPT‑5 је добио приступ python алату.

Опширност

Да бисмо помогли у усмеравању подразумеване дужине одговора GPT‑5, увели смо нови API параметар verbosity, који прихвата вредности low, medium (подразумевано) и high. Ако су експлицитне инструкције у сукобу са параметрима опширности, експлицитне инструкције имају предност. На пример, ако тражите од GPT‑5 да „напише есеј од 5 пасуса”, одговор модела увек треба да буде 5 пасуса без обзира на ниво опширности (мада сами пасуси могу бити дужи или краћи).

Опширност=ниска

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Опширност=средња

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Опширност=висока

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Уводне поруке пре позива алата

Ако добије инструкцију, GPT‑5 ће исписивати кориснику видљиве уводне поруке пре и између позива алата. За разлику од скривених порука резоновања, ове видљиве поруке омогућавају GPT‑5 да саопштава планове и напредак кориснику, помажући крајњим корисницима да разумеју његов приступ и намеру иза позива алата.

Custom tools

Уводимо нови тип алата — custom tools — који омогућава GPT‑5 да позове алат обичним текстом уместо JSON-ом. Да би ограничили GPT‑5 да прати формате custom tool-а, програмери могу да задају regex, или чак потпуније спецификовану контекстно слободну граматику(отвара се у новом прозору).

Раније је наш интерфејс за алате које дефинише програмер захтевао да се позивају JSON-ом, уобичајеним форматом који користе веб API-ји и програмери уопште. Међутим, исписивање важећег JSON-а захтева да модел савршено ескејпује све наводнике, обрнуте косе црте, нове редове и друге контролне знакове. Иако су наши модели добро обучени да исписују JSON, на дугим улазима као што су стотине линија кода или извештај од 5 страница, вероватноћа грешке расте. Са custom tools, GPT‑5 може да пише улазе алата као обичан текст, без потребе да ескејпује све знакове које треба ескејповати.

На SWE-bench Verified, када се користе custom tools уместо JSON алата, GPT‑5 постиже приближно исти резултат.

Безбедност

GPT‑5 помера границе безбедности и представља робуснији, поузданији и кориснији модел. GPT‑5 има значајно мању вероватноћу да халуцинира него наши претходни модели, искреније саопштава кориснику своје радње и способности и пружа најкориснији одговор кад год је то могуће, а да и даље остаје у оквиру безбедносних граница. Више можете прочитати у нашем истраживачком блогу.

Доступност и цене

GPT‑5 је сада доступан на API платформи у три величине: gpt-5, gpt-5-mini и gpt-5-nano. Доступан је на Responses API-ју, API-ју за довршавање ћаскања и подразумеван је у Codex CLI-ју. Цена за GPT‑5 је $1.25/1M улазних токена и $10/1M излазних токена, цена за GPT‑5 mini је $0.25/1M улазних токена и $2/1M излазних токена, а цена за GPT‑5 nano је $0.05/1M улазних токена и $0.40/1M излазних токена.

Ови модели подржавају API параметре reasoning_effort и verbosity, као и custom tools. Такође подржавају паралелно позивање алата, уграђене алате (веб претрага, претрага датотека, генерисање слика и друго), основне API функције (стримовање, структурирани излази и друго), као и функције за уштеду трошкова као што су кеширање инструкција и Batch API.

Верзија GPT‑5 без резоновања која се користи у ChatGPT‑у доступна је у API-ју као gpt-5-chat-latest, такође по цени од $1.25/1M улазних токена и $10/1M излазних токена.

GPT‑5 се такође уводи на Microsoft платформама, укључујући Microsoft 365 Copilot, Copilot, GitHub Copilot и Azure AI Foundry.

Детаљни бенчмарци

Интелигенција
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Постоји мало одступање у бројевима пријављеним у нашем претходном блог посту, јер су они покретани на ранијој верзији HLE-а.

Мултимодално
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Кодирање
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 хиљ. US$75 хиљ. US$49 хиљ. US$86 хиљ. US$66 хиљ. US$34 хиљ. US$31 хиљ. US$9 хиљ. US$
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Изостављамо 23/500 проблема који нису могли да се покрену на нашој инфраструктури. Пуна листа од 23 изостављена задатка је: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' и 'sphinx-doc__sphinx-9367'.

Праћење инструкција
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Напомена: откривамо да подразумевани оцењивач у MultiChallenge-у (GPT-4o) често погрешно оцењује одговоре модела. Откривамо да замена оцењивача моделом резоновања, као што је o3-mini, значајно побољшава тачност оцењивања на узорцима које смо прегледали.

Позивање функције
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Дуг контекст
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Халуцинације
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Аутор

OpenAI