Претставување на GPT‑5 за развивачи на софтвер
Најдобриот модел за кодирање и агентски задачи.
Денес го објавуваме GPT‑5 на нашата API платформа — нашиот најдобар модел досега за кодирање и агентски задачи.
GPT‑5 е најсовремен (SOTA) во клучните одредници за кодирање, постигнувајќи 74.9% потврда за SWE-bench и 88% за Aider polyglot. Го обучивме GPT‑5 да биде вистински соработник за кодирање. Се истакнува во создавање висококвалитетен код и справување со задачи како што се поправање грешки, уредување код и одговарање на прашања за сложени кодни бази. Моделот е управлив и соработувачки - може да следи многу детални инструкции со висока прецизност и може да даде однапред објаснувања за своите дејства пред и помеѓу повиците на алатките. Моделот исто така се истакнува во фронт-енд кодирање, победувајќи го OpenAI o3 во фронт-енд веб развој 70% од времето во внатрешното тестирање.
GPT‑5 го обучувавме на задачи за кодирање од реалниот свет во соработка со рани тестери од стартапи и претпријатија. Cursor вели дека GPT‑5 е „најпаметниот модел [што го] користеле“ и „извонредно интелигентен, лесен за управување, па дури и има личност [што] не ја виделе кај други модели“. Windsurf сподели дека GPT‑5 е SOTA во нивните проценки и „има половина од стапката на грешки при повикување на алатки во споредба со другите водечки модели“. Vercel вели „тоа е најдобриот модел на frontend AI, кој постигнува врвни перформанси и во естетска смисла и во квалитет на кодот, ставајќи го во своја категорија“.
GPT‑5, исто така, се истакнува во долготрајните агенциски задачи - постигнувајќи SOTA резултати на τ2-bench Telecom (96,7%), бенчмарк за повикување алатки објавен пред само 2 месеци. Подобрената интелигенција на алатките на GPT‑5 му овозможува сигурно да поврзува десетици повици на алатки—и во секвенца и паралелно—без да се изгуби, што го прави многу подобар во извршувањето на сложени задачи од реалниот свет од почеток до крај. Исто така, попрецизно ги следи упатствата на алатките, подобро се справува со грешките на алатките и е одличен во извлекувањето содржина од долг контекст. Manus вели дека GPT‑5 „постигна најдобри перформанси што некогаш ги виделе од еден модел на нивните интерни бенчмаркови.“ Notion вели „[брзите одговори на моделот], особено во режим на ниско расудување, го прават GPT‑5 идеален модел кога ти требаат сложени задачи решени одеднаш.“ Inditex сподели: „Она што навистина го издвојува [GPT‑5] е длабочината на неговото расудување: нијансирани, повеќеслојни одговори што одразуваат вистинско разбирање на темата.“
Воведуваме нови функции во нашиот API за да им дадеме на развивачите на софтвер поголема контрола врз одговорите на моделот. GPT‑5 поддржува нов параметар verbosity (вредности: low, medium, high) за да помогне во контролирањето дали одговорите се кратки и концизни или долги и сеопфатни. Параметарот reasoning_effort на GPT‑5 сега може да има минимална вредност за побрзо добивање одговори назад, без претходно обемно расудување. Исто така, додадовме нов тип на алатка — прилагодени алатки — за да му овозможиме на GPT‑5 да повикува алатки со обичен текст наместо JSON. Прилагодените алатки поддржува ограничување со граматики без контекст обезбедени од развивачи на софтвер.
Објавуваме GPT‑5 во три големини во API—gpt-5, gpt-5-mini, и gpt-5-nano—за да им дадеме на развивачите на софтвер поголема флексибилност во изборот меѓу перформанси, трошоци и латентност. Додека GPT‑5 во ChatGPT е систем од модели за расудување, нерасудување и рутер модели, GPT‑5 во API платформата е модел за расудување што обезбедува максимални перформанси во ChatGPT. Имено, GPT‑5 со минимално расудување е различен модел од моделот без расудување во ChatGPT и е подобро прилагоден за развивачи на софтвер. Моделот без расудување што се користи во ChatGPT е достапен како gpt-5-chat-latest.
За да читаш за GPT‑5 во ChatGPT и да дознаеш повеќе за другите подобрувања на ChatGPT, види го нашиот истражувачки блог. За повеќе информации за тоа како претпријатијата се возбудени да го користат GPT‑5, види го нашиот блог за претпријатија.
GPT‑5 е најмоќниот модел за кодирање што некогаш сме го објавиле. Го надминува o3 во тестовите за кодирање и случаите на употреба во реалниот свет, и е дотеран за да блесне во производи за агентско кодирање како што се Cursor, Windsurf, GitHub Copilot и Codex CLI. GPT‑5 ги импресионираше нашите алфа-тестери, поставувајќи рекорди на многу од нивните приватни внатрешни евалуации.
Рани повратни информации за GPT‑5 за задачи за кодирање во реалниот свет
„GPT-5 е најпаметниот модел за кодирање што сме го користеле Нашиот Team откри дека GPT-5 е извонредно интелигентен, лесен за управување, па дури и има личност каква што не сме виделе во ниту еден друг модел. Не само што фаќа незгодни, длабоко скриени грешки, туку може да извршува долги, повеќекратни позадински агенти за да ги заврши сложените задачи до крај - типовите проблеми што порано ги оставаа другите модели заглавени. Тој стана наш секојдневен двигател за сè, од одредување на обемот и планирањето на PR-ови, до завршување на целосни градби.“
На SWE-bench Verified, евалуација базирана на реални софтверски инженерски задачи, GPT‑5 добива 74.9%, што е зголемување од 69.1% на o3. Забележително, GPT‑5 го постигнува својот висок резултат со поголема ефикасност и брзина: во споредба со o3 при висок напор за расудување, GPT‑5 користи 22% помалку токени за резултат и 45% помалку повици на алатки.
Во SWE-bench Verified, моделот добива складиште на код и опис на проблемот, и треба да генерира закрпа за да го реши проблемот. Текстуалните ознаки го покажуваат напорот за расудување. Нашите резултати изоставуваат 23 од 500 проблеми чии решенија не поминаа сигурно на нашата инфраструктура. GPT‑5 доби краток промпт кој нагласуваше темелно потврдување на решенијата; истиот промпт не му помогна на o3.
На Aider polyglot, при евалуација на уредување на код, GPT‑5 постави нов рекорд од 88%, што претставува намалување на стапката на грешки за една третина во споредба со o3.
Во Aider polygot(се отвора во нов прозорец) (diff), моделот добива задача за кодирање од Exercism и треба да го напише своето решение како код diff. Моделите за расудување беа извршени со висок напор за расудување.
Исто така, откривме дека GPT‑5 е одличен во длабинското навлегување во базите на кодови за да одговори на прашања за тоа како различните делови работат или соработуваат. Во кодна база толку комплицирана како стекот за зајакнување на учењето на OpenAI, откриваме дека GPT‑5 може да ни помогне да расудуваме и да одговараме на прашања за нашиот код, забрзувајќи ја нашата секојдневна работа.
Кога се креира frontend код за веб-апликации, GPT‑5 е поестетски настроен, амбициозен и прецизен. Во паралелни споредби со o3, GPT‑5 беше претпочитан од нашите тестери во 70% од времето.
Еве неколку забавни, внимателно избрани примери за тоа што GPT‑5 може да направи со еден единствен промпт:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Види повеќе примери од GPT‑5 во нашата галерија овде(се отвора во нов прозорец).
GPT‑5 е подобар соработник, особено во производи за агентско кодирање како Cursor, Windsurf, GitHub Copilot и Codex CLI. Додека работи, GPT‑5 може да дава резултати, планови, ажурирања и прегледи помеѓу повикувањата на алатките. Во однос на нашите минати модели, GPT‑5 е попроактивен во завршувањето на амбициозни задачи без да застанува за твоја согласност или да се двоуми поради високата сложеност.
Еве пример како GPT‑5 може да изгледа додека се справува со сложена задача (во овој случај, креирање веб-страница за ресторан):
Откако корисникот ќе побара веб-страница за својот ресторан, GPT‑5 споделува брз план, ја поставува апликацијата, инсталира зависности, креира содржина на сајтот, извршува билд за проверка на грешки во компилацијата, ја сумира својата работа и предлага можни следни чекори. Ова видео е забрзано ~3x за да ти заштеди чекање; целосното времетраење за креирање на веб-страницата беше околу три минути.
Освен агентското кодирање, GPT‑5 е подобар во агентските задачи воопшто. GPT‑5 поставува нови рекорди на бенчмаркови за следење на инструкции (69,6% на Scale MultiChallenge, оценето од o3‑mini) и повикување на алатки (96,7% на τ2-bench telecom). Подобрената интелигенција на алатките му овозможува на GPT‑5 понадежно да ги поврзува дејствата за да извршува задачи во реалниот свет.
Рани повратни информации за GPT‑5 за агентски задачи
„GPT-5 е голем чекор напред. Постигна најдобри перформанси што некогаш сме ги виделе од еден модел на нашите внатрешни тестови. GPT-5 се истакна во различни агентски задачи — дури и пред да измениме ниту еден ред код или да прилагодиме промпт. Новите преамбули и попрецизната контрола врз употребата на алатките овозможија значителен напредок во стабилноста и управливоста на нашите агенти.
GPT‑5 ги следи инструкциите понадежно од кој било од неговите претходници, добивајќи високи оценки на COLLIE, Scale MultiChallenge и на нашата интерна евалуација за следење на инструкции.
Во COLLIE(се отвора во нов прозорец), моделите мора да пишуваат текст што ги исполнува различните ограничувања. Во Scale MultiChallenge(се отвора во нов прозорец), моделите се предизвикуваат во разговори со повеќе потези да користат правилно четири типа информации од претходните пораки. Нашите резултати доаѓаат од користење на o3‑mini како оценувач, што беше попрецизно од GPT‑4o. Во нашата внатрешна евалуација за следење на инструкции на OpenAI API, моделите мора да ги следат тешките упатства добиени од вистински повратни информации од развивачи на софтвер. Моделите за расудување беа извршени со висок напор за расудување.
Работевме напорно за да го подобриме повикувањето на алатки на начините што им се важни на развивачи на софтвер. GPT‑5 е подобар во следење на упатства за алатки, подобар во справување со грешки во алатки и подобар во проактивно извршување на многу повици за алатки последователно или паралелно. Кога ќе биде побарано, GPT‑5 може исто така да дава преамбулни пораки како резултат пред и помеѓу повиците на алатки за да ги информира корисниците за напредокот за време на подолги агентски задачи.
Пред два месеци, τ2-bench telecom беше објавен од Sierra.ai како предизвикувачкa одредница за користење алатки, кој истакна како перформансите на јазичниот модел значително паѓаат при интеракција со околина чија состојба можат да ја променат корисниците. Во нивната публикација(се отвора во нов прозорец), ниту еден модел не постигна резултат над 49%. GPT‑5 постигнува резултат од 97%.
Во τ2-bench(се отвора во нов прозорец), моделот мора да користи алатки за да изврши задача за корисничка поддршка, каде што може да има корисник кој може да комуницира и да презема дејства врз состојбата на светот. Моделите за расудување беа извршени со висок напор за расудување.
GPT‑5 покажува значителни подобрувања и во перформансите за долг контекст. На OpenAI-MRCR, мерка за пребарување информации од долг контекст, GPT‑5 ги надминува o3 и GPT‑4.1, со маргина што значително расте при подолги должини на Внесувања.
Во OpenAI-MRCR(се отвора во нов прозорец) (ко-референтна резолуција во повеќе рунди), повеќе идентични кориснички барања наречени „игла“ се вметнуваат во долги слични барања и одговори наречени „снопови сено“, и од моделот се бара да го репродуцира одговорот на i-тата игла. Средниот сооднос на совпаѓање ја мери просечната стапка на совпаѓање на низата помеѓу одговорот на моделот и точниот одговор. Точките при максимални 256k токени за внесување претставуваат просек од 128k–256k токени за внесување, и така натаму. Овде, 256k претставува 256 * 1,024 = 262,114 токени. Моделите за расудување беа извршени со висок напор за расудување.
Исто така, го објавуваме BrowseComp Long Context(се отвора во нов прозорец) како отворен код, нов репер за оценување прашања и одговори во долг контекст. Во овој бенчмарк, моделот добива корисничко прашање, долга листа на релевантни резултати од пребарувањето и мора да одговори на прашањето врз основа на резултатите од пребарувањето. Го дизајниравме BrowseComp Long Контекст да биде реалистичен, тежок и да има сигурни и точни одговори. На Внесувања што се 128K–256K токени, GPT‑5 го дава точниот одговор во 89% од случаите.
Во API, сите GPT‑5 модели можат да прифатат максимум 272.000 токени за внесување и да емитираат максимум 128.000 токени за резултат, со вкупна должина на контекстот од 400.000 токени.
GPT‑5 е подоверлив од нашите претходни модели. На промпти од LongFact и FactScore бенчмаркови, GPT‑5 прави ~80% помалку фактички грешки од o3. Ова го прави подобро прилагоден за случаи на агентска употреба каде што точноста е важна - особено во кодот, податоците и донесувањето одлуки.
Повисоките резултати се полоши. LongFact(се отвора во нов прозорец) и FActScore(се отвора во нов прозорец) се состојат од отворени прашања за барање факти. Ние користиме оценувач базиран на LLM со прелистување за да ги проверуваме фактите во одговорите на промптите од овие бенчмаркови и да го измериме делот од фактички неточни тврдења. Деталите за имплементација и оценување можат да се најдат во системската картичка. Моделите за расудување користеа висок степен на напор за расудување. Пребарувањето не беше овозможено.
Општо земено, GPT‑5 е обучен да биде посвесен за своите ограничувања и поспсобен да се справи со неочекувани предизвици. Исто така, го обучивме GPT‑5 да биде многу попрецизен за здравствените прашања (прочитај повеќе во нашиот блог за истражување). Како и со сите јазични модели, препорачуваме да ја потврдиш работата на GPT‑5 кога влоговите се високи.
Развивачите на софтвер можат да го контролираат времето на размислување на GPT‑5 преку параметарот reasoning_effort во API. Покрај претходните вредности—low, medium (стандардно), и high—GPT‑5 исто така поддржува minimal, што го минимизира размислувањето на GPT‑5 за брзо враќање на одговор.
Поголемите вредности на reasoning_effort го максимизираат квалитетот, додека помалите вредности ја максимизираат брзината. Не сите задачи имаат подеднаква корист од дополнително расудување, па затоа препорачуваме да експериментирате за да видите која работи најдобро за случаите на употреба што ве интересираат.
На пример, резонирањето над low додава малку на релативно едноставното пребарување на долги контексти, но додава доста процентни поени на CharXiv Reasoning(се отвора во нов прозорец), визуелна одредница за резонирање.
Напорот на GPT‑5 за расудување носи различни придобивки за различни задачи. За CharXiv Reasoning, GPT‑5 доби пристап до алатка за Python.
За да помогнеме во насочување на стандардната должина на одговорите на GPT‑5, воведовме нов API параметар verbosity, кој прифаќа вредности low, medium (стандарден) и high. Ако експлицитните инструкции се во конфликт со параметрите за детаљност, експлицитните инструкции имаат предност. На пример, ако побараш од GPT‑5 да „напише есеј од 5 параграфи“, одговорот на моделот секогаш треба да биде 5 параграфи без разлика на нивото на зборливост (сепак, самите параграфи може да бидат подолги или пократки).
Вербалност=ниско
Вербалност=средно
Вербализам=високо
Ако се даде инструкција, GPT‑5 ќе даде резултат со пораки за преамбулата видливи за корисникот пред и помеѓу повиците на алатката. За разлика од скриените пораки за размислување, овие видливи пораки му овозможуваат на GPT‑5 да ги комуницира своите планови и напредок со корисникот, помагајќи им на крајните корисници да го разберат неговиот пристап и намерата зад повиците на алатките.
Воведуваме нов тип на алатка — прилагодени алатки — што му овозможува на GPT‑5 да повикува алатка со обичен текст наместо JSON. За да го ограничат GPT‑5 да ги следат форматите на прилагодени алатки, развивачите на софтвер можат да обезбедат регекс или дури и поцелосно специфицирана граматика без контекст(се отвора во нов прозорец).
Претходно, нашиот интерфејс за алатки дефинирани од развивачи на софтвер бараше тие да бидат повикани со JSON, вообичаен формат што го користат веб API-ја и развивачи на софтвер генерално. Сепак, за да се добие валиден резултат JSON, моделот мора совршено да ги избегне сите наводници, коси црти, нови линии и други контролни знаци. Иако нашите модели се добро обучени да даваат резултат во JSON формат, при долги внесувања како стотици линии на код или извештај од 5 страници, шансите за грешка се зголемуваат. Со сопствени алатки, GPT‑5 може да пишува внесувања за алатки како обичен текст, без да мора да ги избегнува сите знаци што бараат избегнување.
На SWE-bench потврдено со прилагодени алатки наместо JSON алатки, GPT‑5 постигнува приближно ист резултат.
GPT‑5 ја унапредува безбедносната граница и е посилен, посигурен и покорисен модел. GPT‑5 е значително помалку склон кон халуцинации од нашите претходни модели, почесно ги комуницира своите дејства и способности со корисникот и дава најкорисен одговор каде што е можно, додека сепак останува во рамките на безбедносните граници. Можеш да прочиташ повеќе во нашиот истражувачки блог.
GPT‑5 е достапен сега на API платформата во три големини: gpt-5, gpt-5-mini и gpt-5-nano. Достапно е на Responses API, Разговор Completions API, и е стандарден во Codex CLI. GPT‑5 чини $1.25/1M токени за внесување и $10/1M токени за резултат, GPT‑5 mini чини $0.25/1M токени за внесување и $2/1M токени за резултат, а GPT‑5 nano чини $0.05/1M токени за внесување и $0.40/1M токени за резултат.
Овие модели ги поддржуваат API параметрите reasoning_effort и verbosity, како и прилагодените алатки. Тие исто така поддржуваат паралелно повикување на алатки, вградени алатки (веб пребарување, пребарување на датотеки, генерирање на слики и повеќе), основни API функции (стриминг, структурирани резултати и повеќе), како и функции за заштеда на трошоци како кеширање на промпт и Batch API.
Нерезонирачката верзија на GPT‑5 што се користи во ChatGPT е достапна во API како gpt-5-chat-latest, исто така со цена од $1.25/1M токени за внесување и $10/1M токени за резултат.
GPT‑5 исто така се објавува на платформите на Microsoft, вклучувајќи ги Microsoft 365 Copilot, Copilot, GitHub Copilot и Azure AI Foundry.
Провери ја документацијата(се отвора во нов прозорец) за GPT‑5, деталите за цени(се отвора во нов прозорец) и упатството за поттикнување(се отвора во нов прозорец) за да започнеш.
Интелигенција
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6 % | 91,1 % | 85,2 % | 88,9 % | 92,7 % | 46,4 % | 40,2 % | - |
| FrontierMath(with python tool only) | 26,3 % | 22,1 % | 9,6 % | 15,8 % | 15,4 % | - | - | - |
| GPQA diamond(no tools) | 85,7 % | 82,3 % | 71,2 % | 83,3 % | 81,4 % | 66,3 % | 65,0 % | 50,3 % |
| HLE[1](no tools) | 24,8 % | 16,7 % | 8,7 % | 20,2 % | 14,7 % | 5,4 % | 3,7 % | - |
| HMMT 2025(no tools) | 93,3 % | 87,8 % | 75,6 % | 81,7 % | 85,0 % | 28,9 % | 35,0 % | - |
[1] Постои мало несовпаѓање со бројките пријавени во нашиот претходен блог пост, бидејќи тие беа извршени на претходна верзија на HLE.
Мултимодален
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2 % | 81,6 % | 75,6 % | 82,9 % | 81,6 % | 74,8 % | 72,7 % | 55,4 % |
| MMMU-Pro(avg across standard and vision sets) | 78,4 % | 74,1 % | 62,6 % | 76,4 % | 73,4 % | 60,3 % | 58,9 % | 33,0 % |
| CharXiv reasoning(python enabled) | 81,1 % | 75,5 % | 62,7 % | 78,6 % | 72,0 % | 56,7 % | 56,8 % | 40,5 % |
| VideoMMMU, max frame 256 | 84,6 % | 82,5 % | 66,8 % | 83,3 % | 79,4 % | 60,9 % | 55,1 % | 30,2 % |
| ERQA | 65,7 % | 62,9 % | 50,1 % | 64,0 % | 56,5 % | 44,3 % | 42,3 % | 26,5 % |
Coding
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 илј. US$ | 75 илј. US$ | 49 илј. US$ | 86 илј. US$ | 66 илј. US$ | 34 илј. US$ | 31 илј. US$ | 9 илј. US$ |
| SWE-bench Verified[2] | 74,9 % | 71,0 % | 54,7 % | 69,1 % | 68,1 % | 54,6 % | 23,6 % | - |
| Aider polyglot(diff) | 88,0 % | 71,6 % | 48,4 % | 79,6 % | 58,2 % | 52,9 % | 31,6 % | 6,2 % |
[2] Изоставуваме 23/500 проблеми кои не можеа да се извршуваат на нашата инфраструктура. Целосната листа на 23 изоставени задачи е 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' и 'sphinx-doc__sphinx-9367'.
Следење инструкции
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6 % | 62,3 % | 54,9 % | 60,4 % | 57,5 % | 46,2 % | 42,2 % | 31,1 % |
| Internal API instruction following eval(hard) | 64,0 % | 65,8 % | 56,1 % | 47,4 % | 44,7 % | 49,1 % | 45,1 % | 31,6 % |
| COLLIE | 99,0 % | 98,5 % | 96,9 % | 98,4 % | 96,1 % | 65,8 % | 54,6 % | 42,5 % |
[3] Забелешка: мислиме дека стандардниот оценувач во MultiChallenge (GPT-4o) често пати погрешно ги оценува одговорите на моделот. Наоѓаме дека замената на оценувачот со модел на расудување, како o3-mini, значително ја подобрува точноста на оценувањето на примероците што ги прегледавме.
Повик на функција
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6 % | 60,0 % | 41,0 % | 64,8 % | 60,2 % | 56,0 % | 51,0 % | 14,0 % |
| Tau2-bench retail | 81,1 % | 78,3 % | 62,3 % | 80,2 % | 70,5 % | 74,0 % | 66,0 % | 21,5 % |
| Tau2-bench telecom | 96,7 % | 74,1 % | 35,5 % | 58,2 % | 40,5 % | 34,0 % | 44,0 % | 12,1 % |
Долг контекст
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2 % | 84,3 % | 43,2 % | 55,0 % | 56,4 % | 57,2 % | 47,2 % | 36,6 % |
| OpenAI-MRCR: 2 needle 256k | 86,8 % | 58,8 % | 34,9 % | - | - | 56,2 % | 45,5 % | 22,6 % |
| Graphwalks bfs <128k | 78,3 % | 73,4 % | 64,0 % | 77,3 % | 62,3 % | 61,7 % | 61,7 % | 25,0 % |
| Graphwalks parents <128k | 73,3 % | 64,3 % | 43,8 % | 72,9 % | 51,1 % | 58,0 % | 60,5 % | 9,4 % |
| BrowseComp Long Context 128k | 90,0 % | 89,4 % | 80,4 % | 88,3 % | 80,0 % | 85,9 % | 89,0 % | 89,4 % |
| BrowseComp Long Context 256k | 88,8 % | 86,0 % | 68,4 % | - | - | 75,5 % | 81,6 % | 19,1 % |
| VideoMME(long, with subtitle category) | 86,7 % | 78,5 % | 65,7 % | 84,9 % | 79,5 % | 78,7 % | 68,4 % | 55,2 % |
Халуцинации
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0 % | 0,7 % | 1,0 % | 5,2 % | 3,0 % | 0,7 % | 1,1 % | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2 % | 1,3 % | 2,8 % | 6,8 % | 8,9 % | 1,1 % | 1,8 % | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8 % | 3,5 % | 7,3 % | 23,5 % | 38,7 % | 6,7 % | 10,9 % | - |


