Днес пускаме GPT‑5 в нашата API платформа – най-добрият ни модел досега за кодиране и агентни задачи.
GPT‑5 е най-съвременен (SOTA) в ключови еталони за кодиране, с резултат 74.9% на SWE-bench Verified и 88% на Aider polyglot. Обучихме GPT‑5 да бъде истински сътрудник в програмирането. Той се справя отлично с изготвянето на висококачествен код и със задачи като отстраняване на грешки, редактиране на код и отговаряне на въпроси за сложни бази от кодове. Моделът може да се управлява и да си сътрудничи – той може да следва много подробни инструкции с висока точност и може да предоставя предварителни обяснения за действията си преди и между извикванията на инструмента. Моделът се отличава и с отлични резултати в областта на фронтенд кодирането, като при вътрешни тестове надминава OpenAI o3 в областта на фронтенд уеб разработката в 70% от случаите.
Обучихме GPT‑5 по реални задачи за кодиране в сътрудничество с ранни тестери в стартъпи и предприятия. Cursor казват, че GPT‑5 е „най-интелигентният модел, който [са] използвали“, и че е „забележително интелигентен, лесен за управление и дори притежава индивидуалност, която не [са] виждали в други модели“. Windsurf споделиха, че GPT‑5 е SOTA в техните оценки и „има наполовина по-нисък процент на грешки при извикване на инструменти в сравнение с други модели от най-висок клас“. Vercel казват, че „това е най-добрият модел на ИИ за фронтенд, който постига най-висока производителност както в естетическия смисъл, така и в качеството на кода, поставяйки го в своя собствена категория.“
GPT‑5 се справя отлично и с дълготрайни агентни задачи – постига резултати SOTA в τ2-bench telecom (96,7%), еталон за извикване на инструменти, пуснат само преди 2 месеца. Подобрената интелигентност на инструментите на GPT‑5 му позволява надеждно да обединява десетки извиквания на инструменти – както последователно, така и паралелно – без да губи посоката си, което го прави много по-добър в изпълнението на сложни реални задачи от край до край. Освен това той следва по-точно инструкциите на инструментите, справя се по-добре с грешките на инструментите и се справя отлично с извличането на съдържание с дълъг контекст. Manus казват, че GPT‑5 „е постигнал най-добрата производителност, която някога [са] виждали от един модел на [техните] вътрешни еталони“. Notion казват, че „Бързите отговори [на модела], особено в режим на ниско разсъждаване, правят GPT‑5 идеален модел, когато трябва сложни задачи да се решат с един опит.“ Inditex споделиха, че „Това, което наистина отличава [GPT‑5], е дълбочината на неговото разсъждаване: нюансирани, многопластови отговори, които отразяват истинско разбиране на темата.“
Въвеждаме нови функции в нашия API, за да предоставим на разработчиците по-голям контрол върху отговорите на моделите. GPT‑5 поддържа нов параметър за словесност (стойности: ниска, средна, висока), който помага да се контролира дали отговорите са кратки и точни или дълги и изчерпателни. Параметърът reasoning_effort на GPT‑5 вече може да има минимална стойност, за да се получават отговори по-бързо, без да се налага предварително да се прави обширно разсъждаване. Също така добавихме нов тип инструмент – персонализирани инструменти – за да позволим на GPT‑5 да извиква инструменти с обикновен текст вместо JSON. Потребителските инструменти поддържат ограничаване чрез предоставени от разработчика безконтекстни граматики.
Пускаме GPT‑5 в три размера в API–gpt-5, gpt-5-mini и gpt-5-nano, за да предоставим на разработчиците по-голяма гъвкавост при избора на производителност, цена и забавяне. Докато GPT‑5 в ChatGPT е система от модели с разсъждаване, без разсъждаване и с маршрутизиране, GPT‑5 в API платформата е моделът за разсъждаване, който осигурява максимална производителност в ChatGPT. Забележете, че GPT‑5 с минимално разсъждаване е различен модел от модела без разсъждаване в ChatGPT и е по-добре настроен за разработчиците. Моделът без разсъждаване, използван в ChatGPT, е наличен като gpt-5-chat-latest.
За да прочетете за GPT‑5 в ChatGPT и да научите повече за други подобрения в ChatGPT, вижте нашия изследователски блог. За повече информация относно това как предприятията с нетърпение използват GPT‑5, вижте нашия блог за предприятия.
GPT‑5 е най-силният модел за кодиране, който някога сме пускали. Той превъзхожда o3 в еталони за кодиране и реални случаи на употреба и е фино настроен, за да блести в продукти за агентно кодиране като Cursor, Windsurf, GitHub Copilot и Codex CLI. GPT‑5 впечатли нашите алфа-тестери, поставяйки рекорди в много от техните частни вътрешни оценки.
Ранна обратна връзка за GPT‑5 за реални задачи за кодиране
„GPT-5 е най-умният модел за кодиране, който сме използвали. Нашият екип установи, че GPT-5 е изключително интелигентен, лесен за управление и дори притежава личност, която не сме виждали в нито един друг модел. Той не само открива трудни, дълбоко скрити грешки, но може също така да изпълнява дълги, многоетапни фонови агенти, за да завърши сложните задачи – видовете проблеми, които преди оставяха други модели блокирани. Превърна се в нашето ежедневно средство за всичко – от определяне на обхвата и планиране на pull заявки до завършване на цялостни изграждания.“
При SWE-bench Verified, оценка, базирана на реални задачи за софтуерно инженерство, GPT‑5 постига 74,9%, което е повече от 69,1% на o3. Забележително е, че GPT‑5 постига високия си резултат с по-голяма ефективност и бързина: в сравнение с o3 при високо усилие за разсъждаване GPT‑5 използва с 22% по-малко изходящи токени и с 45% по-малко извиквания на инструменти.
В SWE-bench Verified, на модела се предоставя хранилище с код и описание на проблема и той трябва да генерира пач, за да реши проблема. Текстовите етикети показват усилието за разсъждаване. Нашите резултати изключват 23 от 500 проблема, чиито решения не преминаха надеждно през нашата инфраструктура. GPT‑5 получи кратка подкана, в която се подчертаваше задълбоченото проверяване на решенията; същата подкана не беше от полза за o3.
При Aider polyglot, оценка на редактирането на код, GPT‑5 поставя нов рекорд от 88%, което представлява намаление на процента на грешките с една трета в сравнение с o3.
В Aider polygot(отваря се в нов прозорец) (разлика) на модела се дава упражнение за кодиране от Exercism и той трябва да напише решението си като разлика в кода. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.
Също така установихме, че GPT‑5 е отличен инструмент за задълбочаване в базите от кодове, за да отговори на въпроси за това как работят или взаимодействат различните елементи. В една толкова сложна база от кодове, каквато е пакетът за подсилващо обучение на OpenAI, откриваме, че GPT‑5 може да ни помогне да разсъждаваме и да отговаряме на въпроси за нашия код, ускорявайки ежедневната ни работа.
При създаването на фронтенд код за уеб приложения GPT‑5 е по-естетически ориентиран, амбициозен и точен. При сравнението с o3, GPT‑5 беше предпочетен от нашите тестери в 70% от случаите.
Ето няколко забавни, внимателно подбрани примера за това какво може да направи GPT‑5 с една единствена подкана:
Подкана: Генерирай красива, реалистична целева страница за услуга, която предоставя на крайния любител на кафето абонамент от 200 USD на месец, който осигурява наемане на оборудване и напътствия за печене на кафе и създаване на най-доброто еспресо. Целевата аудитория е човек на средна възраст от района на залива, който може да работи в сферата на технологиите и е образован, има разполагаем доход и е запален по изкуството и науката за кафето. Оптимизирай за конверсия за 6-месечна регистрация.
Вижте още примери от GPT‑5 в нашата галерия тук(отваря се в нов прозорец).
GPT‑5 е по-добър сътрудник, особено в продукти за агентно кодиране като Cursor, Windsurf, GitHub Copilot и Codex CLI. Докато работи, GPT‑5 може да извежда планове, актуализации и обобщения между извикванията на инструментите. В сравнение с предишните ни модели GPT‑5 е по-активен в изпълнението на амбициозни задачи, без да се бави, за да получи вашето разрешение, или да се колебае при висока сложност.
Ето един пример за това как може да изглежда GPT‑5 при решаване на сложна задача (в този случай създаване на уеб сайт за ресторант):
След като потребителят поиска уеб сайт за своя ресторант, GPT‑5 споделя бърз план, изгражда приложението, инсталира зависимости, създава съдържанието на сайта, изпълнява компилация за проверка на грешки, обобщава работата си и предлага потенциални напред стъпки. Това видео е ускорено ~3 пъти, за да ви спести чакането; пълната продължителност за създаване на уеб сайта беше около три минути.
Освен в областта на агентното кодиране, GPT‑5 е по-добър в агентните задачи като цяло. GPT‑5 поставя нови рекорди по отношение на еталоните за следване на инструкции (69,6% на Scale MultiChallenge, оценен от o3‑mini) и извикване на инструменти (96,7% на τ2-bench telecom). Подобрената интелигентност на инструментите позволява на GPT‑5 по-надеждно да свързва действия за изпълнение на реални задачи.
Ранна обратна връзка относно GPT‑5 за агентни задачи
„GPT-5 е голяма стъпка напред. Той постигна най-добрата производителност, която някога сме виждали от един модел в нашите вътрешни еталони. GPT-5 се отличи в различни агентни задачи – дори преди да променим един ред код или да адаптираме подкана. Новите преамбюли и по-прецизният контрол върху използването на инструменти активираха значителен скок в стабилността и управляемостта на нашите агенти.“
GPT‑5 следва инструкциите по-надеждно от всички свои предшественици, като постига високи резултати в тестовете COLLIE, Scale MultiChallenge и нашето вътрешно оценяване за следване на инструкции.
В COLLIE(отваря се в нов прозорец) моделите трябва да създават текст, който отговаря на различни ограничения. В Scale MultiChallenge(отваря се в нов прозорец) моделите са предизвикани в многоходови разговори да използват правилно четири типа информация от предишни съобщения. Нашите резултати идват от използването на o3‑mini като оценител, който беше по-точен от GPT‑4o. В нашата вътрешна оценка за следване на инструкциите на API на OpenAI моделите трябва да следват трудни инструкции, получени от реална обратна връзка на разработчици. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.
Работихме усилено, за да подобрим извикването на инструменти по важните за разработчиците начини. GPT‑5 е по-добър в следването на инструкциите на инструментите, по-добър в справянето с грешки на инструментите и по-добър в проактивното извършване на много последователни или паралелни извиквания на инструменти. Когато е инструктиран, GPT‑5 може също така да извежда преамбюлни съобщения преди и между повикванията на инструмента, за да информира потребителите за напредъка по време на по-дълги агентни задачи.
Преди два месеца Sierra.ai публикува τ2-bench telecom като предизвикателен еталон за използване на инструменти, който подчертава как производителността на езиковите модели значително спада при взаимодействие със състояние на средата, което може да бъде променяно от потребителите. В тяхната публикация(отваря се в нов прозорец) нито един модел не е постигнал резултат над 49%. GPT‑5 получава 97%.
В τ2-bench(отваря се в нов прозорец) моделът трябва да използва инструменти, за да изпълни задача за обслужване на клиенти, където може да има потребител, който може да комуникира и да предприема действия по отношение на състоянието на света. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.
GPT‑5 също показва значителни подобрения в производителността при дълги контексти. При OpenAI-MRCR, мярка за извличане на информация с дълъг контекст, GPT‑5 превъзхожда o3 и GPT‑4.1 с разлика, която нараства значително при по-голяма дължина на въвеждания.
В OpenAI-MRCR(отваря се в нов прозорец) (многокръгова ко-референтна резолюция), множество идентични потребителски заявки тип „игла“ се вмъкват в дълги „купи сено“ от подобни заявки и отговори, и от модела се изисква да възпроизведе отговора на i-тата игла. Средното съотношение на съвпадение измерва средното съотношение на съвпадение на низовете между отговора на модела и правилния отговор. Точките при максималните входящи токени от 256k представляват средни стойности за 128k–256k входящи токени и така нататък. Тук 256k представлява 256 * 1,024 = 262,114 токена. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.
Ние също така предоставяме като отворен код BrowseComp Long Context(отваря се в нов прозорец), нов еталон за оценка на дълъг контекст Q&A. В този еталон моделът получава потребителска заявка, дълъг списък с релевантни резултати от търсене и трябва да отговори на въпроса въз основа на тези резултати. Проектирахме BrowseComp Long Context да бъде реалистичен, труден и да предоставя надеждно верни отговори в контекста. При въвеждания с размер от 128K до 256K токена, GPT‑5 дава правилния отговор в 89% от случаите.
В API всички модели GPT‑5 могат да приемат максимум 272 000 входящи токени и да излъчват максимум 128 000 токени за разсъждаване и изходящи токени, което дава обща дължина на контекста от 400 000 токена.
GPT‑5 е по-надежден от предишните ни модели. При подкани от еталоните LongFact и FactScore, GPT‑5 прави ~80% по-малко фактически грешки от o3. Това го прави по-подходящ за агентни случаи на употреба, където коректността е от значение – особено в кода, данните и вземането на решения.
По-високите резултати са по-лоши. LongFact(отваря се в нов прозорец) и FActScore(отваря се в нов прозорец) се състоят от отворени въпроси за търсене на факти. Ние използваме оценител, базиран на голям езиков модел, с възможност за разглеждане, за да проверяваме фактите в отговорите на подкани от тези еталони и да измерваме дела на фактически неверните твърдения. Подробности за внедряването и оценяването могат да бъдат намерени в картата на системата. Моделите на разсъждаване използваха големи усилия за разсъждаване. Търсенето не беше активирано.
Като цяло GPT‑5 е обучен да осъзнава по-добре собствените си ограничения и да се справя по-добре с неочаквани препятствия. Също така обучихме GPT‑5 да бъде много по-точен по здравни въпроси (прочетете повече в нашия изследователски блог). Както при всички езикови модели, препоръчваме да проверите работата на GPT‑5, когато залогът е висок.
Разработчиците могат да контролират времето за мислене на GPT‑5 чрез параметъра reasoning_effort в API. В допълнение към предходните стойности –ниска, средна (по подразбиране) и висока– GPT‑5 поддържа и минимална, която свежда до минимум разсъждаването на GPT‑5 за бързо връщане на отговор.
По-високите стойности на reasoning_effort максимизират качеството, а по-ниските максимизират скоростта. Не всички задачи се възползват еднакво от допълнителното разсъждаване, затова препоръчваме да експериментирате, за да видите кое работи най-добре за случаите на употреба, които ви интересуват.
Например, разсъждаването над ниско добавя малко към сравнително простото извличане на дълъг контекст, но добавят доста процентни точки към CharXiv Reasoning(отваря се в нов прозорец), визуален еталон за разсъждаване.
Усилията на GPT‑5 в областта на разсъждаването носят различни ползи при различните задачи. За разсъждаването на CharXiv, GPT‑5 получи достъп до инструмент на Python.
За да помогнем за насочването на дължината по подразбиране на отговорите на GPT‑5, въведохме нов API параметър словесност, който приема стойности ниска, средна (по подразбиране) и висока. Ако изричните инструкции противоречат на параметрите за словесност, изричните инструкции имат предимство. Например, ако помолите GPT‑5 да „напише есе от 5 параграфа“, отговорът на модела винаги трябва да бъде 5 параграфа, независимо от нивото на словесност (въпреки че самите параграфи могат да бъдат по-дълги или по-къси).
Словесност=ниска
Словесност=средна
Словесност=висока
Ако бъде инструктиран, GPT‑5 ще извежда видими за потребителя преамбюлни съобщения преди и между извикванията на инструмента. За разлика от скритите съобщения за разсъждаване, тези видими съобщения позволяват на GPT‑5 да комуникира планове и напредък с потребителя, като помагат на крайните потребители да разберат подхода и намерението зад извикванията на инструментите.
Въвеждаме нов тип инструмент – персонализирани инструменти – който позволява на GPT‑5 да извиква инструмент с обикновен текст, вместо JSON. За да ограничат GPT‑5 да следва персонализирани формати на инструментите, разработчиците могат да предоставят регулярни изрази или дори по-подробно специфицирана контекстно независима граматика(отваря се в нов прозорец).
Преди това, нашият интерфейс за инструменти, дефинирани от разработчици, изискваше те да бъдат извиквани с JSON, често срещан формат, използван от уеб API и разработчиците като цяло. Въпреки това, за да се получи валиден JSON изход, моделът трябва перфектно да избягва всички кавички, обратни наклонени черти, нови редове и други контролни знаци. Въпреки че нашите модели са добре обучени да извеждат JSON, при дълги входни данни, като стотици редове код или доклад от 5 страници, вероятността за грешка нараства. С персонализирани инструменти, GPT‑5 може да записва въвеждането на инструмента като обикновен текст, без да е необходимо да се избягват всички знаци, които изискват избягване.
В теста SWE-bench Verified, при който се използват персонализирани инструменти вместо JSON инструменти, GPT‑5 постига приблизително същите резултати.
GPT‑5 разширява границите на безопасността и е по-стабилен, надежден и полезен модел. GPT‑5 е значително по-малко склонен да халюцинира в сравнение с предишните ни модели, по-честно комуникира действията и възможностите си на потребителя и предоставя най-полезния отговор, когато е възможно, като същевременно остава в рамките на границите на безопасността. Можете да прочетете повече в нашия изследователски блог.
GPT‑5 вече е наличен в API платформата в три размера: gpt-5, gpt-5-mini и gpt-5-nano. Той е наличен в API за отговори, API за завършвания на чат и е по подразбиране в Codex CLI. GPT‑5 е на цена от $1.25/1 млн. входни токени и $10/1 млн. изходни токени, GPT‑5 mini е на цена от $0.25/1 млн. входни токени и $2/1 млн. изходни токени, а GPT‑5 nano е на цена от $0.05/1 млн. входни токени и $0.40/1 млн. изходни токени.
Тези модели поддържат API параметрите reasoning_effort и словесност, както и персонализирани инструменти. Те също така поддържат паралелно извикване на инструменти, вградени инструменти (уеб търсене, търсене на файл, генериране на изображение и други), основни функции на API (поточно предаване, структурирани изходи и други) и функции за спестяване на разходи като кеширане на подкани и Batch API.
Версията на GPT‑5 без разсъждаване, използвана в ChatGPT, е налична в API като gpt-5-chat-latest, също с цена от 1,25 USD/1M входящи токени и 10 USD/1M изходящи токени.
GPT‑5 стартира и в платформите на Microsoft, включително Microsoft 365 Copilot, Copilot, GitHub Copilot и Azure AI Foundry.
Разгледайте документацията(отваря се в нов прозорец) за GPT‑5, подробностите за ценообразуването(отваря се в нов прозорец) и ръководството за подкани(отваря се в нов прозорец), за да започнете.
Интелект
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Има малко несъответствие в данните, докладвани в предишната ни публикация в блога, тъй като те бяха пуснати на предишна версия на HLE.
Мултимодалност
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Програмиране
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 хил. щ.д. | 75 хил. щ.д. | 49 хил. щ.д. | 86 хил. щ.д. | 66 хил. щ.д. | 34 хил. щ.д. | 31 хил. щ.д. | 9 хил. щ.д. |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Пропускаме 23/500 проблема, които не могат да се изпълняват на нашата инфраструктура. Пълният списък с 23 пропуснати задачи е 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' и 'sphinx-doc__sphinx-9367'.
Следване на инструкции
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Забележка: установихме, че стандартният оценител в MultiChallenge (GPT-4o) често дава грешни оценки на отговорите на моделите. Установихме, че смяната на оценителя с модел за разсъждение, като например o3-mini, подобрява значително точността на оценката на образците, които сме проверили.
Извикване на функции
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Дълъг контекст
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Халюцинации
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


