Преминаване към основното съдържание
OpenAI

7 август 2025 г.

Продукт

Представяме GPT–5 за разработчици

Най-добрият модел за кодиране и агентни задачи.

Зареждане…

Въведение

Днес пускаме GPT‑5 в нашата API платформа – най-добрият ни модел досега за кодиране и агентни задачи.

GPT‑5 е най-съвременен (SOTA) в ключови еталони за кодиране, с резултат 74.9% на SWE-bench Verified и 88% на Aider polyglot. Обучихме GPT‑5 да бъде истински сътрудник в програмирането. Той се справя отлично с изготвянето на висококачествен код и със задачи като отстраняване на грешки, редактиране на код и отговаряне на въпроси за сложни бази от кодове. Моделът може да се управлява и да си сътрудничи – той може да следва много подробни инструкции с висока точност и може да предоставя предварителни обяснения за действията си преди и между извикванията на инструмента.  Моделът се отличава и с отлични резултати в областта на фронтенд кодирането, като при вътрешни тестове надминава OpenAI o3 в областта на фронтенд уеб разработката в 70% от случаите.

Обучихме GPT‑5 по реални задачи за кодиране в сътрудничество с ранни тестери в стартъпи и предприятия. Cursor казват, че GPT‑5 е „най-интелигентният модел, който [са] използвали“, и че е „забележително интелигентен, лесен за управление и дори притежава индивидуалност, която не [са] виждали в други модели“. Windsurf споделиха, че GPT‑5 е SOTA в техните оценки и „има наполовина по-нисък процент на грешки при извикване на инструменти в сравнение с други модели от най-висок клас“. Vercel казват, че „това е най-добрият модел на ИИ за фронтенд, който постига най-висока производителност както в естетическия смисъл, така и в качеството на кода, поставяйки го в своя собствена категория.“

GPT‑5 се справя отлично и с дълготрайни агентни задачи – постига резултати SOTA в τ2-bench telecom (96,7%), еталон за извикване на инструменти, пуснат само преди 2 месеца. Подобрената интелигентност на инструментите на GPT‑5 му позволява надеждно да обединява десетки извиквания на инструменти – както последователно, така и паралелно – без да губи посоката си, което го прави много по-добър в изпълнението на сложни реални задачи от край до край. Освен това той следва по-точно инструкциите на инструментите, справя се по-добре с грешките на инструментите и се справя отлично с извличането на съдържание с дълъг контекст. Manus казват, че GPT‑5 „е постигнал най-добрата производителност, която някога [са] виждали от един модел на [техните] вътрешни еталони“. Notion казват, че „Бързите отговори [на модела], особено в режим на ниско разсъждаване, правят GPT‑5 идеален модел, когато трябва сложни задачи да се решат с един опит.“ Inditex споделиха, че „Това, което наистина отличава [GPT‑5], е дълбочината на неговото разсъждаване: нюансирани, многопластови отговори, които отразяват истинско разбиране на темата.“

Въвеждаме нови функции в нашия API, за да предоставим на разработчиците по-голям контрол върху отговорите на моделите. GPT‑5 поддържа нов параметър за словесност (стойности: ниска, средна, висока), който помага да се контролира дали отговорите са кратки и точни или дълги и изчерпателни. Параметърът reasoning_effort на GPT‑5 вече може да има минимална стойност, за да се получават отговори по-бързо, без да се налага предварително да се прави обширно разсъждаване. Също така добавихме нов тип инструмент – персонализирани инструменти – за да позволим на GPT‑5 да извиква инструменти с обикновен текст вместо JSON. Потребителските инструменти поддържат ограничаване чрез предоставени от разработчика безконтекстни граматики.

Пускаме GPT‑5 в три размера в API–gpt-5, gpt-5-mini и gpt-5-nano, за да предоставим на разработчиците по-голяма гъвкавост при избора на производителност, цена и забавяне. Докато GPT‑5 в ChatGPT е система от модели с разсъждаване, без разсъждаване и с маршрутизиране, GPT‑5 в API платформата е моделът за разсъждаване, който осигурява максимална производителност в ChatGPT. Забележете, че GPT‑5 с минимално разсъждаване е различен модел от модела без разсъждаване в ChatGPT и е по-добре настроен за разработчиците. Моделът без разсъждаване, използван в ChatGPT, е наличен като gpt-5-chat-latest.

За да прочетете за GPT‑5 в ChatGPT и да научите повече за други подобрения в ChatGPT, вижте нашия изследователски блог. За повече информация относно това как предприятията с нетърпение използват GPT‑5, вижте нашия блог за предприятия.

Програмиране

GPT‑5 е най-силният модел за кодиране, който някога сме пускали. Той превъзхожда o3 в еталони за кодиране и реални случаи на употреба и е фино настроен, за да блести в продукти за агентно кодиране като Cursor, Windsurf, GitHub Copilot и Codex CLI. GPT‑5 впечатли нашите алфа-тестери, поставяйки рекорди в много от техните частни вътрешни оценки. 

Ранна обратна връзка за GPT‑5 за реални задачи за кодиране

„GPT-5 е най-умният модел за кодиране, който сме използвали. Нашият екип установи, че GPT-5 е изключително интелигентен, лесен за управление и дори притежава личност, която не сме виждали в нито един друг модел. Той не само открива трудни, дълбоко скрити грешки, но може също така да изпълнява дълги, многоетапни фонови агенти, за да завърши сложните задачи – видовете проблеми, които преди оставяха други модели блокирани. Превърна се в нашето ежедневно средство за всичко – от определяне на обхвата и планиране на pull заявки до завършване на цялостни изграждания.“
Майкъл Труел, съосновател и главен изпълнителен директор на Cursor

При SWE-bench Verified, оценка, базирана на реални задачи за софтуерно инженерство, GPT‑5 постига 74,9%, което е повече от 69,1% на o3. Забележително е, че GPT‑5 постига високия си резултат с по-голяма ефективност и бързина: в сравнение с o3 при високо усилие за разсъждаване GPT‑5 използва с 22% по-малко изходящи токени и с 45% по-малко извиквания на инструменти.

В SWE-bench Verified, на модела се предоставя хранилище с код и описание на проблема и той трябва да генерира пач, за да реши проблема. Текстовите етикети показват усилието за разсъждаване. Нашите резултати изключват 23 от 500 проблема, чиито решения не преминаха надеждно през нашата инфраструктура. GPT‑5 получи кратка подкана, в която се подчертаваше задълбоченото проверяване на решенията; същата подкана не беше от полза за o3.

При Aider polyglot, оценка на редактирането на код, GPT‑5 поставя нов рекорд от 88%, което представлява намаление на процента на грешките с една трета в сравнение с o3.

В Aider polygot(отваря се в нов прозорец) (разлика) на модела се дава упражнение за кодиране от Exercism и той трябва да напише решението си като разлика в кода. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.

Също така установихме, че GPT‑5 е отличен инструмент за задълбочаване в базите от кодове, за да отговори на въпроси за това как работят или взаимодействат различните елементи. В една толкова сложна база от кодове, каквато е пакетът за подсилващо обучение на OpenAI, откриваме, че GPT‑5 може да ни помогне да разсъждаваме и да отговаряме на въпроси за нашия код, ускорявайки ежедневната ни работа. 

Фронтенд инженерство

При създаването на фронтенд код за уеб приложения GPT‑5 е по-естетически ориентиран, амбициозен и точен. При сравнението с o3, GPT‑5 беше предпочетен от нашите тестери в 70% от случаите.

Ето няколко забавни, внимателно подбрани примера за това какво може да направи GPT‑5 с една единствена подкана:

Подкана: Генерирай красива, реалистична целева страница за услуга, която предоставя на крайния любител на кафето абонамент от 200 USD на месец, който осигурява наемане на оборудване и напътствия за печене на кафе и създаване на най-доброто еспресо. Целевата аудитория е човек на средна възраст от района на залива, който може да работи в сферата на технологиите и е образован, има разполагаем доход и е запален по изкуството и науката за кафето. Оптимизирай за конверсия за 6-месечна регистрация.

Вижте още примери от GPT‑5 в нашата галерия тук(отваря се в нов прозорец).

Сътрудничество при кодиране

GPT‑5 е по-добър сътрудник, особено в продукти за агентно кодиране като Cursor, Windsurf, GitHub Copilot и Codex CLI. Докато работи, GPT‑5 може да извежда планове, актуализации и обобщения между извикванията на инструментите. В сравнение с предишните ни модели GPT‑5 е по-активен в изпълнението на амбициозни задачи, без да се бави, за да получи вашето разрешение, или да се колебае при висока сложност.

Ето един пример за това как може да изглежда GPT‑5 при решаване на сложна задача (в този случай създаване на уеб сайт за ресторант):

След като потребителят поиска уеб сайт за своя ресторант, GPT‑5 споделя бърз план, изгражда приложението, инсталира зависимости, създава съдържанието на сайта, изпълнява компилация за проверка на грешки, обобщава работата си и предлага потенциални напред стъпки. Това видео е ускорено ~3 пъти, за да ви спести чакането; пълната продължителност за създаване на уеб сайта беше около три минути.

Агентни задачи

Освен в областта на агентното кодиране, GPT‑5 е по-добър в агентните задачи като цяло. GPT‑5 поставя нови рекорди по отношение на еталоните за следване на инструкции (69,6% на Scale MultiChallenge, оценен от o3‑mini) и извикване на инструменти (96,7% на τ2-bench telecom). Подобрената интелигентност на инструментите позволява на GPT‑5 по-надеждно да свързва действия за изпълнение на реални задачи.

Ранна обратна връзка относно GPT‑5 за агентни задачи

„GPT-5 е голяма стъпка напред. Той постигна най-добрата производителност, която някога сме виждали от един модел в нашите вътрешни еталони. GPT-5 се отличи в различни агентни задачи – дори преди да променим един ред код или да адаптираме подкана. Новите преамбюли и по-прецизният контрол върху използването на инструменти активираха значителен скок в стабилността и управляемостта на нашите агенти.“
Ичао „Пийк“ Джи, съосновател и главен научен сътрудник в Manus

Следване на инструкции

GPT‑5 следва инструкциите по-надеждно от всички свои предшественици, като постига високи резултати в тестовете COLLIE, Scale MultiChallenge и нашето вътрешно оценяване за следване на инструкции.

В COLLIE(отваря се в нов прозорец) моделите трябва да създават текст, който отговаря на различни ограничения. В Scale MultiChallenge(отваря се в нов прозорец) моделите са предизвикани в многоходови разговори да използват правилно четири типа информация от предишни съобщения. Нашите резултати идват от използването на o3‑mini като оценител, който беше по-точен от GPT‑4o. В нашата вътрешна оценка за следване на инструкциите на API на OpenAI моделите трябва да следват трудни инструкции, получени от реална обратна връзка на разработчици. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.

Извикване на инструмент

Работихме усилено, за да подобрим извикването на инструменти по важните за разработчиците начини. GPT‑5 е по-добър в следването на инструкциите на инструментите, по-добър в справянето с грешки на инструментите и по-добър в проактивното извършване на много последователни или паралелни извиквания на инструменти. Когато е инструктиран, GPT‑5 може също така да извежда преамбюлни съобщения преди и между повикванията на инструмента, за да информира потребителите за напредъка по време на по-дълги агентни задачи.

Преди два месеца Sierra.ai публикува τ2-bench telecom като предизвикателен еталон за използване на инструменти, който подчертава как производителността на езиковите модели значително спада при взаимодействие със състояние на средата, което може да бъде променяно от потребителите. В тяхната публикация(отваря се в нов прозорец) нито един модел не е постигнал резултат над 49%. GPT‑5 получава 97%.

В τ2-bench(отваря се в нов прозорец) моделът трябва да използва инструменти, за да изпълни задача за обслужване на клиенти, където може да има потребител, който може да комуникира и да предприема действия по отношение на състоянието на света. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.

GPT‑5 също показва значителни подобрения в производителността при дълги контексти. При OpenAI-MRCR, мярка за извличане на информация с дълъг контекст, GPT‑5 превъзхожда o3 и GPT‑4.1 с разлика, която нараства значително при по-голяма дължина на въвеждания.

В OpenAI-MRCR(отваря се в нов прозорец) (многокръгова ко-референтна резолюция), множество идентични потребителски заявки тип „игла“ се вмъкват в дълги „купи сено“ от подобни заявки и отговори, и от модела се изисква да възпроизведе отговора на i-тата игла. Средното съотношение на съвпадение измерва средното съотношение на съвпадение на низовете между отговора на модела и правилния отговор. Точките при максималните входящи токени от 256k представляват средни стойности за 128k–256k входящи токени и така нататък. Тук 256k представлява 256 * 1,024 = 262,114 токена. Моделите за разсъждаване бяха изпълнени с голямо усилие за разсъждаване.

Ние също така предоставяме като отворен код BrowseComp Long Context(отваря се в нов прозорец), нов еталон за оценка на дълъг контекст Q&A. В този еталон моделът получава потребителска заявка, дълъг списък с релевантни резултати от търсене и трябва да отговори на въпроса въз основа на тези резултати. Проектирахме BrowseComp Long Context да бъде реалистичен, труден и да предоставя надеждно верни отговори в контекста. При въвеждания с размер от 128K до 256K токена, GPT‑5 дава правилния отговор в 89% от случаите.

В API всички модели GPT‑5 могат да приемат максимум 272 000 входящи токени и да излъчват максимум 128 000 токени за разсъждаване и изходящи токени, което дава обща дължина на контекста от 400 000 токена.

Фактичност

GPT‑5 е по-надежден от предишните ни модели. При подкани от еталоните LongFact и FactScore, GPT‑5 прави ~80% по-малко фактически грешки от o3. Това го прави по-подходящ за агентни случаи на употреба, където коректността е от значение – особено в кода, данните и вземането на решения.

По-високите резултати са по-лоши. LongFact(отваря се в нов прозорец) и FActScore(отваря се в нов прозорец) се състоят от отворени въпроси за търсене на факти. Ние използваме оценител, базиран на голям езиков модел, с възможност за разглеждане, за да проверяваме фактите в отговорите на подкани от тези еталони и да измерваме дела на фактически неверните твърдения. Подробности за внедряването и оценяването могат да бъдат намерени в картата на системата. Моделите на разсъждаване използваха големи усилия за разсъждаване. Търсенето не беше активирано.

Като цяло GPT‑5 е обучен да осъзнава по-добре собствените си ограничения и да се справя по-добре с неочаквани препятствия. Също така обучихме GPT‑5 да бъде много по-точен по здравни въпроси (прочетете повече в нашия изследователски блог). Както при всички езикови модели, препоръчваме да проверите работата на GPT‑5, когато залогът е висок.

Нови функции

Минимално усилие за разсъждаване

Разработчиците могат да контролират времето за мислене на GPT‑5 чрез параметъра reasoning_effort в API. В допълнение към предходните стойности –ниска, средна (по подразбиране) и висока– GPT‑5 поддържа и минимална, която свежда до минимум разсъждаването на GPT‑5 за бързо връщане на отговор.

По-високите стойности на reasoning_effort максимизират качеството, а по-ниските максимизират скоростта. Не всички задачи се възползват еднакво от допълнителното разсъждаване, затова препоръчваме да експериментирате, за да видите кое работи най-добре за случаите на употреба, които ви интересуват.

Например, разсъждаването над ниско добавя малко към сравнително простото извличане на дълъг контекст, но добавят доста процентни точки към CharXiv Reasoning(отваря се в нов прозорец), визуален еталон за разсъждаване.

Усилията на GPT‑5 в областта на разсъждаването носят различни ползи при различните задачи. За разсъждаването на CharXiv, GPT‑5 получи достъп до инструмент на Python.

Словесност

За да помогнем за насочването на дължината по подразбиране на отговорите на GPT‑5, въведохме нов API параметър словесност, който приема стойности ниска, средна (по подразбиране) и висока. Ако изричните инструкции противоречат на параметрите за словесност, изричните инструкции имат предимство. Например, ако помолите GPT‑5 да „напише есе от 5 параграфа“, отговорът на модела винаги трябва да бъде 5 параграфа, независимо от нивото на словесност (въпреки че самите параграфи могат да бъдат по-дълги или по-къси).

Словесност=ниска

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Словесност=средна

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Словесност=висока

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Преамбюлни съобщения преди извиквания на инструменти

Ако бъде инструктиран, GPT‑5 ще извежда видими за потребителя преамбюлни съобщения преди и между извикванията на инструмента. За разлика от скритите съобщения за разсъждаване, тези видими съобщения позволяват на GPT‑5 да комуникира планове и напредък с потребителя, като помагат на крайните потребители да разберат подхода и намерението зад извикванията на инструментите.

Персонализирани инструменти

Въвеждаме нов тип инструмент – персонализирани инструменти – който позволява на GPT‑5 да извиква инструмент с обикновен текст, вместо JSON. За да ограничат GPT‑5 да следва персонализирани формати на инструментите, разработчиците могат да предоставят регулярни изрази или дори по-подробно специфицирана контекстно независима граматика(отваря се в нов прозорец).

Преди това, нашият интерфейс за инструменти, дефинирани от разработчици, изискваше те да бъдат извиквани с JSON, често срещан формат, използван от уеб API и разработчиците като цяло. Въпреки това, за да се получи валиден JSON изход, моделът трябва перфектно да избягва всички кавички, обратни наклонени черти, нови редове и други контролни знаци. Въпреки че нашите модели са добре обучени да извеждат JSON, при дълги входни данни, като стотици редове код или доклад от 5 страници, вероятността за грешка нараства. С персонализирани инструменти, GPT‑5 може да записва въвеждането на инструмента като обикновен текст, без да е необходимо да се избягват всички знаци, които изискват избягване.

В теста SWE-bench Verified, при който се използват персонализирани инструменти вместо JSON инструменти, GPT‑5 постига приблизително същите резултати.

Безопасност

GPT‑5 разширява границите на безопасността и е по-стабилен, надежден и полезен модел. GPT‑5 е значително по-малко склонен да халюцинира в сравнение с предишните ни модели, по-честно комуникира действията и възможностите си на потребителя и предоставя най-полезния отговор, когато е възможно, като същевременно остава в рамките на границите на безопасността. Можете да прочетете повече в нашия изследователски блог.

Наличност & ценообразуване

GPT‑5 вече е наличен в API платформата в три размера: gpt-5, gpt-5-mini и gpt-5-nano. Той е наличен в API за отговори, API за завършвания на чат и е по подразбиране в Codex CLI. GPT‑5 е на цена от $1.25/1 млн. входни токени и $10/1 млн. изходни токени, GPT‑5 mini е на цена от $0.25/1 млн. входни токени и $2/1 млн. изходни токени, а GPT‑5 nano е на цена от $0.05/1 млн. входни токени и $0.40/1 млн. изходни токени.

Тези модели  поддържат API параметрите reasoning_effort и словесност, както и персонализирани инструменти. Те също така поддържат паралелно извикване на инструменти, вградени инструменти (уеб търсене, търсене на файл, генериране на изображение и други), основни функции на API (поточно предаване, структурирани изходи и други) и функции за спестяване на разходи като кеширане на подкани и Batch API.

Версията на GPT‑5 без разсъждаване, използвана в ChatGPT, е налична в API като gpt-5-chat-latest, също с цена от 1,25 USD/1M входящи токени и 10 USD/1M изходящи токени.

GPT‑5 стартира и в платформите на Microsoft, включително Microsoft 365 Copilot, Copilot, GitHub Copilot и Azure AI Foundry.

Подробни еталони

Интелект
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6%91,1%85,2%88,9%92,7%46,4%40,2%-
FrontierMath(with python tool only)26,3%22,1%9,6%15,8%15,4%---
GPQA diamond(no tools)85,7%82,3%71,2%83,3%81,4%66,3%65,0%50,3%
HLE[1](no tools)24,8%16,7%8,7%20,2%14,7%5,4%3,7%-
HMMT 2025(no tools)93,3%87,8%75,6%81,7%85,0%28,9%35,0%-

[1] Има малко несъответствие в данните, докладвани в предишната ни публикация в блога, тъй като те бяха пуснати на предишна версия на HLE.

Мултимодалност
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2%81,6%75,6%82,9%81,6%74,8%72,7%55,4%
MMMU-Pro(avg across standard and vision sets)78,4%74,1%62,6%76,4%73,4%60,3%58,9%33,0%
CharXiv reasoning(python enabled)81,1%75,5%62,7%78,6%72,0%56,7%56,8%40,5%
VideoMMMU, max frame 25684,6%82,5%66,8%83,3%79,4%60,9%55,1%30,2%
ERQA65,7%62,9%50,1%64,0%56,5%44,3%42,3%26,5%
Програмиране
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 хил. щ.д.75 хил. щ.д.49 хил. щ.д.86 хил. щ.д.66 хил. щ.д.34 хил. щ.д.31 хил. щ.д.9 хил. щ.д.
SWE-bench Verified[2]74,9%71,0%54,7%69,1%68,1%54,6%23,6%-
Aider polyglot(diff)88,0%71,6%48,4%79,6%58,2%52,9%31,6%6,2%

[2] Пропускаме 23/500 проблема, които не могат да се изпълняват на нашата инфраструктура. Пълният списък с 23 пропуснати задачи е 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' и 'sphinx-doc__sphinx-9367'.

Следване на инструкции
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6%62,3%54,9%60,4%57,5%46,2%42,2%31,1%
Internal API instruction following eval(hard)64,0%65,8%56,1%47,4%44,7%49,1%45,1%31,6%
COLLIE99,0%98,5%96,9%98,4%96,1%65,8%54,6%42,5%

[3] Забележка: установихме, че стандартният оценител в MultiChallenge (GPT-4o) често дава грешни оценки на отговорите на моделите. Установихме, че смяната на оценителя с модел за разсъждение, като например o3-mini, подобрява значително точността на оценката на образците, които сме проверили.

Извикване на функции
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6%60,0%41,0%64,8%60,2%56,0%51,0%14,0%
Tau2-bench retail81,1%78,3%62,3%80,2%70,5%74,0%66,0%21,5%
Tau2-bench telecom96,7%74,1%35,5%58,2%40,5%34,0%44,0%12,1%
Дълъг контекст
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2%84,3%43,2%55,0%56,4%57,2%47,2%36,6%
OpenAI-MRCR: 2 needle 256k86,8%58,8%34,9%--56,2%45,5%22,6%
Graphwalks bfs <128k78,3%73,4%64,0%77,3%62,3%61,7%61,7%25,0%
Graphwalks parents <128k73,3%64,3%43,8%72,9%51,1%58,0%60,5%9,4%
BrowseComp Long Context 128k90,0%89,4%80,4%88,3%80,0%85,9%89,0%89,4%
BrowseComp Long Context 256k88,8%86,0%68,4%--75,5%81,6%19,1%
VideoMME(long, with subtitle category)86,7%78,5%65,7%84,9%79,5%78,7%68,4%55,2%
Халюцинации
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0%0,7%1,0%5,2%3,0%0,7%1,1%-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2%1,3%2,8%6,8%8,9%1,1%1,8%-
FActScore hallucination rate(no tools)[lower is better]2,8%3,5%7,3%23,5%38,7%6,7%10,9%-

Автор

OpenAI