Прескокни до главната содржина
OpenAI

7 август 2025 г.

Производ

Претставување на GPT‑5 за развивачи на софтвер

Најдобриот модел за кодирање и агентски задачи.

Се вчитува...

Вовед

Денес го објавуваме GPT‑5 на нашата API платформа — нашиот најдобар модел досега за кодирање и агентски задачи.

GPT‑5 е најсовремен (SOTA) во клучните одредници за кодирање, постигнувајќи 74.9% потврда за SWE-bench и 88% за Aider polyglot. Го обучивме GPT‑5 да биде вистински соработник за кодирање. Се истакнува во создавање висококвалитетен код и справување со задачи како што се поправање грешки, уредување код и одговарање на прашања за сложени кодни бази. Моделот е управлив и соработувачки - може да следи многу детални инструкции со висока прецизност и може да даде однапред објаснувања за своите дејства пред и помеѓу повиците на алатките.  Моделот исто така се истакнува во фронт-енд кодирање, победувајќи го OpenAI o3 во фронт-енд веб развој 70% од времето во внатрешното тестирање.

GPT‑5 го обучувавме на задачи за кодирање од реалниот свет во соработка со рани тестери од стартапи и претпријатија. Cursor вели дека GPT‑5 е „најпаметниот модел [што го] користеле“ и „извонредно интелигентен, лесен за управување, па дури и има личност [што] не ја виделе кај други модели“. Windsurf сподели дека GPT‑5 е SOTA во нивните проценки и „има половина од стапката на грешки при повикување на алатки во споредба со другите водечки модели“. Vercel вели „тоа е најдобриот модел на frontend AI, кој постигнува врвни перформанси и во естетска смисла и во квалитет на кодот, ставајќи го во своја категорија“.

GPT‑5, исто така, се истакнува во долготрајните агенциски задачи - постигнувајќи SOTA резултати на τ2-bench Telecom (96,7%), бенчмарк за повикување алатки објавен пред само 2 месеци. Подобрената интелигенција на алатките на GPT‑5 му овозможува сигурно да поврзува десетици повици на алатки—и во секвенца и паралелно—без да се изгуби, што го прави многу подобар во извршувањето на сложени задачи од реалниот свет од почеток до крај. Исто така, попрецизно ги следи упатствата на алатките, подобро се справува со грешките на алатките и е одличен во извлекувањето содржина од долг контекст. Manus вели дека GPT‑5 „постигна најдобри перформанси што некогаш ги виделе од еден модел на нивните интерни бенчмаркови.“ Notion вели „[брзите одговори на моделот], особено во режим на ниско расудување, го прават GPT‑5 идеален модел кога ти требаат сложени задачи решени одеднаш.“ Inditex сподели: „Она што навистина го издвојува [GPT‑5] е длабочината на неговото расудување: нијансирани, повеќеслојни одговори што одразуваат вистинско разбирање на темата.“

Воведуваме нови функции во нашиот API за да им дадеме на развивачите на софтвер поголема контрола врз одговорите на моделот. GPT‑5 поддржува нов параметар verbosity (вредности: low, medium, high) за да помогне во контролирањето дали одговорите се кратки и концизни или долги и сеопфатни. Параметарот reasoning_effort на GPT‑5 сега може да има минимална вредност за побрзо добивање одговори назад, без претходно обемно расудување. Исто така, додадовме нов тип на алатка — прилагодени алатки — за да му овозможиме на GPT‑5 да повикува алатки со обичен текст наместо JSON. Прилагодените алатки поддржува ограничување со граматики без контекст обезбедени од развивачи на софтвер.

Објавуваме GPT‑5 во три големини во API—gpt-5, gpt-5-mini, и gpt-5-nano—за да им дадеме на развивачите на софтвер поголема флексибилност во изборот меѓу перформанси, трошоци и латентност. Додека GPT‑5 во ChatGPT е систем од модели за расудување, нерасудување и рутер модели, GPT‑5 во API платформата е модел за расудување што обезбедува максимални перформанси во ChatGPT. Имено, GPT‑5 со минимално расудување е различен модел од моделот без расудување во ChatGPT и е подобро прилагоден за развивачи на софтвер. Моделот без расудување што се користи во ChatGPT е достапен како gpt-5-chat-latest.

За да читаш за GPT‑5 во ChatGPT и да дознаеш повеќе за другите подобрувања на ChatGPT, види го нашиот истражувачки блог. За повеќе информации за тоа како претпријатијата се возбудени да го користат GPT‑5, види го нашиот блог за претпријатија.

Coding

GPT‑5 е најмоќниот модел за кодирање што некогаш сме го објавиле. Го надминува o3 во тестовите за кодирање и случаите на употреба во реалниот свет, и е дотеран за да блесне во производи за агентско кодирање како што се Cursor, Windsurf, GitHub Copilot и Codex CLI. GPT‑5 ги импресионираше нашите алфа-тестери, поставувајќи рекорди на многу од нивните приватни внатрешни евалуации. 

Рани повратни информации за GPT‑5 за задачи за кодирање во реалниот свет

„GPT-5 е најпаметниот модел за кодирање што сме го користеле Нашиот Team откри дека GPT-5 е извонредно интелигентен, лесен за управување, па дури и има личност каква што не сме виделе во ниту еден друг модел. Не само што фаќа незгодни, длабоко скриени грешки, туку може да извршува долги, повеќекратни позадински агенти за да ги заврши сложените задачи до крај - типовите проблеми што порано ги оставаа другите модели заглавени. Тој стана наш секојдневен двигател за сè, од одредување на обемот и планирањето на PR-ови, до завршување на целосни градби.“
Michael Truell, Соосновач и Главен извршен директор на Cursor

На SWE-bench Verified, евалуација базирана на реални софтверски инженерски задачи, GPT‑5 добива 74.9%, што е зголемување од 69.1% на o3. Забележително, GPT‑5 го постигнува својот висок резултат со поголема ефикасност и брзина: во споредба со o3 при висок напор за расудување, GPT‑5 користи 22% помалку токени за резултат и 45% помалку повици на алатки.

Во SWE-bench Verified, моделот добива складиште на код и опис на проблемот, и треба да генерира закрпа за да го реши проблемот. Текстуалните ознаки го покажуваат напорот за расудување. Нашите резултати изоставуваат 23 од 500 проблеми чии решенија не поминаа сигурно на нашата инфраструктура. GPT‑5 доби краток промпт кој нагласуваше темелно потврдување на решенијата; истиот промпт не му помогна на o3.

На Aider polyglot, при евалуација на уредување на код, GPT‑5 постави нов рекорд од 88%, што претставува намалување на стапката на грешки за една третина во споредба со o3.

Во Aider polygot(се отвора во нов прозорец) (diff), моделот добива задача за кодирање од Exercism и треба да го напише своето решение како код diff. Моделите за расудување беа извршени со висок напор за расудување.

Исто така, откривме дека GPT‑5 е одличен во длабинското навлегување во базите на кодови за да одговори на прашања за тоа како различните делови работат или соработуваат. Во кодна база толку комплицирана како стекот за зајакнување на учењето на OpenAI, откриваме дека GPT‑5 може да ни помогне да расудуваме и да одговараме на прашања за нашиот код, забрзувајќи ја нашата секојдневна работа. 

Фронтенд инженеринг

Кога се креира frontend код за веб-апликации, GPT‑5 е поестетски настроен, амбициозен и прецизен. Во паралелни споредби со o3, GPT‑5 беше претпочитан од нашите тестери во 70% од времето.

Еве неколку забавни, внимателно избрани примери за тоа што GPT‑5 може да направи со еден единствен промпт:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Види повеќе примери од GPT‑5 во нашата галерија овде(се отвора во нов прозорец).

Соработка при кодирање

GPT‑5 е подобар соработник, особено во производи за агентско кодирање како Cursor, Windsurf, GitHub Copilot и Codex CLI. Додека работи, GPT‑5 може да дава резултати, планови, ажурирања и прегледи помеѓу повикувањата на алатките. Во однос на нашите минати модели, GPT‑5 е попроактивен во завршувањето на амбициозни задачи без да застанува за твоја согласност или да се двоуми поради високата сложеност.

Еве пример како GPT‑5 може да изгледа додека се справува со сложена задача (во овој случај, креирање веб-страница за ресторан):

Откако корисникот ќе побара веб-страница за својот ресторан, GPT‑5 споделува брз план, ја поставува апликацијата, инсталира зависности, креира содржина на сајтот, извршува билд за проверка на грешки во компилацијата, ја сумира својата работа и предлага можни следни чекори. Ова видео е забрзано ~3x за да ти заштеди чекање; целосното времетраење за креирање на веб-страницата беше околу три минути.

Агентски задачи

Освен агентското кодирање, GPT‑5 е подобар во агентските задачи воопшто. GPT‑5 поставува нови рекорди на бенчмаркови за следење на инструкции (69,6% на Scale MultiChallenge, оценето од o3‑mini) и повикување на алатки (96,7% на τ2-bench telecom). Подобрената интелигенција на алатките му овозможува на GPT‑5 понадежно да ги поврзува дејствата за да извршува задачи во реалниот свет.

Рани повратни информации за GPT‑5 за агентски задачи

„GPT-5 е голем чекор напред. Постигна најдобри перформанси што некогаш сме ги виделе од еден модел на нашите внатрешни тестови. GPT-5 се истакна во различни агентски задачи — дури и пред да измениме ниту еден ред код или да прилагодиме промпт. Новите преамбули и попрецизната контрола врз употребата на алатките овозможија значителен напредок во стабилноста и управливоста на нашите агенти.
Yichao ‘Peak’ Ji, Соосновач и главен научник во Manus

Следење инструкции

GPT‑5 ги следи инструкциите понадежно од кој било од неговите претходници, добивајќи високи оценки на COLLIE, Scale MultiChallenge и на нашата интерна евалуација за следење на инструкции.

Во COLLIE(се отвора во нов прозорец), моделите мора да пишуваат текст што ги исполнува различните ограничувања. Во Scale MultiChallenge(се отвора во нов прозорец), моделите се предизвикуваат во разговори со повеќе потези да користат правилно четири типа информации од претходните пораки. Нашите резултати доаѓаат од користење на o3‑mini како оценувач, што беше попрецизно од GPT‑4o. Во нашата внатрешна евалуација за следење на инструкции на OpenAI API, моделите мора да ги следат тешките упатства добиени од вистински повратни информации од развивачи на софтвер. Моделите за расудување беа извршени со висок напор за расудување.

Повикување алатки

Работевме напорно за да го подобриме повикувањето на алатки на начините што им се важни на развивачи на софтвер. GPT‑5 е подобар во следење на упатства за алатки, подобар во справување со грешки во алатки и подобар во проактивно извршување на многу повици за алатки последователно или паралелно. Кога ќе биде побарано, GPT‑5 може исто така да дава преамбулни пораки како резултат пред и помеѓу повиците на алатки за да ги информира корисниците за напредокот за време на подолги агентски задачи.

Пред два месеци, τ2-bench telecom беше објавен од Sierra.ai како предизвикувачкa одредница за користење алатки, кој истакна како перформансите на јазичниот модел значително паѓаат при интеракција со околина чија состојба можат да ја променат корисниците. Во нивната публикација(се отвора во нов прозорец), ниту еден модел не постигна резултат над 49%. GPT‑5 постигнува резултат од 97%.

Во τ2-bench(се отвора во нов прозорец), моделот мора да користи алатки за да изврши задача за корисничка поддршка, каде што може да има корисник кој може да комуницира и да презема дејства врз состојбата на светот. Моделите за расудување беа извршени со висок напор за расудување.

GPT‑5 покажува значителни подобрувања и во перформансите за долг контекст. На OpenAI-MRCR, мерка за пребарување информации од долг контекст, GPT‑5 ги надминува o3 и GPT‑4.1, со маргина што значително расте при подолги должини на Внесувања.

Во OpenAI-MRCR(се отвора во нов прозорец) (ко-референтна резолуција во повеќе рунди), повеќе идентични кориснички барања наречени „игла“ се вметнуваат во долги слични барања и одговори наречени „снопови сено“, и од моделот се бара да го репродуцира одговорот на i-тата игла. Средниот сооднос на совпаѓање ја мери просечната стапка на совпаѓање на низата помеѓу одговорот на моделот и точниот одговор. Точките при максимални 256k токени за внесување претставуваат просек од 128k–256k токени за внесување, и така натаму. Овде, 256k претставува 256 * 1,024 = 262,114 токени. Моделите за расудување беа извршени со висок напор за расудување.

Исто така, го објавуваме BrowseComp Long Context(се отвора во нов прозорец) како отворен код, нов репер за оценување прашања и одговори во долг контекст. Во овој бенчмарк, моделот добива корисничко прашање, долга листа на релевантни резултати од пребарувањето и мора да одговори на прашањето врз основа на резултатите од пребарувањето. Го дизајниравме BrowseComp Long Контекст да биде реалистичен, тежок и да има сигурни и точни одговори. На Внесувања што се 128K–256K токени, GPT‑5 го дава точниот одговор во 89% од случаите.

Во API, сите GPT‑5 модели можат да прифатат максимум 272.000 токени за внесување и да емитираат максимум 128.000 токени за резултат, со вкупна должина на контекстот од 400.000 токени.

Фактичност

GPT‑5 е подоверлив од нашите претходни модели. На промпти од LongFact и FactScore бенчмаркови, GPT‑5 прави ~80% помалку фактички грешки од o3. Ова го прави подобро прилагоден за случаи на агентска употреба каде што точноста е важна - особено во кодот, податоците и донесувањето одлуки.

Повисоките резултати се полоши. LongFact(се отвора во нов прозорец) и FActScore(се отвора во нов прозорец) се состојат од отворени прашања за барање факти. Ние користиме оценувач базиран на LLM со прелистување за да ги проверуваме фактите во одговорите на промптите од овие бенчмаркови и да го измериме делот од фактички неточни тврдења. Деталите за имплементација и оценување можат да се најдат во системската картичка. Моделите за расудување користеа висок степен на напор за расудување. Пребарувањето не беше овозможено.

Општо земено, GPT‑5 е обучен да биде посвесен за своите ограничувања и поспсобен да се справи со неочекувани предизвици. Исто така, го обучивме GPT‑5 да биде многу попрецизен за здравствените прашања (прочитај повеќе во нашиот блог за истражување). Како и со сите јазични модели, препорачуваме да ја потврдиш работата на GPT‑5 кога влоговите се високи.

Нови функции

Минимален напор за расудување.

Развивачите на софтвер можат да го контролираат времето на размислување на GPT‑5 преку параметарот reasoning_effort во API. Покрај претходните вредности—low, medium (стандардно), и high—GPT‑5 исто така поддржува minimal, што го минимизира размислувањето на GPT‑5 за брзо враќање на одговор.

Поголемите вредности на reasoning_effort го максимизираат квалитетот, додека помалите вредности ја максимизираат брзината. Не сите задачи имаат подеднаква корист од дополнително расудување, па затоа препорачуваме да експериментирате за да видите која работи најдобро за случаите на употреба што ве интересираат.

На пример, резонирањето над low додава малку на релативно едноставното пребарување на долги контексти, но додава доста процентни поени на CharXiv Reasoning(се отвора во нов прозорец), визуелна одредница за резонирање.

Напорот на GPT‑5 за расудување носи различни придобивки за различни задачи. За CharXiv Reasoning, GPT‑5 доби пристап до алатка за Python.

Вербозност

За да помогнеме во насочување на стандардната должина на одговорите на GPT‑5, воведовме нов API параметар verbosity, кој прифаќа вредности low, medium (стандарден) и high. Ако експлицитните инструкции се во конфликт со параметрите за детаљност, експлицитните инструкции имаат предност. На пример, ако побараш од GPT‑5 да „напише есеј од 5 параграфи“, одговорот на моделот секогаш треба да биде 5 параграфи без разлика на нивото на зборливост (сепак, самите параграфи може да бидат подолги или пократки).

Вербалност=ниско

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Вербалност=средно

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Вербализам=високо

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Пораки за вовед пред повици на алатки

Ако се даде инструкција, GPT‑5 ќе даде резултат со пораки за преамбулата видливи за корисникот пред и помеѓу повиците на алатката. За разлика од скриените пораки за размислување, овие видливи пораки му овозможуваат на GPT‑5 да ги комуницира своите планови и напредок со корисникот, помагајќи им на крајните корисници да го разберат неговиот пристап и намерата зад повиците на алатките.

Прилагодени алатки

Воведуваме нов тип на алатка — прилагодени алатки — што му овозможува на GPT‑5 да повикува алатка со обичен текст наместо JSON. За да го ограничат GPT‑5 да ги следат форматите на прилагодени алатки, развивачите на софтвер можат да обезбедат регекс или дури и поцелосно специфицирана граматика без контекст(се отвора во нов прозорец).

Претходно, нашиот интерфејс за алатки дефинирани од развивачи на софтвер бараше тие да бидат повикани со JSON, вообичаен формат што го користат веб API-ја и развивачи на софтвер генерално. Сепак, за да се добие валиден резултат JSON, моделот мора совршено да ги избегне сите наводници, коси црти, нови линии и други контролни знаци. Иако нашите модели се добро обучени да даваат резултат во JSON формат, при долги внесувања како стотици линии на код или извештај од 5 страници, шансите за грешка се зголемуваат. Со сопствени алатки, GPT‑5 може да пишува внесувања за алатки како обичен текст, без да мора да ги избегнува сите знаци што бараат избегнување.

На SWE-bench потврдено со прилагодени алатки наместо JSON алатки, GPT‑5 постигнува приближно ист резултат.

Безбедност

GPT‑5 ја унапредува безбедносната граница и е посилен, посигурен и покорисен модел. GPT‑5 е значително помалку склон кон халуцинации од нашите претходни модели, почесно ги комуницира своите дејства и способности со корисникот и дава најкорисен одговор каде што е можно, додека сепак останува во рамките на безбедносните граници. Можеш да прочиташ повеќе во нашиот истражувачки блог.

Достапност и цени

GPT‑5 е достапен сега на API платформата во три големини: gpt-5, gpt-5-mini и gpt-5-nano. Достапно е на Responses API, Разговор Completions API, и е стандарден во Codex CLI. GPT‑5 чини $1.25/1M токени за внесување и $10/1M токени за резултат, GPT‑5 mini чини $0.25/1M токени за внесување и $2/1M токени за резултат, а GPT‑5 nano чини $0.05/1M токени за внесување и $0.40/1M токени за резултат.

Овие модели ги поддржуваат API параметрите reasoning_effort и verbosity, како и прилагодените алатки. Тие исто така поддржуваат паралелно повикување на алатки, вградени алатки (веб пребарување, пребарување на датотеки, генерирање на слики и повеќе), основни API функции (стриминг, структурирани резултати и повеќе), како и функции за заштеда на трошоци како кеширање на промпт и Batch API.

Нерезонирачката верзија на GPT‑5 што се користи во ChatGPT е достапна во API како gpt-5-chat-latest, исто така со цена од $1.25/1M токени за внесување и $10/1M токени за резултат.

GPT‑5 исто така се објавува на платформите на Microsoft, вклучувајќи ги Microsoft 365 Copilot, Copilot, GitHub Copilot и Azure AI Foundry.

Детални одредници

Интелигенција
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] Постои мало несовпаѓање со бројките пријавени во нашиот претходен блог пост, бидејќи тие беа извршени на претходна верзија на HLE.

Мултимодален
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Coding
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 илј. US$75 илј. US$49 илј. US$86 илј. US$66 илј. US$34 илј. US$31 илј. US$9 илј. US$
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] Изоставуваме 23/500 проблеми кои не можеа да се извршуваат на нашата инфраструктура. Целосната листа на 23 изоставени задачи е 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265' и 'sphinx-doc__sphinx-9367'.

Следење инструкции
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Забелешка: мислиме дека стандардниот оценувач во MultiChallenge (GPT-4o) често пати погрешно ги оценува одговорите на моделот. Наоѓаме дека замената на оценувачот со модел на расудување, како o3-mini, значително ја подобрува точноста на оценувањето на примероците што ги прегледавме.

Повик на функција
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Долг контекст
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Халуцинации
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Автор

OpenAI