Сьогодні ми випускаємо на нашій платформі API GPT‑5 — нашу найкращу модель для програмування та виконання агентних завдань.
GPT‑5 довела статус найбільш високотехнологічної моделі (SOTA) за результатами ключових тестів із програмування, набравши 74,9% на SWE-bench Verified та 88% на Aider polyglot. Ми навчили GPT‑5 бути справжнім помічником у програмуванні. Він чудово порається зі створенням високоякісного коду та виконанням таких завдань, як виправлення помилок, редагування коду та відповіді на питання про складні кодові бази. Модель керована та орієнтована на спільну роботу: вона може дотримуватися дуже докладних інструкцій з високою точністю та надавати попередні пояснення своїх дій до та між викликами інструментів. Модель також чудово справляється з програмуванням інтерфейсів: у рамках внутрішнього тестування вона випередила OpenAI o3 у створенні інтерфейсів у 70% випадків.
Ми навчали GPT‑5 на реальних завданнях із програмування у співпраці з ранніми тестувальниками з різних стартапів та підприємств. Cursor: GPT‑5 — «найрозумніша модель [з усіх використаних]», «надзвичайно розумна, проста в управлінні і навіть має індивідуальність, якої не спостерігалося в інших моделях». Windsurf: за їхніми оцінками, GPT‑5 є підтвердженою SOTA і «має вдвічі менший відсоток помилок під час виклику інструментів у порівнянні з іншими передовими моделями». Vercel: «Це найкраща фронтенд-модель ШІ, що демонструє найвищу продуктивність як в естетичному плані, так і в якості коду, що виділяє її в окрему категорію».
GPT‑5 також демонструє чудові результати в тривалих агентних завданнях, досягаючи результатів SOTA на τ2-bench telecom (96,7%) — інструментальному бенчмарку, випущеному всього 2 місяці тому. Поліпшений інструментальний інтелект GPT‑5 дозволяє надійно поєднувати десятки викликів інструментів у ланцюжок — як послідовно, так і паралельно — не збиваючись, що значно покращує його здатність виконувати реальні складні завдання від початку до кінця. Він також точніше дотримується інструкцій інструментів, краще справляється з помилками інструментів і чудово порається із вилученням контенту в розширеному контексті. Manus: GPT‑5 «показав найкращі результати з коли-небудь бачених у єдиної моделі у [власних] внутрішніх тестах». Notion: «Швидкі реакції [моделі], особливо в режимі низького рівня міркувань, роблять GPT‑5 ідеальною моделлю, коли вам потрібно вирішувати багато складних завдань за один раз.» Inditex: «Що справді виділяє GPT‑5, то це глибина його міркувань: детальні, багатошарові відповіді, які відображають справжнє розуміння предмета».
Ми вводимо в наші API нові функції, щоб надати розробникам більше контролю над відповідями моделі. GPT‑5 підтримує новий параметр verbosity — рівень детальності повідомлень (значення: низький, середній, високий) для контролю того, чи будуть відповіді короткими й по суті, чи довгими й вичерпними. Параметр GPT‑5 reasoning_effort тепер може мати мінімальне значення, що дозволяє отримувати відповіді швидше без попереднього докладного міркування. Ми також додали новий тип інструментів — користувацькі інструменти — щоб дозволити GPT‑5 викликати інструменти за допомогою незашифрованого тексту замість JSON. Користувацькі інструменти забезпечують підтримку обмеження з використанням контекстно-вільних граматик, наданих розробниками.
Щоб надати розробникам більше гнучкості у виборі компромісу між продуктивністю, вартістю та затримкою, ми випускаємо GPT‑5 в API у трьох варіаціях: gpt-5, gpt-5-mini, та gpt-5-nano. GPT‑5 в ChatGPT є системою моделей з міркуванням, без міркування і з перенаправленням, тоді як GPT‑5 на платформі API — це модель із міркуванням, що забезпечує максимальну продуктивність у ChatGPT. Варто зазначити, що GPT‑5 з мінімальними можливостями міркування — це інша модель, ніж модель без міркування в ChatGPT, і вона краще адаптована під розробників. Модель без міркувань, що використовується в ChatGPT, доступна як gpt-5-chat-latest.
Щоб прочитати про GPT‑5 у ChatGPT та дізнатися більше про інші покращення ChatGPT, відвідайте наш дослідницький блог. Щоб дізнатися більше про те, як підприємства з ентузіазмом використовують GPT‑5, відвідайте наш корпоративний блог.
GPT‑5 — найпотужніша модель програмування, яку ми коли-небудь випускали. Вона перевершує o3 у тестах з програмування та реальних сценаріях використання та за рахунок допрацювання блискуче себе проявляє в продуктах агентного кодування, таких як Cursor, Windsurf, GitHub Copilot та Codex CLI. GPT‑5 вразив наших альфа-тестувальників, встановивши рекорди на багатьох їхніх приватних внутрішніх оцінках.
Early feedback on GPT‑5 for real-world coding tasks
“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”
На платформі SWE-bench Verified в оцінці на основі реальних завдань програмної інженерії GPT‑5 набрав 74,9%, що вище в порівнянні з 69,1% у o3. При цьому GPT‑5 досягає високого результату з більшою ефективністю та швидкістю: порівняно з o3 при значних зусиллях у міркуваннях, GPT‑5 використовує на 22% менше вихідних токенів і на 45% менше викликів інструментів.
У SWE-bench Verified моделі надається репозиторій коду та опис проблеми, і вона повинна створити патч для вирішення проблеми. Текстові мітки вказують на зусилля, пов'язані з міркуванням. У наших оцінках не враховуються 23 із 500 завдань, вирішення яких не пройшли надійної перевірки на нашій інфраструктурі. GPT‑5 було надано коротку підказку, що акцентує увагу на ретельній перевірці рішень; o3 та ж підказка користі не принесла.
На платформі Aider Polyglot, в рамках оцінки редагування коду, GPT‑5 встановив новий рекорд — 88%, що на третину менше рівня помилок у o3.
У Aider polygot(відкривається у новому вікні) (diff) моделі дається вправа з програмування з Exercism, і вона повинна записати своє рішення у вигляді diff коду. Моделі міркувань використовували високий рівень міркування.
Ми також виявили, що GPT‑5 чудово справляється з глибоким аналізом кодових баз, щоб відповідати на питання про те, як працюють або взаємодіють різні елементи. У такій складній кодовій базі, як стек навчання з підкріпленням OpenAI, ми виявили, що GPT‑5 може допомогти нам розмірковувати та відповідати на запитання про наш код, прискорюючи нашу повсякденну роботу.
При створенні фронтенд-коду для веб-додатків GPT‑5 відрізняється більш естетичним підходом, амбітністю та точністю. У паралельних порівняннях з o3 наші тестувальники віддали перевагу GPT‑5 у 70% випадків.
Ось кілька цікавих прикладів того, що GPT‑5 може зробити з одним запитом:
Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.
Більше прикладів від GPT‑5 ви знайдете в нашій галереї тут(відкривається у новому вікні).
GPT‑5 — найкращий помічник, особливо в продуктах для агентного програмування, таких як Cursor, Windsurf, GitHub Copilot та Codex CLI. У процесі роботи GPT‑5 може видавати плани, оновлення та зведення у перервах між викликами інструментів. Порівняно з нашими попередніми моделями, GPT‑5 є більш ініціативним у виконанні амбітних завдань, не чекаючи вашого дозволу і не зупиняючись перед високою складністю.
Ось приклад того, як GPT‑5 може виглядати при вирішенні складного завдання (в даному випадку створення веб-сайту для ресторану):
After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.
Крім агентного кодування, GPT‑5 загалом краще справляється з агентними завданнями. GPT‑5 встановлює нові рекорди за показниками дотримання інструкцій (69,6% за шкалою Scale MultiChallenge, за оцінкою o3‑mini) та виклику інструментів (96,7% на τ2-bench telecom). Поліпшений інтелект інструментів дозволяє GPT‑5 більш надійно поєднувати дії для виконання практичних завдань.
Early feedback on GPT‑5 for agentic tasks
“GPT-5 is a big step up. It achieved the best performance we’ve ever seen from a single model on our internal benchmarks. GPT-5 excelled across various agentic tasks—even before we tweaked a single line of code or tailored a prompt. The new preambles and more precise control over tool use enabled a significant leap in the stability and steerability of our agents.”
GPT‑5 слідує інструкціям більш надійно, ніж усі його попередники, отримуючи високі оцінки за COLLIE, Scale MultiChallenge та нашою внутрішньою оцінкою дотримання інструкцій.
У COLLIE(відкривається у новому вікні) моделі мають писати текст, що відповідає різним обмеженням. У Scale MultiChallenge(відкривається у новому вікні) моделі під час багатоваріантних діалогів повинні правильно використовувати чотири типи інформації з попередніх повідомлень. Наші оцінки отримані з використанням o3‑mini як грейдера, який був більш точним, ніж GPT‑4o. У нашій внутрішній оцінці дотримання інструкцій API OpenAI моделі повинні дотримуватися складних інструкцій, отриманих на основі реальних відгуків розробників. Моделі міркувань використовували високий рівень міркування.
Ми старанно працювали над покращенням виклику інструментів так, щоб це було корисно насамперед для розробників. GPT‑5 краще виконує інструкції інструментів, краще справляється з помилками інструментів та ініціативно виконує безліч викликів інструментів послідовно чи паралельно. При отриманні інструкцій GPT‑5 може також видавати вступні повідомлення до та між викликами інструментів, щоб інформувати користувача про хід виконання тривалих агентних завдань.
Два місяці тому Sierra.ai представила τ2-bench telecom як складний еталон використання інструментів, який показав, як суттєво знижується продуктивність мовної моделі під час взаємодії зі станом середовища, яке можуть змінити користувачі. У їхній публікації(відкривається у новому вікні) жодна модель не набрала більше 49%. GPT‑5 отримав 97%.
У τ2-bench(відкривається у новому вікні) модель повинна використовувати інструменти для виконання завдання обслуговування клієнтів, де може бути користувач, який здатний спілкуватись та здійснювати дії щодо стану світу. Моделі міркувань використовували високий рівень міркування.
GPT‑5 також демонструє значні покращення у продуктивності при роботі з розширеним контекстом. На OpenAI-MRCR, який вимірює ефективність пошуку інформації з розширеним контекстом, GPT‑5 перемагає o3 і GPT‑4.1 з відривом, який суттєво збільшується зі збільшенням довжини введення.
У OpenAI-MRCR(відкривається у новому вікні) (багатораундове розв'язання кореферентних зв'язків) кілька ідентичних користувальницьких запитів-«голок» вставляються в довгі набори схожих запитів і відповідей — «стоги сіна», і модель повинна відтворити відповідь на i-ну «голку». Середній коефіцієнт збігу вимірює середнє співвідношення збігу рядків між відповіддю моделі та правильною відповіддю. Точки при максимальній кількості вхідних токенів 256 тис. представляють середні значення для 128 тис.–256 тис. вхідних маркерів і так далі. Тут 256 тис. означає 256 * 1 024 = 262 114 токенів. Моделі міркувань використовували високий рівень міркування.
Ми також відкриваємо вихідний код BrowseComp Long Context(відкривається у новому вікні), нового еталону для оцінки запитань і відповідей із розширеним контекстом. У цьому бенчмарку модель отримує запит користувача, довгий список релевантних результатів пошуку і повинна відповісти на питання, ґрунтуючись на цих результатах. Ми розробили BrowseComp Long Context так, щоб він був реалістичним, складним та давав точні та правильні відповіді на підставі перевіреної інформації. При введенні від 128 тис. до 256 тис. токенів GPT‑5 давав правильну відповідь у 89% випадків.
В API всі моделі GPT‑5 можуть приймати максимум 272 000 вхідних токенів і видавати максимум 128 000 вихідних токенів міркувань та вихідних даних, що забезпечує загальну довжину контексту в 400 000 токенів.
GPT‑5 є більш надійним, ніж наші попередні моделі. На підказках у LongFact і FactScore GPT‑5 допускає приблизно на 80% менше фактичних помилок, ніж o3. Це робить його більш придатним для агентних сценаріїв використання, де важлива точність, особливо в коді, даних та прийнятті рішень.
Що вищі бали, то гірше. LongFact(відкривається у новому вікні) і FActScore(відкривається у новому вікні) складаються з відкритих запитань, мета яких — пошук фактів. Ми використовуємо оцінювач на базі LLM з функцією перегляду, щоб перевіряти відповіді на підказки з цих стандартів і вимірювати частку практично неправильних тверджень. Деталі реалізації та оцінювання можна знайти у системній картці. Моделі міркувань використовували високий рівень міркування. Пошук не було активовано.
Загалом GPT‑5 був навчений краще усвідомлювати свої обмеження та ефективніше справлятися з несподіваними труднощами. Ми також навчили GPT‑5 бути набагато точнішим у питаннях здоров'я (детальніше читайте в нашому дослідницькому блозі). Як і у випадку з усіма мовними моделями, ми рекомендуємо вам перевіряти результати GPT‑5 у справді серйозних питаннях.
Розробники можуть контролювати час міркування GPT‑5 за допомогою параметра reasoning_effort в API. Окрім попередніх значень —низький, середній (за замовчуванням) та високий— GPT‑5 також підтримує значення мінімальний, що мінімізує міркування GPT‑5 для швидкого отримання відповіді.
Вищі значення reasoning_effort підвищують якість, а нижчі — збільшують швидкість. Не всі завдання однаково виграють від додаткового міркування, тому ми рекомендуємо експериментувати, щоб зрозуміти, що найкраще підходить для ваших випадків використання.
Наприклад, міркування вище рівня низький мало що додає до відносно простого пошуку з розширеним контекстом, але додає чимало відсоткових пунктів до CharXiv Reasoning(відкривається у новому вікні), візуального еталону міркування.
Міркування GPT‑5 приносять різні переваги у різних завданнях. Для CharXiv Reasoning GPT‑5 було надано доступ до інструменту на Python.
Для допомоги в керуванні довжиною відповідей GPT‑5 за замовчуванням ми ввели новий параметр API verbosity, який приймає значення низький, середній (за замовчуванням) та високий. Якщо явні інструкції суперечать параметрам детальності повідомлень, перевагу мають явні інструкції. Наприклад, якщо ви попросите GPT‑5 «написати есе з 5 абзаців», відповідь моделі завжди міститиме 5 абзаців, незалежно від встановленого рівня детальності повідомлень (хоча самі абзаци можуть бути довшими або коротшими).
Verbosity=low
Verbosity=medium
Verbosity=high
Якщо буде дано відповідну вказівку, GPT‑5 показуватиме користувачеві видимі результати вступних повідомлень перед та між викликами інструментів. На відміну від прихованих повідомлень з міркуваннями, ці видимі повідомлення дозволяють GPT‑5 інформувати користувача про плани та прогрес, допомагаючи кінцевим користувачам зрозуміти його підхід та наміри, що стоять за викликами інструментів.
Ми представляємо новий тип інструментів — користувацькі інструменти, які дозволяють GPT‑5 викликати інструмент за допомогою незашифрованого тексту замість JSON. Щоб змусити GPT‑5 дотримуватись форматів користувальницьких інструментів, розробники можуть надати регулярне вираження або навіть повнішу контекстно-вільну граматику(відкривається у новому вікні).
Раніше наш інтерфейс для інструментів, визначених розробниками, вимагав, щоб їх викликали за допомогою JSON, поширеного формату, що використовується у веб-API та серед розробників загалом. Однак для результату коректного JSON потрібно, щоб модель ідеально екранувала всі лапки, зворотні косі риси, символи нового рядка та інші символи керування. Хоча наші моделі добре навчені видавати результат у форматі JSON, при довгих введеннях — скажімо, сотні рядків коду, або звіт на 5 сторінок — імовірність помилки зростає. За допомогою користувацьких інструментів GPT‑5 може записувати введення у вигляді звичайного тексту, не екрануючи всі символи, які вимагають екранування.
На SWE-bench Verified при використанні користувацьких інструментів замість JSON-інструментів GPT‑5 показує приблизно однакові результати.
GPT‑5 розширює межі безпеки та є більш надійною, стійкою та корисною моделлю. GPT‑5 значно рідше схильний до галюцинацій, ніж наші попередні моделі, більш чесно повідомляє користувачеві про свої дії та можливості й надає максимально корисну відповідь, залишаючись у рамках безпеки. Ви можете прочитати більше в нашому дослідницькому блозі.
GPT‑5 наразі доступний на платформі API у трьох варіаціях: gpt-5, gpt-5-mini, та gpt-5-nano. Він доступний в API відповідей, API заповнення чатів і використовується за замовчуванням в Codex CLI. Вартість GPT‑5 складає $1,25 за 1 млн вхідних токенів та $10 за 1 млн вихідних токенів. Вартість GPT‑5 mini становить $0,25 за 1 млн вхідних токенів та $2 за 1 млн вихідних токенів. Вартість GPT‑5 nano складає $0,05 за 1 млн вхідних токенів і $0,40 за 1 млн вихідних токенів.
Ці моделі підтримують параметри API reasoning_effort та verbosity, а також користувацькі інструменти. Вони також забезпечують підтримку паралельного виклику інструментів, вбудовані інструменти (веб-пошук, пошук файлів, генерація зображень та багато іншого), основні функції API (стрімінг, структуровані результати та багато іншого), а також функції економії, такі як кешування підказок та пакетний API.
Версія GPT‑5 без міркувань, що використовується в ChatGPT, доступна в API як gpt-5-chat-latest, також за ціною $1,25 за 1 млн вхідних токенів і $10 за 1 млн вихідних токенів.
GPT‑5 також запускається на платформах Microsoft, включаючи Microsoft 365 Copilot, Copilot, GitHub Copilot та Azure AI Foundry.
Ви можете ознайомитися з документацією(відкривається у новому вікні) GPT‑5, ціновою політикою(відкривається у новому вікні) та посібником із написання запитів(відкривається у новому вікні).
Інтелект
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| AIME ’25(no tools) | 94,6% | 91,1% | 85,2% | 88,9% | 92,7% | 46,4% | 40,2% | - |
| FrontierMath(with python tool only) | 26,3% | 22,1% | 9,6% | 15,8% | 15,4% | - | - | - |
| GPQA diamond(no tools) | 85,7% | 82,3% | 71,2% | 83,3% | 81,4% | 66,3% | 65,0% | 50,3% |
| HLE[1](no tools) | 24,8% | 16,7% | 8,7% | 20,2% | 14,7% | 5,4% | 3,7% | - |
| HMMT 2025(no tools) | 93,3% | 87,8% | 75,6% | 81,7% | 85,0% | 28,9% | 35,0% | - |
[1] Існує невелика розбіжність у цифрах, наведених в нашій попередній публікації в блозі, оскільки тоді використовувалася попередня версія HLE (тест на загальні когнітивні та логічні здібності).
Мультимодальність
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| MMMU | 84,2% | 81,6% | 75,6% | 82,9% | 81,6% | 74,8% | 72,7% | 55,4% |
| MMMU-Pro(avg across standard and vision sets) | 78,4% | 74,1% | 62,6% | 76,4% | 73,4% | 60,3% | 58,9% | 33,0% |
| CharXiv reasoning(python enabled) | 81,1% | 75,5% | 62,7% | 78,6% | 72,0% | 56,7% | 56,8% | 40,5% |
| VideoMMMU, max frame 256 | 84,6% | 82,5% | 66,8% | 83,3% | 79,4% | 60,9% | 55,1% | 30,2% |
| ERQA | 65,7% | 62,9% | 50,1% | 64,0% | 56,5% | 44,3% | 42,3% | 26,5% |
Програмування
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| SWE-Lancer: IC SWE Diamond Freelance Coding Tasks | 112 тис. USD | 75 тис. USD | 49 тис. USD | 86 тис. USD | 66 тис. USD | 34 тис. USD | 31 тис. USD | 9 тис. USD |
| SWE-bench Verified[2] | 74,9% | 71,0% | 54,7% | 69,1% | 68,1% | 54,6% | 23,6% | - |
| Aider polyglot(diff) | 88,0% | 71,6% | 48,4% | 79,6% | 58,2% | 52,9% | 31,6% | 6,2% |
[2] Ми виключили 23 із 500 задач, які не могли бути виконані на нашій інфраструктурі. Повний список із 23 пропущених завдань: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', та 'sphinx-doc__sphinx-9367'.
Дотримання інструкцій
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Scale multichallenge[3](o3-mini grader) | 69,6% | 62,3% | 54,9% | 60,4% | 57,5% | 46,2% | 42,2% | 31,1% |
| Internal API instruction following eval(hard) | 64,0% | 65,8% | 56,1% | 47,4% | 44,7% | 49,1% | 45,1% | 31,6% |
| COLLIE | 99,0% | 98,5% | 96,9% | 98,4% | 96,1% | 65,8% | 54,6% | 42,5% |
[3] Примітка: ми виявили, що оцінювач за замовчуванням у MultiChallenge (GPT-4o) часто помилково оцінює відповіді моделей. Заміна оцінювача на модель із розширеним мисленням, наприклад o3-mini, суттєво підвищує точність оцінювання на перевірених нами вибірках.
Виклики функції
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| Tau2-bench airline | 62,6% | 60,0% | 41,0% | 64,8% | 60,2% | 56,0% | 51,0% | 14,0% |
| Tau2-bench retail | 81,1% | 78,3% | 62,3% | 80,2% | 70,5% | 74,0% | 66,0% | 21,5% |
| Tau2-bench telecom | 96,7% | 74,1% | 35,5% | 58,2% | 40,5% | 34,0% | 44,0% | 12,1% |
Розширений контекст
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| OpenAI-MRCR: 2 needle 128k | 95,2% | 84,3% | 43,2% | 55,0% | 56,4% | 57,2% | 47,2% | 36,6% |
| OpenAI-MRCR: 2 needle 256k | 86,8% | 58,8% | 34,9% | - | - | 56,2% | 45,5% | 22,6% |
| Graphwalks bfs <128k | 78,3% | 73,4% | 64,0% | 77,3% | 62,3% | 61,7% | 61,7% | 25,0% |
| Graphwalks parents <128k | 73,3% | 64,3% | 43,8% | 72,9% | 51,1% | 58,0% | 60,5% | 9,4% |
| BrowseComp Long Context 128k | 90,0% | 89,4% | 80,4% | 88,3% | 80,0% | 85,9% | 89,0% | 89,4% |
| BrowseComp Long Context 256k | 88,8% | 86,0% | 68,4% | - | - | 75,5% | 81,6% | 19,1% |
| VideoMME(long, with subtitle category) | 86,7% | 78,5% | 65,7% | 84,9% | 79,5% | 78,7% | 68,4% | 55,2% |
Галюцинації
| GPT-5(high) | GPT-5 mini(high) | GPT-5 nano(high) | OpenAI o3(high) | OpenAI o4-mini(high) | GPT-4.1 | GPT-4.1 mini | GPT-4.1 nano | |
|---|---|---|---|---|---|---|---|---|
| LongFact-Concepts hallucination rate(no tools)[lower is better] | 1,0% | 0,7% | 1,0% | 5,2% | 3,0% | 0,7% | 1,1% | - |
| LongFact-Objects hallucination rate(no tools)[lower is better] | 1,2% | 1,3% | 2,8% | 6,8% | 8,9% | 1,1% | 1,8% | - |
| FActScore hallucination rate(no tools)[lower is better] | 2,8% | 3,5% | 7,3% | 23,5% | 38,7% | 6,7% | 10,9% | - |


