7 серпня 2025 р.

Представляємо GPT‑5 для розробників

Найкраща модель для програмування та агентних завдань.

Завантаження…

Вступна частина

Сьогодні ми випускаємо на нашій платформі API GPT‑5 — нашу найкращу модель для програмування та виконання агентних завдань.

GPT‑5 довела статус найбільш високотехнологічної моделі (SOTA) за результатами ключових тестів із програмування, набравши 74,9% на SWE-bench Verified та 88% на Aider polyglot. Ми навчили GPT‑5 бути справжнім помічником у програмуванні. Він чудово порається зі створенням високоякісного коду та виконанням таких завдань, як виправлення помилок, редагування коду та відповіді на питання про складні кодові бази. Модель керована та орієнтована на спільну роботу: вона може дотримуватися дуже докладних інструкцій з високою точністю та надавати попередні пояснення своїх дій до та між викликами інструментів. Модель також чудово справляється з програмуванням інтерфейсів: у рамках внутрішнього тестування вона випередила OpenAI o3 у створенні інтерфейсів у 70% випадків.

Ми навчали GPT‑5 на реальних завданнях із програмування у співпраці з ранніми тестувальниками з різних стартапів та підприємств. Cursor: GPT‑5 — «найрозумніша модель [з усіх використаних]», «надзвичайно розумна, проста в управлінні і навіть має індивідуальність, якої не спостерігалося в інших моделях». Windsurf: за їхніми оцінками, GPT‑5 є підтвердженою SOTA і «має вдвічі менший відсоток помилок під час виклику інструментів у порівнянні з іншими передовими моделями». Vercel: «Це найкраща фронтенд-модель ШІ, що демонструє найвищу продуктивність як в естетичному плані, так і в якості коду, що виділяє її в окрему категорію».

GPT‑5 також демонструє чудові результати в тривалих агентних завданнях, досягаючи результатів SOTA на τ²-bench telecom (96,7%) — інструментальному бенчмарку, випущеному всього 2 місяці тому. Поліпшений інструментальний інтелект GPT‑5 дозволяє надійно поєднувати десятки викликів інструментів у ланцюжок — як послідовно, так і паралельно — не збиваючись, що значно покращує його здатність виконувати реальні складні завдання від початку до кінця. Він також точніше дотримується інструкцій інструментів, краще справляється з помилками інструментів і чудово порається із вилученням контенту в розширеному контексті. Manus: GPT‑5 «показав найкращі результати з коли-небудь бачених у єдиної моделі у [власних] внутрішніх тестах». Notion: «Швидкі реакції [моделі], особливо в режимі низького рівня міркувань, роблять GPT‑5 ідеальною моделлю, коли вам потрібно вирішувати багато складних завдань за один раз.» Inditex: «Що справді виділяє GPT‑5, то це глибина його міркувань: детальні, багатошарові відповіді, які відображають справжнє розуміння предмета».

Ми вводимо в наші API нові функції, щоб надати розробникам більше контролю над відповідями моделі. GPT‑5 підтримує новий параметр verbosity — рівень детальності повідомлень (значення: низький, середній, високий) для контролю того, чи будуть відповіді короткими й по суті, чи довгими й вичерпними. Параметр GPT‑5 reasoning_effort тепер може мати мінімальне значення, що дозволяє отримувати відповіді швидше без попереднього докладного міркування. Ми також додали новий тип інструментів — користувацькі інструменти — щоб дозволити GPT‑5 викликати інструменти за допомогою незашифрованого тексту замість JSON. Користувацькі інструменти забезпечують підтримку обмеження з використанням контекстно-вільних граматик, наданих розробниками.

Щоб надати розробникам більше гнучкості у виборі компромісу між продуктивністю, вартістю та затримкою, ми випускаємо GPT‑5 в API у трьох варіаціях: gpt-5, gpt-5-mini, та gpt-5-nano. GPT‑5 в ChatGPT є системою моделей з міркуванням, без міркування і з перенаправленням, тоді як GPT‑5 на платформі API — це модель із міркуванням, що забезпечує максимальну продуктивність у ChatGPT. Варто зазначити, що GPT‑5 з мінімальними можливостями міркування — це інша модель, ніж модель без міркування в ChatGPT, і вона краще адаптована під розробників. Модель без міркувань, що використовується в ChatGPT, доступна як gpt-5-chat-latest.

Щоб прочитати про GPT‑5 у ChatGPT та дізнатися більше про інші покращення ChatGPT, відвідайте наш дослідницький блог. Щоб дізнатися більше про те, як підприємства з ентузіазмом використовують GPT‑5, відвідайте наш корпоративний блог⁠.

Програмування

GPT‑5 — найпотужніша модель програмування, яку ми коли-небудь випускали. Вона перевершує o3 у тестах з програмування та реальних сценаріях використання та за рахунок допрацювання блискуче себе проявляє в продуктах агентного кодування, таких як Cursor, Windsurf, GitHub Copilot та Codex CLI. GPT‑5 вразив наших альфа-тестувальників, встановивши рекорди на багатьох їхніх приватних внутрішніх оцінках.

Early feedback on GPT‑5 for real-world coding tasks

“GPT-5 is the smartest coding model we've used. Our team has found GPT-5 to be remarkably intelligent, easy to steer, and even to have a personality we haven’t seen in any other model. It not only catches tricky, deeply-hidden bugs but can also run long, multi-turn background agents to see complex tasks through to the finish—the kinds of problems that used to leave other models stuck. It’s become our daily driver for everything from scoping and planning PRs to completing end-to-end builds.”

Michael Truell, Co-Founder & CEO at Cursor

На платформі SWE-bench Verified в оцінці на основі реальних завдань програмної інженерії GPT‑5 набрав 74,9%, що вище в порівнянні з 69,1% у o3. При цьому GPT‑5 досягає високого результату з більшою ефективністю та швидкістю: порівняно з o3 при значних зусиллях у міркуваннях, GPT‑5 використовує на 22% менше вихідних токенів і на 45% менше викликів інструментів.

У SWE-bench Verified⁠ моделі надається репозиторій коду та опис проблеми, і вона повинна створити патч для вирішення проблеми. Текстові мітки вказують на зусилля, пов'язані з міркуванням. У наших оцінках не враховуються 23 із 500 завдань, вирішення яких не пройшли надійної перевірки на нашій інфраструктурі. GPT‑5 було надано коротку підказку, що акцентує увагу на ретельній перевірці рішень; o3 та ж підказка користі не принесла.

На платформі Aider Polyglot, в рамках оцінки редагування коду, GPT‑5 встановив новий рекорд — 88%, що на третину менше рівня помилок у o3.

У Aider polygot⁠(відкривається у новому вікні) (diff) моделі дається вправа з програмування з Exercism, і вона повинна записати своє рішення у вигляді diff коду. Моделі міркувань використовували високий рівень міркування.

Ми також виявили, що GPT‑5 чудово справляється з глибоким аналізом кодових баз, щоб відповідати на питання про те, як працюють або взаємодіють різні елементи. У такій складній кодовій базі, як стек навчання з підкріпленням OpenAI, ми виявили, що GPT‑5 може допомогти нам розмірковувати та відповідати на запитання про наш код, прискорюючи нашу повсякденну роботу.

Фронтенд-розробка

При створенні фронтенд-коду для веб-додатків GPT‑5 відрізняється більш естетичним підходом, амбітністю та точністю. У паралельних порівняннях з o3 наші тестувальники віддали перевагу GPT‑5 у 70% випадків.

Ось кілька цікавих прикладів того, що GPT‑5 може зробити з одним запитом:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Більше прикладів від GPT‑5 ви знайдете в нашій галереї тут⁠(відкривається у новому вікні).

Спільна робота над кодом

GPT‑5 — найкращий помічник, особливо в продуктах для агентного програмування, таких як Cursor, Windsurf, GitHub Copilot та Codex CLI. У процесі роботи GPT‑5 може видавати плани, оновлення та зведення у перервах між викликами інструментів. Порівняно з нашими попередніми моделями, GPT‑5 є більш ініціативним у виконанні амбітних завдань, не чекаючи вашого дозволу і не зупиняючись перед високою складністю.

Ось приклад того, як GPT‑5 може виглядати при вирішенні складного завдання (в даному випадку створення веб-сайту для ресторану):

After the user asks for a website for their restaurant, GPT‑5 shares a quick plan, scaffolds the app, installs dependencies, creates the site content, runs a build to check for compilation errors, summarizes its work, and suggests potential next steps. This video has been sped up ~3x to save you the wait; the full duration to create the website was about three minutes.

Агентні завдання

Крім агентного кодування, GPT‑5 загалом краще справляється з агентними завданнями. GPT‑5 встановлює нові рекорди за показниками дотримання інструкцій (69,6% за шкалою Scale MultiChallenge, за оцінкою o3‑mini) та виклику інструментів (96,7% на τ²-bench telecom). Поліпшений інтелект інструментів дозволяє GPT‑5 більш надійно поєднувати дії для виконання практичних завдань.

Early feedback on GPT‑5 for agentic tasks

“GPT-5 is a big step up. It achieved the best performance we’ve ever seen from a single model on our internal benchmarks. GPT-5 excelled across various agentic tasks—even before we tweaked a single line of code or tailored a prompt. The new preambles and more precise control over tool use enabled a significant leap in the stability and steerability of our agents.”

Yichao ‘Peak’ Ji, Co-Founder & Chief Scientist at Manus

Дотримання інструкцій

GPT‑5 слідує інструкціям більш надійно, ніж усі його попередники, отримуючи високі оцінки за COLLIE, Scale MultiChallenge та нашою внутрішньою оцінкою дотримання інструкцій.

У COLLIE⁠(відкривається у новому вікні) моделі мають писати текст, що відповідає різним обмеженням. У Scale MultiChallenge⁠(відкривається у новому вікні) моделі під час багатоваріантних діалогів повинні правильно використовувати чотири типи інформації з попередніх повідомлень. Наші оцінки отримані з використанням o3‑mini як грейдера, який був більш точним, ніж GPT‑4o. У нашій внутрішній оцінці дотримання інструкцій API OpenAI моделі повинні дотримуватися складних інструкцій, отриманих на основі реальних відгуків розробників. Моделі міркувань використовували високий рівень міркування.

Виклики інструментів

Ми старанно працювали над покращенням виклику інструментів так, щоб це було корисно насамперед для розробників. GPT‑5 краще виконує інструкції інструментів, краще справляється з помилками інструментів та ініціативно виконує безліч викликів інструментів послідовно чи паралельно. При отриманні інструкцій GPT‑5 може також видавати вступні повідомлення до та між викликами інструментів, щоб інформувати користувача про хід виконання тривалих агентних завдань.

Два місяці тому Sierra.ai представила τ²-bench telecom як складний еталон використання інструментів, який показав, як суттєво знижується продуктивність мовної моделі під час взаємодії зі станом середовища, яке можуть змінити користувачі. У їхній публікації⁠(відкривається у новому вікні) жодна модель не набрала більше 49%. GPT‑5 отримав 97%.

У τ2-bench⁠(відкривається у новому вікні) модель повинна використовувати інструменти для виконання завдання обслуговування клієнтів, де може бути користувач, який здатний спілкуватись та здійснювати дії щодо стану світу. Моделі міркувань використовували високий рівень міркування.

GPT‑5 також демонструє значні покращення у продуктивності при роботі з розширеним контекстом. На OpenAI-MRCR, який вимірює ефективність пошуку інформації з розширеним контекстом, GPT‑5 перемагає o3 і GPT‑4.1 з відривом, який суттєво збільшується зі збільшенням довжини введення.

У OpenAI-MRCR⁠(відкривається у новому вікні) (багатораундове розв'язання кореферентних зв'язків) кілька ідентичних користувальницьких запитів-«голок» вставляються в довгі набори схожих запитів і відповідей — «стоги сіна», і модель повинна відтворити відповідь на i-ну «голку». Середній коефіцієнт збігу вимірює середнє співвідношення збігу рядків між відповіддю моделі та правильною відповіддю. Точки при максимальній кількості вхідних токенів 256 тис. представляють середні значення для 128 тис.–256 тис. вхідних маркерів і так далі. Тут 256 тис. означає 256 * 1 024 = 262 114 токенів. Моделі міркувань використовували високий рівень міркування.

Ми також відкриваємо вихідний код BrowseComp Long Context⁠(відкривається у новому вікні), нового еталону для оцінки запитань і відповідей із розширеним контекстом. У цьому бенчмарку модель отримує запит користувача, довгий список релевантних результатів пошуку і повинна відповісти на питання, ґрунтуючись на цих результатах. Ми розробили BrowseComp Long Context так, щоб він був реалістичним, складним та давав точні та правильні відповіді на підставі перевіреної інформації. При введенні від 128 тис. до 256 тис. токенів GPT‑5 давав правильну відповідь у 89% випадків.

В API всі моделі GPT‑5 можуть приймати максимум 272 000 вхідних токенів і видавати максимум 128 000 вихідних токенів міркувань та вихідних даних, що забезпечує загальну довжину контексту в 400 000 токенів.

Фактичність

GPT‑5 є більш надійним, ніж наші попередні моделі. На підказках у LongFact і FactScore GPT‑5 допускає приблизно на 80% менше фактичних помилок, ніж o3. Це робить його більш придатним для агентних сценаріїв використання, де важлива точність, особливо в коді, даних та прийнятті рішень.

Що вищі бали, то гірше. LongFact⁠(відкривається у новому вікні) і FActScore⁠(відкривається у новому вікні) складаються з відкритих запитань, мета яких — пошук фактів. Ми використовуємо оцінювач на базі LLM з функцією перегляду, щоб перевіряти відповіді на підказки з цих стандартів і вимірювати частку практично неправильних тверджень. Деталі реалізації та оцінювання можна знайти у системній картці⁠. Моделі міркувань використовували високий рівень міркування. Пошук не було активовано.

Загалом GPT‑5 був навчений краще усвідомлювати свої обмеження та ефективніше справлятися з несподіваними труднощами. Ми також навчили GPT‑5 бути набагато точнішим у питаннях здоров'я (детальніше читайте в нашому дослідницькому блозі). Як і у випадку з усіма мовними моделями, ми рекомендуємо вам перевіряти результати GPT‑5 у справді серйозних питаннях.

Нові функції

Мінімальні затрати на мислення

Розробники можуть контролювати час міркування GPT‑5 за допомогою параметра reasoning_effort в API. Окрім попередніх значень —низький, середній (за замовчуванням) та високий— GPT‑5 також підтримує значення мінімальний, що мінімізує міркування GPT‑5 для швидкого отримання відповіді.

Вищі значення reasoning_effort підвищують якість, а нижчі — збільшують швидкість. Не всі завдання однаково виграють від додаткового міркування, тому ми рекомендуємо експериментувати, щоб зрозуміти, що найкраще підходить для ваших випадків використання.

Наприклад, міркування вище рівня низький мало що додає до відносно простого пошуку з розширеним контекстом, але додає чимало відсоткових пунктів до CharXiv Reasoning⁠(відкривається у новому вікні), візуального еталону міркування.

Міркування GPT‑5 приносять різні переваги у різних завданнях. Для CharXiv Reasoning GPT‑5 було надано доступ до інструменту на Python.

Рівень детальності повідомлень

Для допомоги в керуванні довжиною відповідей GPT‑5 за замовчуванням ми ввели новий параметр API verbosity, який приймає значення низький, середній (за замовчуванням) та високий. Якщо явні інструкції суперечать параметрам детальності повідомлень, перевагу мають явні інструкції. Наприклад, якщо ви попросите GPT‑5 «написати есе з 5 абзаців», відповідь моделі завжди міститиме 5 абзаців, незалежно від встановленого рівня детальності повідомлень (хоча самі абзаци можуть бути довшими або коротшими).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

The Sun emits slightly less violet than blue.
The upper atmosphere absorbs some violet/UV.
Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

The Sun emits less violet than blue.
Our eyes are less sensitive to violet.
Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Вступні повідомлення перед викликами інструментів

Якщо буде дано відповідну вказівку, GPT‑5 показуватиме користувачеві видимі результати вступних повідомлень перед та між викликами інструментів. На відміну від прихованих повідомлень з міркуваннями, ці видимі повідомлення дозволяють GPT‑5 інформувати користувача про плани та прогрес, допомагаючи кінцевим користувачам зрозуміти його підхід та наміри, що стоять за викликами інструментів.

Користувацькі інструменти

Ми представляємо новий тип інструментів — користувацькі інструменти, які дозволяють GPT‑5 викликати інструмент за допомогою незашифрованого тексту замість JSON. Щоб змусити GPT‑5 дотримуватись форматів користувальницьких інструментів, розробники можуть надати регулярне вираження або навіть повнішу контекстно-вільну граматику⁠(відкривається у новому вікні).

Раніше наш інтерфейс для інструментів, визначених розробниками, вимагав, щоб їх викликали за допомогою JSON, поширеного формату, що використовується у веб-API та серед розробників загалом. Однак для результату коректного JSON потрібно, щоб модель ідеально екранувала всі лапки, зворотні косі риси, символи нового рядка та інші символи керування. Хоча наші моделі добре навчені видавати результат у форматі JSON, при довгих введеннях — скажімо, сотні рядків коду, або звіт на 5 сторінок — імовірність помилки зростає. За допомогою користувацьких інструментів GPT‑5 може записувати введення у вигляді звичайного тексту, не екрануючи всі символи, які вимагають екранування.

На SWE-bench Verified при використанні користувацьких інструментів замість JSON-інструментів GPT‑5 показує приблизно однакові результати.

Безпека

GPT‑5 розширює межі безпеки та є більш надійною, стійкою та корисною моделлю. GPT‑5 значно рідше схильний до галюцинацій, ніж наші попередні моделі, більш чесно повідомляє користувачеві про свої дії та можливості й надає максимально корисну відповідь, залишаючись у рамках безпеки. Ви можете прочитати більше в нашому дослідницькому блозі.

Доступ та ціни

GPT‑5 наразі доступний на платформі API у трьох варіаціях: gpt-5, gpt-5-mini, та gpt-5-nano. Він доступний в API відповідей, API заповнення чатів і використовується за замовчуванням в Codex CLI. Вартість GPT‑5 складає $1,25 за 1 млн вхідних токенів та $10 за 1 млн вихідних токенів. Вартість GPT‑5 mini становить $0,25 за 1 млн вхідних токенів та $2 за 1 млн вихідних токенів. Вартість GPT‑5 nano складає $0,05 за 1 млн вхідних токенів і $0,40 за 1 млн вихідних токенів.

Ці моделі підтримують параметри API reasoning_effort та verbosity, а також користувацькі інструменти. Вони також забезпечують підтримку паралельного виклику інструментів, вбудовані інструменти (веб-пошук, пошук файлів, генерація зображень та багато іншого), основні функції API (стрімінг, структуровані результати та багато іншого), а також функції економії, такі як кешування підказок та пакетний API.

Версія GPT‑5 без міркувань, що використовується в ChatGPT, доступна в API як gpt-5-chat-latest, також за ціною $1,25 за 1 млн вхідних токенів і $10 за 1 млн вихідних токенів.

GPT‑5 також запускається на платформах Microsoft, включаючи Microsoft 365 Copilot, Copilot, GitHub Copilot та Azure AI Foundry.

Ви можете ознайомитися з документацією⁠(відкривається у новому вікні) GPT‑5, ціновою політикою⁠(відкривається у новому вікні) та посібником із написання запитів⁠(відкривається у новому вікні).

Детальні контрольні показники

Інтелект

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
AIME ’25(no tools)	94,6%	91,1%	85,2%	88,9%	92,7%	46,4%	40,2%	-
FrontierMath(with python tool only)	26,3%	22,1%	9,6%	15,8%	15,4%	-	-	-
GPQA diamond(no tools)	85,7%	82,3%	71,2%	83,3%	81,4%	66,3%	65,0%	50,3%
HLE^[1](no tools)	24,8%	16,7%	8,7%	20,2%	14,7%	5,4%	3,7%	-
HMMT 2025(no tools)	93,3%	87,8%	75,6%	81,7%	85,0%	28,9%	35,0%	-

[1] Існує невелика розбіжність у цифрах, наведених в нашій попередній публікації в блозі, оскільки тоді використовувалася попередня версія HLE (тест на загальні когнітивні та логічні здібності).

Мультимодальність

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
MMMU	84,2%	81,6%	75,6%	82,9%	81,6%	74,8%	72,7%	55,4%
MMMU-Pro(avg across standard and vision sets)	78,4%	74,1%	62,6%	76,4%	73,4%	60,3%	58,9%	33,0%
CharXiv reasoning(python enabled)	81,1%	75,5%	62,7%	78,6%	72,0%	56,7%	56,8%	40,5%
VideoMMMU, max frame 256	84,6%	82,5%	66,8%	83,3%	79,4%	60,9%	55,1%	30,2%
ERQA	65,7%	62,9%	50,1%	64,0%	56,5%	44,3%	42,3%	26,5%

Програмування

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks	112 тис. USD	75 тис. USD	49 тис. USD	86 тис. USD	66 тис. USD	34 тис. USD	31 тис. USD	9 тис. USD
SWE-bench Verified^[2]	74,9%	71,0%	54,7%	69,1%	68,1%	54,6%	23,6%	-
Aider polyglot(diff)	88,0%	71,6%	48,4%	79,6%	58,2%	52,9%	31,6%	6,2%

[2] Ми виключили 23 із 500 задач, які не могли бути виконані на нашій інфраструктурі. Повний список із 23 пропущених завдань: 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', та 'sphinx-doc__sphinx-9367'.

Дотримання інструкцій

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Scale multichallenge^[3](o3-mini grader)	69,6%	62,3%	54,9%	60,4%	57,5%	46,2%	42,2%	31,1%
Internal API instruction following eval(hard)	64,0%	65,8%	56,1%	47,4%	44,7%	49,1%	45,1%	31,6%
COLLIE	99,0%	98,5%	96,9%	98,4%	96,1%	65,8%	54,6%	42,5%

[3] Примітка: ми виявили, що оцінювач за замовчуванням у MultiChallenge (GPT-4o) часто помилково оцінює відповіді моделей. Заміна оцінювача на модель із розширеним мисленням, наприклад o3-mini, суттєво підвищує точність оцінювання на перевірених нами вибірках.

Виклики функції

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
Tau²-bench airline	62,6%	60,0%	41,0%	64,8%	60,2%	56,0%	51,0%	14,0%
Tau²-bench retail	81,1%	78,3%	62,3%	80,2%	70,5%	74,0%	66,0%	21,5%
Tau²-bench telecom	96,7%	74,1%	35,5%	58,2%	40,5%	34,0%	44,0%	12,1%

Розширений контекст

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
OpenAI-MRCR: 2 needle 128k	95,2%	84,3%	43,2%	55,0%	56,4%	57,2%	47,2%	36,6%
OpenAI-MRCR: 2 needle 256k	86,8%	58,8%	34,9%	-	-	56,2%	45,5%	22,6%
Graphwalks bfs <128k	78,3%	73,4%	64,0%	77,3%	62,3%	61,7%	61,7%	25,0%
Graphwalks parents <128k	73,3%	64,3%	43,8%	72,9%	51,1%	58,0%	60,5%	9,4%
BrowseComp Long Context 128k	90,0%	89,4%	80,4%	88,3%	80,0%	85,9%	89,0%	89,4%
BrowseComp Long Context 256k	88,8%	86,0%	68,4%	-	-	75,5%	81,6%	19,1%
VideoMME(long, with subtitle category)	86,7%	78,5%	65,7%	84,9%	79,5%	78,7%	68,4%	55,2%

Галюцинації

	GPT-5(high)	GPT-5 mini(high)	GPT-5 nano(high)	OpenAI o3(high)	OpenAI o4-mini(high)	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]	1,0%	0,7%	1,0%	5,2%	3,0%	0,7%	1,1%	-
LongFact-Objects hallucination rate(no tools)[lower is better]	1,2%	1,3%	2,8%	6,8%	8,9%	1,1%	1,8%	-
FActScore hallucination rate(no tools)[lower is better]	2,8%	3,5%	7,3%	23,5%	38,7%	6,7%	10,9%	-

2025

Автор

OpenAI

Продовжити читати

Переглянути всі

GPT-5.6 is now the preferred model in Microsoft 365 Copilot > Cover image

GPT-5.6 стала пріоритетною моделлю в Microsoft 365 Copilot

Продукт9 лип. 2026 р.

ChatGPT тепер партнер для вашої найамбітнішої роботи

Продукт9 лип. 2026 р.

GPT-5.6: передовий рівень інтелекту, що масштабується відповідно до ваших амбіцій

Продукт9 лип. 2026 р.