Переход к основному контенту
OpenAI

7 августа 2025 г.

Товар

Представляем GPT‑5 для разработчиков

Лучшая модель для программирования и агентных задач.

Загрузка…

Введение

Сегодня мы выпускаем на нашей платформе API GPT‑5 — нашу лучшую модель для программирования и выполнения агентных задач.

GPT‑5 доказала статус наиболее высокотехнологичной модели (SOTA) по результатам ключевых тестов по программированию, набрав 74,9% на SWE-bench Verified и 88% на Aider polyglot. Мы обучили GPT‑5 быть настоящим помощником в программировании. Он превосходно справляется с созданием высококачественного кода и выполнением таких задач, как исправление ошибок, редактирование кода и ответы на вопросы о сложных кодовых базах. Модель управляема и ориентирована на совместную работу: она может следовать очень подробным инструкциям с высокой точностью и предоставлять предварительные объяснения своих действий до и между вызовами инструментов.  Модель также превосходно справляется с программированием интерфейсов: в рамках внутреннего тестирования она обогнала OpenAI o3 в разработке интерфейсов в 70% случаев.

Мы обучали GPT‑5 на реальных задачах по программированию в сотрудничестве с ранними тестировщиками из различных стартапов и предприятий. Cursor: GPT‑5 — «самая умная модель [из использованных]», «необычайно умная, простая в управлении и даже обладающая индивидуальностью, которой не наблюдалось в других моделях». Windsurf: по их оценкам, GPT‑5 является подтвержденной SOTA и «имеет вдвое меньший процент ошибок при вызове инструментов по сравнению с другими передовыми моделями». Vercel: «Это лучшая фронтенд-модель ИИ, демонстрирующая высочайшую производительность как в эстетическом плане, так и в качестве кода, что выделяет её в отдельную категорию».

GPT‑5 также демонстрирует превосходные результаты в длительных агентных задачах, достигая результатов SOTA на τ2-bench telecom (96,7%) — инструментальном бенчмарке, выпущенном всего 2 месяца назад. Улучшенный инструментальный интеллект GPT‑5 позволяет надежно объединять десятки вызовов инструментов в цепочку — как последовательно, так и параллельно — не сбиваясь, что значительно улучшает его способность выполнять реальные сложные задачи от начала до конца. Он также более точно следует инструкциям инструментов, лучше справляется с ошибками инструментов и превосходно справляется с извлечением контента в расширенном контексте. Manus: GPT‑5 «показал лучшие результаты из когда-либо виденных у единой модели в [собственных] внутренних тестах». Notion: «Быстрые реакции [модели], особенно в режиме низкого уровня рассуждений, делают GPT‑5 идеальной моделью, когда вам нужно решать много сложных задач за один раз». Inditex: «Что действительно выделяет GPT‑5, так это глубина его рассуждений: детальные, многослойные ответы, которые отражают подлинное понимание предмета».

Мы вводим в наш API новые функции, чтобы предоставить разработчикам больше контроля над ответами модели. GPT‑5 поддерживает новый параметр verbosity — уровень детальности сообщений (значения: низкий, средний, высокий), который помогает контролировать, будут ли ответы краткими и по существу или длинными и исчерпывающими. Параметр reasoning_effort в GPT‑5 теперь может обладать минимальным значением, что позволяет получать ответы быстрее, без предварительного подробного рассуждения. Мы также добавили новый тип инструментов — пользовательские инструменты — чтобы позволить GPT‑5 вызывать инструменты с помощью незашифрованного текста вместо JSON. Пользовательские инструменты обеспечивают поддержку ограничения с использованием контекстно-свободных грамматик, предоставленных разработчиками.

Чтобы предоставить разработчикам больше гибкости в выборе компромисса между производительностью, стоимостью и задержкой, мы выпускаем GPT‑5 в API в трех вариациях: gpt-5, gpt-5-mini и gpt-5-nano. GPT‑5 в ChatGPT представляет собой систему моделей с рассуждением, без рассуждения и с перенаправлением, тогда как GPT‑5 на платформе API — это модель с рассуждением, обеспечивающая максимальную производительность в ChatGPT. Примечательно, что GPT‑5 с минимальными возможностями рассуждения — это другая модель, нежели модель без рассуждений в ChatGPT, и она лучше адаптирована под разработчиков. Модель без рассуждений, используемая в ChatGPT, доступна как gpt-5-chat-latest.

Чтобы прочитать о GPT‑5 в ChatGPT и узнать больше о других улучшениях ChatGPT, посетите наш исследовательский блог. Чтобы узнать больше о том, как предприятия с энтузиазмом используют GPT‑5, посетите наш блог для предприятий.

Кодирование

GPT‑5 — самая мощная модель программирования, которую мы когда-либо выпускали. Она превосходит o3 в тестах по программированию и реальных сценариях использования и за счет доработок блестяще себя проявляет в продуктах агентного кодирования, таких как Cursor, Windsurf, GitHub Copilot и Codex CLI. GPT‑5 впечатлил наших альфа-тестеров, установив рекорды во многих их личных внутренних оценках. 

Первые отзывы о GPT‑5 для практических задач программирования

«GPT-5 — самая умная модель программирования, которую мы использовали. Наша команда обнаружила, что GPT-5 необычайно умен, прост в управлении и даже обладает индивидуальностью, которую мы не видели ни в одной другой модели. Он не только улавливает сложные, глубоко скрытые ошибки, но и может запускать длинные, многоходовые фоновые агенты, чтобы доводить сложные задачи до конца — раньше это вводило другие модели в ступор. Он стал нашим ежедневным инструментом для всего, от определения масштабов и планирования PR до завершения сквозных разработок.»
Майкл Труэлл, сооснователь и CEO, Cursor

На платформе SWE-bench Verified, в оценке на основе реальных задач по программной инженерии, GPT‑5 набрал 74,9%, что выше по сравнению с 69,1% у o3. Примечательно, что GPT‑5 достигает высокого результата с большей эффективностью и скоростью: по сравнению с o3 при значительных усилиях в рассуждениях, GPT‑5 использует на 22% меньше выходных токенов и на 45% меньше вызовов инструментов.

In SWE-bench Verified, a model is given a code repository and issue description, and must generate a patch to solve the issue. Text labels indicate the reasoning effort. Our scores omit 23 of 500 problems whose solutions did not reliably pass on our infrastructure. GPT‑5 was given a short prompt that emphasized verifying solutions thoroughly; the same prompt did not benefit o3.

На платформе Aider Polyglot, в рамках оценки редактирования кода, GPT‑5 установил новый рекорд — 88%, что на треть меньше уровня ошибок у o3.

In Aider polygot(открывается в новом окне) (diff), a model is given a coding exercise from Exercism and must write its solution as a code diff. Reasoning models were run with high reasoning effort.

Мы также обнаружили, что GPT‑5 превосходно справляется с глубоким анализом кодовых баз, чтобы отвечать на вопросы о том, как работают или взаимодействуют различные элементы. В такой сложной кодовой базе, как стек обучения с подкреплением OpenAI, мы обнаруживаем, что GPT‑5 может помочь нам рассуждать и отвечать на вопросы о нашем коде, ускоряя нашу повседневную работу. 

Фронтенд-разработка

При создании фронтенд-кода для веб-приложений GPT‑5 отличается более эстетичным подходом, амбициозностью и точностью. В параллельных сравнениях с o3 наши тестировщики предпочли GPT‑5 в 70% случаев.

Вот несколько забавных примеров того, что GPT‑5 может сделать с одним запросом:

Prompt: Please generate a beautiful, realistic landing page for a service that provides the ultimate coffee enthusiast a $200/month subscription that provides equipment rental and coaching for coffee roasting and creating the ultimate espresso. The target audience is a bay area middle-aged person who might work in tech and is educated, has disposable income, and is passionate about the art and science of coffee. Optimize for conversion for a 6 month signup.

Больше примеров от GPT‑5 вы найдете в нашей галерее здесь(открывается в новом окне).

Совместная работа над кодом

GPT‑5 — лучший помощник, особенно в продуктах для агентного программирования, таких как Cursor, Windsurf, GitHub Copilot и Codex CLI. В процессе работы GPT‑5 может выдавать планы, обновления и сводки в перерывах между вызовами инструментов. По сравнению с нашими предыдущими моделями, GPT‑5 более инициативен в выполнении амбициозных задач, не дожидаясь вашего разрешения и не останавливаясь перед высокой сложностью.

Вот пример того, как GPT‑5 может выглядеть при решении сложной задачи (в данном случае — создание веб-сайта для ресторана):

Пользователь запрашивает создание веб-сайта для своего ресторана. GPT‑5 в ответ предоставляет быстрый план, создает каркас приложения, устанавливает зависимости, создает контент сайта, запускает сборку для проверки ошибок компиляции, подводит итоги своей работы и предлагает возможные шаги далее. Видео было ускорено примерно в 3 раза: продолжительность создания сайта в реальном времени составила около трех минут.

Агентные задачи

Помимо агентного кодирования, GPT‑5 в целом лучше справляется с агентными задачами. GPT‑5 устанавливает новые рекорды по показателям следования инструкциям (69,6% по шкале Scale MultiChallenge, по оценке o3‑mini) и вызова инструментов (96,7% на τ2-bench telecom). Улучшенный интеллект инструментов позволяет GPT‑5 более надежно объединять действия для выполнения практических задач.

Ранние отзывы о GPT‑5 для агентных задач

«GPT-5 — это значительный шаг вперед. Согласно нашим внутренним бенчмаркам, он показал наилучшие результаты, которые мы когда-либо видели у единой модели. GPT-5 превосходно справлялся с различными агентными задачами — даже до того, как мы внесли хоть одну правку в код или адаптировали подсказку. Новые преамбулы и более точный контроль над использованием инструментов позволили значительно повысить стабильность и управляемость наших агентов.»
Ичао «Пик» Цзи, соучредитель и главный научный сотрудник, Manus

Следование инструкциям

GPT‑5 следует инструкциям более надёжно, чем все его предшественники, получая высокие оценки по COLLIE, Scale MultiChallenge и нашей внутренней оценке следования инструкциям.

In COLLIE(открывается в новом окне), models must write text that meets various constraints. In Scale MultiChallenge(открывается в новом окне), models are challenged on multi-turn conversations to properly use four types of information from previous messages. Our scores come from using o3‑mini as a grader, which was more accurate than GPT‑4o. In our internal OpenAI API instruction following eval, models must follow difficult instructions derived from real developer feedback. Reasoning models were run with high reasoning effort.

Вызовы инструментов

Мы усердно работали над улучшением вызова инструментов так, чтобы это было полезно в первую очередь для разработчиков. GPT‑5 лучше выполняет инструкции инструментов, лучше справляется с ошибками инструментов и инициативно выполняет множество вызовов инструментов последовательно или параллельно. При получении инструкций GPT‑5 может также выдавать вступительные сообщения до и между вызовами инструментов, чтобы информировать пользователя о ходе выполнения длительных агентных задач.

Два месяца назад Sierra.ai представили τ2-bench telecom как сложный эталон использования инструментов, который показал, как значительно снижается производительность языковой модели при взаимодействии с состоянием среды, которое могут изменить пользователи. В их публикации(открывается в новом окне) ни одна модель не набрала более 49%. GPT‑5 набрал 97%.

В τ2-bench(открывается в новом окне) модель должна использовать инструменты для выполнения задачи обслуживания клиентов, где может быть пользователь, который способен общаться и совершать действия в отношении состояния мира. Модели рассуждения использовали высокий уровень рассуждений.

GPT‑5 также демонстрирует значительные улучшения в производительности при работе с расширенным контекстом. На OpenAI-MRCR, который измеряет эффективность поиска информации с расширенным контекстом, GPT‑5 превосходит o3 и GPT‑4.1 с отрывом, который значительно увеличивается при увеличении длины ввода.

В OpenAI-MRCR(открывается в новом окне) (многораундовое разрешение ко-референтных связей) несколько идентичных пользовательских запросов-«иголок» вставляются в длинные наборы похожих запросов и ответов — «стоги сена», и модель должна воспроизвести ответ на i-ю «иглу». Средний коэффициент совпадения измеряет среднее соотношение совпадения строк между ответом модели и правильным ответом. Точки при максимальном количестве входных токенов 256 тыс. представляют собой средние значения за 128 тыс.–256 тыс. входных токенов и так далее. Здесь 256 тыс. обозначает 256 * 1 024 = 262 114 токенов. Модели рассуждения использовали высокий уровень рассуждений.

Мы также открываем исходный код BrowseComp Long Context(открывается в новом окне), нового эталона для оценки вопросов и ответов с расширенным контекстом. В этом бенчмарке модель получает пользовательский запрос, длинный список релевантных результатов поиска и должна ответить на вопрос, основываясь на этих результатах. Мы разработали BrowseComp Long Context так, чтобы он был реалистичным, сложным и давал точные и правильные ответы на основании проверенной информации. При вводе от 128 тыс. до 256 тыс. токенов GPT‑5 давал правильный ответ в 89% случаев.

В API все модели GPT‑5 могут принимать максимум 272 000 входных токенов и выдавать максимум 128 000 выходных токенов рассуждений и выходных данных, что обеспечивает общую длину контекста в 400 000 токенов.

Фактичность

GPT‑5 более надёжен, чем наши предыдущие модели. На подсказках в LongFact и FactScore GPT‑5 допускает примерно на 80% меньше фактических ошибок, чем o3. Это делает его более подходящим для агентных сценариев использования, где важна точность, особенно в коде, данных и принятии решений.

Чем выше баллы, тем хуже. LongFact(открывается в новом окне) и FActScore(открывается в новом окне) состоят из открытых вопросов, направленных на поиск фактов. Мы используем оценщик на базе LLM с функцией просмотра, чтобы проверять ответы на подсказки из этих эталонов и измерять долю фактически неверных утверждений. Детали реализации и оценки можно найти в системной карте. Модели рассуждения использовали высокий уровень рассуждений. Поиск не был активирован.

В целом, GPT‑5 был обучен лучше осознавать свои ограничения и более эффективно справляться с неожиданными трудностями. Мы также обучили GPT‑5 более точно отвечать на вопросы о здоровье (подробнее читайте в нашем исследовательском блоге). Как и в случае со всеми языковыми моделями, мы рекомендуем вам проверять результаты GPT‑5 в действительно серьезных вопросах.

Новые функции

Минимальные затраты на рассуждение

Разработчики могут контролировать время размышления GPT‑5 через параметр reasoning_effort в API. В дополнение к предыдущим значениям —низкий, средний (по умолчанию) и высокий— GPT‑5 также поддерживает значение минимальный, которое минимизирует рассуждения GPT‑5 для быстрого получения ответа.

Более высокие значения reasoning_effort повышают качество, а более низкие значения повышают скорость. Не все задачи одинаково выигрывают от дополнительного рассуждения, поэтому мы рекомендуем экспериментировать, чтобы понять, что лучше всего подходит для интересующих вас случаев использования.

Например, рассуждения выше уровня низкий мало что добавляют к сравнительно простому поиску в расширенном контексте, но добавляют значительное количество процентных пунктов к CharXiv Reasoning(открывается в новом окне), визуальному эталону рассуждения.

Рассуждения GPT‑5 приносят различные преимущества в разных задачах. Для CharXiv Reasoning GPT‑5 был предоставлен доступ к инструменту на Python.

Уровень детальности сообщений

Для помощи в управлении длиной ответов GPT‑5 по умолчанию мы ввели новый параметр API verbosity, который принимает значения низкий, средний (по умолчанию) и высокий. Если явные инструкции противоречат параметрам уровня детальности сообщений, преимущество имеют явные инструкции. Например, если вы попросите GPT‑5 «написать эссе из 5 абзацев», ответ модели всегда будет содержать 5 абзацев, независимо от установленного уровня детальности сообщений (хотя сами абзацы могут быть длиннее или короче).

Verbosity=low

Why is the sky blue?

Because of Rayleigh scattering. Air molecules are much smaller than the wavelength of visible light, so they scatter short wavelengths (blue/violet) far more than long ones (red). The scattered blue light comes to your eyes from all directions, making the sky look blue. We don’t see violet as much because the Sun emits less of it, our eyes are less sensitive to it, and some is absorbed in the upper atmosphere. At sunrise and sunset, the longer path through air removes more blue, leaving the sky reddish.

Verbosity=medium

Why is the sky blue?

Because of Rayleigh scattering. Sunlight contains all colors, but air molecules scatter shorter wavelengths (blue/violet) much more strongly than longer wavelengths (red). The scattering strength goes roughly as 1/(wavelength)^4, so blue light gets redirected across the sky and into your eyes.

We don’t see a violet sky because:

  • The Sun emits slightly less violet than blue.
  • The upper atmosphere absorbs some violet/UV.
  • Human eyes are less sensitive to violet.

At sunrise and sunset, sunlight passes through more atmosphere, scattering out most of the blues along the way and leaving the longer red/orange wavelengths to dominate.

Verbosity=high

Why is the sky blue?

The sky looks blue because sunlight gets scattered by the tiny molecules in Earth’s atmosphere. This process is called Rayleigh scattering.

Key points:

  • Sunlight is made of many colors (wavelengths). Shorter wavelengths, like violet and blue, are scattered much more strongly by air molecules than longer wavelengths like red. The scattering strength increases sharply as wavelength gets shorter.
  • As sunlight passes through the atmosphere, the shorter-wavelength light (especially blue) is scattered in all directions, so no matter where you look away from the Sun, you see that scattered blue light — the “blue sky.”

Why not violet?

  • The Sun emits less violet than blue.
  • Our eyes are less sensitive to violet.
  • Some violet/UV is absorbed higher up by ozone.

Together, that makes the scattered light we perceive look mainly blue.

Why are sunsets red/orange?

  • Near sunrise and sunset, sunlight travels a much longer path through the atmosphere.
  • Much of the blue light gets scattered out of the direct path before it reaches your eyes, leaving the remaining direct sunlight enriched in reds and oranges.

Other influences:

  • Haze, pollution, smoke, or dust have larger particles that scatter light less selectively (called Mie scattering), making the sky look paler or whitish.
  • The blue sky is partially polarized due to the scattering geometry, which is why polarized sunglasses can darken parts of it.
  • On worlds with different atmospheres and particle sizes (like Mars), skies can look butterscotch or reddish for similar scattering reasons.

If Earth had no atmosphere, there would be nothing to scatter sunlight, and the sky would appear black even in daytime, with the Sun as a bright disk.

Вступительные сообщения перед вызовами инструментов

Если будет дано соответствующее указание, GPT‑5 будет показывать пользователю видимые результаты вступительных сообщений перед и между вызовами инструментов. В отличие от скрытых сообщений с рассуждениями, эти видимые сообщения позволяют GPT‑5 уведомлять пользователя о планах и прогрессе, помогая конечным пользователям понять его подход и намерения, стоящие за вызовами инструментов.

Пользовательские инструменты

Мы представляем новый тип инструмента — пользовательские инструменты, которые позволяют GPT‑5 вызывать инструмент с помощью незашифрованного текста вместо JSON. Чтобы заставить GPT‑5 следовать пользовательским форматам инструментов, разработчики могут предоставить регулярное выражение или даже более полную контекстно-свободную грамматику(открывается в новом окне).

Ранее наш интерфейс для инструментов, определяемых разработчиками, требовал, чтобы их вызывали с помощью JSON, распространённого формата, используемого в веб-API и среди разработчиков в целом. Однако для результата корректного JSON требуется, чтобы модель идеально экранировала все кавычки, обратные косые черты, символы новой строки и другие управляющие символы. Хотя наши модели хорошо обучены выдавать результат в формате JSON, при длинных вводах — скажем, сотни строк кода, или отчёт на 5 страниц — вероятность ошибки возрастает. С помощью пользовательских инструментов GPT‑5 может записывать ввод в виде обычного текста, не экранируя все символы, которые требуют экранирования.

На SWE-bench Verified при использовании пользовательских инструментов вместо JSON-инструментов GPT‑5 показывает примерно одинаковые результаты.

Безопасность

GPT‑5 расширяет границы безопасности и является более надежной, устойчивой и полезной моделью. GPT‑5 значительно реже подвержен галлюцинациям, чем наши предыдущие модели, более честно сообщает пользователю о своих действиях и возможностях и предоставляет максимально полезный ответ, оставаясь в рамках безопасности. Вы можете прочитать больше в нашем исследовательском блоге.

Доступ и цены

GPT‑5 теперь доступен на платформе API в трех вариациях: gpt-5, gpt-5-mini и gpt-5-nano. Он доступен в API ответов, API заполнения чатов и используется по умолчанию в Codex CLI. Стоимость GPT‑5 составляет $1,25 за 1 млн входных токенов и $10 за 1 млн выходных токенов. Стоимость GPT‑5 mini составляет $0,25 за 1 млн входных токенов и $2 за 1 млн выходных токенов. Стоимость GPT‑5 nano составляет $0,05 за 1 млн входных токенов и $0,40 за 1 млн выходных токенов.

Эти модели обеспечивают  поддержку параметров API reasoning_effort и verbosity, а также пользовательских инструментов. Они также обеспечивают поддержку параллельного вызова инструментов, встроенные инструменты (веб-поиск, поиск файлов, генерация изображений и многое другое), основные функции API (стриминг, структурированные результаты и многое другое), а также функции экономии, такие как кэширование подсказок и пакетный API.

Версия GPT‑5 без рассуждений, используемая в ChatGPT, доступна в API как gpt-5-chat-latest, также по цене $1,25 за 1 млн входных токенов и $10 за 1 млн выходных токенов.

GPT‑5 также запускается на платформах Microsoft, включая Microsoft 365 Copilot, Copilot, GitHub Copilot и Azure AI Foundry.

Подробные контрольные показатели

Intelligence
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
AIME ’25(no tools)94,6 %91,1 %85,2 %88,9 %92,7 %46,4 %40,2 %-
FrontierMath(with python tool only)26,3 %22,1 %9,6 %15,8 %15,4 %---
GPQA diamond(no tools)85,7 %82,3 %71,2 %83,3 %81,4 %66,3 %65,0 %50,3 %
HLE[1](no tools)24,8 %16,7 %8,7 %20,2 %14,7 %5,4 %3,7 %-
HMMT 2025(no tools)93,3 %87,8 %75,6 %81,7 %85,0 %28,9 %35,0 %-

[1] There is a small discrepancy with numbers reported in our previous blog post, as those were run on a former version of HLE.

Multimodal
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
MMMU84,2 %81,6 %75,6 %82,9 %81,6 %74,8 %72,7 %55,4 %
MMMU-Pro(avg across standard and vision sets)78,4 %74,1 %62,6 %76,4 %73,4 %60,3 %58,9 %33,0 %
CharXiv reasoning(python enabled)81,1 %75,5 %62,7 %78,6 %72,0 %56,7 %56,8 %40,5 %
VideoMMMU, max frame 25684,6 %82,5 %66,8 %83,3 %79,4 %60,9 %55,1 %30,2 %
ERQA65,7 %62,9 %50,1 %64,0 %56,5 %44,3 %42,3 %26,5 %
Coding
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
SWE-Lancer: IC SWE Diamond Freelance Coding Tasks112 тыс. $75 тыс. $49 тыс. $86 тыс. $66 тыс. $34 тыс. $31 тыс. $9 тыс. $
SWE-bench Verified[2]74,9 %71,0 %54,7 %69,1 %68,1 %54,6 %23,6 %-
Aider polyglot(diff)88,0 %71,6 %48,4 %79,6 %58,2 %52,9 %31,6 %6,2 %

[2] We omit 23/500 problems that could not run on our infrastructure. The full list of 23 tasks omitted are 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.

Instruction Following
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Scale multichallenge[3](o3-mini grader)69,6 %62,3 %54,9 %60,4 %57,5 %46,2 %42,2 %31,1 %
Internal API instruction following eval(hard)64,0 %65,8 %56,1 %47,4 %44,7 %49,1 %45,1 %31,6 %
COLLIE99,0 %98,5 %96,9 %98,4 %96,1 %65,8 %54,6 %42,5 %

[3] Note: we find that the default grader in MultiChallenge (GPT-4o) frequently mis-scores model responses. We find that swapping the grader to a reasoning model, like o3-mini, improves accuracy on grading significantly on samples we’ve inspected.

Function Calling
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
Tau2-bench airline62,6 %60,0 %41,0 %64,8 %60,2 %56,0 %51,0 %14,0 %
Tau2-bench retail81,1 %78,3 %62,3 %80,2 %70,5 %74,0 %66,0 %21,5 %
Tau2-bench telecom96,7 %74,1 %35,5 %58,2 %40,5 %34,0 %44,0 %12,1 %
Long Context
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
OpenAI-MRCR: 2 needle 128k95,2 %84,3 %43,2 %55,0 %56,4 %57,2 %47,2 %36,6 %
OpenAI-MRCR: 2 needle 256k86,8 %58,8 %34,9 %--56,2 %45,5 %22,6 %
Graphwalks bfs <128k78,3 %73,4 %64,0 %77,3 %62,3 %61,7 %61,7 %25,0 %
Graphwalks parents <128k73,3 %64,3 %43,8 %72,9 %51,1 %58,0 %60,5 %9,4 %
BrowseComp Long Context 128k90,0 %89,4 %80,4 %88,3 %80,0 %85,9 %89,0 %89,4 %
BrowseComp Long Context 256k88,8 %86,0 %68,4 %--75,5 %81,6 %19,1 %
VideoMME(long, with subtitle category)86,7 %78,5 %65,7 %84,9 %79,5 %78,7 %68,4 %55,2 %
Hallucinations
GPT-5(high)GPT-5 mini(high)GPT-5 nano(high)OpenAI o3(high)OpenAI o4-mini(high)GPT-4.1GPT-4.1 miniGPT-4.1 nano
LongFact-Concepts hallucination rate(no tools)[lower is better]1,0 %0,7 %1,0 %5,2 %3,0 %0,7 %1,1 %-
LongFact-Objects hallucination rate(no tools)[lower is better]1,2 %1,3 %2,8 %6,8 %8,9 %1,1 %1,8 %-
FActScore hallucination rate(no tools)[lower is better]2,8 %3,5 %7,3 %23,5 %38,7 %6,7 %10,9 %-

Автор

OpenAI