Ми представляємо GPT‑5.2 — найпотужнішу серію моделей для професійної роботи з використанням знань.
Уже зараз середньостатистичний користувач ChatGPT Enterprise стверджує, що ШІ дозволяє заощаджувати 40–60 хвилин на день, а активним користувачам — понад 10 годин на тиждень. Ми розробили GPT‑5.2, щоб дати людству ще більше економічної цінності; він ще краще справляється зі створенням електронних таблиць і презентацій, написанням коду, розпізнаванням зображень, розумінням розширених контекстів, використанням інструментів та управлінням складними, багатокроковими проєктами.
GPT‑5.2 встановлює новий стандарт у багатьох бенчмарках, зокрема в системі оцінки GDPval, де вона перевершує фахівців індустрії у чітко визначених завданнях знаннєвої роботи, що охоплюють 44 професії.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (перемоги або нічиї) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (public) | 55,6% | 50,8% |
SWE-bench Verified | 80,0% | 76,3% |
GPQA Diamond (без інструментів) | 92,4% | 88,1 % |
CharXiv Reasoning (з Python) | 88,7% | 80,3% |
HMMT (лютий 2025 р.) | 99,4% | 96,3% |
FrontierMath (Рівень 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Verified) | 86,2% | 72,8% |
ARC-AGI-2 (Verified) | 52,9% | 17,6% |
Notion(відкривається у новому вікні), Box(відкривається у новому вікні), Shopify(відкривається у новому вікні), Harvey(відкривається у новому вікні) та Zoom(відкривається у новому вікні) вже побачили, що GPT‑5.2 демонструє передові можливості перспективного міркування та виклику інструментів. Databricks(відкривається у новому вікні), Hex(відкривається у новому вікні) та Triple Whale(відкривається у новому вікні) виявили, що GPT‑5.2 дає виняткові результати в агентних завданнях з науки про дані та завданнях з аналізу документів. Cognition(відкривається у новому вікні), Warp(відкривається у новому вікні), Charlie Labs(відкривається у новому вікні), JetBrains(відкривається у новому вікні) та Augment Code(відкривається у новому вікні) стверджують, що GPT‑5.2 забезпечує передову агентну продуктивність у програмуванні і показує очевидні, суттєві покращення в таких областях, як інтерактивне програмування, огляд коду та пошук помилок.
У ChatGPT впровадження GPT‑5.2 Instant, Thinking та Pro стартує відсьогодні, починаючи з платних тарифів. У API вони наразі доступні всім розробникам.
Загалом GPT‑5.2 демонструє значні покращення в загальному рівні інтелекту, розумінні розширених контекстів, агентному виклику інструментів та візуальному сприйнятті, що в комплексному виконанні складних, реальних завдань робить її кращою за будь-яку попередню модель.
GPT‑5.2 Thinking — це найкраща модель для реального, професійного використання. У рамках GDPval, оцінці, що вимірює ефективність розв'язання чітких тематичних завдань у 44 професіях, GPT‑5.2 Thinking установлює новий найвищий показник і стає нашою першою моделлю, що працює на рівні або вище за людського експерта. Зокрема, за оцінками професіоналів у відповідних галузях, GPT‑5.2 Thinking випереджає або демонструє рівні результати з провідними фахівцями галузі у 70,9% порівнянь у межах завдань знаннєвої роботи за системою оцінки GDPval — згідно з оцінками експертних людських суддів. До таких завдань входить створення презентацій, електронних таблиць та інших артефактів. GPT‑5.2 Thinking виконувала завдання системи оцінки GDPval більш ніж в 11 разів швидше й менш ніж за 1% вартості роботи експертів-професіоналів, що свідчить: за умови людського контролю GPT‑5.2 може суттєво допомагати у професійній діяльності. Оцінки швидкості та вартості базуються на історичних показниках; фактична швидкість у ChatGPT може змінюватися.
У GDPval моделі намагаються виконати чітко визначені завдання, засновані на знаннях у 44 професіях із 9 провідних галузей, що роблять найбільший внесок у ВВП США. Завдання вимагають наявності реальних робочих продуктів, таких як презентації з продажу, бухгалтерські електронні таблиці, графіки невідкладної допомоги, виробничі діаграми або короткі відео. GPT‑5.2 Thinking у ChatGPT має нові інструменти, яких немає у GPT‑5 Thinking.
Під час розгляду одного особливо якісного результату один із суддів GDPval зауважив: «Це захоплюючий і помітний стрибок у якості результату... [завдання] здається виконаним професійною компанією з персоналом, має напрочуд добре розроблене оформлення та поради для обох результатів, хоча в одному з них ми все ще маємо кілька незначних помилок, які слід виправити.»
Крім того, за нашим внутрішнім бенчмарком типових завдань аналітика інвестиційного банку початкового рівня з моделювання в електронних таблицях — як-от складання трикомпонентної фінансової моделі для компанії зі списку Fortune 500 із коректним форматуванням і посиланнями або побудова моделі LBO для виведення компанії з публічного ринку — середній результат GPT‑5.2 Thinking на одне завдання на 9,3% вищий, ніж у GPT‑5.1 (зростання з 59,1% до 68,4%).
При паралельному порівнянні помітні покращення в деталізації та форматуванні електронних таблиць і презентацій, створених GPT‑5.2 Thinking:

Запит: Створи модель кадрового планування: чисельність персоналу, план найму, плинність кадрів та вплив на бюджет. Врахуй інженерний, маркетинговий, юридичний відділи та відділ продажу.
Для використання нових можливостей створення таблиць і презентацій у ChatGPT необхідно бути користувачем платного тарифу і вибрати модель GPT‑5.2 Thinking або Pro. Генерування за комплексними запитами може займати більше часу.
GPT‑5.2 Thinking встановлює новий стандарт у 55,6% на SWE-bench Pro, ретельному оцінюванні програмного інжинірингу в реальних умовах. На відміну від SWE-bench Verified, де тестуються уміння лише в Python, SWE-Bench Pro тестує чотири мови та має за мету більш суворий контроль забруднень, більшу складність, різноманітність і галузеву значущість.
У SWE-bench Pro(відкривається у новому вікні) моделі надається репозиторій коду, і вона повинна створити патч для вирішення реалістичного завдання з інженерії програмного забезпечення.
У SWE-bench Verified (без графіку) GPT‑5.2 Thinking досягла нашого нового максимуму — 80%.
Для повсякденного професійного використання це означає модель, яка може більш надійно налагоджувати код у виробництві, реалізовувати запити на функціональність, рефакторити великі кодові бази та впроваджувати виправлення від початку до кінця з меншою необхідністю втручання вручну.
GPT‑5.2 Thinking також показала себе краще у фронтенд-розробці програмного забезпечення, ніж GPT‑5.1 Thinking. Ранні тестувальники виявили, що вона значно сильніша у фронтенд-розробці та складній або нетрадиційній роботі з інтерфейсом користувача (особливо з 3D-елементами), що робить її потужним щоденним помічником для розробників по всьому стеку. Ось кілька прикладів того, що можна створити з одного запиту:
Запит: Створи односторінкову програму в одному HTML-файлі з наступними вимогами:
- Назва: Ocean Wave Simulation
- Мета: Відображення реалістичних анімованих хвиль.
- Функції: Зміна швидкості вітру, висоти хвиль, освітлення.
- Інтерфейс має бути заспокійливим і реалістичним.
Ранні тестувальники поділилися своїми враженнями щодо можливостей GPT‑5.2 у роботі з кодом.
«GPT-5.2 — це найбільший стрибок для моделей GPT у сфері агентного програмування від часу GPT-5 і найсучасніша модель програмування у своєму ціновому сегменті. Сам номер версії применшує масштаб зростання інтелекту. Ми з ентузіазмом впроваджуємо її як модель за замовчуванням у Windsurf та у кількох базових робочих процесах Devin».
GPT‑5.2 Thinking менш схильна до галюцинацій, аніж GPT‑5.1 Thinking. На наборі анонімізованих запитів ChatGPT відповіді з помилками траплялися на 38%rel рідше. Для професіоналів це означає менше помилок при використанні моделі для досліджень, написання робіт, аналізу та підтримки прийняття рішень, що робить її ще більш надійною для повсякденної роботи зі знаннями.
Рівень міркування було встановлено на максимально доступний, інструмент пошуку було увімкнено. Помилки були виявлені іншими моделями, які самі можуть допускати помилки. Рівень помилок на рівні тверджень значно нижчий, ніж на рівні відповідей, оскільки більшість відповідей містять багато тверджень.
Як і всі моделі, GPT‑5.2 Thinking не можна назвати досконалою. Закликаємо користувачів перевіряти відповіді моделі в важливих питаннях.
GPT‑5.2 Thinking встановлює новий стандарт у міркуванні на базі розширеного контексту, досягаючи провідних результатів у OpenAI MRCRv2 — оцінці, що перевіряє здатність моделі структурувати інформацію, розподілену по довгих документах. У реальних завданнях, таких як глибокий аналіз документів із необхідністю зв'язку інформації через сотні тисяч токенів, GPT‑5.2 Thinking є значно точнішою, ніж GPT‑5.1 Thinking. Зокрема, це перша модель на нашій пам'яті що досягла майже 100% точності у варіанті MRCR з 4 «голками» (до 256 тис. токенів).
У практичному сенсі це дозволяє професіоналам використовувати GPT‑5.2 для роботи з довгими документами — звітами, контрактами, науковими статтями, стенограмами, проєктами на багато файлів тощо — зберігаючи при цьому узгодженість і точність на сотні тисяч токенів. Це робить GPT‑5.2 особливо придатною для глибокого аналізу, синтезу та складних багатоджерельних робочих процесів.
У OpenAI-MRCR(відкривається у новому вікні) v2 (багатораундове розв'язання кореферентних зв'язків), кілька ідентичних користувацьких запитів-«голок» вставляються в довгі набори схожих запитів і відповідей — «стоги сіна», і модель повинна відтворити відповідь на n-ну «голку». Версія 2 оцінки виправляє ~5% завдань, які мали неправильні значення істини. Середній коефіцієнт збігу вимірює середнє співвідношення збігу рядків між відповіддю моделі та правильною відповіддю. Точки при максимальній кількості вхідних токенів 256 тис. представляють середні значення для 128 тис.–256 тис. вхідних токенів і так далі. Тут 256 тис. означає 256 * 1 024 = 262 114 токенів. Зусилля міркування було встановлено на максимальний доступний рівень.
У плані завдань, що потребують роздумів за межами максимального контекстного вікна, GPT‑5.2 Thinking сумісна з нашою новою кінцевою точкою Responses /compact, яка розширює ефективне контекстне вікно моделі. Це дозволяє GPT‑5.2 Thinking працювати з більш інструментально-насиченими, тривалими робочими процесами, які інакше були б обмежені довжиною контексту. Детальніше див. у нашій документації API(відкривається у новому вікні).
GPT‑5.2 Thinking — це наша найпотужніша на сьогодні модель для обробки візуальної інформації, яка зменшує частоту помилок при аналізі діаграм та розумінні програмних інтерфейсів приблизно вдвічі.
Для повсякденного професійного використання це означає, що модель може точніше інтерпретувати інформаційні панелі, знімки екранів продуктів, технічні діаграми та візуальні звіти, підтримуючи робочі процеси у фінансах, операціях, інженерії, дизайні та підтримці клієнтів, де візуальна інформація є ключовим аспектом роботи.
У CharXiv Reasoning(відкривається у новому вікні) моделі відповідають на запитання про графіки з наукових статей. Інструмент на Python було увімкнено, зусилля міркування встановлено на максимум.
У ScreenSpot-Pro(відкривається у новому вікні) моделі повинні аргументувати на основі скріншотів графічних інтерфейсів користувача (з високою роздільною здатністю) із різних професійних середовищ. Було увімкнено інструмент на Python, зусилля міркування встановлено на максимум. Без інструмента на Python оцінки значно нижчі. Для виконання таких завдань із візуальним контекстом рекомендуємо увімкнути інструмент на Python.
Порівняно з попередніми моделями, GPT‑5.2 Thinking краще розуміє, як саме елементи розташовані на зображенні, що допомагає в завданнях, де просторове співвідношення відіграє ключову роль у розв’язанні проблеми. У прикладі нижче ми просимо модель визначити компоненти на вхідному зображенні (у цьому разі материнської плати) й повернути підписи з приблизними обмежувальними рамками. Навіть на зображенні низької якості GPT‑5.2 визначає основні області та розміщує рамки приблизно відповідно до справжнього розташування кожного компонента, тоді як GPT‑5.1 позначає лише кілька елементів і демонструє значно слабше розуміння їхньої просторової організації.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking досягає нового рівня досконалості з показником 98,7% у Tau2-bench Telecom, демонструючи свою здатність надійно використовувати інструменти в довготривалих, багатокрокових завданнях.
Для сценаріїв використання, чутливих до затримок, GPT‑5.2 Thinking також значно краще виконує міркування при рівні зусиль=’none’, суттєво перевершуючи GPT‑5.1 і GPT‑4.1.
У τ2-bench(відкривається у новому вікні) моделі використовують інструменти для виконання завдань із підтримки клієнтів у багатокроковій взаємодії з симульованим користувачем. Для домену Telecom ми додали в системний запит коротку, загальну допоміжну інструкцію, щоб підвищити продуктивність. Виключено підмножину Airline через нижчу якість оцінки істинного значення.
Для професіоналів це означає посилення наскрізних робочих процесів, таких як вирішення звернень до служби підтримки клієнтів, витяг даних із кількох систем, проведення аналізів та генерування кінцевих результатів із меншими перервами між етапами.
Наприклад, коли ви ставите складне запитання до служби підтримки клієнтів, яке вимагає багатоступеневого вирішення, модель може ефективніше координувати повний робочий процес за участю кількох агентів. У наведеному нижче випадку мандрівник повідомляє про затримку рейсу, пропущену пересадку, ночівлю в Нью-Йорку та медичні вимоги щодо розміщення. GPT‑5.2 керує всім ланцюгом завдань — перебронюванням, спеціальним розміщенням та компенсацією — забезпечуючи більш повний результат, ніж GPT‑5.1.
GPT‑5.1

GPT‑5.2

Однією з наших надій щодо ШІ є те, що він прискорить наукові дослідження на користь усього людства. З цією метою ми співпрацюємо з науковцями та прислухаємося до них, щоб зрозуміти, як штучний інтелект може прискорити їхню роботу, і минулого місяця ми поділилися деякими ранніми спільними експериментами тут.
На нашу думку, GPT‑5.2 Pro і GPT‑5.2 Thinking є найкращими у світі моделями для допомоги та прискорення роботи науковців. У GPQA Diamond, еталоні запитань та відповідей рівня аспірантури без можливості допомоги Google, GPT‑5.2 Pro досягнула 93,2%; за нею слідує GPT‑5.2 Thinking — 92,4%.
У GPQA Diamond(відкривається у новому вікні) моделі відповідають на запитання з фізики, хімії та біології з вибором варіантів відповідей. Жодних інструментів не було увімкнено, зусилля міркування встановлено на максимум.
У FrontierMath (рівні 1–3), оцінці експертного рівня з математики, GPT‑5.2 Thinking встановила новий стандарт, розв'язавши 40,3% завдань.
У FrontierMath(відкривається у новому вікні) моделі розв'язують задачі з математики експертного рівня. Було увімкнено інструмент на Python, зусилля міркування встановлено на максимум.
Поступово ми можемо розгледіти, як моделі ШІ значно й відчутно прискорюють прогрес у математиці та науці. Наприклад, у нещодавньому дослідженні з GPT‑5.2 Pro науковці дослідили відкрите питання в теорії статистичного навчання. У вузько визначеному й чітко окресленому завданні модель запропонувала доведення, яке згодом було перевірене авторами та розглянуте зовнішніми експертами, демонструючи, як передові моделі можуть допомагати математичним дослідженням за умови ретельного людського нагляду.
У тесті ARC-AGI-1 (Verified), створеному для вимірювання загальних здібностей до міркування, GPT‑5.2 стала першою моделлю, що перетнула поріг у 90%, підвищивши результат із 87%, досягнутих торік o3‑preview, і водночас зменшивши витрати на досягнення такого рівня продуктивності приблизно у 390 разів.
У тесті ARC-AGI-2 (Verified), де складність зростає й краще ізолюється гнучке міркування, GPT‑5.2 Thinking демонструє новий найкращий результат серед моделей chain-of-thought, набравши 52,9%. GPT‑5.2 Pro демонструє ще вищі показники — 54,2%, ще більше розширюючи здатність моделі міркувати над новими абстрактними задачами.
Покращення в цих оцінках демонструють ключові особливості GPT‑5.2 — ефективніше багатокрокове міркування, більшу кількісну точність та більш надійне розв'язання проблем у складних технічних завданнях.
Ось що наші ранні тестувальники кажуть про GPT‑5.2:
«GPT-5.2 відкрила для нас можливість повного перегляду архітектури. Ми замінили вразливу багатокомпонентну систему агентів одним мегаагентом із понад 20 інструментами. І найкраще те, що все просто працює. Мегаагент агент швидший, розумніший і підтримується у сто разів легше. Ми спостерігаємо значно нижчу затримку, значно кращу роботу з інструментами, і нам більше не потрібні громіздкі системні запити, тому що 5.2 коректно виконує завдання навіть на основі одного простого рядка запиту. Це здається чистою магією».
У ChatGPT користувачі повинні відчути, що GPT‑5.2 у щоденному використанні працює приємніше — структурованіше, надійніше та так само приємно у спілкуванні.
GPT‑5.2 Instant — це швидка й потужна модель для повсякденної роботи та навчання, що демонструє чіткі покращення у відповідях на інформаційні запити, інструкції й покрокові пояснення, технічні тексти та переклад, розвиваючи тепліший розмовний стиль, уперше представлений у GPT‑5.1 Instant. Ранні тестувальники особливо відзначили зрозуміліші пояснення, у яких ключова інформація подається відразу.
GPT‑5.2 Thinking створена для глибшої роботи та допомагає виконувати складніші завдання з більшою ретельністю — особливо коли йдеться про програмування, узагальнення великих документів, відповіді на запитання щодо завантажених файлів, покрокове розв’язання математичних і логічних завдань, а також підтримку планування та ухвалення рішень завдяки чіткішій структурі й кориснішим деталям.
GPT‑5.2 Pro — наша найрозумніша та найнадійніша опція для складних запитань, де відповідь вищої якості варта очікування; раннє тестування показує менше суттєвих помилок і сильнішу роботу в таких складних сферах, як програмування.
GPT‑5.2 базується на дослідженні безпечного завершення, яке ми представили з GPT‑5, що навчає модель надавати найбільш корисну відповідь, залишаючись у межах безпеки.
Також у цій версії ми продовжили нашу роботу з покращення відповідей наших моделей у чутливих розмовах: ми спостерігаємо суттєві зміни на краще в тому, як моделі реагують на запити з ознаками суїцидальних думок чи ідей про самопошкодження, психічного стресу або емоційної залежності від моделі. Такі цілеспрямовані втручання призвели до зменшення кількості небажаних відповідей у GPT‑5.2 Instant і GPT‑5.2 Thinking у порівнянні з моделями GPT‑5.1, GPT‑5 Instant та Thinking. Додаткову інформацію можна знайти в системній картці.
Ми на початковому етапі впровадження нашої моделі визначення віку, щоб автоматично застосовувати захист контенту для користувачів, молодших за 18 років, обмежуючи доступ до чутливої інформації. Це ґрунтується на нашому існуючому підході до користувачів, про яких ми знаємо, що їм менше 18 років, та на наших засобах батьківського контролю.
GPT‑5.2 — це лише ще один крок у постійному процесі вдосконалення, та попереду на нас ще чекає довгий шлях. Так, ця версія забезпечує значні покращення в інтелектуальних можливостях та продуктивності, але ми пам'ятаємо про існування сфер, де вимоги ще вищі. Ми працюємо над відомими проблемами ChatGPT, такими як надмірна схильність до відмов, і водночас продовжуємо підвищувати планку безпеки та надійності в цілому. Ці зміни не даються легко, і ми зосереджені на тому, щоб вони відбулися правильно.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Ментальнее здоров'я | 0,995 | 0,883 | 0,915 | 0,684 |
Емоційна залежність | 0,938 | 0,945 | 0,955 | 0,785 |
Самопошкодження | 0,938 | 0,925 | 0,963 | 0,937 |
У ChatGPT розгортання GPT‑5.2 (Instant, Thinking, і Pro) стартує відсьогодні, починаючи з платних тарифів (Plus, Pro, Go, Business, Enterprise). Ми впроваджуємо GPT‑5.2 поступово, щоб робота ChatGPT залишалася якомога більш плавною та надійною; якщо модель не буде доступною для вас одразу, спробуйте ще раз пізніше. GPT‑5.1 у ChatGPT залишатиметься доступною для платних користувачів протягом трьох місяців у рамках програми підтримки застарілих моделей, після чого підтримку GPT‑5.1 буде припинено.
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
У нашій API Platform GPT‑5.2 Thinking доступна вже сьогодні в Responses API та Chat Completions API як gpt-5.2, а GPT‑5.2 Instant — як gpt-5.2-chat-latest. GPT‑5.2 Pro доступна в Responses API як gpt-5.2-pro. Розробники тепер можуть задавати параметр міркування в GPT‑5.2 Pro, і як GPT‑5.2 Pro, так і GPT‑5.2 Thinking підтримують новий п’ятий рівень інтенсивності міркування — xhigh, для завдань, у яких якість є найважливішою.
Ціна GPT‑5.2 становить $1,75 за 1 млн вхідних токенів і $14 за 1 млн вихідних токенів, зі знижкою 90% на кешовані введення. У кількох оцінюваннях агентних можливостей ми з’ясували, що попри вищу вартість GPT‑5.2 за маркер, досягнення певного рівня якості виявляється дешевшим завдяки вищій ефективності використання маркерів у GPT‑5.2.
Цінова політика передплати ChatGPT залишається незмінною, однак в API GPT‑5.2 вартість токена вища, ніж у GPT‑5.1, оскільки це більш потужна модель. Тим не менш, ціна все ще нижча, ніж в інших передових моделей, щоб користувачі могли продовжити активно працювати з нею у своїй щоденній роботі та основних сценаріях використання.
Модель | Введення | Кешоване введення | Вихідні дані |
gpt-5.2 / | 1,75 дол. США | 0,175 дол. США | 14 дол. США |
gpt-5.2-pro | 21 дол. США | - | 168 дол. США |
gpt-5.1 / | 1,25 дол. США | 0,125 дол. США | 10 дол. США |
gpt-5-pro | 15 дол. США | - | $120 |
На даний момент у нас немає планів припиняти підтримку GPT‑5.1, GPT‑5 або GPT‑4.1 в API. Про будь-які плани припинення підтримки ми повідомимо розробників заздалегідь. Очікується, що GPT‑5.2 матиме повну сумісність із Codex на релізі; оптимізована для Codex версія GPT‑5.2 готується до випуску в найближчі тижні.
GPT‑5.2 було створено у співпраці з нашими давніми партнерами NVIDIA та Microsoft. Центри обробки даних Azure та графічні процесори NVIDIA, у тому числі H100, H200 та GB200-NVL72, є основою інфраструктури навчання OpenAI у великому масштабі, що забезпечує значні покращення в інтелектуальних можливостях моделей. Ця співпраця дозволяє нам з упевненістю масштабувати обчислювальні потужності та швидше виводити нові моделі на ринок.
Нижче ми наводимо повні результати тестових оцінювань для GPT‑5.2 Thinking, а також окремий набір показників для GPT‑5.2 Pro.
Професійний
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Програмування
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Фактичність
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Розширений контекст
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Візуал
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Використання інструментів
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Академічність
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Абстрактне мислення
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Моделі запускалися з максимально доступним рівнем інтенсивності міркування в нашому API (xhigh для GPT‑5.2 Thinking і Pro та high для GPT‑5.1 Thinking), за винятком професійних оцінювань, де GPT‑5.2 Thinking запускалася з рівнем heavy — максимальним, доступним у ChatGPT Pro. Тестування проводилося в дослідницькому середовищі, яке в деяких випадках може давати дещо відмінні результати порівняно з роботою ChatGPT у продакшні.
* У SWE-Lancer ми виключили 40 із 237 задач, які не могли бути виконані на нашій інфраструктурі.


