Представяме GPT‑5.2, най-способната серия модели досега за професионална работа с експертни знания.
Средният потребител на ChatGPT Enterprise вече казва, че AI му спестява 40–60 минути на ден, а интензивните потребители казват, че им спестява повече от 10 часа седмично. Ние проектирахме GPT‑5.2, за да отключим още повече икономическа стойност за хората; той е по-добър в създаването на електронни таблици, изграждането на презентации, писането на код, възприемането на изображения, разбирането на дълги контексти, използването на инструменти и работата със сложни, многоетапни проекти.
GPT‑5.2 поставя нов стандарт спрямо много бенчмарки змервания, включително GDPval, където превъзхожда професионалистите в индустрията при добре конкретизирани задачи, свързани със знания, в 44 професии.
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (победи или равенства) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (публично) | 55,6% | 50,8% |
SWE-bench Verified | 80,0% | 76,3% |
GPQA Diamond (без инструменти) | 92,4% | 88,1% |
Разсъждаване на CharXiv (с Python) | 88,7% | 80,3% |
HMMT (февруари 2025 г.) | 99,4% | 96,3% |
FrontierMath (ниво 1–3) | 40,3% | 31,0% |
ARC-AGI-1 (Verified) | 86,2% | 72,8% |
ARC-AGI-2 (Verified) | 52,9% | 17,6% |
Notion(отваря се в нов прозорец), Box(отваря се в нов прозорец), Shopify(отваря се в нов прозорец), Harvey(отваря се в нов прозорец) и Zoom(отваря се в нов прозорец) отбелязаха, че GPT‑5.2 демонстрира съвременно разсъждаване с дългосрочна перспектива и ефективност при извикване на инструменти. Databricks(отваря се в нов прозорец), Hex(отваря се в нов прозорец) и Triple Whale(отваря се в нов прозорец) установиха, че GPT‑5.2 е изключителен при агентски задачи за наука за данни и анализ на документи. Cognition(отваря се в нов прозорец), Warp(отваря се в нов прозорец), Charlie Labs(отваря се в нов прозорец), JetBrains(отваря се в нов прозорец) и Augment Code(отваря се в нов прозорец) казват, че GPT‑5.2 предоставя най-съвременна агентска производителност при програмиране, с измерими подобрения в области като интерактивно програмиране, прегледи на код и откриване на грешки.
В ChatGPT, GPT‑5.2 Instant, Thinking и Pro ще започнат да се разпространяват днес, като се започне с платените планове. В API те вече са достъпни за всички разработчици.
Като цяло GPT‑5.2 внася значителни подобрения в общата интелигентност, разбирането на дълъг контекст, агентното извикване на инструменти и визията, което го прави по-добър в изпълнението на сложни реални задачи от край до край от всеки предишен модел.
GPT‑5.2 Thinking е най-добрият модел досега за реална, професионална употреба. В GDPval, оценка, измерваща добре конкретизирани задачи, свързани със знания, в 44 професии, GPT‑5.2 Thinking поставя ново върхово постижение и е първият ни модел, който се представя на или над нивото на човешки експерт. По-конкретно, GPT‑5.2 Thinking надминава или е равностоен на водещите професионалисти в индустрията в 70,9% от сравненията на задачи, свързани със знания в GDPval, според експертни човешки оценители. Тези задачи включват създаване на представяния, електронни таблици и други артефакти. GPT‑5.2 Thinking произведе резултати за задачи в GDPval с над 11 пъти по-бързо и на по-малко от 1% от цената на експертни професионалисти, което предполага, че когато е съчетан с човешки надзор, GPT‑5.2 може да подпомага професионалната работа. Оценките за скорост и цена се базират на исторически данни; скоростта в ChatGPT може да варира.
В GDPval моделите се опитват да изпълнят добре конкретизирана работа със знания, обхващаща 44 професии от 9-те водещи индустрии, допринасящи за БВП на САЩ. Задачите изискват реални работни продукти, като например презентации за продажби, счетоводни електронни таблици, графици за спешна помощ, производствени диаграми или кратки видеоклипове. В ChatGPT GPT‑5.2 Thinking разполага с нови инструменти, които GPT‑5 Thinking не притежава.
При преглед на един особено добър резултат, един от съдиите на GDPval коментира: „Това е вълнуващ и забележим скок в качеството на резултата... [той] изглежда като направен от професионална компания с персонал и има изненадващо добре проектиран дизайн и съвети за двата доставени резултата, въпреки че при единия все още имаме някои малки грешки за коригиране.“
Освен това, на нашия вътрешен бенчмарк за задачи за моделиране на електронни таблици на младши анализатори в инвестиционното банкиране – като съставяне на модел с три отчета за компания от Fortune 500 с правилно форматиране и цитиране или изграждане на модел за изкупуване с ливъридж за поемане на частна собственост – средният резултат на GPT‑5.2 Thinking за задача е с 9,3% по-висок от този на GPT‑5.1, като нараства от 59,1% на 68,4%.
Сравненията едно до друго показват подобрена комплексност и форматиране в електронните таблици и слайдовете, генерирани от GPT‑5.2. Thinking:

Подкана: Създайте модел за планиране на работната сила: брой служители, план за наемане, текучество и въздействие върху бюджета. Включете инженерния, маркетинговия, правния и търговския отдел.
За да използвате новите възможности за електронни таблици и представяне в ChatGPT, трябва да сте на платен план и да изберете или GPT‑5.2 Thinking, или Pro. Произвеждането на сложни генерирания може да отнеме много минути.
GPT‑5.2 Thinking поставя нов стандарт от 55,6% на SWE-bench Pro, което представлява строго оценяване на софтуерно инженерство в реални условия. За разлика от SWE-bench Verified, който тества само Python, SWE-bench Pro тества четири езика и има за цел да бъде по-устойчив на замърсяване, по-затрудняващ, разнообразен и приложим в индустрията.
В SWE-bench Pro(отваря се в нов прозорец), на модела се предоставя хранилище с код и той трябва да генерира пач, за да реши реалистична задача по софтуерно инженерство.
На SWE-bench Verified (не е изобразено), GPT‑5.2 Thinking отбелязва новия ни рекорд от 80%.
За ежедневна професионална употреба това се изразява в модел, който може по-надеждно да отстранява грешки в производствения код, да изпълнява заявки за функции, да преработва големи кодови бази данни и да изпраща поправки от край до край с по-малко ръчна намеса.
GPT‑5.2 Thinking също е по-добър във front-end софтуерното инженерство от GPT‑5.1 Thinking. Първоначалните тестери установиха, че е значително по-силен при разработката на front-end и сложна или неконвенционална работа с потребителски интерфейси – особено когато се включват 3D елементи – което го прави мощен ежедневен партньор за инженерите в целия стек. Вижте няколко примера за това, което може да бъде създадено от една единствена подкана:
Подкана: Създай приложение от една страница в един HTML файл със следните изисквания:
- Име: Симулация на океански вълни
- Цел: Да се показват реалистични анимирани вълни.
- Характеристики: Промяна на скоростта на вятъра, височината на вълните, осветлението.
- Потребителският интерфейс трябва да е успокояващ и реалистичен.
Ранните тестери споделиха своята обратна връзка за възможностите за кодиране на GPT‑5.2:
„GPT-5.2 отбелязва най-големия напредък за моделите GPT в агентното кодиране от GPT-5 насам и е най-съвременният модел за програмиране в своя ценови диапазон. Обновяването на версията подценява скока в интелигентността. Развълнувани сме да го зададем като стандартна версия в Windsurf и няколко основни работни натоварвания на Devin.“
GPT‑5.2 Thinking халюцинира по-малко от GPT‑5.1 Thinking. При набор от деидентифицирани заявки от ChatGPT отговорите с грешки са 38% относително по-рядко срещани. За професионалистите това означава по-малко грешки при използването на модела за изследвания, писане, анализ и поддържане на вземането на решения, което прави модела по-надежден за ежедневна работа със знания.
Усилието за разсъждаване беше зададено на максимално наличното и инструмент за търсене беше активиран. Грешките са открити от други модели, които могат сами да допускат грешки. Процентът на грешките на ниво твърдения е много по-нисък от процента на грешките на ниво отговори, тъй като повечето отговори съдържат много твърдения.
Както всички модели, GPT‑5.2 Thinking е несъвършен. За всичко критично, направете двойна проверка на отговорите му.
GPT‑5.2 Thinking установява ново състояние на техниката в областта на разсъжденията в дълъг контекст, като постига водещи резултати в OpenAI MRCRv2 – оценка, която проверява способността на модела да интегрира информация, разпределена в дълги документи. При задачи от реалния свят, като задълбочен анализ на документи, които изискват свързана информация от стотици хиляди токени, GPT‑5.2 Thinking е значително по-точен от GPT‑5.1 Thinking. По-специално, това е първият модел, който сме виждали, че постига почти 100% точност на варианта на MRCR с 4 игли (до 256k токена).
На практика това дава възможност на професионалистите да използват GPT‑5.2 за работа с дълги документи – като доклади, договори, научни статии, транскрипции и проекти с множество файлове – като поддържат съгласуваност и точност в стотици хиляди токени. Това прави GPT‑5.2 особено подходящ за задълбочен анализ, синтез и сложни работни процеси с множество източници.
В OpenAI-MRCR(отваря се в нов прозорец) v2 (многокръгова ко-референтна резолюция), множество идентични потребителски заявки тип „игла“ се вмъкват в дълги „купи сено“ от подобни заявки и отговори, и от модела се изисква да възпроизведе отговора на n-тата игла. Версия 2 на оценката коригира ~5% от задачите, които имаха неправилни стойности на истината. Средното съотношение на съвпадение измерва средното съотношение на съвпадение на низовете между отговора на модела и правилния отговор. Точките при максималните входящи токени от 256k представляват средни стойности за 128k–256k входящи токени и така нататък. Тук 256k представлява 256 * 1024 = 262 114 входящи токена. Усилието за разсъждаване е зададено на максимално наличното.
За задачи, за които е полезно да се мисли извън максималния прозорец за контекст, GPT‑5.2 Thinking е съвместим с нашата нова крайна точка /compact за Responses, която разширява ефективния контекстуален прозорец на модела. Това позволява на GPT‑5.2 Thinking да се справя с по-инструментално натоварени, дълготрайни работни процеси, които иначе биха били ограничени от дължината на контекста. Прочетете повече в нашата API документация(отваря се в нов прозорец).
GPT‑5.2 Thinking е нашият най-мощен модел за визуално разсъждение досега, като намалява процента на грешки приблизително наполовина при анализ на графики и разбиране на софтуерни интерфейси.
За ежедневна професионална употреба това означава, че моделът може по-точно да интерпретира информационни панели, продуктови екранни снимки, технически диаграми и визуални доклади – в подкрепа на работните процеси в областта на финансите, операциите, инженерството, дизайна и поддръжката на клиенти, където визуалната информация е от основно значение.
В разсъждаването на CharXiv(отваря се в нов прозорец), моделите отговарят на въпроси относно визуални диаграми от научни статии. Активиран е инструмент на Python и усилието за разсъждаване е зададено на максимум.
В ScreenSpot-Pro(отваря се в нов прозорец) моделите трябва да разсъждават върху екранни снимки с висока резолюция на графични потребителски интерфейси от различни професионални среди. Включен е инструмент на Python и усилието за разсъждаване е зададено на максимум. Без инструмента Python резултатите са много по-ниски. Препоръчваме включването на инструмента Python при подобни визуални задачи.
В сравнение с предишните модели, GPT‑5.2 Thinking има по-силно разбиране за това как са разположени елементите в изображението, което помага при задачи, където относителното разположение играе ключова роля в решаването на проблема. В примера по-долу искаме от модела да идентифицира компонентите във въведено изображение (в този случай, дънна платка) и да върне етикети с приблизителни ограничителни кутии. Дори при изображение с ниско качество GPT‑5.2 идентифицира основните области и поставя кутии, които приблизително съответстват на действителните местоположения на всеки компонент, докато GPT‑5.1 само маркира няколко части и показва много по-слабо разбиране за тяхното пространствено разположение.
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking постига ново съвременно ниво от 98,7% на теста Tau2-bench Telecom, демонстрирайки способността си за надеждно използване на инструменти при дълги, многоетапни задачи.
За чувствителни към забавяне случаи на употреба, GPT‑5.2 Thinking също се представя много по-добре при reasoning.effort=’none’, като значително превъзхожда GPT‑5.1 и GPT‑4.1.
В τ2-bench(отваря се в нов прозорец) моделите използват инструменти, за да изпълняват задачи за поддръжка на клиенти в многократни взаимодействия със симулиран потребител. За Telecom домейна включихме кратка, общополезна инструкция в системната подкана, за да подобрим производителността. Изключваме подмножеството на авиокомпаниите поради по-нискокачественото оценяване на реалността.
За професионалистите това се изразява в по-ефективни цялостни работни процеси – например разрешаване на случаи на поддръжка на клиенти, извличане на данни от множество системи, извършване на анализи и генериране на крайни изходи с по-малко прекъсвания между отделните стъпки.
Например при задаване на сложен въпрос за обслужване на клиенти, който изисква разрешаване в няколко стъпки, моделът може по-ефективно да координира пълния работен процес между няколко агенти. В случая по-долу пътник докладва за закъснял полет, пропусната връзка, нощувка в Ню Йорк и изискване за медицинско седящо място. GPT‑5.2 управлява цялата верига от задачи – резервиране, сядане за специални нужди и компенсиране – като осигурява по-завършен резултат от GPT‑5.1.
GPT‑5.1

GPT‑5.2

Една от нашите надежди за AI е, че той ще ускори научните изследвания в полза на всички. За тази цел работим с учени и ги изслушваме, за да разберем как AI може да ускори работата им, а миналия месец споделихме някои ранни съвместни експерименти тук.
Смятаме, че GPT‑5.2 Pro и GPT‑5.2 Thinking са най-добрите в света модели за подпомагане и ускоряване на учените. На GPQA Diamond, еталон за въпроси и отговори на ниво завършено образование, устойчив на търсене в Google, GPT‑5.2 Pro постига 93.2%, следван отблизо от GPT‑5.2 Thinking с 92,4%.
В GPQA Diamond(отваря се в нов прозорец) моделите отговарят на въпроси с избор между няколко отговора по физика, химия и биология. Не са активирани никакви инструменти и усилието за разсъждаване е зададено на максимум.
На FrontierMath (ниво 1–3), оценка на математиката на експертно ниво, GPT‑5.2 Thinking постави нов стандарт, решавайки 40,3% от задачите.
В FrontierMath(отваря се в нов прозорец) моделите решават задачи по математика на експертно ниво. Инструментът на Python е активиран и усилието за разсъждаване е зададено на максимум.
Започваме да виждаме как моделите с AI значително ускоряват напредъка в математиката и науката по осезаеми начини. Например, в скорошна работа с GPT‑5.2 Pro, изследователи разглеждаха отворен въпрос от теорията на статистическото обучение. В тясна, добре конкретизирана среда, моделът предложи доказателство, което впоследствие беше проверено от авторите и прегледано с външни експерти, илюстрирайки как авангардните модели могат да подпомогнат математическите изследвания под близък човешки надзор.
На ARC-AGI-1 (Verified), бенчмарк, създаден за измерване на общата способност за разсъждение, GPT‑5.2 е първият модел, който преминава прага от 90%, което е подобрение спрямо 87% от o3‑preview миналата година, като същевременно намалява разходите за постигане на тази производителност приблизително 390 пъти.
На ARC-AGI-2 (Verified), което повишава трудността и по-добре изолира плавното разсъждаване, GPT‑5.2 Thinking постига нов стандарт за модели на логическо мислене, отбелязвайки 52,9%. GPT‑5.2 Pro постига още по-високи резултати, достигайки 54,2%, като допълнително разширява способността на модела да разсъждава върху нови, абстрактни проблеми.
Подобренията в тези оценки отразяват по-силното многоетапно разсъждение на GPT‑5.2, по-голямата количествена точност и по-надеждното решаване на проблеми при сложни технически задачи.
Ето какво споделят нашите ранни тестери за GPT‑5.2:
„GPT-5.2 отключи цялостна промяна в архитектурата за нас. Ние обединихме крехка система с множество агенти в един мегаагент с над 20 инструмента. Най-хубавото е, че просто работи. Мегаагентът е по-бърз, по-интелигентен и 100 пъти по-лесен за поддръжка. Наблюдаваме драстично по-ниско забавяне, много по-силно извикване на инструменти и вече не се нуждаем от обширни системни подкани, защото 5.2 изпълнява безпроблемно с проста, едноредова подкана. Усеща се като чиста магия.
В ChatGPT потребителите би трябвало да забележат, че GPT‑5.2 е по-добър за ежедневна употреба – по-структуриран, по-надежден и все още приятен за разговори.
GPT‑5.2 Instant е бърз и способен инструмент за ежедневна работа и учене, с ясни подобрения в отговорите на въпроси за търсене на информация, ръководства и инструкции, техническо писане и превод, като надгражда по-топлия разговорен тон, въведен в GPT‑5.1 Instant. Ранните тестери специално отбелязаха по-ясните обяснения, които изтъкват ключова информация на преден план.
GPT‑5.2 Thinking е проектиран за по-задълбочена работа, като помага на потребителите да се справят с по-сложни задачи по по-изпипан начин – особено при програмиране, обобщаване на дълги документи, отговаряне на въпроси за качени файлове, решаване на математически и логически задачи стъпка по стъпка и подпомагане на планирането и вземането на решения с по-ясна структура и по-полезни детайли.
GPT‑5.2 Pro е нашият най-умен и най-надежден избор за трудни въпроси, при които отговорът с по-високо качество си заслужава чакането, като първоначалните тестове показват по-малко значителни грешки и по-добра производителност в сложни области като програмирането.
GPT‑5.2 надгражда върху изследванията за безопасно завършване, въведени с GPT‑5, което учи модела да дава най-полезния отговор, като същевременно остава в рамките на границите на безопасността.
С тази версия продължихме работата си по укрепване на отговорите на нашите модели при чувствителни разговори, със значителни подобрения в начина, по който те реагират на подкани, показващи признаци за самоубийство или самонараняване, проблеми с психичното здраве или емоционална зависимост от модела. Тези целенасочени интервенции доведоха до по-малко нежелани отговори както в GPT‑5.2 Instant, така и в GPT‑5.2 Thinking в сравнение с моделите GPT‑5.1 и GPT‑5 Instant и Thinking. Допълнителна информация можете да намерите в системната карта.
Ние сме в началните етапи на внедряване на нашия модел за прогнозиране на възрастта, за да можем автоматично да прилагаме защита на съдържанието за потребители под 18 години, с цел ограничаване на достъпа до чувствително съдържание. Това се основава на съществуващия ни подход към потребителите, за които знаем, че са под 18 години, и на нашите опции за родителски контрол.
GPT‑5.2 е една стъпка в продължаващата серия от подобрения и сме далеч от приключването. Въпреки че тази версия осигурява значителен напредък в интелигентността и производителността, ние знаем, че има области, в които хората искат повече. В ChatGPT работим по известни проблеми, като например прекалено много откази, като същевременно продължаваме да повишаваме нивото на безопасност и надеждност като цяло. Тези промени са сложни и ние се стремим да ги направим правилно.
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Психично здраве | 0,995 | 0,883 | 0,915 | 0,684 |
Емоционална опора | 0,938 | 0,945 | 0,955 | 0,785 |
Самонараняване | 0,938 | 0,925 | 0,963 | 0,937 |
В ChatGPT ще започнем да разпространяваме GPT‑5.2 (Instant, Thinking и Pro) днес, като започнем с платените планове (Plus, Pro, Go, Business, Enterprise). Внедряваме GPT‑5.2 постепенно, за да поддържаме работата с ChatGPT възможно най-гладка и надеждна; ако не го видите веднага, Ви молим да опитате отново по-късно. В ChatGPT GPT‑5.1 ще бъде достъпен за платените потребители за три месеца в рамките на наследени модели, след което ще прекратим поддръжката на GPT‑5.1.
ChatGPT | API (приложно-програмен интерфейс) |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
В нашата API платформа, GPT‑5.2 Thinking е наличен днес в Responses API и Chat Completions API като gpt-5.2, а GPT‑5.2 Instant – като gpt-5.2-chat-latest. GPT‑5.2 Pro е наличен в Responses API като gpt-5.2-pro. Разработчиците вече могат да задават параметъра за разсъждение в GPT‑5.2 Pro, а и GPT‑5.2 Pro, и GPT‑5.2 Thinking вече поддържат новото пето усилие за разсъждаване „xhigh“, за задачи, при които качеството е от най-голямо значение.
Цената на GPT‑5.2 е 1,75 USD/1 млн. входящи токена и 14 USD/1 млн. изходящи токена с 90% отстъпка за кеширани въвеждания. При множество агентски оценки установихме, че въпреки по-голямата цена на токен на GPT‑5.2, цената за постигане на дадено ниво на качество се оказа по-евтина благодарение на по-голямата ефективност на токените на GPT‑5.2.
Докато ценообразуването на абонамента за ChatGPT остава същото, в API GPT‑5.2 е с по-висока цена на токен в сравнение с GPT‑5.1, защото е по-способен модел. Цената му все още е под тази на други модели от най-висок клас, така че хората могат да продължат да го използват задълбочено в ежедневната си работа и основни приложения.
Модел | Въвеждане | Кеширано въвеждане | Изход |
gpt-5.2 / gpt-5.2-chat-latest | 1,75 USD | 0,175 USD | 14 USD |
gpt-5.2-pro | 21 USD | - | 168 USD |
gpt-5.1 / gpt-5.1-chat-latest | 1,25 USD | 0,125 USD | 10 USD |
gpt-5-pro | 15 USD | - | 120 $ |
Понастоящем нямаме планове да прекратим използването на GPT‑5.1, GPT‑5, или GPT‑4.1 в API, и ще съобщим всички планове за прекратяване с достатъчно предварително уведомление за разработчиците. Въпреки че GPT‑5.2 ще работи добре в Codex, очакваме през следващите седмици да пуснем версия на GPT‑5.2, оптимизирана за Codex.
GPT‑5.2 беше създаден в сътрудничество с нашите дългогодишни партньори NVIDIA и Microsoft. Центровете за данни Azure и графичните процесори на NVIDIA, включително H100, H200 и GB200-NVL72, са в основата на мащабната инфраструктура за обучение на OpenAI, водеща до значителни подобрения в интелигентността на моделите. Заедно това сътрудничество ни позволява да мащабираме изчисления с увереност и да въвеждаме нови модели на пазара по-бързо.
По-долу представяме изчерпателни резултати от бенчмарк тестовете за GPT‑5.2. Thinking, заедно с подмножество за GPT‑5.2 Pro.
Професионално
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Програмиране
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Фактичност
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Дълъг контекст
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Визия
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Използване на инструмент
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Академично
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Абстрактно разсъждаване
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Моделите бяха пуснати с максималното налично усилие за разсъждаване в нашия API („xhigh“ за GPT‑5.2 Thinking и Pro, и „high“ за GPT‑5.1 Thinking), с изключение на професионалните оценки, където GPT‑5.2 Thinking беше пуснат с усилие за разсъждаване „heavy“, максималното налично в ChatGPT Pro. Бенчмарковете бяха проведени в изследователска среда, което може да предостави леко различен резултат в сравнение с продукционния ChatGPT в някои случаи.
* За SWE-Lancer пропускаме 40/237 проблема, които не се изпълняват на нашата инфраструктура.


