Преминаване към основното съдържание
OpenAI

11 декември 2025 г.

ПродуктПускане

Представяне на GPT‑5.2

Най-усъвършенстваният модел от най-висок клас за професионална работа и дългосрочни агенти.

Зареждане…

Представяме GPT‑5.2, най-способната серия модели досега за професионална работа с експертни знания.

Средният потребител на ChatGPT Enterprise вече казва, че AI му спестява 40–60 минути на ден, а интензивните потребители казват, че им спестява повече от 10 часа седмично. Ние проектирахме GPT‑5.2, за да отключим още повече икономическа стойност за хората; той е по-добър в създаването на електронни таблици, изграждането на презентации, писането на код, възприемането на изображения, разбирането на дълги контексти, използването на инструменти и работата със сложни, многоетапни проекти.

GPT‑5.2 поставя нов стандарт спрямо много бенчмарки змервания, включително GDPval, където превъзхожда професионалистите в индустрията при добре конкретизирани задачи, свързани със знания, в 44 професии.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (победи или равенства)
Задачи, свързани със знания

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (публично)
Софтуерно инженерство

55,6%

50,8%

SWE-bench Verified
Софтуерно инженерство

80,0%

76,3%

GPQA Diamond (без инструменти)
Научни въпроси

92,4%

88,1%

Разсъждаване на CharXiv (с Python)
Въпроси за научни фигури

88,7%

80,3%

HMMT (февруари 2025 г.)
Математически турнир

99,4%

96,3%

FrontierMath (ниво 1–3)
Математика за напреднали

40,3%

31,0%

ARC-AGI-1 (Verified)
Абстрактно разсъждение

86,2%

72,8%

ARC-AGI-2 (Verified)
Абстрактно мислене

52,9%

17,6%

Notion(отваря се в нов прозорец), Box(отваря се в нов прозорец), Shopify(отваря се в нов прозорец), Harvey(отваря се в нов прозорец) и Zoom(отваря се в нов прозорец) отбелязаха, че GPT‑5.2 демонстрира съвременно разсъждаване с дългосрочна перспектива и ефективност при извикване на инструменти. Databricks(отваря се в нов прозорец), Hex(отваря се в нов прозорец) и Triple Whale(отваря се в нов прозорец) установиха, че GPT‑5.2 е изключителен при агентски задачи за наука за данни и анализ на документи. Cognition(отваря се в нов прозорец), Warp(отваря се в нов прозорец), Charlie Labs(отваря се в нов прозорец), JetBrains(отваря се в нов прозорец) и Augment Code(отваря се в нов прозорец) казват, че GPT‑5.2 предоставя най-съвременна агентска производителност при програмиране, с измерими подобрения в области като интерактивно програмиране, прегледи на код и откриване на грешки.

В ChatGPT, GPT‑5.2 Instant, Thinking и Pro ще започнат да се разпространяват днес, като се започне с платените планове. В API те вече са достъпни за всички разработчици.

Като цяло GPT‑5.2 внася значителни подобрения в общата интелигентност, разбирането на дълъг контекст, агентното извикване на инструменти и визията, което го прави по-добър в изпълнението на сложни реални задачи от край до край от всеки предишен модел.

Производителност на модела

Икономически ценни задачи

GPT‑5.2 Thinking е най-добрият модел досега за реална, професионална употреба. В GDPval, оценка, измерваща добре конкретизирани задачи, свързани със знания, в 44 професии, GPT‑5.2 Thinking поставя ново върхово постижение и е първият ни модел, който се представя на или над нивото на човешки експерт. По-конкретно, GPT‑5.2 Thinking надминава или е равностоен на водещите професионалисти в индустрията в 70,9% от сравненията на задачи, свързани със знания в GDPval, според експертни човешки оценители. Тези задачи включват създаване на представяния, електронни таблици и други артефакти. GPT‑5.2 Thinking произведе резултати за задачи в GDPval с над 11 пъти по-бързо и на по-малко от 1% от цената на експертни професионалисти, което предполага, че когато е съчетан с човешки надзор, GPT‑5.2 може да подпомага професионалната работа. Оценките за скорост и цена се базират на исторически данни; скоростта в ChatGPT може да варира.

В GDPval моделите се опитват да изпълнят добре конкретизирана работа със знания, обхващаща 44 професии от 9-те водещи индустрии, допринасящи за БВП на САЩ. Задачите изискват реални работни продукти, като например презентации за продажби, счетоводни електронни таблици, графици за спешна помощ, производствени диаграми или кратки видеоклипове. В ChatGPT GPT‑5.2 Thinking разполага с нови инструменти, които GPT‑5 Thinking не притежава.

При преглед на един особено добър резултат, един от съдиите на GDPval коментира: „Това е вълнуващ и забележим скок в качеството на резултата... [той] изглежда като направен от професионална компания с персонал и има изненадващо добре проектиран дизайн и съвети за двата доставени резултата, въпреки че при единия все още имаме някои малки грешки за коригиране.“

Освен това, на нашия вътрешен бенчмарк за задачи за моделиране на електронни таблици на младши анализатори в инвестиционното банкиране – като съставяне на модел с три отчета за компания от Fortune 500 с правилно форматиране и цитиране или изграждане на модел за изкупуване с ливъридж за поемане на частна собственост – средният резултат на GPT‑5.2 Thinking за задача е с 9,3% по-висок от този на GPT‑5.1, като нараства от 59,1% на 68,4%.

Сравненията едно до друго показват подобрена комплексност и форматиране в електронните таблици и слайдовете, генерирани от GPT‑5.2. Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Подкана: Създайте модел за планиране на работната сила: брой служители, план за наемане, текучество и въздействие върху бюджета. Включете инженерния, маркетинговия, правния и търговския отдел.

За да използвате новите възможности за електронни таблици и представяне в ChatGPT, трябва да сте на платен план и да изберете или GPT‑5.2 Thinking, или Pro. Произвеждането на сложни генерирания може да отнеме много минути.

Програмиране

GPT‑5.2 Thinking поставя нов стандарт от 55,6% на SWE-bench Pro, което представлява строго оценяване на софтуерно инженерство в реални условия. За разлика от SWE-bench Verified, който тества само Python, SWE-bench Pro тества четири езика и има за цел да бъде по-устойчив на замърсяване, по-затрудняващ, разнообразен и приложим в индустрията.

В SWE-bench Pro(отваря се в нов прозорец), на модела се предоставя хранилище с код и той трябва да генерира пач, за да реши реалистична задача по софтуерно инженерство.

На SWE-bench Verified (не е изобразено), GPT‑5.2 Thinking отбелязва новия ни рекорд от 80%.

За ежедневна професионална употреба това се изразява в модел, който може по-надеждно да отстранява грешки в производствения код, да изпълнява заявки за функции, да преработва големи кодови бази данни и да изпраща поправки от край до край с по-малко ръчна намеса.

GPT‑5.2 Thinking също е по-добър във front-end софтуерното инженерство от GPT‑5.1 Thinking. Първоначалните тестери установиха, че е значително по-силен при разработката на front-end и сложна или неконвенционална работа с потребителски интерфейси – особено когато се включват 3D елементи – което го прави мощен ежедневен партньор за инженерите в целия стек. Вижте няколко примера за това, което може да бъде създадено от една единствена подкана:

Подкана: Създай приложение от една страница в един HTML файл със следните изисквания:
- Име: Симулация на океански вълни
- Цел: Да се показват реалистични анимирани вълни.
- Характеристики: Промяна на скоростта на вятъра, височината на вълните, осветлението.
- Потребителският интерфейс трябва да е успокояващ и реалистичен.

Ранните тестери споделиха своята обратна връзка за възможностите за кодиране на GPT‑5.2:

„GPT-5.2 отбелязва най-големия напредък за моделите GPT в агентното кодиране от GPT-5 насам и е най-съвременният модел за програмиране в своя ценови диапазон. Обновяването на версията подценява скока в интелигентността. Развълнувани сме да го зададем като стандартна версия в Windsurf и няколко основни работни натоварвания на Devin.“
Джеф Уанг, главен изпълнителен директор, Windsurf

Фактичност

GPT‑5.2 Thinking халюцинира по-малко от GPT‑5.1 Thinking. При набор от деидентифицирани заявки от ChatGPT отговорите с грешки са 38% относително по-рядко срещани. За професионалистите това означава по-малко грешки при използването на модела за изследвания, писане, анализ и поддържане на вземането на решения, което прави модела по-надежден за ежедневна работа със знания.

Усилието за разсъждаване беше зададено на максимално наличното и инструмент за търсене беше активиран. Грешките са открити от други модели, които могат сами да допускат грешки. Процентът на грешките на ниво твърдения е много по-нисък от процента на грешките на ниво отговори, тъй като повечето отговори съдържат много твърдения.

Както всички модели, GPT‑5.2 Thinking е несъвършен. За всичко критично, направете двойна проверка на отговорите му.

Дълъг контекст

GPT‑5.2 Thinking установява ново състояние на техниката в областта на разсъжденията в дълъг контекст, като постига водещи резултати в OpenAI MRCRv2 – оценка, която проверява способността на модела да интегрира информация, разпределена в дълги документи. При задачи от реалния свят, като задълбочен анализ на документи, които изискват свързана информация от стотици хиляди токени, GPT‑5.2 Thinking е значително по-точен от GPT‑5.1 Thinking. По-специално, това е първият модел, който сме виждали, че постига почти 100% точност на варианта на MRCR с 4 игли (до 256k токена).

На практика това дава възможност на професионалистите да използват GPT‑5.2 за работа с дълги документи – като доклади, договори, научни статии, транскрипции и проекти с множество файлове – като поддържат съгласуваност и точност в стотици хиляди токени. Това прави GPT‑5.2 особено подходящ за задълбочен анализ, синтез и сложни работни процеси с множество източници.

В OpenAI-MRCR⁠(отваря се в нов прозорец) v2 (многокръгова ко-референтна резолюция), множество идентични потребителски заявки тип „игла“ се вмъкват в дълги „купи сено“ от подобни заявки и отговори, и от модела се изисква да възпроизведе отговора на n-тата игла. Версия 2 на оценката коригира ~5% от задачите, които имаха неправилни стойности на истината. Средното съотношение на съвпадение измерва средното съотношение на съвпадение на низовете между отговора на модела и правилния отговор. Точките при максималните входящи токени от 256k представляват средни стойности за 128k–256k входящи токени и така нататък. Тук 256k представлява 256 * 1024 = 262 114 входящи токена. Усилието за разсъждаване е зададено на максимално наличното.

За задачи, за които е полезно да се мисли извън максималния прозорец за контекст, GPT‑5.2 Thinking е съвместим с нашата нова крайна точка /compact за Responses, която разширява ефективния контекстуален прозорец на модела. Това позволява на GPT‑5.2 Thinking да се справя с по-инструментално натоварени, дълготрайни работни процеси, които иначе биха били ограничени от дължината на контекста. Прочетете повече в нашата API документация(отваря се в нов прозорец).

Визия

GPT‑5.2 Thinking е нашият най-мощен модел за визуално разсъждение досега, като намалява процента на грешки приблизително наполовина при анализ на графики и разбиране на софтуерни интерфейси.

За ежедневна професионална употреба това означава, че моделът може по-точно да интерпретира информационни панели, продуктови екранни снимки, технически диаграми и визуални доклади – в подкрепа на работните процеси в областта на финансите, операциите, инженерството, дизайна и поддръжката на клиенти, където визуалната информация е от основно значение.

В разсъждаването на CharXiv(отваря се в нов прозорец), моделите отговарят на въпроси относно визуални диаграми от научни статии. Активиран е инструмент на Python и усилието за разсъждаване е зададено на максимум.

В ScreenSpot-Pro(отваря се в нов прозорец) моделите трябва да разсъждават върху екранни снимки с висока резолюция на графични потребителски интерфейси от различни професионални среди. Включен е инструмент на Python и усилието за разсъждаване е зададено на максимум. Без инструмента Python резултатите са много по-ниски. Препоръчваме включването на инструмента Python при подобни визуални задачи.

В сравнение с предишните модели, GPT‑5.2 Thinking има по-силно разбиране за това как са разположени елементите в изображението, което помага при задачи, където относителното разположение играе ключова роля в решаването на проблема. В примера по-долу искаме от модела да идентифицира компонентите във въведено изображение (в този случай, дънна платка) и да върне етикети с приблизителни ограничителни кутии. Дори при изображение с ниско качество GPT‑5.2 идентифицира основните области и поставя кутии, които приблизително съответстват на действителните местоположения на всеки компонент, докато GPT‑5.1 само маркира няколко части и показва много по-слабо разбиране за тяхното пространствено разположение.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Извикване на инструмент

GPT‑5.2 Thinking постига ново съвременно ниво от 98,7% на теста Tau2-bench Telecom, демонстрирайки способността си за надеждно използване на инструменти при дълги, многоетапни задачи.

За чувствителни към забавяне случаи на употреба, GPT‑5.2 Thinking също се представя много по-добре при reasoning.effort=’none’, като значително превъзхожда GPT‑5.1 и GPT‑4.1.

В τ2-bench⁠(отваря се в нов прозорец) моделите използват инструменти, за да изпълняват задачи за поддръжка на клиенти в многократни взаимодействия със симулиран потребител. За Telecom домейна включихме кратка, общополезна инструкция в системната подкана, за да подобрим производителността. Изключваме подмножеството на авиокомпаниите поради по-нискокачественото оценяване на реалността.

За професионалистите това се изразява в по-ефективни цялостни работни процеси – например разрешаване на случаи на поддръжка на клиенти, извличане на данни от множество системи, извършване на анализи и генериране на крайни изходи с по-малко прекъсвания между отделните стъпки.

Например при задаване на сложен въпрос за обслужване на клиенти, който изисква разрешаване в няколко стъпки, моделът може по-ефективно да координира пълния работен процес между няколко агенти. В случая по-долу пътник докладва за закъснял полет, пропусната връзка, нощувка в Ню Йорк и изискване за медицинско седящо място. GPT‑5.2 управлява цялата верига от задачи – резервиране, сядане за специални нужди и компенсиране – като осигурява по-завършен резултат от GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Наука и математика

Една от нашите надежди за AI е, че той ще ускори научните изследвания в полза на всички. За тази цел работим с учени и ги изслушваме, за да разберем как AI може да ускори работата им, а миналия месец споделихме някои ранни съвместни експерименти тук.

Смятаме, че GPT‑5.2 Pro и GPT‑5.2 Thinking са най-добрите в света модели за подпомагане и ускоряване на учените. На GPQA Diamond, еталон за въпроси и отговори на ниво завършено образование, устойчив на търсене в Google, GPT‑5.2 Pro постига 93.2%, следван отблизо от GPT‑5.2 Thinking с 92,4%.

В GPQA Diamond(отваря се в нов прозорец) моделите отговарят на въпроси с избор между няколко отговора по физика, химия и биология. Не са активирани никакви инструменти и усилието за разсъждаване е зададено на максимум.

На FrontierMath (ниво 1–3), оценка на математиката на експертно ниво, GPT‑5.2 Thinking постави нов стандарт, решавайки 40,3% от задачите.

В FrontierMath(отваря се в нов прозорец) моделите решават задачи по математика на експертно ниво. Инструментът на Python е активиран и усилието за разсъждаване е зададено на максимум.

Започваме да виждаме как моделите с AI значително ускоряват напредъка в математиката и науката по осезаеми начини. Например, в скорошна работа с GPT‑5.2 Pro, изследователи разглеждаха отворен въпрос от теорията на статистическото обучение. В тясна, добре конкретизирана среда, моделът предложи доказателство, което впоследствие беше проверено от авторите и прегледано с външни експерти, илюстрирайки как авангардните модели могат да подпомогнат математическите изследвания под близък човешки надзор.

ARC-AGI 2

На ARC-AGI-1 (Verified), бенчмарк, създаден за измерване на общата способност за разсъждение, GPT‑5.2 е първият модел, който преминава прага от 90%, което е подобрение спрямо 87% от o3‑preview миналата година, като същевременно намалява разходите за постигане на тази производителност приблизително 390 пъти.

На ARC-AGI-2 (Verified), което повишава трудността и по-добре изолира плавното разсъждаване, GPT‑5.2 Thinking постига нов стандарт за модели на логическо мислене, отбелязвайки 52,9%. GPT‑5.2 Pro постига още по-високи резултати, достигайки 54,2%, като допълнително разширява способността на модела да разсъждава върху нови, абстрактни проблеми.

Подобренията в тези оценки отразяват по-силното многоетапно разсъждение на GPT‑5.2, по-голямата количествена точност и по-надеждното решаване на проблеми при сложни технически задачи.

Ето какво споделят нашите ранни тестери за GPT‑5.2:

„GPT-5.2 отключи цялостна промяна в архитектурата за нас. Ние обединихме крехка система с множество агенти в един мегаагент с над 20 инструмента. Най-хубавото е, че просто работи. Мегаагентът е по-бърз, по-интелигентен и 100 пъти по-лесен за поддръжка. Наблюдаваме драстично по-ниско забавяне, много по-силно извикване на инструменти и вече не се нуждаем от обширни системни подкани, защото 5.2 изпълнява безпроблемно с проста, едноредова подкана. Усеща се като чиста магия.
Ей Джей Орбах, главен изпълнителен директор на Triple Whale

GPT‑5.2 в ChatGPT

В ChatGPT потребителите би трябвало да забележат, че GPT‑5.2 е по-добър за ежедневна употреба – по-структуриран, по-надежден и все още приятен за разговори.

GPT‑5.2 Instant е бърз и способен инструмент за ежедневна работа и учене, с ясни подобрения в отговорите на въпроси за търсене на информация, ръководства и инструкции, техническо писане и превод, като надгражда по-топлия разговорен тон, въведен в GPT‑5.1 Instant. Ранните тестери специално отбелязаха по-ясните обяснения, които изтъкват ключова информация на преден план.

GPT‑5.2 Thinking е проектиран за по-задълбочена работа, като помага на потребителите да се справят с по-сложни задачи по по-изпипан начин – особено при програмиране, обобщаване на дълги документи, отговаряне на въпроси за качени файлове, решаване на математически и логически задачи стъпка по стъпка и подпомагане на планирането и вземането на решения с по-ясна структура и по-полезни детайли.

GPT‑5.2 Pro е нашият най-умен и най-надежден избор за трудни въпроси, при които отговорът с по-високо качество си заслужава чакането, като първоначалните тестове показват по-малко значителни грешки и по-добра производителност в сложни области като програмирането.

Безопасност

GPT‑5.2 надгражда върху изследванията за безопасно завършване, въведени с GPT‑5, което учи модела да дава най-полезния отговор, като същевременно остава в рамките на границите на безопасността.

С тази версия продължихме работата си по укрепване на отговорите на нашите модели при чувствителни разговори, със значителни подобрения в начина, по който те реагират на подкани, показващи признаци за самоубийство или самонараняване, проблеми с психичното здраве или емоционална зависимост от модела. Тези целенасочени интервенции доведоха до по-малко нежелани отговори както в GPT‑5.2 Instant, така и в GPT‑5.2 Thinking в сравнение с моделите GPT‑5.1 и GPT‑5 Instant и Thinking. Допълнителна информация можете да намерите в системната карта.

Ние сме в началните етапи на внедряване на нашия модел за прогнозиране на възрастта, за да можем автоматично да прилагаме защита на съдържанието за потребители под 18 години, с цел ограничаване на достъпа до чувствително съдържание. Това се основава на съществуващия ни подход към потребителите, за които знаем, че са под 18 години, и на нашите опции за родителски контрол.

GPT‑5.2 е една стъпка в продължаващата серия от подобрения и сме далеч от приключването. Въпреки че тази версия осигурява значителен напредък в интелигентността и производителността, ние знаем, че има области, в които хората искат повече. В ChatGPT работим по известни проблеми, като например прекалено много откази, като същевременно продължаваме да повишаваме нивото на безопасност и надеждност като цяло. Тези промени са сложни и ние се стремим да ги направим правилно.

Оценки на психичното здраве


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Психично здраве

0,995

0,883

0,915

0,684

Емоционална опора

0,938

0,945

0,955

0,785

Самонараняване

0,938

0,925

0,963

0,937

Наличност & ценообразуване

В ChatGPT ще започнем да разпространяваме GPT‑5.2 (Instant, Thinking и Pro) днес, като започнем с платените планове (Plus, Pro, Go, Business, Enterprise). Внедряваме GPT‑5.2 постепенно, за да поддържаме работата с ChatGPT възможно най-гладка и надеждна; ако не го видите веднага, Ви молим да опитате отново по-късно. В ChatGPT GPT‑5.1 ще бъде достъпен за платените потребители за три месеца в рамките на наследени модели, след което ще прекратим поддръжката на GPT‑5.1.

Именуване на модели в ChatGPT и API

ChatGPT

API (приложно-програмен интерфейс)

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

В нашата API платформа, GPT‑5.2 Thinking е наличен днес в Responses API и Chat Completions API като gpt-5.2, а GPT‑5.2 Instant – като gpt-5.2-chat-latest. GPT‑5.2 Pro е наличен в Responses API като gpt-5.2-pro. Разработчиците вече могат да задават параметъра за разсъждение в GPT‑5.2 Pro, а и GPT‑5.2 Pro, и GPT‑5.2 Thinking вече поддържат новото пето усилие за разсъждаване „xhigh“, за задачи, при които качеството е от най-голямо значение.

Цената на GPT‑5.2 е 1,75 USD/1 млн. входящи токена и 14 USD/1 млн. изходящи токена с 90% отстъпка за кеширани въвеждания. При множество агентски оценки установихме, че въпреки по-голямата цена на токен на GPT‑5.2, цената за постигане на дадено ниво на качество се оказа по-евтина благодарение на по-голямата ефективност на токените на GPT‑5.2.

Докато ценообразуването на абонамента за ChatGPT остава същото, в API GPT‑5.2 е с по-висока цена на токен в сравнение с GPT‑5.1, защото е по-способен модел. Цената му все още е под тази на други модели от най-висок клас, така че хората могат да продължат да го използват задълбочено в ежедневната си работа и основни приложения.

Цена на милион токени

Модел

Въвеждане

Кеширано въвеждане

Изход

gpt-5.2 / gpt-5.2-chat-latest

1,75 USD

0,175 USD

14 USD

gpt-5.2-pro

21 USD

-

168 USD

gpt-5.1 / gpt-5.1-chat-latest

1,25 USD

0,125 USD

10 USD

gpt-5-pro

15 USD

-

120 $

Понастоящем нямаме планове да прекратим използването на GPT‑5.1, GPT‑5, или GPT‑4.1 в API, и ще съобщим всички планове за прекратяване с достатъчно предварително уведомление за разработчиците. Въпреки че GPT‑5.2 ще работи добре в Codex, очакваме през следващите седмици да пуснем версия на GPT‑5.2, оптимизирана за Codex.

Нашите партньори

GPT‑5.2 беше създаден в сътрудничество с нашите дългогодишни партньори NVIDIA и Microsoft. Центровете за данни Azure и графичните процесори на NVIDIA, включително H100, H200 и GB200-NVL72, са в основата на мащабната инфраструктура за обучение на OpenAI, водеща до значителни подобрения в интелигентността на моделите. Заедно това сътрудничество ни позволява да мащабираме изчисления с увереност и да въвеждаме нови модели на пазара по-бързо.

Приложение

Подробни еталони

По-долу представяме изчерпателни резултати от бенчмарк тестовете за GPT‑5.2. Thinking, заедно с подмножество за GPT‑5.2 Pro.

Професионално
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Програмиране
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Фактичност
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Дълъг контекст
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Визия
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Използване на инструмент
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Академично
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Абстрактно разсъждаване
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Моделите бяха пуснати с максималното налично усилие за разсъждаване в нашия API („xhigh“ за GPT‑5.2 Thinking и Pro, и „high“ за GPT‑5.1 Thinking), с изключение на професионалните оценки, където GPT‑5.2 Thinking беше пуснат с усилие за разсъждаване „heavy“, максималното налично в ChatGPT Pro. Бенчмарковете бяха проведени в изследователска среда, което може да предостави леко различен резултат в сравнение с продукционния ChatGPT в някои случаи.

* За SWE-Lancer пропускаме 40/237 проблема, които не се изпълняват на нашата инфраструктура.

Автор

OpenAI