Прескокни до главната содржина
OpenAI

11 декември 2025 г.

ПроизводИздание

Претставување на GPT‑5.2

Најнапреден современт модел за професионална работа и долготрајни агенти.

Се вчитува...

Го претставуваме GPT‑5.2, најспособната серија модели досега за професионална работа со знаење.

Просечниот корисник на Организација ChatGPT вели дека вештачката интелигенција веќе му заштедува 40–60 минути дневно, а интензивните корисници велат дека им заштедува повеќе од 10 часа седмично. Го дизајниравме GPT‑5.2 за да отклучиме уште поголема економска вредност за луѓето; подобар е во креирањето електронски табели, изработка на презентации, пишување код, перцепирање слики, разбирање долги контексти, користење алатки и управување со сложени проекти во повеќе чекори.

GPT‑5.2 поставува ново ниво на достигнување во многу бенчмаркови, вклучувајќи го и GDPval, каде што ги надминува индустриските професионалци во добро специфицирани задачи со знаење кои опфаќаат 44 професии.


GPT‑5.2 Thinking 

GPT‑5.1 Thinking

GDPval (победи или се изедначи)
Работни задачи за знаење

70,9%

38,8% (GPT‑5)

SWE-Bench Pro (јавно)
Софтверско инженерство

55,6%

50,8%

SWE-bench Verified
Софтверско инженерство

80,0%

76,3%

GPQA Diamond (без алатки)
Научни прашања

92,4%

88,1%

CharXiv расудување (со Python)
Прашања за научни фигури

88,7%

80,3%

HMMT (февруари 2025 г.)
Математички турнир

99,4%

96,3%

FrontierMath (Ниво 1–3)
Напредна математика

40,3%

31,0%

ARC-AGI-1 (Verified)
Апстрактно расудување

86,2%

72,8%

ARC-AGI-2 (Verified)
Апстрактно расудување

52,9%

17,6%

Notion(се отвора во нов прозорец), Box(се отвора во нов прозорец), Shopify(се отвора во нов прозорец), Harvey(се отвора во нов прозорец) и Zoom(се отвора во нов прозорец) забележаа дека GPT‑5.2 демонстрира најсовремено долгорочно расудување и перформанси при повикување на алатки. Databricks(се отвора во нов прозорец), Hex(се отвора во нов прозорец) и Triple Whale(се отвора во нов прозорец) открија дека GPT‑5.2 е извонреден во агентска наука за податоци и задачи за анализа на документи. Cognition(се отвора во нов прозорец), Warp(се отвора во нов прозорец), Charlie Labs(се отвора во нов прозорец), JetBrains(се отвора во нов прозорец) и Augment Code(се отвора во нов прозорец) велат дека GPT‑5.2 обезбедува најсовремени агентски перформанси во кодирањето, со мерливи подобрувања во области, како што се интерактивно кодирање, прегледи на код и наоѓање грешки.

Во ChatGPT, GPT‑5.2 Instant, Thinking и Pro ќе почнат да се воведуваат денес, почнувајќи со платените планови. Во API, тие сега се достапни за сите развивачи на софтвер.

Во целина, GPT‑5.2 носи значителни подобрувања во општата интелигенција, разбирањето на долги контексти, агентското повикување на алатки и визијата – што го прави подобар во извршувањето на сложени, реални задачи од почеток до крај од кој било претходен модел.

Перформанси на моделот

Економски вредни задачи

GPT‑5.2 Thinking е најдобриот модел досега за реална, професионална употреба. На GDPval, евалуација која мери јасно дефинирани задачи за работа со знаење низ 44 професии, GPT‑5.2 Thinking поставува ново најсовремено ниво и е нашиот прв модел со резултати на или подобро од човечка експертиза. Конкретно, GPT‑5.2 Thinking ги победува или се изедначува со врвните индустриски професионалци во 70,9% од споредбите на задачите за знаење според GDPval, според експертите човечки судии. Овие задачи вклучуваат изработка на презентации, електронски табели и други артефакти. GPT‑5.2 Thinking произведе резултати за задачите на GDPval со брзина поголема од 11 пати и со трошоци помали од 1% од оние на експертите, што сугерира дека во комбинација со човечки надзор, GPT‑5.2 може да помогне во професионалната работа. Проценките за брзина и цена се засновани на историски метрики; брзината во ChatGPT може да варира.

Во GDPval, моделите прават обиди со добро дефинирана работа со знаење која опфаќа 44 професии од врвните 9 индустрии кои придонесуваат за БДП на САД. Задачите бараат реални работни производи, како што се продажни презентации, сметководствени табели, распореди за итна медицинска помош, производствени дијаграми или кратки видеа. Во ChatGPT, GPT‑5.2 Thinking има нови алатки што GPT‑5 Thinking ги нема.

Кога прегледуваше еден особено добар резултат, еден судија од GDPval искоментира: „Тоа е возбудлив и забележителен скок во квалитетот... изгледа како да е направено од професионална компанија со персонал и има изненадувачки добро дизајниран распоред и совети за двата продукти, иако кај едниот сè уште имаме некои мали грешки за корекција.“

Дополнително, со нашиот внатрешен бенчмарк за задачи за моделирање на електронски табели од страна на помлади аналитичари за инвестициско банкарство – како составување на модел со три финансиски извештаи за компанија Fortune 500 со правилно форматирање и цитирање, или изработка на модел за откуп со задолжување за отстранување од берза – просечниот резултат на GPT‑5.2 Thinking по задача е 9.3% повисок од оној на GPT‑5.1, со раст од 59,1% на 68,4%.

Паралелните споредби покажуваат подобра софистицираност и форматирање во електронските табели и слајдовите генерирани од GPT‑5.2 Thinking:

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Промпт: Креирај модел за планирање на работната сила: број на вработени, план за вработување, отсуства и влијание врз буџетот. Вклучи ги инженерскиот, маркетиншкиот, правниот и продажниот оддел.

За да ги користиш новите можности за електронски табеларни пресметки и презентација во ChatGPT, мора да бидеш на платен план и да избереш или GPT‑5.2 Thinking или Pro. Создавањето на сложени генерирања може да трае многу долго.

Coding

GPT‑5.2 Thinking поставува нов најсовремен репер од 55,6% на SWE-bench Pro, ригорозна евалуација на софтверско инженерство од реалниот свет. За разлика од SWE-bench Verified, кој тестира само Python, SWE-bench Pro тестира четири јазици и има за цел да биде поотпорен на контаминација, попредизвикувачки, поразновиден и индустриски релевантен.

Во SWE-bench Pro(се отвора во нов прозорец), на моделот му е дадено репозиториум на код и треба да генерира закрпа за да реши реална задача за софтверско инженерство.

На SWE-bench Verified (не е прикажано), GPT‑5.2 Thinking достигна ново највисоко ниво од 80%.

За секојдневна професионална употреба, ова се претвора во модел што може понадежно да отстранува грешки во продукциски код, да имплементира барања за функции, да рефакторира големи бази на кодови и да испорачува поправки од почеток до крај со помалку рачна интервенција.

GPT‑5.2 Thinking е исто така подобро во фронт-енд софтверското инженерство од GPT‑5.1 Thinking. Раните тестери го најдоа значително посилен во развојот на фронт-енд и сложена или неконвенционална работа со кориснички интерфејс – особено вклучувајќи 3D елементи – што го прави моќен дневен партнер за инженери низ целокупниот технолошки стек. Види неколку примери за тоа што може да се произведе од еден промпт:

Промпт: Креирај апликација со една страница во една HTML-датотека со следниве барања:
- Име: Симулација на океански бранови
- Цел: Прикажи реалистични анимирани бранови.
- Карактеристики: Промени ја брзината на ветерот, висината на брановите, осветлувањето.
- Корисничкиот интерфејс треба да биде смирувачки и реалистичен.

Првите тестери ги споделија своите повратни информации за способностите за кодирање на GPT‑5.2:

„GPT-5.2 претставува најголемиот напредок за GPT моделите во агентското кодирање од GPT-5 и е најсовремен модел за кодирање во својот ценовен опсег. Зголемувањето на верзијата е огромен скок во интелигенцијата. Возбудени сме што ќе го направиме да биде стандарден низ Windsurf и неколку основни работни процеси на Devin.“
Џеф Ванг, главен извршен директор, Windsurf

Фактичност

GPT‑5.2 Thinking халуцинира помалку од GPT‑5.1 Thinking. На сет од деидентификувани прашања од ChatGPT, одговорите со грешки беа 38%rel помалку чести. За професионалците, ова значи помалку грешки при користење на моделот за истражување, пишување, анализа и поддржува на одлуки – правејќи го моделот понадежен за секојдневна работа со знаење.

Напорот за расудување беше поставен на максимално достапно ниво и алатката за пребарување беше овозможена. Грешки беа откриени од други модели, кои можат и самите да прават грешки. Стапките на грешки на ниво на тврдење се многу пониски од стапките на грешки на ниво на одговор, бидејќи повеќето одговори содржат многу тврдења.

Како сите модели, GPT‑5.2 Thinking е несовршен. За сè што е критично, провери ги одговорите двапати.

Долг контекст

GPT‑5.2 Thinking поставува нов стандард во расудувањето со долг контекст, постигнувајќи водечки перформанси на OpenAI MRCRv2 – проценка која ја тестира способноста на моделот да интегрира информации распоредени низ долги документи. На задачи од реалниот свет како длабока анализа на документ, кои бараат поврзани информации преку стотици илјади токени, GPT‑5.2 Thinking е значително поточно од GPT‑5.1 Thinking. Особено, ова е првиот модел што сме го виделе кој постигнува речиси 100% точност на 4-needle MRCR варијантата (до 256 илјади токени).

Во практични термини, ова им овозможува на професионалците да го користат GPT‑5.2 за работа со долги документи – како што се извештаи, договори, истражувачки трудови, транскрипти и проекти со повеќе датотеки – додека се одржува кохерентност и точност низ стотици илјади tokenи. Ова го прави GPT‑5.2 особено добро прилагоден за длабинска анализа, синтеза и сложени работни текови од повеќе извори.

Во OpenAI-MRCR⁠(се отвора во нов прозорец) v2 (ко-референтна резолуција во повеќе рунди), повеќе идентични барања на корисниците од типот „игла“ се вметнуваат во долги „пластови сено“ со слични барања и одговори, а од моделот се бара да го репродуцира одговорот на n-тата игла. Верзијата 2 од евалуацијата поправа околу 5% од задачите што имале неточни вредности на вистинитоста на основата. Средниот сооднос на совпаѓање го мери просечниот сооднос на совпаѓање на низата помеѓу одговорот на моделот и точниот одговор. Бодовите на максимални 256 илјади влезни токени претставуваат просеци над 128 илјади – 256 илјади влезни токени, и така натаму. Тука, 256 илјади претставува 256 * 1024 = 262 114 токени. Напорот за расудување беше поставен на максималниот достапен.

За задачи што имаат корист од размислување надвор од максималниот контекстуален прозорец, GPT‑5.2 Thinking е компатибилен со нашата нова крајна точка Responses /compact, која го проширува ефективниот контекстуален прозорец на моделот. Ова му овозможува на GPT‑5.2 Thinking да се справува со работни процеси кои бараат повеќе алатки и се долготрајни, а кои инаку би биле ограничени од должината на контекстот. Прочитај повеќе во нашата API документација(се отвора во нов прозорец).

Визија

GPT‑5.2 Thinking е нашиот најсилен модел за визуелизација досега, намалувајќи ги стапките на грешки приближно на половина при расудување на графикони и разбирање на софтверски интерфејси.

За секојдневна професионална употреба, ова значи дека моделот може поточно да ги интерпретира контролни табли, сликите на производи, техничките дијаграми и визуелните извештаи – поддржувајќи работни текови во финансии, операции, инженерство, дизајн и корисничка поддршка каде визуелните информации се од централно значење.

Во CharXiv Reasoning(се отвора во нов прозорец), моделите одговараат на прашања за визуелни графикони од научни трудови. Алатката за Python беше овозможена и напорот за расудување беше поставен на максимум.

Во ScreenSpot-Pro(се отвора во нов прозорец), моделите мора да расудуваат за високорезолуциски слики од графички кориснички интерфејси од различни професионални средини. Алатката за Python беше овозможена и напорот за расудување беше поставен на максимум. Без алатката за Python, резултатите се многу пониски. Препорачуваме да ја овозможите алатката за Python на задачи за визија како овие.

Во споредба со претходните модели, GPT‑5.2 Thinking има посилно разбирање за тоа како елементите се позиционирани во рамките на слика, што помага во задачи каде релативниот распоред игра клучна улога во решавањето на проблемот. Во примерот подолу, го замолуваме моделот да ги идентификува компонентите на слика (во овој случај, матична плоча) и да даде етикети со приближни полиња. Дури и на слика со ниска резолуција, GPT‑5.2 ги идентификува главните региони и поставува полиња кои приближно одговараат на вистинските локации на секоја компонента, додека GPT‑5.1 само означува неколку делови и покажува многу послабо разбирање на нивниот просторен распоред.

GPT‑5.1
Example output of GPT-5.1 identifying components in an image
GPT‑5.2
Example output of GPT-5.2 identifying components in an image

Повикување алатки

GPT‑5.2 Thinking постигнува нова најсовремена состојба од 98,7% на Tau2-bench Telecom, демонстрирајќи ја својата способност за сигурно користење на алатки низ долги, повеќекратни задачи.

За случаи на употреба чувствителни на латентност, GPT‑5.2 Thinking исто така има многу подобри резултати во reasoning.effort=’none’, значително надминувајќи ги GPT‑5.1 и GPT‑4.1.

Во τ2-bench⁠(се отвора во нов прозорец), моделите користат алатки за да завршат задачи за поддршка на корисници во повеќекратна интеракција со симулиран корисник. За телекомуникацискиот домен, вклучивме кратка, генерално корисна инструкција во системскиот промпт за да ја подобриме изведбата. Го исклучуваме подмножество на авиокомпании поради понискиот квалитет на оценување на основната вистина.

За професионалците, ова се претвора во посилни работни процеси од почеток до крај – како што се решавање на случаи за поддршка на клиенти, извлекување податоци од повеќе системи, водење анализи и генерирање на конечни резултати со помалку поделби помеѓу чекорите.

На пример, кога поставуваш сложено прашање за корисничка поддршка кое бара решавање во повеќе чекори, моделот може поефективно да координира целосен работен тек преку повеќе агенти. Во случајот подолу, патникот пријавува одложен лет, пропуштена врска, ноќевање во Њујорк и медицински услов за седење. GPT‑5.2 управува со целиот синџир на задачи – повторни резервации, седишта за специјална помош и компензација – обезбедувајќи покомплетен резултат од GPT‑5.1.

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1
Example of tool calling output in GPT-5.1
GPT‑5.2
Example of tool calling output in GPT-5.2

Наука и математика

Една од нашите надежи за вештачката интелигенција е дека ќе го забрза научното истражување за доброто на сите. Во оваа насока, работиме и ги слушаме научниците за да видиме како вештачката интелигенција може да го забрза нивното работење, и минатиот месец споделивме некои рани заеднички експерименти тука.

Веруваме дека GPT‑5.2 Pro и GPT‑5.2 Thinking се најдобрите модели во светот за помош и забрзување на научниците. На GPQA Diamond, одредница за прашања и одговори на постдипломски студии, отпорен на Google, GPT‑5.2 Pro постигнува 93,2%, следен блиску од GPT‑5.2 Thinking на 92,4%.

Во GPQA Diamond(се отвора во нов прозорец), моделите одговараат на прашања со повеќе избори за физика, хемија и биологија. Никакви алатки не беа овозможени и напорот за расудување беше поставен на максимум.

На FrontierMath (ниво 1–3), евалуација на експертско ниво на математика, GPT‑5.2 Thinking постави нов стандард, решавајќи 40,3% од проблемите.

Во FrontierMath(се отвора во нов прозорец), моделите решаваат проблеми од експертско ниво во математиката. Python алатката беше овозможена и напорот за расудување беше поставен на максимум.

Почнуваме да гледаме како моделите на вештачка интелигенција значајно го забрзуваат напредокот во математиката и науката на опипливи начини. На пример, во неодамнешна работа со GPT‑5.2 Pro, истражувачите истражуваа отворено прашање во теоријата на статистичко учење. Во тесно, добро дефинирано опкружување, моделот предложи доказ кој потоа беше потврден од авторите и разгледан со надворешни експерти, илустрирајќи како најсовремените модели можат да помогнат во математичките истражувања под близок човечки надзор.

ARC-AGI 2

На ARC-AGI-1 (Verified), бенчмарк дизајниран за мерење на општата способност за расудување, GPT‑5.2 е првиот модел што ја надмина границата од 90%, подобрувајќи се од 87% од o3‑preview минатата година, намалувајќи го притоа трошокот за постигнување на тие перформанси за приближно 390×.

На ARC-AGI-2 (Verified), што ја зголемува тежината и подобро го изолира флуидното размислување, GPT‑5.2 Thinking постигнува ново достигнување за модели „синџир на размислување“, со резултат од 52,9%. GPT‑5.2 Pro постигнува уште повисоки резултати, достигнувајќи 54,2%, дополнително проширувајќи ја способноста на моделот за расудување преку нови, апстрактни проблеми.

Подобрувањата низ овие евалуации го одразуваат напредокот на GPT‑5.2 за посилно расудување со повеќе чекори, поголема квантитативна точност и понадежно решавање на проблеми на сложени технички задачи.

Еве што велат нашите први тестери за GPT‑5.2:

„GPT-5.2 за нас отклучи една целосна промена на архитектурата. Споивме кревок, повеќеагентски систем во еден мега-агент со повеќе од 20 алатки. Најдобро од сè е што едноставно функционира. Мега-агентот е побрз, попаметен и 100 пати полесен за одржување. Забележуваме драстично намалена латентност, многу посилно повикување на алатки, и веќе не ни се потребни обемни системски промптови бидејќи 5.2 извршува работа чисто од едноставен, еднолиниски промпт. Како чиста магија.“
A.J. Орбах, главен извршен директор на Triple Whale

GPT‑5.2 во ChatGPT

Во ChatGPT, корисниците треба да имаат предвид дека GPT‑5.2 се чувствува подобро во секојдневната употреба—поструктуриран е, понадежен е и сè уште е пријатен за разговор.

GPT‑5.2 Instant е брз и способен работник за секојдневна работа и учење, со јасни подобрувања во прашањата за барање информации, упатствата и водичите, техничкото пишување и преводот, градејќи врз попријатниот разговорен тон воведен во GPT‑5.1 Instant. Првите тестери особено забележаа појасни објаснувања кои ги изнесуваат клучните информации на почетокот.

GPT‑5.2 Thinking е дизајниран за подлабока работа, помагајќи корисникот да се справи со покомплексни задачи со поголема прецизност—особено за кодирање, сумирање на долги документи, одговарање на прашања за поставени датотеки, работење низ математика и логика чекор по чекор, и поддршка во планирање и донесување одлуки со појасна структура и покорисни детали.

GPT‑5.2 Pro е нашата најпаметна и најдоверлива опција за тешки прашања каде што одговорот со повисок квалитет вреди да се почека, со први тестирања кои покажуваат помалку големи грешки и посилни перформанси во сложени домени, како програмирање.

Безбедност

GPT‑5.2 се надоврзува на истражувањето за безбедно завршување што го воведовме со GPT‑5, кое го учи моделот да даде најкорисен одговор останувајќи притоа во рамките на безбедните граници.

Со ова издание, продолживме да работиме на зајакнување на одговорите на нашите модели во чувствителни разговори, со значајни подобрувања во начинот на кој тие одговараат на промпти што укажуваат на знаци на самоубиство или самоповредување, ментално здравје или емоционална зависност од моделот. Овие насочени интервенции резултираа со помалку несакани одговори и во GPT‑5.2 Instant и GPT‑5.2 Thinking во споредба со моделите GPT‑5.1 и GPT‑5 Instant и Thinking. Повеќе детали може да се најдат во системската картичка.

Се наоѓаме во раните фази на воведување на нашиот модел за предвидување на возраст за автоматски да примениме заштити на содржините за корисници под 18 години, со цел да го ограничиме пристапот до чувствителни содржини. Ова се надоврзува на нашиот постоечки пристап кон корисниците за кои знаеме дека се под 18 години и нашите родителски контроли.

GPT‑5.2 е еден чекор во тековната серија на подобрувања, а ние сме далеку од завршување. Иако ова издание носи значајни добивки во интелигенцијата и продуктивноста, знаеме дека има области каде што луѓето сакаат повеќе. Во ChatGPT, работиме на познати проблеми како што се преголемите одбивања, додека продолжуваме да го подигаме нивото на безбедност и доверливост во целина. Овие промени се сложени, а ние сме фокусирани на тоа да ги направиме како што треба.

Проценки на менталното здравје


GPT‑5.2
Instant

GPT‑5.1
Instant

GPT‑5.2
Thinking

GPT‑5.1
Thinking

Ментално здравје

0,995

0,883

0,915

0,684

Емоционална зависност

0,938

0,945

0,955

0,785

Самоповредување

0,938

0,925

0,963

0,937

Достапност и цени

Во ChatGPT, денес ќе започнеме со воведување на GPT‑5.2 (Instant, Thinking и Pro), почнувајќи со платените планови (Plus, Pro, Go, Business, Enterprise). Го распоредуваме GPT‑5.2 постепено за да може ChatGPT да функционира што е можно понепречено и посигурно; ако не го видиш веднаш, обиди се повторно подоцна. Во ChatGPT, GPT‑5.1 ќе биде достапен за платежни корисници три месеци под старите модели, по што ќе го укинеме GPT‑5.1.

Именување на моделите низ ChatGPT и API

ChatGPT

API

ChatGPT‑5.2 Instant

GPT‑5.2‑chat‑latest

ChatGPT‑5.2 Thinking

GPT‑5.2

ChatGPT‑5.2 Pro

GPT‑5.2 Pro

На нашата API платформа, GPT‑5.2 Thinking е достапен денес во Responses API и Chat Completions API како GPT‑5.2, и GPT‑5.2 Instant како gpt-5.2-chat-latest. GPT‑5.2 Pro е достапен во Responses API како gpt-5.2-pro. Развивачите на софтвери сега можат да го постават параметарот за расудување во GPT‑5.2 Pro, а и GPT‑5.2 Pro и GPT‑5.2 Thinking сега го поддржува новиот петти напор за расудување на xhigh, за задачи каде што квалитетот е најважен.

GPT‑5.2 чини 1,75 долари за 1 милион токени за внесување и 14 долари за 1 милион токени за резултати, со 90% попуст на кеширани внесувања. На повеќе агентски евалуации, откривме дека и покрај поголемата цена на GPT‑5.2 по токен, цената за постигнување на дадено ниво на квалитет беше поевтина поради поголемата ефикасност на токените на GPT‑5.2.

Додека цените за претплата на ChatGPT остануваат исти, во API GPT‑5.2 е ценет повисоко по токен од GPT‑5.1 затоа што е поспособен модел. Сè уште е поевтин од другите современи модели, така што луѓето можат да продолжат да го користат длабоко во нивната секојдневна работа и основни апликации.

Цена за милион токени

Модел

Внесување

Кеширано внесување

Резултат

GPT‑5.2 / GPT‑5.2‑chat‑latest

1,75 долари

0,175 долари

14 долари

gpt-5.2-pro

21 долари

-

168 долари

GPT‑5.1 / GPT‑5.1‑chat‑latest

1,25 долари

0,125 долари

10 долари

gpt-5-pro

15 долари

-

$120

Во моментов немаме планови да го отфрлиме GPT‑5.1, GPT‑5, или GPT‑4.1 во API и ќе ги соопштиме сите планови за отфрлање со доволно претходно известување за развивачи на софтвер. Додека GPT‑5.2 ќе работи добро веднаш во Codex, очекуваме да објавиме верзија на GPT‑5.2 оптимизирана за Codex во следните седмици.

Нашите партнери

GPT‑5.2 беше изграден во соработка со нашите долготрајни партнери NVIDIA и Microsoft. Azure центрите за податоци и графичките карти на NVIDIA, вклучувајќи ги H100, H200 и GB200-NVL72, ја поддржуваат инфраструктурата за обука на OpenAI во голем обем, овозможувајќи значителни придобивки во интелигенцијата на моделот. Заедно, оваа соработка ни овозможува да го зголемиме капацитетот за пресметување со самодоверба и да донесеме нови модели на пазарот побрзо.

Прилог

Детални одредници

Подолу ги прикажуваме сеопфатните резултати од бенчмаркот за GPT‑5.2 Thinking, заедно со подмножество за GPT‑5.2 Pro.

Професионално
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GDPval (ties allowed, wins or ties)70.9%74.1%38.8% (GPT-5)
GDPval (ties allowed, clear wins)49.8%60.0%35.5% (GPT-5)
GDPval (no ties)61.0%67.6%37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)68.4%71.7%59.1%
Coding
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
SWE-Bench Pro, Public55.6%-50.8%
SWE-bench Verified80.0%-76.3%
SWE-Lancer, IC Diamond*74.6%-69.7%
Фактичност
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ChatGPT answers without errors (w/ search)93.9%-91.2%
ChatGPT answers without errors (no search)88.0%-87.3%
Долг контекст
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k98.2%-65.3%
OpenAI MRCRv2, 8 needles, 8k–16k89.3%-47.8%
OpenAI MRCRv2, 8 needles, 16k–32k95.3%-44.0%
OpenAI MRCRv2, 8 needles, 32k–64k92.0%-37.8%
OpenAI MRCRv2, 8 needles, 64k–128k85.6%-36.0%
OpenAI MRCRv2, 8 needles, 128k–256k77.0%-29.6%
BrowseComp Long Context 128k92.0%-90.0%
BrowseComp Long Context 256k89.8%-89.5%
GraphWalks bfs <128k94.0%-76.8%
Graphwalks parents <128k89.0%-71.5%
Визија
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
CharXiv reasoning (no tools)82.1%-67.0%
CharXiv reasoning (w/ Python)88.7%-80.3%
MMMU Pro (no tools)79.5%--
MMMU Pro (w/ Python)80.4%-79.0%
Video MMMU (no tools)85.9%-82.9%
Screenspot Pro (w/ Python)86.3%-64.2%
Користење на алатки
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
Tau2-bench Telecom98.7%-95.6%
Tau2-bench Retail82.0%-77.9%
BrowseComp65.8%77.9%50.8%
Scale MCP-Atlas60.6%-44.5%
Toolathlon46.3%-36.1%
Академско
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
GPQA Diamond (no tools)92.4%93.2%88.1%
HLE (no tools)34.5%36.6%25.7%
HLE (w/ search, Python)45.5%50.0%42.7%
MMMLU89.6%-89.5%
HMMT, Feb 2025 (no tools)99.4%100.0%96.3%
AIME 2025 (no tools)100.0%100.0%94.0%
FrontierMath Tier 1–3 (w/ Python)40.3%-31.0%
FrontierMath Tier 4 (w/ Python)14.6%-12.5%
Апстрактно расудување
GPT-5.2 ThinkingGPT-5.2 ProGPT-5.1 Thinking
ARC-AGI-1 (Verified)86.2%90.5%72.8%
ARC-AGI-2 (Verified)52.9%54.2% (high)17.6%

Моделите беа извршени со максимален достапен напор за расудување во нашиот API (xhigh за GPT‑5.2 Thinking и Pro, и високо за GPT‑5.1 Thinking), освен за професионалните евалуации, каде што GPT‑5.2 Thinking беше извршен со тежок напор за расудување, максималното достапно во ChatGPT Pro. Бенчмарковите беа спроведени во истражувачка средина, што може да даде малку поинаков резултат од производната верзија на ChatGPT во некои случаи.

* За SWE-Lancer, изоставуваме 40/237 проблеми кои не работеа на нашата инфраструктура.

Автор

OpenAI