Մենք ներկայացնում ենք GPT‑5.2‑ը՝ մինչ օրս մեր ամենահզոր մոդելների շարքը՝ մասնագիտական տեղեկությունների աշխատանքի համար։
ChatGPT Enterprise-ի միջին օգտատերն արդեն ասում է, որ արհեստական բանականությունը իրենց խնայում է օրական 40-60 րոպե, իսկ ակտիվ օգտատերերը պնդում են, որ այն իրենց խնայում է շաբաթական ավելի քան 10 ժամ։ Մենք մշակել ենք GPT‑5.2‑ը՝ մարդկանց համար ավելի մեծ տնտեսական արժեք բացահայտելու համար. այն ավելի լավ է աղյուսակաթերթեր ստեղծելու, ներկայացումներ կազմելու, կոդ գրելու, պատկերներ ընկալելու, երկար համատեքստեր հասկանալու, գործիքներ օգտագործելու և բարդ, բազմաքայլ նախագծեր վարելու համար:
GPT‑5.2‑ը սահմանում է նոր չափանիշ բազմաթիվ ոլորտներում, այդ թվում՝ GDPval-ում, որտեղ այն գերազանցում է ոլորտի մասնագետներին 44 մասնագիտություններ ընդգրկող հստակ սահմանված գիտելիքահենք առաջադրանքների հարցում։
GPT‑5.2 Thinking | GPT‑5.1 Thinking | |
GDPval (հաղթանակներ կամ ոչ-ոքի) | 70,9% | 38,8% (GPT‑5) |
SWE-Bench Pro (հանրային) | 55,6% | 50,8% |
SWE-bench Verified | 80,0% | 76,3% |
GPQA Diamond (առանց գործիքների) | 92,4% | 88,1% |
CharXiv Հիմնավորում (Python-ով) | 88,7% | 80,3% |
HMMT (Փետրվար 2025) | 99,4% | 96,3% |
FrontierMath (1–3 մակարդակ) | 40,3% | 31,0% |
ARC-AGI-1 (Verified) | 86,2% | 72,8% |
ARC-AGI-2 (Verified) | 52,9% | 17,6% |
Notion-ը(բացվում է նոր պատուհանում), Box-ը(բացվում է նոր պատուհանում), Shopify-ը(բացվում է նոր պատուհանում), Harvey-ն(բացվում է նոր պատուհանում) և Zoom-ը(բացվում է նոր պատուհանում) նկատել են, որ GPT‑5.2‑ը ցուցադրում է ժամանակակից երկարաժամկետ հիմնավորման և գործիքների կանչման արդյունավետություն։ Databricks(բացվում է նոր պատուհանում)-ը, Hex(բացվում է նոր պատուհանում)-ը և Triple Whale(բացվում է նոր պատուհանում)-ը գտել են, որ GPT‑5.2‑ը բացառիկ է գործակալական տվյալների գիտության և փաստաթղթերի վերլուծության առաջադրանքներում: Cognition(բացվում է նոր պատուհանում)-ը, Warp(բացվում է նոր պատուհանում),-ը Charlie Labs(բացվում է նոր պատուհանում)-ը, JetBrains(բացվում է նոր պատուհանում)-ը և Augment Code(բացվում է նոր պատուհանում)-ը նշում են, որ GPT‑5.2‑ը ապահովում է նորագույն գործակալական կոդավորման կատարողականություն՝ չափելի բարելավումներով այնպիսի ոլորտներում, ինչպիսիք են ինտերակտիվ կոդավորումը, կոդի վերանայումները և սխալների հայտնաբերումը։
GPT‑5.2‑ը ChatGPT‑ում Instant, Thinking և Pro ծառայությունները կսկսեն գործարկվել այսօր՝ նախ վճարովի պլանների համար։ API-ում դրանք այժմ հասանելի են բոլոր ծրագրավորողներին։
Ընդհանուր առմամբ, GPT‑5.2‑ը զգալի բարելավումներ է բերում ընդհանուր ինտելեկտի, երկարատև համատեքստային ըմբռնման, գործակալական գործիքների կանչման և տեսլականի ոլորտներում՝ այն դարձնելով ավելի լավը բարդ, իրական աշխարհի առաջադրանքներ կատարելու համար, քան նախորդ ցանկացած մոդել։
GPT‑5.2 Thinking-ը մինչ օրս մեր լավագույն մոդելն է՝ իրական աշխարհի, մասնագիտական օգտագործման համար։ GDPval-ում, որը 44 մասնագիտությունների համար հստակ սահմանված տեղեկությունների աշխատանքային առաջադրանքներ չափող գնահատական է, GPT‑5.2 Thinking-ը սահմանում է նոր գերժամանակակից ցուցանիշ և մեր առաջին մոդելն է, որը գործում է մարդկային փորձագետի մակարդակով կամ ավելի բարձր։ Մասնավորապես, GPT‑5.2 Thinking-ը գերազանցում կամ հավասարվում է ոլորտի առաջատար մասնագետներին GDPval-ի տեղեկությունների աշխատանքային առաջադրանքների 70,9%-ում՝ փորձագետների կարծիքով։ Այս առաջադրանքները ներառում են ներկայացումներ, աղյուսակաթերթեր և այլ արտեֆակտներ։ GPT‑5.2 Thinking-ը արտադրել է արդյունքներ GDPval առաջադրանքների համար՝ >11 անգամ ավելի արագությամբ և <1% ծախսով, քան փորձագետ մասնագետները, ինչը ենթադրում է, որ երբ զուգակցվում է մարդկային վերահսկողության հետ, GPT‑5.2‑ը կարող է օգնել մասնագիտական աշխատանքում։ Արագության և ծախսի գնահատականները հիմնված են պատմական չափանիշների վրա. ChatGPT‑ում արագությունը կարող է փոփոխվել։
GDPval-ում մոդելները փորձում են լավ սահմանված տեղեկություններ պարունակող աշխատանք կատարել, որը ընդգրկում է 44 զբաղմունքներ ԱՄՆ ՀՆԱ-ին նպաստող 9 առաջատար արդյունաբերություններից։ Առաջադրանքները պահանջում են իրական աշխատանքային արդյունքներ, ինչպիսիք են վաճառքի ներկայացացումներ, հաշվապահական աղյուսակաթերթերը, հրատապ խնամքի ժամանակացույցերը, արտադրական դիագրամները կամ կարճ տեսանյութերը: ChatGPT‑ում GPT‑5.2 Thinking-ը ունի նոր գործիքներ, որոնք GPT‑5 Thinking-ը չունի:
Երբ վերանայում էինք մեկ հատկապես լավ արդյունք, GDPval-ի ժյուրիի անդամներից մեկը մեկնաբանեց. «Սա արդյունքի որակի հետաքրքիր և նկատելի աճ է... [այն] կարծես արվել է մասնագիտական ընկերության կողմից՝ անձնակազմով, և ունի զարմանալիորեն լավ մշակված դասավորություն և խորհուրդներ երկու արդյունքների համար, չնայած մեկի դեպքում մենք դեռ ունենք որոշ աննշան սխալներ, որոնք պետք է շտկել»։
Բացի այդ, մեր ներքին չափանիշով, կրտսեր ներդրումային բանկային վերլուծաբանների աղյուսակային մոդելավորման առաջադրանքների դեպքում, ինչպիսիք են Fortune 500 ընկերության համար ճիշտ ձևաչափմամբ և հղումներով եռահաշվարկային մոդելի կազմումը կամ մասնավոր սեփականության համար լծակային գնման մոդելի կառուցումը, GPT 5.2 Thinking-ի մեկ առաջադրանքի միջին միավորը 9,3%-ով ավելի բարձր է, քան GPT‑5.1‑ինը, աճելով 59,1%-ից մինչև 68,4%:
Համեմատական վերլուծությունը ցույց է տալիս ստեղծված աղյուսակներում և սահիկաշարերում մանրամասների և ձևաչափման բարելավում GPT‑5.2 Thinking-ում

Հարցում: Ստեղծիր աշխատուժի պլանավորման մոդել՝ աշխատակիցների քանակ, աշխատանքի ընդունման պլան, կրճատում և բյուջեի ազդեցություն։ Ներառիր ինժեներական, մարքեթինգի, իրավաբանական և վաճառքի բաժինները:
ChatGPT‑ում նոր աղյուսակների և ներկայացման հնարավորությունները օգտագործելու համար դուք պետք է ունենաք վճարովի պլան և ընտրեք GPT‑5.2 Thinking կամ Pro։ Բարդ գեներացիաները կարող են տևել բազմաթիվ րոպեներ՝ դրանք ստեղծվելու համար։
GPT‑5.2‑ի Thinking-ը SWE-bench Pro-ում սահմանում է 55,6% նոր մակարդակի ցուցանիշ, որը իրական աշխարհի ծրագրային ապահովման ճարտարագիտության խիստ գնահատում է։ Ի տարբերություն SWE-bench Verified-ի, որը միայն Python է փորձարկում, SWE-bench Pro-ն փորձարկում է չորս լեզուներ և նպատակ ունի լինել ավելի դիմացկուն աղտոտման նկատմամբ, ավելի մարտահրավերային, բազմազան և արդյունաբերական առումով կարևոր։
SWE-bench Pro(բացվում է նոր պատուհանում)-ում, մոդելին տրվում է կոդի պահոց, և նա պետք է գեներացնի պատչ՝ իրական ծրագրային ապահովման առաջադրանքը լուծելու համար։
SWE-bench Verified-ում (չնկարագրված), GPT‑5.2 Thinking-ը հասել է մեր նոր բարձր ցուցանիշին՝ 80%։
Ամենօրյա մասնագիտական օգտագործման համար սա վերածվում է մոդելի, որը կարող է ավելի հուսալի վրիպազերծել արտադրական կոդը, իրականացնել ֆունկցիոնալ պահանջները, վերափոխել մեծ կոդային բազաները և առաքել շտկումները սկզբից մինչև վերջ՝ ձեռքով նվազագույն միջամտությամբ։
GPT‑5.2 Thinking-ը նույնպես ավելի լավ է front-end ծրագրային ապահովման ճարտարագիտության մեջ, քան GPT‑5.1 Thinking-ը։ Վաղ փորձարկողները հայտնաբերեցին, որ այն զգալիորեն ավելի ուժեղ է front-end մշակման և բարդ կամ ոչ սովորական UI աշխատանքի մեջ՝ հատկապես 3D տարրեր ներառող, դարձնելով այն հզոր ամենօրյա գործընկեր ինժեներների համար բոլոր հարթակներում։ Տեսեք մի քանի օրինակներ, թե ինչ կարող է ստեղծվել մեկ հարցման միջոցով:
Հարցում: Ստեղծիր մեկ էջանոց հավելված մեկ HTML ֆայլում հետևյալ պահանջներով՝
- Անուն՝ Օվկիանոսային ալիքների մոդելավորում
- Նպատակ՝ Ցուցադրել իրականանման անիմացված ալիքներ։
- Գործառույթներ՝ Փոխել քամու արագությունը, ալիքի բարձրությունը, լուսավորությունը։
- UI-ը պետք է լինի հանգստացնող և իրականանման։
GPT‑5.2‑ի կոդավորման հնարավորությունների վերաբերյալ իրենց կարծիքը կիսեցին վաղ փորձարկողները.
«GPT-5.2-ը ներկայացնում է ամենամեծ առաջընթացը GPT մոդելների համար գործակալական կոդավորման մեջ՝ սկսած GPT-5-ից և հանդիսանում է իր գնային միջակայքում առաջատար կոդավորման մոդել։ Տարբերակի աճը թերագնահատում է ինտելեկտի աճի տեմպը։ Մենք ոգևորված ենք այն դարձնել Windsurf-ի և մի քանի հիմնական Devin ծանրաբեռնվածությունների համար կանխադրված»։
GPT‑5.2 Thinking-ը ավելի քիչ է հալյուցինացիաներ ունենում, քան GPT‑5.1 Thinking-ը։ ChatGPT‑ի ապանույնականացված հարցումների հավաքածուի վրա, սխալներով պատասխանները 38%հար ավելի քիչ էին հանդիպում։ Մասնագետների համար սա նշանակում է ավելի քիչ սխալներ մոդելը օգտագործելիս հետազոտության, գրելու, վերլուծության և որոշումների աջակցության ժամանակ՝ դարձնելով մոդելը ավելի հուսալի ամենօրյա տեղեկությունների աշխատանքի համար:
Հիմնավորման ջանքը սահմանվել է առավելագույն հասանելի մակարդակի վրա, և որոնման գործիքը միացվել է։ Այլ մոդելների կողմից հայտնաբերվել են սխալներ, որոնք կարող են իրենք էլ սխալներ թույլ տալ։ Հայցի մակարդակի սխալի ցուցանիշները շատ ավելի ցածր են, քան պատասխանի մակարդակի սխալի ցուցանիշները, քանի որ պատասխանների մեծ մասը պարունակում են բազմաթիվ հայցեր։
Ինչպես բոլոր մոդելները, GPT‑5.2 Thinking-ը անկատար է։ Ցանկացած կարևոր բանի համար կրկնակի ստուգեք դրա պատասխանները։
GPT‑5.2‑ի Thinking-ը սահմանում է նոր գերժամանակակից մակարդակ երկար համատեքստային դատողության մեջ՝ հասնելով առաջատար կատարողականի OpenAI MRCRv2-ում՝ գնահատում, որը ստուգում է մոդելի կարողությունը ինտեգրելու երկար փաստաթղթերում տարածված տեղեկատվությունը: Իրական աշխարհի առաջադրանքների վրա, ինչպիսիք են փաստաթղթերի խորը վերլուծությունը, որոնք պահանջում են հարակից տեղեկատվություն հարյուր հազարավոր token-ների միջով, GPT‑5.2 Thinking-ը էապես ավելի ճշգրիտ է, քան GPT‑5.1 Thinking-ը։ Մասնավորապես, սա մեր տեսած առաջին մոդելն է, որը հասնում է գրեթե 100% ճշգրտության 4-ասեղանի MRCR տարբերակի վրա (մինչև 256 հազար տոկեն):
Գործնական առումով, սա միացնում է մասնագետներին օգտագործել GPT‑5.2‑ը՝ աշխատելու երկար փաստաթղթերի հետ, ինչպիսիք են հաշվետվությունները, պայմանագրերը, հետազոտական աշխատանքները, սղագրությունները և բազմաֆայլեր նախագծերը՝ պահպանելով համահունչությունը և ճշգրտությունը հարյուր հազարավոր token-ների ընթացքում: Սա GPT‑5.2‑ը դարձնում է հատկապես հարմար խորը վերլուծության, սինթեզի և բարդ բազմաղբյուր աշխատանքային հոսքերի համար։
OpenAI-MRCR(բացվում է նոր պատուհանում) v2-ում (բազմափուլ համատեղ հղման լուծաչափ), բազմաթիվ նույնական «ասեղանման» օգտատիրոջ հարցումները տեղադրվում են նմանատիպ հարցումների և պատասխանների երկար «խոտի կույտերի» մեջ, և մոդելից խնդրվում է վերարտադրել n-րդ ասեղի պատասխանը: Գնահատման 2-րդ տարբերակը շտկում է սխալ իրական արժեքներ ունեցող առաջադրանքների մոտ 5%-ը: Միջին համապատասխանության հարաբերակցությունը չափում է մոդելի պատասխանի և ճիշտ պատասխանի միջև տողերի միջին համապատասխանության հարաբերակցությունը: Առավելագույն 256 հազար մուտքային տոկենների միավորները ներկայացնում են միջին արժեքներ 128 հազարից մինչև 256 հազար մուտքային թոքենների համար և այլն: Այստեղ 256 հազարը ներկայացնում է 256 * 1024 = 262 114 թոքեն: Հիմնավորումների ջանքերը սահմանվել են առավելագույն հասանելիության վրա:
Առավելագույն համատեքստային պատուհանից այն կողմ մտածելուց օգուտ քաղող առաջադրանքների համար՝ GPT‑5.2 Thinking-ը համատեղելի է մեր նոր Responses /compact վերջնակետի հետ, որը մեծացնում է մոդելի արդյունավետ համատեքստային պատուհանը։ Սա թույլ է տալիս GPT‑5.2 Thinking-ին կարգավորել ավելի բարդ և ժամանակատար աշխատանքային հոսքեր, որոնք այլապես կսահմանափակվեին համատեքստի տևողությամբ։ Կարդացեք ավելին մեր API փաստաթղթերում(բացվում է նոր պատուհանում)։
GPT‑5.2 Thinking-ը մեր ամենաուժեղ վիզուալ մոդելն է մինչ այժմ՝ կիսով չափ կրճատելով սխալների տոկոսադրույքը գծապատկերների հիմնավորման և ծրագրային ապահովման ինտերֆեյսի ըմբռնման ժամանակ։
Ամենօրյա մասնագիտական օգտագործման համար սա նշանակում է, որ մոդելը կարող է ավելի ճշգրիտ մեկնաբանել կառավարման վահանակները, պրոդուկտի սքրինշոթները, տեխնիկական դիագրամները և վիզուալ հաշվետվությունները՝ աջակցելով ֆինանսների, գործառնությունների, ինժեներիայի, դիզայնի և հաճախորդների աջակցման աշխատանքային հոսքերին, որտեղ վիզուալ տեղեկատվությունը կենտրոնական դեր ունի։
CharXiv Reasoning(բացվում է նոր պատուհանում)-ում մոդելները պատասխանում են գիտական հոդվածների վիզուալ գծապատկերների վերաբերյալ հարցերին։ Python գործիքը միացվել է, և հիմնավորման ջանքը սահմանվել է առավելագույնի։
ScreenSpot-Pro(բացվում է նոր պատուհանում) հարթակում մոդելները պետք է հիմնավորեն տարբեր մասնագիտական միջավայրերից բարձր լուծաչափով գրաֆիկական օգտագործողի միջերեսների սքրինշոթները։ Միացվել է Python գործիքը, և հիմնավորման ջանքերը սահմանվել են առավելագույնի։ Առանց Python գործիքի, գնահատականները շատ ավելի ցածր են։ Մենք խորհուրդ ենք տալիս միացնել Python գործիքը նման տեսողական առաջադրանքների համար։
Համեմատած նախորդ մոդելների հետ՝ GPT‑5.2‑ը Thinking-ը ավելի ուժեղ է հասկանում, թե ինչպես են տարրերը տեղադրված պատկերում, ինչը օգնում է այն առաջադրանքներում, որտեղ հարաբերական դասավորությունը կարևոր դեր է խաղում խնդրի լուծման մեջ։ Ստորև բերված օրինակում մենք խնդրում ենք մոդելին նույնականացնել բաղադրիչները պատկերի մուտքագրման մեջ (այս դեպքում՝ հիմնահարթակում) և վերադարձնել մոտավոր սահմանային վանդակներով պիտակներ։ Նույնիսկ ցածր որակի պատկերում GPT‑5.2‑ը ճանաչում է հիմնական տարածքները և տեղադրում տուփեր, որոնք մոտավորապես համապատասխանում են յուրաքանչյուր բաղադրիչի իրական տեղադրությանը, մինչդեռ GPT‑5.1‑ը միայն պիտակավորում է մի քանի մասեր և ցույց է տալիս դրանց տարածական դասավորության շատ ավելի թույլ ըմբռնում։
GPT‑5.1

GPT‑5.2

GPT‑5.2 Thinking-ը Tau2-bench Telecom-ում հասնում է 98,7% նոր մակարդակի՝ ցուցադրելով գործիքները հուսալիորեն օգտագործելու իր կարողությունը երկար, բազմակի հերթափոխով առաջադրանքներում։
Հապաղման զգայուն կիրառման դեպքերի համար GPT‑5.2 Thinking-ը նաև շատ ավելի լավ է աշխատում reassoning.effort=’none’ դեպքում՝ էականորեն գերազանցելով GPT‑5.1‑ին և GPT‑4.1‑ին։
τ2-bench(բացվում է նոր պատուհանում) հարթակում մոդելները օգտագործում են գործիքներ՝ հաճախորդների աջակցման առաջադրանքները կատարելու համար բազմակողմանի փոխազդեցության միջոցով սիմուլացված օգտատերի հետ։ Հեռահաղորդակցության տիրույթում մենք ներառեցինք կարճ, ընդհանուր առմամբ օգտակար հրահանգ համակարգի հարցման մեջ՝ կատարողականությունը բարձրացնելու համար։ Մենք բացառեցինք ավիաընկերությունների ենթաբաժինը՝ ցածր որակի հիմնային ճշմարտության գնահատման պատճառով։
Մասնագետների համար սա նշանակում է ավելի ուժեղ ամբողջական աշխատանքային հոսքեր, ինչպիսիք են հաճախորդների աջակցության գործերի լուծումը, բազմաթիվ համակարգերից տվյալների ստացումը, վերլուծությունների իրականացումը և վերջնական արդյունքների ստեղծումը՝ քայլերի միջև ավելի քիչ բաժանումներով։
Օրինակ, երբ հարցնում եք բարդ հաճախորդների սպասարկման հարց, որը պահանջում է բազմաքայլ լուծում, մոդելը կարող է ավելի արդյունավետ կերպով համակարգել ամբողջ աշխատանքային հոսքը մի քանի ագենտների միջև։ Ստորև ներկայացված դեպքի մեջ, ճանապարհորդը հաղորդում է ուշացած թռիչքի, բաց թողած կապի, Նյու Յորքում գիշերակացի և բժշկական նստատեղի պահանջի մասին։ GPT‑5.2‑ը կառավարում է առաջադրանքների ամբողջ շղթան՝ վերագրանցում, հատուկ օգնության նստատեղեր և փոխհատուցում՝ ապահովելով ավելի ամբողջական արդյունք, քան GPT‑5.1‑ը։
GPT‑5.1

GPT‑5.2

Մեր հույսերից մեկն այն է, որ ԱԲ-ն կօգնի արագացնել գիտական հետազոտությունները՝ ի շահ բոլորի։ Այս ուղղությամբ մենք աշխատել ենք և լսել գիտնականներին՝ հասկանալու, թե ինչպես կարող է արհեստական բանականությունը արագացնել նրանց աշխատանքը, և անցյալ ամիս մենք այստեղ կիսվել ենք որոշ վաղ համագործակցային փորձերով։
Մենք հավատում ենք GPT‑5.2 Pro և GPT‑5.2 Thinking-ը աշխարհի լավագույն մոդելներն են՝ գիտնականներին օգնելու և նրանց աշխատանքը արագացնելու համար։ GPQA Diamond-ում, որը Google-ի ապացույցների հարցուպատասխանի համալսարանական մակարդակի չափանիշ է, GPT‑5.2 Pro-ն հավաքել է 93,2% արդյունք, որին հաջորդում է GPT‑5.2 Thinking-ը՝ 92,4%-ով։
GPQA Diamond(բացվում է նոր պատուհանում) -ում, մոդելները պատասխանում են ֆիզիկայի, քիմիայի և կենսաբանության բազմակի ընտրության հարցերին։ Գործիքներ միացված չէին, և հիմնավորման ջանքերը սահմանված էին առավելագույնի։
FrontierMath-ում (1-3 մակարդակներ), փորձագիտական մակարդակի մաթեմատիկայի գնահատում, GPT‑5.2 Thinking-ը սահմանեց նոր չափանիշ՝ լուծելով խնդիրների 40.3%-ը:
FrontierMath(բացվում է նոր պատուհանում)-ում մոդելները լուծում են փորձագիտական մակարդակի մաթեմատիկական խնդիրներ։ Միացվել է Python գործիքը, և հիմնավորման ջանքերը սահմանվել են առավելագույնի։
Մենք սկսում ենք տեսնել, թե ինչպես են ԱԲ մոդելները էականորեն արագացնում առաջընթացը մաթեմատիկայի և գիտության ոլորտներում՝ շոշափելի ձևերով: Օրինակ, վերջին աշխատանքում GPT‑5.2 Pro-ով, հետազոտողները ուսումնասիրեցին վիճակագրական ուսուցման տեսության բաց հարցը։ Նեղ, լավ սահմանված միջավայրում մոդելը առաջարկեց ապացույց, որը հետագայում հաստատվեց հեղինակների կողմից և վերանայվեց արտաքին փորձագետների հետ՝ ցույց տալով, թե ինչպես կարող են առաջնային մոդելները աջակցել մաթեմատիկական հետազոտություններին՝ մարդու խիստ հսկողության ներքո։
ARC-AGI-1 (Verified)-ում, որը նախատեսված է ընդհանուր դատողության կարողությունը չափելու համար, GPT‑5.2‑ը առաջին մոդելն է, որը հատել է 90% շեմը՝ բարելավվելով նախորդ տարվա o3‑preview‑ի 87%-ի համեմատ, միաժամանակ կրճատելով այդ ցուցանիշին հասնելու արժեքը մոտավորապես 390 անգամ։
ARC-AGI-2 (Verified)üում, որը բարձրացնում է դժվարության մակարդակը և ավելի լավ է մեկուսացնում հոսուն himnavw8wumz, GPT‑5.2 Thinking-ը մտքի շղթայական մոդելների համար հասնում է արվեստի նոր մակարդակի՝ հավաքելով 52,9% արդյունք։ GPT‑5.2 Pro-ն ավելի բարձր է կատարում՝ հասնելով 54.2%-ի, ավելի ընդլայնելով մոդելի կարողությունը՝ նոր, աբստրակտ խնդիրների միջոցով հիմնավորելու։
Այս գնահատականների բարելավումները արտացոլում են GPT‑5.2‑ի ավելի ուժեղ բազմաստիճան հիմնավորում, ավելի մեծ քանակական ճշգրտություն և ավելի հուսալի խնդիրների լուծում բարդ տեխնիկական առաջադրանքների վրա։
Ահա թե ինչ են ասում մեր վաղ փորձարկողները GPT‑5.2‑ի մասին:
«GPT-5.2-ը մեզ համար բացեց ամբողջական ճարտարապետական փոփոխություն։ Մենք փխրուն, բազմաագենտային համակարգը վերածեցինք մեկ մեգաագենտի՝ 20+ գործիքներով։ Լավագույն մասը այն է, որ այն պարզապես աշխատում է։ Մեգա-ագենտը ավելի արագ է, ավելի խելացի և 100 անգամ ավելի հեշտ է պահպանել։ Մենք տեսնում ենք հապաղման զգալի նվազում, գործիքների ավելի ուժեղ կանչում, և մեզ այլևս անհրաժեշտ չեն լայնածավալ համակարգային հարցումներ, քանի որ 5.2-ը կկատարի մաքուր աշխատանք՝ պարզ, մեկ տողանոց հարցումով: Այն իսկապես կախարդանք է»։
ChatGPT‑ում օգտատերերը պետք է նկատեն, որ PT-5.2-ը ավելի հարմար է ամենօրյա օգտագործման համար՝ ավելի կառուցվածքային, ավելի հուսալի և միևնույն ժամանակ հաճելի է զրուցելը։
GPT‑5.2 Instant -ը արագ և ունակ աշխատանքային գործիք է ամենօրյա աշխատանքի և ուսուցման համար՝ ակնհայտ բարելավումներով տեղեկատվություն որոնող հարցերում, ինչպես անել և քայլ առ քայլ ուղեցույցներում, տեխնիկական գրություններում և թարգմանություններում՝ հիմնվելով GPT‑5.1 Instant-ի ներմուծած ավելի ջերմ զրույցային տոնի վրա: Վաղ փորձարկողները հատկապես նշեցին ավելի հստակ բացատրությունները, որոնք առաջնային տեղեկությունները ներկայացնում են անմիջապես։
GPT‑5.2 Thinking -ը նախատեսված է ավելի խորացված աշխատանքի համար՝ օգնելով օգտատերերին ավելի բարդ առաջադրանքներ կատարել ավելի հմտորեն, մասնավորապես՝ կոդավորման, երկար փաստաթղթերի ամփոփման, վերբեռնված ֆայլերի վերաբերյալ հարցերին պատասխանելու, մաթեմատիկայի և տրամաբանության հետ քայլ առ քայլ աշխատելու, ինչպես նաև պլանավորմանն ու որոշումներին ավելի հստակ կառուցվածքով և ավելի օգտակար մանրամասներով աջակցելու համար։
GPT‑5.2 Pro-ն մեր ամենախելացի և ամենավստահելի տարբերակն է բարդ հարցերի համար, որտեղ բարձրորակ պատասխանն արժե սպասել, և վաղ փորձարկումները ցույց են տալիս ավելի քիչ խոշոր սխալներ և ավելի ուժեղ կատարողականություն բարդ տիրույթներում, ինչպիսիք են ծրագրավորումը։
GPT‑5.2‑ը հիմնվում է անվտանգ ավարտի հետազոտության վրա, որը մենք ներկայացրեցինք GPT‑5‑ի հետ, որը սովորեցնում է մոդելին տալ ամենաօգտակար պատասխանը՝ միևնույն ժամանակ մնալով անվտանգության սահմաններում։
Այս թողարկմամբ մենք շարունակեցինք մեր աշխատանքը՝ ուժեղացնելու մեր մոդելների արձագանքները զգայուն խոսակցություններում, զգալի բարելավումներով, թե ինչպես են դրանք արձագանքում ինքնասպանության կամ ինքնավնասման նշաններ, հոգեկան առողջության սթրես կամ մոդելի վրա հուզական կախվածություն ցույց տվող հարցումներին: Այս նպատակային միջամտությունները հանգեցրել են ավելի քիչ անցանկալի արձագանքների և՛ GPT‑5.2 Instant և GPT‑5.2 Thinking մոդելներում՝ համեմատած GPT‑5.1 և GPT‑5 Instant և Thinking մոդելների հետ։ Լրացուցիչ մանրամասներին կարելի է ծանոթանալ համակարգի քարտում։
Մենք գտնվում ենք մեր տարիքի կանխատեսման մոդելի տարածման վաղ փուլերում, որպեսզի ավտոմատ կերպով կիրառենք բովանդակության պաշտպանություն 18 տարեկանից ցածր օգտատերերի համար՝ սահմանափակելու զգայուն բովանդակությանը հասանելիությունը։ Սա հիմնված է մեր առկա մոտեցման վրա այն օգտատերերի նկատմամբ, որոնց մենք գիտենք, որ 18 տարեկանից ցածր են, ինչպես նաև մեր ծնողական վերահսկողության վրա։
GPT‑5.2‑ը շարունակական բարելավումների շարքի մեկ քայլն է, և մենք դեռ շատ բան ունենք անելու։ Թեև այս թողարկումը ապահովում է իմաստալից ձեռքբերումներ բանականության և արտադրողականության մեջ, մենք գիտենք, որ կան ոլորտներ, որտեղ մարդիկ ավելի շատ են ցանկանում։ ChatGPT‑ում մենք աշխատում ենք հայտնի խնդիրների վրա, ինչպիսիք են չափից շատ մերժումները՝ միևնույն ժամանակ շարունակելով բարձրացնել անվտանգության և հուսալիության ընդհանուր մակարդակը։ Այս փոփոխությունները բարդ են, և մենք կենտրոնացած ենք դրանք ճիշտ կատարելու վրա։
GPT‑5.2 | GPT‑5.1 | GPT‑5.2 | GPT‑5.1 | |
Հոգեկան առողջություն | 0,995 | 0,883 | 0,915 | 0,684 |
Զգացմունքային հենվածություն | 0,938 | 0,945 | 0,955 | 0,785 |
Ինքնավնասում | 0,938 | 0,925 | 0,963 | 0,937 |
ChatGPT‑ում մենք այսօր կսկսենք տարածել GPT‑5.2‑ը (Instant, Thinking և Pro)՝ սկսելով վճարովի պլաններից (Plus, Pro, Go, Business, Enterprise): Մենք GPT‑5.2‑ը տեղակայում ենք աստիճանաբար՝ ChatGPT‑ը հնարավորինս սահուն և հուսալի պահելու համար։ Եթե սկզբում այն չեք տեսնում, խնդրում ենք կրկին փորձել։ ChatGPT‑ում GPT‑5.1‑ը վճարովի օգտատերերի համար հասանելի կլինի երեք ամիս՝ հին մոդելների դեպքում, որից հետո մենք կդադարեցնենք GPT‑5.1‑ի օգտագործումը։
ChatGPT | API |
ChatGPT‑5.2 Instant | GPT‑5.2‑chat‑latest |
ChatGPT‑5.2 Thinking | GPT‑5.2 |
ChatGPT‑5.2 Pro | GPT‑5.2 Pro |
Մեր API հարթակում GPT‑5.2 Thinking-ը հասանելի է այսօր Responses API-ում և Chat Completions API-ում որպես gpt-5.2, և GPT‑5.2 Instant-ը որպես gpt-5.2-chat-latest։ GPT‑5.2 Pro-ն հասանելի է Responses API-ում որպես gpt-5.2-pro։ Ծրագրավորողները այժմ կարող են սահմանել հիմնավորման պարամետրը GPT‑5.2 Pro-ում, և թե՛ GPT‑5.2 Pro-ն, թե՛ GPT‑5.2 Thinking-ը այժմ աջակցում են xhigh-ի նոր հինգերորդ դատողության ջանքին՝ այն առաջադրանքների համար, որտեղ որակն ամենակարևորն է։
GPT‑5.2‑ի գինը կազմում է $1,75/1 միլիոն մուտքային թոքենի համար և $14/1 միլիոն արտածման թոքենի համար՝ 90% զեղչով քեշավորված մուտքագրումների համար։ Բազմաթիվ գործակալական գնահատականների ժամանակ մենք հայտնաբերեցինք, որ պարզեցինք, որ չնայած GPT‑5.2‑ի մեկ թոքենի ավելի բարձր արժեքին, որակի որոշակի մակարդակի հասնելու ծախսն ի վերջո ավելի էժան էր՝ GPT‑5.2‑ի թոքենի ավելի բարձր արդյունավետության շնորհիվ։
Չնայած ChatGPT‑ի բաժանորդագրության գները մնում են անփոփոխ, API-ում GPT‑5.2‑ի գինը մեկ token-ի համար ավելի բարձր է, քան GPT‑5.1‑ի, քանի որ այն ավելի ունակ մոդել է։ Դա դեռևս գներով ցածր է այլ առաջնային մոդելներից, ուստի մարդիկ կարող են շարունակել այն խորապես օգտագործել իրենց ամենօրյա աշխատանքում և հիմնական հավելվածներում։
Մոդել | Մուտքագրում | Քեշավորված մուտքագրում | Արդյունք |
GPT‑5.2 / GPT‑5.2‑զրույց‑latest | $1,75 | $0,175 | $14 |
gpt-5.2-pro | $21 | - | $168 |
GPT‑5.1 / GPT‑5.1‑զրույց‑latest | $1.25 | $0,125 | $10 |
gpt-5-pro | $15 | - | $120 |
Մենք ներկայումս API-ում GPT‑5.1, GPT‑5 կամ GPT‑4.1‑ը հանելու ծրագրեր չունենք և ցանկացած հանման ծրագրերի մասին կտեղեկացնենք ծրագրավորողներին՝ նախապես բավարար ծանուցում ուղարկելով։ Մինչ GPT‑5.2‑ը լավ կաշխատի Codex-ում առանց փոփոխությունների, մենք ակնկալում ենք, որ առաջիկա շաբաթներին կթողարկենք GPT‑5.2‑ի տարբերակ, որը օպտիմալացված կլինի Codex-ի համար։
GPT‑5.2‑ը ստեղծվել է մեր երկարամյա գործընկերների՝ NVIDIA-ի և Microsoft-ի հետ համագործակցությամբ: Azure տվյալների կենտրոնները և NVIDIA GPU-ները, ներառյալ H100, H200 և GB200-NVL72, հիմք են հանդիսանում OpenAI-ի մասշտաբային ուսուցման ենթակառուցվածքի համար՝ ապահովելով մոդելի ինտելեկտի զգալի աճ։ Այս համագործակցությունը թույլ է տալիս մեզ վստահորեն մասշտաբավորել հաշվարկային հզորությունները և ավելի արագ նոր մոդելներ ներկայացնել շուկա։
Ստորև ներկայացնում ենք GPT‑5.2 Thinking-ի համապարփակ չափանիշային միավորները, ինչպես նաև GPT‑5.2 Pro-ի ենթաբազմությունը։
Մասնագիտական
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GDPval (ties allowed, wins or ties) | 70.9% | 74.1% | 38.8% (GPT-5) |
| GDPval (ties allowed, clear wins) | 49.8% | 60.0% | 35.5% (GPT-5) |
| GDPval (no ties) | 61.0% | 67.6% | 37.1% (GPT-5) |
| Investment banking spreadsheet tasks (internal) | 68.4% | 71.7% | 59.1% |
Կոդավորում
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| SWE-Bench Pro, Public | 55.6% | - | 50.8% |
| SWE-bench Verified | 80.0% | - | 76.3% |
| SWE-Lancer, IC Diamond* | 74.6% | - | 69.7% |
Փաստացիություն
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ChatGPT answers without errors (w/ search) | 93.9% | - | 91.2% |
| ChatGPT answers without errors (no search) | 88.0% | - | 87.3% |
Երկար համատեքստ
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| OpenAI MRCRv2, 8 needles, 4k–8k | 98.2% | - | 65.3% |
| OpenAI MRCRv2, 8 needles, 8k–16k | 89.3% | - | 47.8% |
| OpenAI MRCRv2, 8 needles, 16k–32k | 95.3% | - | 44.0% |
| OpenAI MRCRv2, 8 needles, 32k–64k | 92.0% | - | 37.8% |
| OpenAI MRCRv2, 8 needles, 64k–128k | 85.6% | - | 36.0% |
| OpenAI MRCRv2, 8 needles, 128k–256k | 77.0% | - | 29.6% |
| BrowseComp Long Context 128k | 92.0% | - | 90.0% |
| BrowseComp Long Context 256k | 89.8% | - | 89.5% |
| GraphWalks bfs <128k | 94.0% | - | 76.8% |
| Graphwalks parents <128k | 89.0% | - | 71.5% |
Տեսողություն
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| CharXiv reasoning (no tools) | 82.1% | - | 67.0% |
| CharXiv reasoning (w/ Python) | 88.7% | - | 80.3% |
| MMMU Pro (no tools) | 79.5% | - | - |
| MMMU Pro (w/ Python) | 80.4% | - | 79.0% |
| Video MMMU (no tools) | 85.9% | - | 82.9% |
| Screenspot Pro (w/ Python) | 86.3% | - | 64.2% |
Գործիքի օգտագործում
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| Tau2-bench Telecom | 98.7% | - | 95.6% |
| Tau2-bench Retail | 82.0% | - | 77.9% |
| BrowseComp | 65.8% | 77.9% | 50.8% |
| Scale MCP-Atlas | 60.6% | - | 44.5% |
| Toolathlon | 46.3% | - | 36.1% |
Ակադեմիական
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| GPQA Diamond (no tools) | 92.4% | 93.2% | 88.1% |
| HLE (no tools) | 34.5% | 36.6% | 25.7% |
| HLE (w/ search, Python) | 45.5% | 50.0% | 42.7% |
| MMMLU | 89.6% | - | 89.5% |
| HMMT, Feb 2025 (no tools) | 99.4% | 100.0% | 96.3% |
| AIME 2025 (no tools) | 100.0% | 100.0% | 94.0% |
| FrontierMath Tier 1–3 (w/ Python) | 40.3% | - | 31.0% |
| FrontierMath Tier 4 (w/ Python) | 14.6% | - | 12.5% |
Աբստրակտ մտածողություն
| GPT-5.2 Thinking | GPT-5.2 Pro | GPT-5.1 Thinking | |
|---|---|---|---|
| ARC-AGI-1 (Verified) | 86.2% | 90.5% | 72.8% |
| ARC-AGI-2 (Verified) | 52.9% | 54.2% (high) | 17.6% |
Մոդելները գործարկվել են մեր API-ում առկա առավելագույն դատողական ջանքերով (xhigh՝ GPT‑5.2 Thinking և Pro-ի համար, և բարձր՝ GPT‑5.1 Thinking-ի համար), բացառությամբ մասնագիտական գնահատումների, որտեղ GPT‑5.2 Thinking-ը գործարկվել է հիմնավորման ջանքերի մեծ ծավալով՝ ChatGPT Pro-ում առկա առավելագույն ջանքերով։ Հետազոտական միջավայրում կատարվել են փորձարկումներ, որոնք որոշ դեպքերում կարող են տալ մի փոքր այլ արդյունքներ, քան արտադրական ChatGPT‑ը։
* SWE-Lancer-ի դեպքում մենք բաց ենք թողնում 40/237 խնդիրները, որոնք չեն գործարկվել մեր ենթակառուցվածքում։


