11 դեկտեմբերի, 2025 թ.

Ներկայացնում ենք GPT‑5.2‑ը

Ամենաառաջադեմ և առաջատար մոդելը՝ պրոֆեսիոնալ աշխատանքի և երկարատև ագենտների համար։

Բեռնվում է…

Մենք ներկայացնում ենք GPT‑5.2‑ը՝ մինչ օրս մեր ամենահզոր մոդելների շարքը՝ մասնագիտական տեղեկությունների աշխատանքի համար։

ChatGPT Enterprise-ի միջին օգտատերն արդեն ասում է⁠, որ արհեստական բանականությունը իրենց խնայում է օրական 40-60 րոպե, իսկ ակտիվ օգտատերերը պնդում են, որ այն իրենց խնայում է շաբաթական ավելի քան 10 ժամ։ Մենք մշակել ենք GPT‑5.2‑ը՝ մարդկանց համար ավելի մեծ տնտեսական արժեք բացահայտելու համար. այն ավելի լավ է աղյուսակաթերթեր ստեղծելու, ներկայացումներ կազմելու, կոդ գրելու, պատկերներ ընկալելու, երկար համատեքստեր հասկանալու, գործիքներ օգտագործելու և բարդ, բազմաքայլ նախագծեր վարելու համար:

GPT‑5.2‑ը սահմանում է նոր չափանիշ բազմաթիվ ոլորտներում, այդ թվում՝ GDPval-ում, որտեղ այն գերազանցում է ոլորտի մասնագետներին 44 մասնագիտություններ ընդգրկող հստակ սահմանված գիտելիքահենք առաջադրանքների հարցում։

	GPT‑5.2 Thinking	GPT‑5.1 Thinking
GDPval (հաղթանակներ կամ ոչ-ոքի) ^{Տեղեկությունների առաջադրանքներ}	70,9%	38,8% (GPT‑5)
SWE-Bench Pro (հանրային) ^{Ծրագրային ճարտարագիտություն}	55,6%	50,8%
SWE-bench Verified ^{Ծրագրային ապահովման ճարտարագիտություն}	80,0%	76,3%
GPQA Diamond (առանց գործիքների) ^{Գիտական հարցեր}	92,4%	88,1%
CharXiv Հիմնավորում (Python-ով) ^{Գիտական պատկերների հարցեր}	88,7%	80,3%
HMMT (Փետրվար 2025) ^{Մաթեմատիկայի մրցույթ}	99,4%	96,3%
FrontierMath (1–3 մակարդակ) ^{Առաջադեմ մաթեմատիկա}	40,3%	31,0%
ARC-AGI-1 (Verified) ^{Աբստրակտ մտածողություն}	86,2%	72,8%
ARC-AGI-2 (Verified) ^{Աբստրակտ հիմնավորում}	52,9%	17,6%

Notion-ը⁠(բացվում է նոր պատուհանում), Box-ը⁠(բացվում է նոր պատուհանում), Shopify-ը⁠(բացվում է նոր պատուհանում), Harvey-ն⁠(բացվում է նոր պատուհանում) և Zoom-ը⁠(բացվում է նոր պատուհանում) նկատել են, որ GPT‑5.2‑ը ցուցադրում է ժամանակակից երկարաժամկետ հիմնավորման և գործիքների կանչման արդյունավետություն։ Databricks⁠(բացվում է նոր պատուհանում)-ը, Hex⁠(բացվում է նոր պատուհանում)-ը և Triple Whale⁠(բացվում է նոր պատուհանում)-ը գտել են, որ GPT‑5.2‑ը բացառիկ է գործակալական տվյալների գիտության և փաստաթղթերի վերլուծության առաջադրանքներում: Cognition⁠(բացվում է նոր պատուհանում)-ը, Warp⁠(բացվում է նոր պատուհանում),-ը Charlie Labs⁠(բացվում է նոր պատուհանում)-ը, JetBrains⁠(բացվում է նոր պատուհանում)-ը և Augment Code⁠(բացվում է նոր պատուհանում)-ը նշում են, որ GPT‑5.2‑ը ապահովում է նորագույն գործակալական կոդավորման կատարողականություն՝ չափելի բարելավումներով այնպիսի ոլորտներում, ինչպիսիք են ինտերակտիվ կոդավորումը, կոդի վերանայումները և սխալների հայտնաբերումը։

GPT‑5.2‑ը ChatGPT‑ում Instant, Thinking և Pro ծառայությունները կսկսեն գործարկվել այսօր՝ նախ վճարովի պլանների համար։ API-ում դրանք այժմ հասանելի են բոլոր ծրագրավորողներին։

Ընդհանուր առմամբ, GPT‑5.2‑ը զգալի բարելավումներ է բերում ընդհանուր ինտելեկտի, երկարատև համատեքստային ըմբռնման, գործակալական գործիքների կանչման և տեսլականի ոլորտներում՝ այն դարձնելով ավելի լավը բարդ, իրական աշխարհի առաջադրանքներ կատարելու համար, քան նախորդ ցանկացած մոդել։

Մոդելի կատարողականություն

Տնտեսապես արժեքավոր առաջադրանքներ

GPT‑5.2 Thinking-ը մինչ օրս մեր լավագույն մոդելն է՝ իրական աշխարհի, մասնագիտական օգտագործման համար։ GDPval⁠-ում, որը 44 մասնագիտությունների համար հստակ սահմանված տեղեկությունների աշխատանքային առաջադրանքներ չափող գնահատական է, GPT‑5.2 Thinking-ը սահմանում է նոր գերժամանակակից ցուցանիշ և մեր առաջին մոդելն է, որը գործում է մարդկային փորձագետի մակարդակով կամ ավելի բարձր։ Մասնավորապես, GPT‑5.2 Thinking-ը գերազանցում կամ հավասարվում է ոլորտի առաջատար մասնագետներին GDPval-ի տեղեկությունների աշխատանքային առաջադրանքների 70,9%-ում՝ փորձագետների կարծիքով։ Այս առաջադրանքները ներառում են ներկայացումներ, աղյուսակաթերթեր և այլ արտեֆակտներ։ GPT‑5.2 Thinking-ը արտադրել է արդյունքներ GDPval առաջադրանքների համար՝ >11 անգամ ավելի արագությամբ և <1% ծախսով, քան փորձագետ մասնագետները, ինչը ենթադրում է, որ երբ զուգակցվում է մարդկային վերահսկողության հետ, GPT‑5.2‑ը կարող է օգնել մասնագիտական աշխատանքում։ Արագության և ծախսի գնահատականները հիմնված են պատմական չափանիշների վրա. ChatGPT‑ում արագությունը կարող է փոփոխվել։

GDPval-ում մոդելները փորձում են լավ սահմանված տեղեկություններ պարունակող աշխատանք կատարել, որը ընդգրկում է 44 զբաղմունքներ ԱՄՆ ՀՆԱ-ին նպաստող 9 առաջատար արդյունաբերություններից։ Առաջադրանքները պահանջում են իրական աշխատանքային արդյունքներ, ինչպիսիք են վաճառքի ներկայացացումներ, հաշվապահական աղյուսակաթերթերը, հրատապ խնամքի ժամանակացույցերը, արտադրական դիագրամները կամ կարճ տեսանյութերը: ChatGPT‑ում GPT‑5.2 Thinking-ը ունի նոր գործիքներ, որոնք GPT‑5 Thinking-ը չունի:

Երբ վերանայում էինք մեկ հատկապես լավ արդյունք, GDPval-ի ժյուրիի անդամներից մեկը մեկնաբանեց. «Սա արդյունքի որակի հետաքրքիր և նկատելի աճ է... [այն] կարծես արվել է մասնագիտական ընկերության կողմից՝ անձնակազմով, և ունի զարմանալիորեն լավ մշակված դասավորություն և խորհուրդներ երկու արդյունքների համար, չնայած մեկի դեպքում մենք դեռ ունենք որոշ աննշան սխալներ, որոնք պետք է շտկել»։

Բացի այդ, մեր ներքին չափանիշով, կրտսեր ներդրումային բանկային վերլուծաբանների աղյուսակային մոդելավորման առաջադրանքների դեպքում, ինչպիսիք են Fortune 500 ընկերության համար ճիշտ ձևաչափմամբ և հղումներով եռահաշվարկային մոդելի կազմումը կամ մասնավոր սեփականության համար լծակային գնման մոդելի կառուցումը, GPT 5.2 Thinking-ի մեկ առաջադրանքի միջին միավորը 9,3%-ով ավելի բարձր է, քան GPT‑5.1‑ինը, աճելով 59,1%-ից մինչև 68,4%:

Համեմատական վերլուծությունը ցույց է տալիս ստեղծված աղյուսակներում և սահիկաշարերում մանրամասների և ձևաչափման բարելավում GPT‑5.2 Thinking-ում

Side by side example of spreadsheet outputs from GPT-5.1 vs GPT-5.2

Հարցում: Ստեղծիր աշխատուժի պլանավորման մոդել՝ աշխատակիցների քանակ, աշխատանքի ընդունման պլան, կրճատում և բյուջեի ազդեցություն։ Ներառիր ինժեներական, մարքեթինգի, իրավաբանական և վաճառքի բաժինները:

ChatGPT‑ում նոր աղյուսակների և ներկայացման հնարավորությունները օգտագործելու համար դուք պետք է ունենաք վճարովի պլան և ընտրեք GPT‑5.2 Thinking կամ Pro։ Բարդ գեներացիաները կարող են տևել բազմաթիվ րոպեներ՝ դրանք ստեղծվելու համար։

Կոդավորում

GPT‑5.2‑ի Thinking-ը SWE-bench Pro-ում սահմանում է 55,6% նոր մակարդակի ցուցանիշ, որը իրական աշխարհի ծրագրային ապահովման ճարտարագիտության խիստ գնահատում է։ Ի տարբերություն SWE-bench Verified-ի, որը միայն Python է փորձարկում, SWE-bench Pro-ն փորձարկում է չորս լեզուներ և նպատակ ունի լինել ավելի դիմացկուն աղտոտման նկատմամբ, ավելի մարտահրավերային, բազմազան և արդյունաբերական առումով կարևոր։

SWE-bench Pro⁠(բացվում է նոր պատուհանում)-ում⁠⁠⁠, մոդելին տրվում է կոդի պահոց, և նա պետք է գեներացնի պատչ՝ իրական ծրագրային ապահովման առաջադրանքը լուծելու համար։

SWE-bench Verified-ում (չնկարագրված), GPT‑5.2 Thinking-ը հասել է մեր նոր բարձր ցուցանիշին՝ 80%։

Ամենօրյա մասնագիտական օգտագործման համար սա վերածվում է մոդելի, որը կարող է ավելի հուսալի վրիպազերծել արտադրական կոդը, իրականացնել ֆունկցիոնալ պահանջները, վերափոխել մեծ կոդային բազաները և առաքել շտկումները սկզբից մինչև վերջ՝ ձեռքով նվազագույն միջամտությամբ։

GPT‑5.2 Thinking-ը նույնպես ավելի լավ է front-end ծրագրային ապահովման ճարտարագիտության մեջ, քան GPT‑5.1 Thinking-ը։ Վաղ փորձարկողները հայտնաբերեցին, որ այն զգալիորեն ավելի ուժեղ է front-end մշակման և բարդ կամ ոչ սովորական UI աշխատանքի մեջ՝ հատկապես 3D տարրեր ներառող, դարձնելով այն հզոր ամենօրյա գործընկեր ինժեներների համար բոլոր հարթակներում։ Տեսեք մի քանի օրինակներ, թե ինչ կարող է ստեղծվել մեկ հարցման միջոցով:

Հարցում:Ստեղծիր մեկ էջանոց հավելված մեկ HTML ֆայլում հետևյալ պահանջներով՝ - Անուն՝ Օվկիանոսային ալիքների մոդելավորում - Նպատակ՝ Ցուցադրել իրականանման անիմացված ալիքներ։ - Գործառույթներ՝ Փոխել քամու արագությունը, ալիքի բարձրությունը, լուսավորությունը։ - UI-ը պետք է լինի հանգստացնող և իրականանման։

GPT‑5.2‑ի կոդավորման հնարավորությունների վերաբերյալ իրենց կարծիքը կիսեցին վաղ փորձարկողները.

«GPT-5.2-ը ներկայացնում է ամենամեծ առաջընթացը GPT մոդելների համար գործակալական կոդավորման մեջ՝ սկսած GPT-5-ից և հանդիսանում է իր գնային միջակայքում առաջատար կոդավորման մոդել։ Տարբերակի աճը թերագնահատում է ինտելեկտի աճի տեմպը։ Մենք ոգևորված ենք այն դարձնել Windsurf-ի և մի քանի հիմնական Devin ծանրաբեռնվածությունների համար կանխադրված»։

Ջեֆ Վանգ, Windsurf-ի Գործադիր տնօրեն (CEO)

Փաստացիություն

GPT‑5.2 Thinking-ը ավելի քիչ է հալյուցինացիաներ ունենում, քան GPT‑5.1 Thinking-ը։ ChatGPT‑ի ապանույնականացված հարցումների հավաքածուի վրա, սխալներով պատասխանները 38%_հար ավելի քիչ էին հանդիպում։ Մասնագետների համար սա նշանակում է ավելի քիչ սխալներ մոդելը օգտագործելիս հետազոտության, գրելու, վերլուծության և որոշումների աջակցության ժամանակ՝ դարձնելով մոդելը ավելի հուսալի ամենօրյա տեղեկությունների աշխատանքի համար:

Հիմնավորման ջանքը սահմանվել է առավելագույն հասանելի մակարդակի վրա, և որոնման գործիքը միացվել է։ Այլ մոդելների կողմից հայտնաբերվել են սխալներ, որոնք կարող են իրենք էլ սխալներ թույլ տալ։ Հայցի մակարդակի սխալի ցուցանիշները շատ ավելի ցածր են, քան պատասխանի մակարդակի սխալի ցուցանիշները, քանի որ պատասխանների մեծ մասը պարունակում են բազմաթիվ հայցեր։

Ինչպես բոլոր մոդելները, GPT‑5.2 Thinking-ը անկատար է։ Ցանկացած կարևոր բանի համար կրկնակի ստուգեք դրա պատասխանները։

Երկար համատեքստ

GPT‑5.2‑ի Thinking-ը սահմանում է նոր գերժամանակակից մակարդակ երկար համատեքստային դատողության մեջ՝ հասնելով առաջատար կատարողականի OpenAI MRCRv2-ում՝ գնահատում, որը ստուգում է մոդելի կարողությունը ինտեգրելու երկար փաստաթղթերում տարածված տեղեկատվությունը: Իրական աշխարհի առաջադրանքների վրա, ինչպիսիք են փաստաթղթերի խորը վերլուծությունը, որոնք պահանջում են հարակից տեղեկատվություն հարյուր հազարավոր token-ների միջով, GPT‑5.2 Thinking-ը էապես ավելի ճշգրիտ է, քան GPT‑5.1 Thinking-ը։ Մասնավորապես, սա մեր տեսած առաջին մոդելն է, որը հասնում է գրեթե 100% ճշգրտության 4-ասեղանի MRCR տարբերակի վրա (մինչև 256 հազար տոկեն):

Գործնական առումով, սա միացնում է մասնագետներին օգտագործել GPT‑5.2‑ը՝ աշխատելու երկար փաստաթղթերի հետ, ինչպիսիք են հաշվետվությունները, պայմանագրերը, հետազոտական աշխատանքները, սղագրությունները և բազմաֆայլեր նախագծերը՝ պահպանելով համահունչությունը և ճշգրտությունը հարյուր հազարավոր token-ների ընթացքում: Սա GPT‑5.2‑ը դարձնում է հատկապես հարմար խորը վերլուծության, սինթեզի և բարդ բազմաղբյուր աշխատանքային հոսքերի համար։

OpenAI-MRCR⁠⁠(բացվում է նոր պատուհանում) v2-ում (բազմափուլ համատեղ հղման լուծաչափ), բազմաթիվ նույնական «ասեղանման» օգտատիրոջ հարցումները տեղադրվում են նմանատիպ հարցումների և պատասխանների երկար «խոտի կույտերի» մեջ, և մոդելից խնդրվում է վերարտադրել n-րդ ասեղի պատասխանը: Գնահատման 2-րդ տարբերակը շտկում է սխալ իրական արժեքներ ունեցող առաջադրանքների մոտ 5%-ը: Միջին համապատասխանության հարաբերակցությունը չափում է մոդելի պատասխանի և ճիշտ պատասխանի միջև տողերի միջին համապատասխանության հարաբերակցությունը: Առավելագույն 256 հազար մուտքային տոկենների միավորները ներկայացնում են միջին արժեքներ 128 հազարից մինչև 256 հազար մուտքային թոքենների համար և այլն: Այստեղ 256 հազարը ներկայացնում է 256 * 1024 = 262 114 թոքեն: Հիմնավորումների ջանքերը սահմանվել են առավելագույն հասանելիության վրա:

Առավելագույն համատեքստային պատուհանից այն կողմ մտածելուց օգուտ քաղող առաջադրանքների համար՝ GPT‑5.2 Thinking-ը համատեղելի է մեր նոր Responses /compact վերջնակետի հետ, որը մեծացնում է մոդելի արդյունավետ համատեքստային պատուհանը։ Սա թույլ է տալիս GPT‑5.2 Thinking-ին կարգավորել ավելի բարդ և ժամանակատար աշխատանքային հոսքեր, որոնք այլապես կսահմանափակվեին համատեքստի տևողությամբ։ Կարդացեք ավելին մեր API փաստաթղթերում⁠(բացվում է նոր պատուհանում)։

Տեսողություն

GPT‑5.2 Thinking-ը մեր ամենաուժեղ վիզուալ մոդելն է մինչ այժմ՝ կիսով չափ կրճատելով սխալների տոկոսադրույքը գծապատկերների հիմնավորման և ծրագրային ապահովման ինտերֆեյսի ըմբռնման ժամանակ։

Ամենօրյա մասնագիտական օգտագործման համար սա նշանակում է, որ մոդելը կարող է ավելի ճշգրիտ մեկնաբանել կառավարման վահանակները, պրոդուկտի սքրինշոթները, տեխնիկական դիագրամները և վիզուալ հաշվետվությունները՝ աջակցելով ֆինանսների, գործառնությունների, ինժեներիայի, դիզայնի և հաճախորդների աջակցման աշխատանքային հոսքերին, որտեղ վիզուալ տեղեկատվությունը կենտրոնական դեր ունի։

CharXiv Reasoning⁠(բացվում է նոր պատուհանում)-ում մոդելները պատասխանում են գիտական հոդվածների վիզուալ գծապատկերների վերաբերյալ հարցերին։ Python գործիքը միացվել է, և հիմնավորման ջանքը սահմանվել է առավելագույնի։

ScreenSpot-Pro⁠(բացվում է նոր պատուհանում) հարթակում մոդելները պետք է հիմնավորեն տարբեր մասնագիտական միջավայրերից բարձր լուծաչափով գրաֆիկական օգտագործողի միջերեսների սքրինշոթները։ Միացվել է Python գործիքը, և հիմնավորման ջանքերը սահմանվել են առավելագույնի։ Առանց Python գործիքի, գնահատականները շատ ավելի ցածր են։ Մենք խորհուրդ ենք տալիս միացնել Python գործիքը նման տեսողական առաջադրանքների համար։

Համեմատած նախորդ մոդելների հետ՝ GPT‑5.2‑ը Thinking-ը ավելի ուժեղ է հասկանում, թե ինչպես են տարրերը տեղադրված պատկերում, ինչը օգնում է այն առաջադրանքներում, որտեղ հարաբերական դասավորությունը կարևոր դեր է խաղում խնդրի լուծման մեջ։ Ստորև բերված օրինակում մենք խնդրում ենք մոդելին նույնականացնել բաղադրիչները պատկերի մուտքագրման մեջ (այս դեպքում՝ հիմնահարթակում) և վերադարձնել մոտավոր սահմանային վանդակներով պիտակներ։ Նույնիսկ ցածր որակի պատկերում GPT‑5.2‑ը ճանաչում է հիմնական տարածքները և տեղադրում տուփեր, որոնք մոտավորապես համապատասխանում են յուրաքանչյուր բաղադրիչի իրական տեղադրությանը, մինչդեռ GPT‑5.1‑ը միայն պիտակավորում է մի քանի մասեր և ցույց է տալիս դրանց տարածական դասավորության շատ ավելի թույլ ըմբռնում։

GPT‑5.1

GPT‑5.2

Գործիքի կանչում

GPT‑5.2 Thinking-ը Tau2-bench Telecom-ում հասնում է 98,7% նոր մակարդակի՝ ցուցադրելով գործիքները հուսալիորեն օգտագործելու իր կարողությունը երկար, բազմակի հերթափոխով առաջադրանքներում։

Հապաղման զգայուն կիրառման դեպքերի համար GPT‑5.2 Thinking-ը նաև շատ ավելի լավ է աշխատում reassoning.effort=’none’ դեպքում՝ էականորեն գերազանցելով GPT‑5.1‑ին և GPT‑4.1‑ին։

τ2-bench⁠⁠(բացվում է նոր պատուհանում) հարթակում մոդելները օգտագործում են գործիքներ՝ հաճախորդների աջակցման առաջադրանքները կատարելու համար բազմակողմանի փոխազդեցության միջոցով սիմուլացված օգտատերի հետ։ Հեռահաղորդակցության տիրույթում մենք ներառեցինք կարճ, ընդհանուր առմամբ օգտակար հրահանգ համակարգի հարցման մեջ՝ կատարողականությունը բարձրացնելու համար։ Մենք բացառեցինք ավիաընկերությունների ենթաբաժինը՝ ցածր որակի հիմնային ճշմարտության գնահատման պատճառով։

Մասնագետների համար սա նշանակում է ավելի ուժեղ ամբողջական աշխատանքային հոսքեր, ինչպիսիք են հաճախորդների աջակցության գործերի լուծումը, բազմաթիվ համակարգերից տվյալների ստացումը, վերլուծությունների իրականացումը և վերջնական արդյունքների ստեղծումը՝ քայլերի միջև ավելի քիչ բաժանումներով։

Օրինակ, երբ հարցնում եք բարդ հաճախորդների սպասարկման հարց, որը պահանջում է բազմաքայլ լուծում, մոդելը կարող է ավելի արդյունավետ կերպով համակարգել ամբողջ աշխատանքային հոսքը մի քանի ագենտների միջև։ Ստորև ներկայացված դեպքի մեջ, ճանապարհորդը հաղորդում է ուշացած թռիչքի, բաց թողած կապի, Նյու Յորքում գիշերակացի և բժշկական նստատեղի պահանջի մասին։ GPT‑5.2‑ը կառավարում է առաջադրանքների ամբողջ շղթան՝ վերագրանցում, հատուկ օգնության նստատեղեր և փոխհատուցում՝ ապահովելով ավելի ամբողջական արդյունք, քան GPT‑5.1‑ը։

My flight from Paris to New York was delayed, and I missed my connection to Austin. My checked bag is also missing, and I need to spend the night in New York. I also require a special front-row seat for medical reasons. Can you help me?

GPT‑5.1

GPT‑5.2

Գիտություն և մաթեմատիկա

Մեր հույսերից մեկն այն է, որ ԱԲ-ն կօգնի արագացնել գիտական հետազոտությունները՝ ի շահ բոլորի։ Այս ուղղությամբ մենք աշխատել ենք և լսել գիտնականներին՝ հասկանալու, թե ինչպես կարող է արհեստական բանականությունը արագացնել նրանց աշխատանքը, և անցյալ ամիս մենք այստեղ⁠ կիսվել ենք որոշ վաղ համագործակցային փորձերով։

Մենք հավատում ենք GPT‑5.2 Pro և GPT‑5.2 Thinking-ը աշխարհի լավագույն մոդելներն են՝ գիտնականներին օգնելու և նրանց աշխատանքը արագացնելու համար։ GPQA Diamond-ում, որը Google-ի ապացույցների հարցուպատասխանի համալսարանական մակարդակի չափանիշ է, GPT‑5.2 Pro-ն հավաքել է 93,2% արդյունք, որին հաջորդում է GPT‑5.2 Thinking-ը՝ 92,4%-ով։

GPQA Diamond⁠(բացվում է նոր պատուհանում) -ում, մոդելները պատասխանում են ֆիզիկայի, քիմիայի և կենսաբանության բազմակի ընտրության հարցերին։ Գործիքներ միացված չէին, և հիմնավորման ջանքերը սահմանված էին առավելագույնի։

FrontierMath-ում (1-3 մակարդակներ), փորձագիտական մակարդակի մաթեմատիկայի գնահատում, GPT‑5.2 Thinking-ը սահմանեց նոր չափանիշ՝ լուծելով խնդիրների 40.3%-ը:

FrontierMath⁠(բացվում է նոր պատուհանում)-ում մոդելները լուծում են փորձագիտական մակարդակի մաթեմատիկական խնդիրներ։ Միացվել է Python գործիքը, և հիմնավորման ջանքերը սահմանվել են առավելագույնի։

Մենք սկսում ենք տեսնել, թե ինչպես են ԱԲ մոդելները էականորեն արագացնում առաջընթացը մաթեմատիկայի և գիտության ոլորտներում՝ շոշափելի ձևերով: Օրինակ, վերջին աշխատանքում⁠ GPT‑5.2 Pro-ով, հետազոտողները ուսումնասիրեցին վիճակագրական ուսուցման տեսության բաց հարցը։ Նեղ, լավ սահմանված միջավայրում մոդելը առաջարկեց ապացույց, որը հետագայում հաստատվեց հեղինակների կողմից և վերանայվեց արտաքին փորձագետների հետ՝ ցույց տալով, թե ինչպես կարող են առաջնային մոդելները աջակցել մաթեմատիկական հետազոտություններին՝ մարդու խիստ հսկողության ներքո։

ARC-AGI 2

ARC-AGI-1 (Verified)-ում, որը նախատեսված է ընդհանուր դատողության կարողությունը չափելու համար, GPT‑5.2‑ը առաջին մոդելն է, որը հատել է 90% շեմը՝ բարելավվելով նախորդ տարվա o3‑preview‑ի 87%-ի համեմատ, միաժամանակ կրճատելով այդ ցուցանիշին հասնելու արժեքը մոտավորապես 390 անգամ։

ARC-AGI-2 (Verified)üում, որը բարձրացնում է դժվարության մակարդակը և ավելի լավ է մեկուսացնում հոսուն himnavw8wumz, GPT‑5.2 Thinking-ը մտքի շղթայական մոդելների համար հասնում է արվեստի նոր մակարդակի՝ հավաքելով 52,9% արդյունք։ GPT‑5.2 Pro-ն ավելի բարձր է կատարում՝ հասնելով 54.2%-ի, ավելի ընդլայնելով մոդելի կարողությունը՝ նոր, աբստրակտ խնդիրների միջոցով հիմնավորելու։

Այս գնահատականների բարելավումները արտացոլում են GPT‑5.2‑ի ավելի ուժեղ բազմաստիճան հիմնավորում, ավելի մեծ քանակական ճշգրտություն և ավելի հուսալի խնդիրների լուծում բարդ տեխնիկական առաջադրանքների վրա։

Ահա թե ինչ են ասում մեր վաղ փորձարկողները GPT‑5.2‑ի մասին:

«GPT-5.2-ը մեզ համար բացեց ամբողջական ճարտարապետական փոփոխություն։ Մենք փխրուն, բազմաագենտային համակարգը վերածեցինք մեկ մեգաագենտի՝ 20+ գործիքներով։ Լավագույն մասը այն է, որ այն պարզապես աշխատում է։ Մեգա-ագենտը ավելի արագ է, ավելի խելացի և 100 անգամ ավելի հեշտ է պահպանել։ Մենք տեսնում ենք հապաղման զգալի նվազում, գործիքների ավելի ուժեղ կանչում, և մեզ այլևս անհրաժեշտ չեն լայնածավալ համակարգային հարցումներ, քանի որ 5.2-ը կկատարի մաքուր աշխատանք՝ պարզ, մեկ տողանոց հարցումով: Այն իսկապես կախարդանք է»։

Էյ Ջեյ Օրբախ, Triple Whale-ի Գործադիր տնօրեն (CEO)

ChatGPT‑ում GPT‑5.2

ChatGPT‑ում օգտատերերը պետք է նկատեն, որ PT-5.2-ը ավելի հարմար է ամենօրյա օգտագործման համար՝ ավելի կառուցվածքային, ավելի հուսալի և միևնույն ժամանակ հաճելի է զրուցելը։

GPT‑5.2 Instant -ը արագ և ունակ աշխատանքային գործիք է ամենօրյա աշխատանքի և ուսուցման համար՝ ակնհայտ բարելավումներով տեղեկատվություն որոնող հարցերում, ինչպես անել և քայլ առ քայլ ուղեցույցներում, տեխնիկական գրություններում և թարգմանություններում՝ հիմնվելով GPT‑5.1 Instant-ի ներմուծած ավելի ջերմ զրույցային տոնի վրա: Վաղ փորձարկողները հատկապես նշեցին ավելի հստակ բացատրությունները, որոնք առաջնային տեղեկությունները ներկայացնում են անմիջապես։

GPT‑5.2 Thinking -ը նախատեսված է ավելի խորացված աշխատանքի համար՝ օգնելով օգտատերերին ավելի բարդ առաջադրանքներ կատարել ավելի հմտորեն, մասնավորապես՝ կոդավորման, երկար փաստաթղթերի ամփոփման, վերբեռնված ֆայլերի վերաբերյալ հարցերին պատասխանելու, մաթեմատիկայի և տրամաբանության հետ քայլ առ քայլ աշխատելու, ինչպես նաև պլանավորմանն ու որոշումներին ավելի հստակ կառուցվածքով և ավելի օգտակար մանրամասներով աջակցելու համար։

GPT‑5.2 Pro-ն մեր ամենախելացի և ամենավստահելի տարբերակն է բարդ հարցերի համար, որտեղ բարձրորակ պատասխանն արժե սպասել, և վաղ փորձարկումները ցույց են տալիս ավելի քիչ խոշոր սխալներ և ավելի ուժեղ կատարողականություն բարդ տիրույթներում, ինչպիսիք են ծրագրավորումը։

Անվտանգություն

GPT‑5.2‑ը հիմնվում է անվտանգ ավարտի⁠ հետազոտության վրա, որը մենք ներկայացրեցինք GPT‑5‑ի հետ, որը սովորեցնում է մոդելին տալ ամենաօգտակար պատասխանը՝ միևնույն ժամանակ մնալով անվտանգության սահմաններում։

Այս թողարկմամբ մենք շարունակեցինք մեր աշխատանքը՝ ուժեղացնելու մեր մոդելների արձագանքները զգայուն խոսակցություններում⁠, զգալի բարելավումներով, թե ինչպես են դրանք արձագանքում ինքնասպանության կամ ինքնավնասման նշաններ, հոգեկան առողջության սթրես կամ մոդելի վրա հուզական կախվածություն ցույց տվող հարցումներին: Այս նպատակային միջամտությունները հանգեցրել են ավելի քիչ անցանկալի արձագանքների և՛ GPT‑5.2 Instant և GPT‑5.2 Thinking մոդելներում՝ համեմատած GPT‑5.1 և GPT‑5 Instant և Thinking մոդելների հետ։ Լրացուցիչ մանրամասներին կարելի է ծանոթանալ համակարգի քարտում⁠։

Մենք գտնվում ենք մեր տարիքի կանխատեսման մոդելի⁠ տարածման վաղ փուլերում, որպեսզի ավտոմատ կերպով կիրառենք բովանդակության պաշտպանություն 18 տարեկանից ցածր օգտատերերի համար՝ սահմանափակելու զգայուն բովանդակությանը հասանելիությունը։ Սա հիմնված է մեր առկա մոտեցման վրա այն օգտատերերի նկատմամբ, որոնց մենք գիտենք, որ 18 տարեկանից ցածր են, ինչպես նաև մեր ծնողական վերահսկողության վրա։

GPT‑5.2‑ը շարունակական բարելավումների շարքի մեկ քայլն է, և մենք դեռ շատ բան ունենք անելու։ Թեև այս թողարկումը ապահովում է իմաստալից ձեռքբերումներ բանականության և արտադրողականության մեջ, մենք գիտենք, որ կան ոլորտներ, որտեղ մարդիկ ավելի շատ են ցանկանում։ ChatGPT‑ում մենք աշխատում ենք հայտնի խնդիրների վրա, ինչպիսիք են չափից շատ մերժումները՝ միևնույն ժամանակ շարունակելով բարձրացնել անվտանգության և հուսալիության ընդհանուր մակարդակը։ Այս փոփոխությունները բարդ են, և մենք կենտրոնացած ենք դրանք ճիշտ կատարելու վրա։

Հոգեկան առողջության գնահատումներ

	GPT‑5.2 Instant	GPT‑5.1 Instant	GPT‑5.2 Thinking	GPT‑5.1 Thinking
Հոգեկան առողջություն	0,995	0,883	0,915	0,684
Զգացմունքային հենվածություն	0,938	0,945	0,955	0,785
Ինքնավնասում	0,938	0,925	0,963	0,937

Հասանելիություն և գներ

ChatGPT‑ում մենք այսօր կսկսենք տարածել GPT‑5.2‑ը (Instant, Thinking և Pro)՝ սկսելով վճարովի պլաններից (Plus, Pro, Go, Business, Enterprise): Մենք GPT‑5.2‑ը տեղակայում ենք աստիճանաբար՝ ChatGPT‑ը հնարավորինս սահուն և հուսալի պահելու համար։ Եթե սկզբում այն չեք տեսնում, խնդրում ենք կրկին փորձել։ ChatGPT‑ում GPT‑5.1‑ը վճարովի օգտատերերի համար հասանելի կլինի երեք ամիս՝ հին մոդելների դեպքում, որից հետո մենք կդադարեցնենք GPT‑5.1‑ի օգտագործումը։

Մոդելների անվանումը ChatGPT‑ի և API-ի համար

ChatGPT	API
ChatGPT‑5.2 Instant	GPT‑5.2‑chat‑latest
ChatGPT‑5.2 Thinking	GPT‑5.2
ChatGPT‑5.2 Pro	GPT‑5.2 Pro

Մեր API հարթակում GPT‑5.2 Thinking-ը հասանելի է այսօր Responses API-ում և Chat Completions API-ում որպես gpt-5.2, և GPT‑5.2 Instant-ը որպես gpt-5.2-chat-latest։ GPT‑5.2 Pro-ն հասանելի է Responses API-ում որպես gpt-5.2-pro։ Ծրագրավորողները այժմ կարող են սահմանել հիմնավորման պարամետրը GPT‑5.2 Pro-ում, և թե՛ GPT‑5.2 Pro-ն, թե՛ GPT‑5.2 Thinking-ը այժմ աջակցում են xhigh-ի նոր հինգերորդ դատողության ջանքին՝ այն առաջադրանքների համար, որտեղ որակն ամենակարևորն է։

GPT‑5.2‑ի գինը կազմում է $1,75/1 միլիոն մուտքային թոքենի համար և $14/1 միլիոն արտածման թոքենի համար՝ 90% զեղչով քեշավորված մուտքագրումների համար։ Բազմաթիվ գործակալական գնահատականների ժամանակ մենք հայտնաբերեցինք, որ պարզեցինք, որ չնայած GPT‑5.2‑ի մեկ թոքենի ավելի բարձր արժեքին, որակի որոշակի մակարդակի հասնելու ծախսն ի վերջո ավելի էժան էր՝ GPT‑5.2‑ի թոքենի ավելի բարձր արդյունավետության շնորհիվ։

Չնայած ChatGPT‑ի բաժանորդագրության գները մնում են անփոփոխ, API-ում GPT‑5.2‑ի գինը մեկ token-ի համար ավելի բարձր է, քան GPT‑5.1‑ի, քանի որ այն ավելի ունակ մոդել է։ Դա դեռևս գներով ցածր է այլ առաջնային մոդելներից, ուստի մարդիկ կարող են շարունակել այն խորապես օգտագործել իրենց ամենօրյա աշխատանքում և հիմնական հավելվածներում։

Գին յուրաքանչյուր 1 միլիոն թոքենի համար

Մոդել	Մուտքագրում	Քեշավորված մուտքագրում	Արդյունք
GPT‑5.2 / GPT‑5.2‑զրույց‑latest	$1,75	$0,175	$14
gpt-5.2-pro	$21	-	$168
GPT‑5.1 / GPT‑5.1‑զրույց‑latest	$1.25	$0,125	$10
gpt-5-pro	$15	-	$120

Մենք ներկայումս API-ում GPT‑5.1, GPT‑5 կամ GPT‑4.1‑ը հանելու ծրագրեր չունենք և ցանկացած հանման ծրագրերի մասին կտեղեկացնենք ծրագրավորողներին՝ նախապես բավարար ծանուցում ուղարկելով։ Մինչ GPT‑5.2‑ը լավ կաշխատի Codex-ում առանց փոփոխությունների, մենք ակնկալում ենք, որ առաջիկա շաբաթներին կթողարկենք GPT‑5.2‑ի տարբերակ, որը օպտիմալացված կլինի Codex-ի համար։

Մեր գործընկերները

GPT‑5.2‑ը ստեղծվել է մեր երկարամյա գործընկերների՝ NVIDIA-ի և Microsoft-ի հետ համագործակցությամբ: Azure տվյալների կենտրոնները և NVIDIA GPU-ները, ներառյալ H100, H200 և GB200-NVL72, հիմք են հանդիսանում OpenAI-ի մասշտաբային ուսուցման ենթակառուցվածքի համար՝ ապահովելով մոդելի ինտելեկտի զգալի աճ։ Այս համագործակցությունը թույլ է տալիս մեզ վստահորեն մասշտաբավորել հաշվարկային հզորությունները և ավելի արագ նոր մոդելներ ներկայացնել շուկա։

Հավելված

Մանրամասն հենանիշներ

Ստորև ներկայացնում ենք GPT‑5.2 Thinking-ի համապարփակ չափանիշային միավորները, ինչպես նաև GPT‑5.2 Pro-ի ենթաբազմությունը։

Մասնագիտական

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GDPval (ties allowed, wins or ties)	70.9%	74.1%	38.8% (GPT-5)
GDPval (ties allowed, clear wins)	49.8%	60.0%	35.5% (GPT-5)
GDPval (no ties)	61.0%	67.6%	37.1% (GPT-5)
Investment banking spreadsheet tasks (internal)	68.4%	71.7%	59.1%

Կոդավորում

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
SWE-Bench Pro, Public	55.6%	-	50.8%
SWE-bench Verified	80.0%	-	76.3%
SWE-Lancer, IC Diamond*	74.6%	-	69.7%

Փաստացիություն

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ChatGPT answers without errors (w/ search)	93.9%	-	91.2%
ChatGPT answers without errors (no search)	88.0%	-	87.3%

Երկար համատեքստ

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
OpenAI MRCRv2, 8 needles, 4k–8k	98.2%	-	65.3%
OpenAI MRCRv2, 8 needles, 8k–16k	89.3%	-	47.8%
OpenAI MRCRv2, 8 needles, 16k–32k	95.3%	-	44.0%
OpenAI MRCRv2, 8 needles, 32k–64k	92.0%	-	37.8%
OpenAI MRCRv2, 8 needles, 64k–128k	85.6%	-	36.0%
OpenAI MRCRv2, 8 needles, 128k–256k	77.0%	-	29.6%
BrowseComp Long Context 128k	92.0%	-	90.0%
BrowseComp Long Context 256k	89.8%	-	89.5%
GraphWalks bfs <128k	94.0%	-	76.8%
Graphwalks parents <128k	89.0%	-	71.5%

Տեսողություն

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
CharXiv reasoning (no tools)	82.1%	-	67.0%
CharXiv reasoning (w/ Python)	88.7%	-	80.3%
MMMU Pro (no tools)	79.5%	-	-
MMMU Pro (w/ Python)	80.4%	-	79.0%
Video MMMU (no tools)	85.9%	-	82.9%
Screenspot Pro (w/ Python)	86.3%	-	64.2%

Գործիքի օգտագործում

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
Tau2-bench Telecom	98.7%	-	95.6%
Tau2-bench Retail	82.0%	-	77.9%
BrowseComp	65.8%	77.9%	50.8%
Scale MCP-Atlas	60.6%	-	44.5%
Toolathlon	46.3%	-	36.1%

Ակադեմիական

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
GPQA Diamond (no tools)	92.4%	93.2%	88.1%
HLE (no tools)	34.5%	36.6%	25.7%
HLE (w/ search, Python)	45.5%	50.0%	42.7%
MMMLU	89.6%	-	89.5%
HMMT, Feb 2025 (no tools)	99.4%	100.0%	96.3%
AIME 2025 (no tools)	100.0%	100.0%	94.0%
FrontierMath Tier 1–3 (w/ Python)	40.3%	-	31.0%
FrontierMath Tier 4 (w/ Python)	14.6%	-	12.5%

Աբստրակտ մտածողություն

	GPT-5.2 Thinking	GPT-5.2 Pro	GPT-5.1 Thinking
ARC-AGI-1 (Verified)	86.2%	90.5%	72.8%
ARC-AGI-2 (Verified)	52.9%	54.2% (high)	17.6%

^{Մոդելները գործարկվել են մեր API-ում առկա առավելագույն դատողական ջանքերով (xhigh՝ GPT‑5.2 Thinking և Pro-ի համար, և բարձր՝ GPT‑5.1 Thinking-ի համար), բացառությամբ մասնագիտական գնահատումների, որտեղ GPT‑5.2 Thinking-ը գործարկվել է հիմնավորման ջանքերի մեծ ծավալով՝ ChatGPT Pro-ում առկա առավելագույն ջանքերով։ Հետազոտական միջավայրում կատարվել են փորձարկումներ, որոնք որոշ դեպքերում կարող են տալ մի փոքր այլ արդյունքներ, քան արտադրական ChatGPT‑ը։}

^{* SWE-Lancer-ի դեպքում մենք բաց ենք թողնում 40/237 խնդիրները, որոնք չեն գործարկվել մեր ենթակառուցվածքում։}

2025

Հեղինակ

OpenAI

Շարունակել կարդալ

Դիտել բոլորը

GPT-5.6-ով ընդլայնում ենք գին–արդյունավետության սահմանները

Արտադրանք30 հլս, 2026 թ.

oai Science Academic Research Academic Research 1x1

Accelerating scientific discovery with ChatGPT for Academic Researchers

Ընկերություն29 հլս, 2026 թ.

ChatGPT-ում «Առողջություն»-ի գործարկումը

Արտադրանք23 հլս, 2026 թ.