Անցնել հիմնական բովանդակությանը
OpenAI

Ներկայացնում ենք GPT‑5.4‑ը

Նախագծված է պրոֆեսիոնալ աշխատանքի համար

Բեռնվում է…

Այսօր մենք թողարկում ենք GPT‑5.4 -ը ChatGPT‑ում (որպես GPT‑5.4 Thinking), PI-ում և Codex-ում։ Սա մեր ամենահզոր և արդյունավետ առաջադեմ մոդելն է մասնագիտական աշխատանքի համար։ Մենք նաև թողարկում ենք GPT‑5.4 Pro -ը ChatGPT‑ում և API-ում՝ այն մարդկանց համար, ովքեր ցանկանում են առավելագույն կատարողականություն բարդ առաջադրանքների վրա։

GPT‑5.4‑ը մեր վերջին զարգացումների՝ դատողության, կոդավորման և գործակալական աշխատանքային հոսքերի լավագույն արդյունքները միավորում է մեկ սահմանային մոդելի մեջ։ Այն ներառում է ոլորտում առաջատար կոդավորման հնարավորությունները՝ GPT‑5.3‑Codex -ի, միաժամանակ բարելավելով, թե ինչպես է մոդելը աշխատում գործիքների, ծրագրային միջավայրերի և մասնագիտական առաջադրանքների շրջանակում՝ ներառյալ աղյուսակները, ներկայացումները և փաստաթղթերը։ Արդյունքում ստացվում է մոդել, որը բարդ իրական աշխատանքը կատարում է ճշգրիտ, արդյունավետ և օպտիմալ—ապահովելով այն, ինչ խնդրել եք՝ ավելի քիչ հետ ու առաջ շփմամբ։

ChatGPT‑ում GPT‑5.4 Thinking-ն այժմ կարող է նախապես ներկայացնել իր մտածողության պլանը, որպեսզի դուք կարողանաք պատասխանի ընթացքում հարմարեցնել ուղղությունը մինչ այն աշխատում է, և ստանալ վերջնական արդյունք, որն ավելի մոտ է համապատասխանում ձեր կարիքներին՝ առանց լրացուցիչ շրջափուլերի։ GPT‑5.4 Thinking-ը նաև բարելավում է խորքային վեբ ուսումնասիրությունը, հատկապես խիստ կոնկրետ հարցումների համար, միաժամանակ ավելի լավ պահպանելով համատեքստը այն հարցերի համար, որոնք պահանջում են ավելի երկար մտածել։ Այս բարելավումները միասին նշանակում են ավելի բարձր որակի պատասխաններ, որոնք ավելի արագ են ստացվում և համապատասխանում են առաջադրանքին։

Codex-ում և API-ում GPT‑5.4‑ը առաջին ընդհանուր նշանակության մոդելն է, որը մենք թողարկել ենք՝ բնիկ, նորագույն համակարգչային օգտագործման հնարավորություններով, ինչը հնարավորություն է տալիս ագենտներին աշխատել համակարգիչների վրա և իրականացնել բարդ աշխատանքային հոսքեր տարբեր հավելվածների միջև։ Այն աջակցում է մինչև 1 միլիոն համատեքստային թոքեններ, թույլ տալով գործակալներին պլանավորել, կատարել և ստուգել առաջադրանքներ երկար հորիզոններում։ GPT‑5.4‑ը նաև բարելավում է, թե ինչպես են մոդելները աշխատում գործիքների և միակցիչների մեծ էկոհամակարգերում՝ գործիքների որոնմամբ, օգնելով ագենտներին ավելի արդյունավետ գտնել և օգտագործել ճիշտ գործիքները՝ առանց բանականությունը զոհաբերելու։ Վերջապես, GPT‑5.4‑ը մեր մինչ օրս ամենաթոքենային արդյունավետ հիմնավորման մոդելն է՝ GPT‑5.2‑ի համեմատ խնդիրներ լուծելու համար օգտագործելով զգալիորեն ավելի քիչ թոքեններ—ինչը հանգեցնում է թոքենների օգտագործման նվազեցման և ավելի արագ արագությունների։

Ընդհանուր հիմնավորման, կոդավորման և մասնագիտական գիտելիքային աշխատանքի առաջընթացների հետ միասին GPT‑5.4‑ը հնարավորություն է տալիս ավելի հուսալի գործակալների, ծրագրավորողների ավելի արագ աշխատանքային հոսքերի և ավելի բարձր որակի արդյունքների՝ ChatGPT‑ում, API-ում և Codex-ում։


GPT‑5.4 

GPT‑5.3‑Codex

GPT‑5.2

GDPval (հաղթանակներ կամ ոչ-ոքի)

83,0%

70,9%

70,9%

SWE-Bench Pro (Public)

57,7%

56,8%

55,6%

OSWorld հաստատված

75,0%

74,0%* 

47,3%

Toolathlon

54.6%

51,9%

46,3%

BrowseComp

82,7%

77,3%

65,8%

*Նախկինում հաղորդվել է որպես 64,7%. GPT‑5.3‑Codex‑ը հասնում է 74,0%-ի՝ նոր ներդրված API պարամետրի միջոցով, որը պահպանում է սկզբնական պատկերի լուծաչափը։

Գիտելիքի աշխատանք

GPT‑5.2‑ի ընդհանուր դատողության հնարավորությունների վրա հիմնվելով՝ GPT‑5.4‑ը ապահովում է ավելի հետևողական և հղկված արդյունքներ մասնագետների համար կարևոր իրական աշխարհի առաջադրանքների վերաբերյալ։

GDPval-ում, որը ստուգում է գործակալների կարողությունները՝ 44 զբաղմունքների շրջանակում հստակ սահմանված գիտելիքահենք աշխատանք կատարելու համար, GPT‑5.4‑ը հասնում է նորագույն արդյունքի՝ համեմատությունների 83,0% -ում համընկնելով ոլորտի մասնագետների հետ կամ գերազանցելով նրանց, մինչդեռ GPT‑5.2‑ի համար այդ ցուցանիշը 71,0% է։

GDPval-ում մոդելները փորձում են լավ սահմանված տեղեկություններ պարունակող աշխատանք կատարել, որը ընդգրկում է 44 զբաղմունքներ U.S. GDP-ին նպաստող 9 առաջատար արդյունաբերություններից։ Առաջադրանքները պահանջում են իրական աշխատանքային արդյունքներ, ինչպիսիք են վաճառքի ներկայացացումներ, հաշվապահական աղյուսակաթերթերը, հրատապ խնամքի ժամանակացույցերը, արտադրական դիագրամները կամ կարճ տեսանյութերը: Հիմնավորման ջանքերը սահմանվել էին xhigh՝ GPT‑5.4‑ի համար, և heavy՝ GPT‑5.2‑ի համար։ (ChatGPT‑ում հասանելի է մի փոքր ավելի ցածր մակարդակ)։

«GPT-5.4-ը մեր փորձարկած լավագույն մոդելն է։ Այժմ այն մեր APEX-Agents չափանիշի առաջատարների աղյուսակի առաջին տեղում է, որը չափում է մոդելի կատարողականությունը մասնագիտական ծառայությունների աշխատանքի համար։ Այն գերազանցում է երկարաժամկետ արդյունքների ստեղծման գործում, ինչպիսիք են սլայդների փաթեթները, ֆինանսական մոդելները և իրավական վերլուծությունը՝ ապահովելով բարձրագույն կատարողականություն՝ միաժամանակ աշխատելով ավելի արագ և ավելի ցածր արժեքով, քան մրցակցային առաջադեմ մոդելները»։
— Բրենդան Ֆուդի, Mercor-ում Գործադիր տնօրեն

Մենք հատուկ ուշադրություն ենք դարձնում GPT‑5.4‑ի կողմից աղյուսակներ, շնորհանդեսներ և փաստաթղթեր ստեղծելու և խմբագրելու կարողության բարելավմանը։ Կրտսեր ներդրումային բանկային վերլուծաբանի կողմից կատարվող աղյուսակային մոդելավորման առաջադրանքների ներքին հենանիշի վրա GPT‑5.4‑ը հասնում է 87,5% միջին միավորի՝ համեմատած GPT‑5.2‑ի 68,4% -ի հետ։ Ներկայացումների գնահատման հարցումների շարքում մարդ գնահատողները GPT‑5.4 ներկայացումները GPT‑5.2‑ի ներկայացումների համեմատ 68,0%-ում նախընտրել են՝ ավելի ուժեղ գեղագիտության, տեսողական ավելի մեծ բազմազանության և պատկերների ստեղծման ավելի արդյունավետ օգտագործման պատճառով։

GPT-5.2-ի և GPT-5.4-ի աղյուսակաթերթերի արդյունքների կողք կողքի օրինակ

Փաստաթղթերը ստեղծվել են xhigh արժեքի վրա դրված դատողության ջանքով

Դուք կարող եք փորձել այս հնարավորությունները ChatGPT‑ում՝ օգտագործելով GPT‑5.4 Thinking կամ Pro։ Եթե դուք Enterprise հաճախորդ եք, խորհուրդ ենք տալիս օգտագործել մեր նոր թողարկված ChatGPT‑ի փլագինները Excel-ի և Google Sheets-ի համար(բացվում է նոր պատուհանում), որը նույնպես թողարկվել է այսօր։ Մենք նաև թարմացրել ենք մեր աղյուսակաթերթը(բացվում է նոր պատուհանում) և ներկայացման հմտությունները(բացվում է նոր պատուհանում), որոնք հասանելի են Codex-ում և API-ում։

GPT‑5.4‑ը իրական աշխարհում կատարելագործելու համար մենք շարունակեցինք մեր առաջընթացը հալյուցինացիաների և սխալների նվազեցման գործում։ GPT‑5.4‑ը մեր մինչ օրս ամենափաստացի մոդելն է. օգտատերերի կողմից փաստացի սխալներ նշող անանուն հարցումների հավաքածուի դեպքում GPT‑5.4‑ի անհատական պնդումները 33%-ով ավելի քիչ հավանական է, որ կեղծ լինեն, իսկ ամբողջական պատասխանները 18%-ով ավելի քիչ հավանական է, որ պարունակեն որևէ սխալ՝ համեմատած GPT‑5.2‑ի հետ։

«GPT-5.4-ը նոր չափանիշ է սահմանում փաստաթղթերով ծանրաբեռնված իրավաբանական աշխատանքի համար։ Մեր BigLaw Bench գնահատման վրա այն ստացել է 91%. Այլ մոդելների համեմատ՝ GPT-5.4-ը ներկայումս ավելի լավ է բարդ գործարքային վերլուծությունը կառուցվածքավորելու, երկար պայմանագրերի ողջ ընթացքում ճշգրտությունը պահպանելու և իրավական մասնագետների պահանջած բարձր մակարդակի մանրամասնություն ապահովելու հարցում»։
— Նիկո Գրուպեն, Կիրառական հետազոտությունների ղեկավար Harvey-ում

Համակարգչի օգտագործում և տեսողություն

GPT‑5.4‑ը մեր առաջին ընդհանուր նշանակության մոդելն է՝ բնիկ համակարգչի օգտագործման հնարավորություններով և նշում է նշանակալի առաջընթաց ինչպես ծրագրավորողների, այնպես էլ ագենտների համար։ Այն ներկայումս հասանելի լավագույն մոդելն է մշակողների համար, որոնք կառուցում են ագենտներ, որոնք ավարտին են հասցնում իրական առաջադրանքներ կայքերում և ծրագրային համակարգերում։

Մենք նախագծել ենք GPT‑5.4‑ը՝ համակարգչի օգտագործման աշխատանքաբեռնվածությունների լայն շրջանակում բարձր արդյունավետություն ապահովելու համար։ Այն գերազանց է կոդ գրելու մեջ՝ համակարգիչները գործարկելու համար գրադարանների, օրինակ՝ Playwright-ի միջոցով, ինչպես նաև էկրանի նկարներին ի պատասխան մկնիկի և ստեղնաշարի հրամաններ տալու գործում։ Դրա վարքագիծը կառավարելի է ծրագրավորողների հաղորդագրությունների միջոցով, ինչը նշանակում է, որ նրանք կարող են այն հարմարեցնել կոնկրետ օգտագործման դեպքերին։ Ծրագրավորողները կարող են կարգավորել մոդելի անվտանգության վարքագիծը՝ տարբեր ռիսկի մակարդակներին համապատասխանեցնելու համար՝ սահմանելով անհատական հաստատման քաղաքականություններ։

Մոդելի կատարողականությունը և ճկունությունը արտացոլվում են չափանիշների շրջանակում, որոնք ստուգում են համակարգչի օգտագործումը տարբեր միջավայրերում։ OSWorld-Verified-ում, որը չափում է մոդելի աշխատանքային միջավայրում նավարկելու ունակությունը՝ էկրանի նկարների և ստեղնաշարի/մկնիկի գործողությունների միջոցով, GPT‑5.4‑ը հասնում է ժամանակակից 75,0% հաջողության մակարդակի, որը զգալիորեն գերազանցում է GPT‑5.2‑ի հաջողությանը։ 47,3% ցուցանիշը և գերազանցում է մարդկային կատարողականությունը՝ 72,4%։1

WebArena-Verified-ում, որը ստուգում է դիտարկիչի օգտագործումը, GPT‑5.4‑ը հասնում է առաջատար 67,3% հաջողության ցուցանիշի՝ օգտագործելով թե՛ DOM-ով, թե՛ սքրինշոթով կառավարվող փոխազդեցություն, համեմատած GPT‑5.2‑ի 65,4%-ի հետ։ Online-Mind2Web-ում, որը նաև ստուգում է դիտարկիչի օգտագործումը, GPT‑5.4‑ը հասնում է 92.8% հաջողության ցուցանիշի՝ օգտագործելով միայն սքրինշոթների վրա հիմնված դիտարկումներ, բարելավելով ChatGPT Atlas-ի Ագենտի ռեժիմի համեմատ, որը հասնում է 70.9% հաջողության ցուցանիշի։

Գործիքի զիջումը այն է, երբ օգնականը զիջում է՝ սպասելու գործիքի արձագանքին։ Եթե 3 գործիք կանչվեն զուգահեռաբար, ապա դրանց կհետևեն ևս 3 գործիք, որոնք կանչվում են զուգահեռաբար, yield-երի թիվը կլինի 2։ Գործիքային yield-երը լատենտության ավելի լավ ցուցիչ են, քան գործիքների կանչերը, քանի որ դրանք արտացոլում են զուգահեռացման առավելությունները։

GPT‑5.4‑ը մեկնաբանում է դիտարկիչի ինտերֆեյսի սքրինշոթները և փոխազդում է UI տարրերի հետ՝ կոորդինատների վրա հիմնված սեղմումների միջոցով՝ էլ. նամակներ ուղարկելու և օրացույցում միջոցառում պլանավորելու համար։

GPT‑5.4‑ի բարելավված համակարգչային օգտագործումը հիմնված է մոդելի բարելավված ընդհանուր տեսողական ընկալման հնարավորությունների վրա։ MMMU-Pro-ում, որը մոդելի տեսողական ըմբռնման և դատողության թեստ է, GPT‑5.4‑ը հասնում է 81,2% հաջողության մակարդակի առանց գործիքների օգտագործման, ինչը բարելավում է GPT‑5.2‑ի 79.5%։ Տեսողական ընկալման բարելավումը նաև արտացոլվում է փաստաթղթերի վերլուծման ավելի լավ հնարավորությունների մեջ։ OmniDocBench-ում, հիմնավորման ջանքերի բացակայությամբ GPT‑5.4‑ը հասնում է միջին սխալի (չափված՝ նորմալացված խմբագրման հեռավորությամբ՝ մոդելի կանխատեսման և ground truth-ի միջև) 0.109, բարելավվելով GPT‑5.2‑ի 0.140-ից։

MMMUPro-ը գործարկվել է՝ հիմնավորման ջանքերը սահմանված xhigh. OmniDocBench-ը գործարկվել է՝ հիմնավորման ջանքերը սահմանված none արժեքով, որպեսզի արտացոլի ցածր ծախսով, ցածր հապաղմամբ կատարողականությունը։

Մենք նաև բարելավում ենք տեսողական ընկալումը խիտ, բարձր լուծաչափով պատկերների համար, որտեղ կարևոր է ամբողջական հավաստիությունը։ Սկսած GPT‑5.4‑ից, մենք ներկայացնում ենք original պատկերի մուտքագրման մանրամասների(բացվում է նոր պատուհանում) մակարդակ, որը աջակցում է լիարժեք ճշգրտությամբ ընկալմանը մինչև 10.24 միլիոն ընդհանուր պիքսել կամ առավելագույն 6000 պիքսել չափ, որը կրճատ է; high պատկերի մուտքագրման մանրամասների մակարդակը այժմ աջակցում է մինչև 2.56 միլիոն ընդհանուր պիքսել կամ առավելագույն 2048 պիքսել չափը: API օգտատերերի հետ վաղ փորձարկումների ժամանակ մենք նկատեցինք տեղայնացման ունակության, պատկերի ընկալման և սեղմման ճշգրտության զգալի աճ՝ օգտագործելով original կամ high մանրամասնություն։

«Մեր գնահատումներում, որոնք չափում են համակարգչի օգտագործման կատարողականությունը ~30K HOA և գույքահարկի պորտալներում, GPT-5.4-ը առաջին փորձից հասել է 95% հաջողության մակարդակի և երեք փորձի ընթացքում՝ 100%-ի՝ համեմատած նախորդ CUA (Համակարգչի օգտագործման ագենտ) մոդելների ~73–79%-ի հետ։ Այն նաև ավարտեց սեսիաները մոտ 3 անգամ ավելի արագ՝ օգտագործելով մոտ 70%-ով պակաս տոկեններ, ինչը զգալիորեն բարելավեց հուսալիությունը և ծախսարդյունավետությունը մասշտաբային առումով։
— Դոդ Ֆրեյզեր, Mainstay-ի Գործադիր տնօրեն (CEO)

API-ում մշակողները կարող են մուտք գործել այս հնարավորություններին՝ օգտագործելով թարմացված computer գործիքը։ Խնդրում ենք ծանոթանալ մեր թարմացված փաստաթղթերին(բացվում է նոր պատուհանում) ՝ առաջարկվող լավագույն փորձերի համար։

Կոդավորում

GPT‑5.4‑ը համատեղում է GPT‑5.3‑Codex‑ի կոդավորման ուժեղ կողմերը առաջատար գիտելիքահեն աշխատանքի և համակարգչի օգտագործման հնարավորությունների հետ, որոնք կարևոր են երկարատև առաջադրանքների համար, երբ մոդելը կարող է օգտագործել գործիքներ, կրկնել քայլերը և աշխատանքը առաջ տանել՝ նվազագույն ձեռքով միջամտությամբ։ Այն SWE-Bench Pro-ում համապատասխանում է կամ գերազանցում է GPT‑5.3‑Codex‑ին՝ միաժամանակ ունենալով ավելի ցածր լատենտություն հիմնավորման ջանքերի ընթացքում։

Մենք գնահատում ենք հապաղումը՝ դիտարկելով մեր մոդելների արտադրական վարքագիծը և սա օֆլայն սիմուլյացիայի ենթարկելով։ Լատենտության գնահատականը հաշվի է առնում գործիքի կանչի տևողությունը (կոդի կատարման ժամանակը), նմուշառված թոքենները և մուտքային թոքենները. Իրական աշխարհի ուշացումը կարող է զգալիորեն տարբերվել և կախված է բազմաթիվ գործոններից, որոնք մեր սիմուլյացիայում չեն արտացոլվում։ Հիմնավորման ջանքերը բարձրացվեցին «ոչ»-ից մինչև «շատ բարձր»։

Երբ Codex-ում /fast ռեժիմը միացված է, GPT‑5.4‑ի միջոցով տոկենների արագությունը հասնում է մինչև 1.5 անգամ ավելի բարձրի։ Դա նույն մոդելն է և նույն բանականությունը, պարզապես ավելի արագ։ Դա նշանակում է, որ օգտատերերը կարող են առաջ շարժվել կոդավորման առաջադրանքների, իտերացիայի և վրիպազերծման միջով՝ մնալով հոսքի մեջ։ Մշակողները կարող են API-ի միջոցով նույն արագ արագություններով մուտք գործել GPT‑5.4՝ օգտագործելով առաջնահերթ մշակումը(բացվում է նոր պատուհանում)։

Գնահատման և ներքին փորձարկումների ընթացքում մենք պարզեցինք, որ GPT‑5.4‑ը գերազանցում է բարդ frontend առաջադրանքներում՝ ապահովելով նկատելիորեն ավելի գեղագիտական և ավելի ֆունկցիոնալ արդյունքներ, քան մեր նախկինում թողարկած ցանկացած մոդել։

Որպես մոդելի բարելավված համակարգչային օգտագործման և կոդավորման հնարավորությունների համատեղ աշխատանքի ցուցադրություն, մենք նաև թողարկում ենք «Playwright (ինտերակտիվ)(բացվում է նոր պատուհանում)» անվամբ Codex-ի փորձարարական հմտություն։ Սա թույլ է տալիս Codex-ին վիզուալ կերպով վրիպազերծել վեբ և Electron հավելվածները. այն նույնիսկ կարող է օգտագործվել՝ փորձարկելու այն հավելվածը, որը կառուցում է, հենց այն կառուցելու ընթացքում։

GPT‑5.4‑ով ստեղծված թեմատիկ այգու սիմուլյացիոն խաղ՝ մեկ թեթևակի հստակեցված հարցումից, օգտագործելով Playwright Interactive՝ բրաուզերում խաղի թեստավորման համար և պատկերի գեներացում՝ իզոմետրիկ ակտիվների հավաքածուի համար։ Սիմուլյացիան ներառում է սալիկային հիմքով ուղիների տեղադրում, ատրակցիոնների և դեկորացիաների կառուցում, հյուրերի երթուղու որոնում, հերթագրման գործընթաց և ատրակցիոնների ցիկլեր, մինչդեռ այգու ցուցանիշները՝ ինչպես գումարը, հյուրերի քանակը, երջանկությունը, մաքրությունը և վարկանիշը, բարձրանում կամ նվազում են՝ կախված նրանից, թե որքան լավ է աշխատում դասավորությունը և ինչպես են հյուրերը արձագանքում դրան։ Playwright-ը օգտագործվել է դիտարկչում խաղային թեստերը ավտոմատացնելու համար՝ կառուցելով և ընդլայնելով այգին, տեղադրելով և հեռացնելով արահետներն ու ատրակցիոնները, ստուգելով տեսախցիկի նավիգացիան և հաստատելով, որ հյուրերը, հերթերը, ատրակցիոնների վիճակները և UI չափորոշիչները մի քանի խաղային փուլերի ընթացքում ճիշտ կերպով թարմացվել են։

Հարցում: Օգտագործիր $playwright-interactive և $imagegen։ Ստեղծիր ինտերակտիվ իզոմետրիկ թեմատիկ այգու սիմուլյացիոն խաղ, որը կարող եմ կառուցել և որի մեջ կարող եմ նավիգացիա անել բրաուզերում։ Օգտագործիր imagegen-ը՝ ընդհանուր տեսողական կոնցեպտը սահմանելու և խաղի ակտիվները գեներացնելու համար, ներառյալ ատրակցիոնները, արահետները, տեղանքը, ծառերը, ջուրը, սննդի տաղավարները, դեկորացիաները, շենքերը, պատկերակները և UI իլյուստրացիաները։ Աշխարհը պետք է զգացվի միասնական, հղկված և տեսողականորեն հարուստ՝ պրեմիում արտ-ուղղորդմամբ, որը լավ է աշխատում իզոմետրիկ դիտանկյունից։ Թույլ տուր ինձ տեղադրել և հեռացնել արահետներ, ավելացնել ատրակցիոններ, տեղակայել դեկորացիաներ և սահուն շարժվել այգու մեջ՝ միաժամանակ հետևելով այցելուների ակտիվությանը, ատրակցիոնների կարգավիճակին և այգու աճին։ Ներառիր հավատալի այցելուների շարժ, պարզ այգու կառավարման համակարգեր՝ ինչպես փողը, մաքրությունը, հերթերը և երջանկությունը, և փորձառությունը դարձրու խաղային, պարզ ու ամբողջական, այլ ոչ թե կոպիտ նախատիպի նման։ Իրատեսականությունից ավելի առաջնահերթ համարիր հմայքը, ընթեռնելիությունը և խաղի ուժեղ զգացողությունը։ 

Խաղը փորձարկելիս անպայման կառուցիր և ընդլայնիր այգին խաղի մի քանի փուլերի ընթացքում, ստուգիր, որ տեղադրումն ու նավիգացիան սահուն են աշխատում, հաստատիր, որ այցելուները արձագանքում են այգու դասավորությանը և տեսարժան վայրերին, և համոզվիր, որ տեսողական նյութերը, ինտերֆեյսը և փոխազդեցությունները կայուն և համահունչ են զգացվում։

«Մեր ինժեներները GPT-5.4-ը համարում են ավելի բնական և վստահ, քան նախորդ մոդելները։ Այն լուծում է երկիմաստ խնդիրներ՝ առանց երկմտելու, և նախաձեռնողականորեն զուգահեռաբար է կազմակերպում աշխատանքները՝ ամեն ինչ շարժման մեջ պահելու համար»։
— Լի Ռոբինսոն, Cursor-ում մշակողների կրթության փոխնախագահ

Գործիքների օգտագործում

GPT‑5.4‑ով, մենք զգալիորեն բարելավել ենք, թե ինչպես են մոդելները աշխատում արտաքին գործիքների հետ։ Ագենտներն այժմ կարող են գործել ավելի մեծ գործիքային էկոհամակարգերում, ավելի հուսալիորեն ընտրել ճիշտ գործիքները և ավարտել բազմաքայլ աշխատանքային հոսքերը՝ ավելի ցածր ծախսով և հապաղմամբ։

Գործիքի որոնում

API-ում GPT‑5.4‑ը ներկայացնում է գործիքների որոնում(բացվում է նոր պատուհանում), որը թույլ է տալիս մոդելներին արդյունավետ աշխատել, երբ նրանց տրամադրվում են բազմաթիվ գործիքներ։

Նախկինում, երբ մոդելին տրվում էին գործիքներ, բոլոր գործիքների սահմանումները ներառվում էին հարցման մեջ նախապես։ Շատ գործիքներ ունեցող համակարգերի համար սա կարող է յուրաքանչյուր հարցման մեջ ավելացնել հազարավոր—կամ նույնիսկ տասնյակ հազարավոր—թոքեններ՝ մեծացնելով ծախսը, դանդաղեցնելով պատասխանները և համատեքստը լցնելով այնպիսի տեղեկությամբ, որը մոդելը կարող է երբեք չօգտագործել։

Գործիքների որոնմամբ GPT‑5.4‑ը ստանում է մատչելի գործիքների թեթև ցուցակ՝ գործիքների որոնման հնարավորությամբ։ Երբ մոդելը պետք է օգտագործի գործիք, այն կարող է գտնել այդ գործիքի սահմանումը և կցել այն խոսակցությանը տվյալ պահին։

Այս մոտեցումը զգալիորեն նվազեցնում է գործիքներով հագեցած աշխատանքային հոսքերի համար պահանջվող թոքենների քանակը և պահպանում է քեշը՝ դարձնելով հարցումները ավելի արագ և ավելի էժան։ Այն նաև հնարավորություն է տալիս ագենտներին հուսալիորեն աշխատել շատ ավելի մեծ գործիքների էկոհամակարգերի հետ։ Այն MCP սերվերների համար, որոնք կարող են պարունակել գործիքների սահմանումների տասնյակ հազարավոր թոքեններ, արդյունավետության աճը կարող է զգալի լինել։

Արդյունավետության աճը ցուցադրելու համար մենք գնահատեցինք Scale-ի MCP Atlas(բացվում է նոր պատուհանում) չափանիշից 250 առաջադրանք՝ երկու ռեժիմով միացված բոլոր 36 MCP սերվերներով. (1) մոդելի կոնտեքստում յուրաքանչյուր MCP ֆունկցիայի ուղղակի բացահայտում, և (2) բոլոր MCP սերվերների տեղադրում գործիքների որոնման հետևում։ Գործիք-որոնման կազմաձևումը նվազեցրեց թոքենների ընդհանուր օգտագործումը 47%-ով՝ միաժամանակ ապահովելով նույն ճշգրտությունը։

Օրինակային թոքենների քանակները ստացվել են MCP-Atlas հանրային տվյալների հավաքածուում 250 առաջադրանքի միջինացման արդյունքում։

Ագենտային գործիքի կանչում

GPT‑5.4‑ը նաև բարելավում է գործիքների կանչումը՝ դարձնելով այն ավելի ճշգրիտ և արդյունավետ, երբ որոշում է, թե երբ և ինչպես օգտագործել գործիքները հիմնավորման ընթացքում, հատկապես API-ում։  GPT‑5.2‑ի համեմատ՝ այն Toolathlon-ում ավելի քիչ հերթափոխերով հասնում է ավելի բարձր ճշգրտության՝ մի չափանիշ, որը ստուգում է, թե որքան լավ են ԱԲ ագենտները կարողանում օգտագործել իրական աշխարհի գործիքներն ու API-ները՝ բազմաքայլ առաջադրանքներ կատարելու համար։ Օրինակ՝ ագենտին անհրաժեշտ է կարդալ էլ. նամակները, հանել առաջադրանքի կցորդները, վերբեռնել դրանք, գնահատել դրանք և արդյունքները գրանցել աղյուսակաթերթում։

Գործիքի զիջումը այն է, երբ օգնականը զիջում է՝ սպասելու գործիքի արձագանքին։ Եթե 3 գործիք կանչվեն զուգահեռաբար, ապա դրանց կհետևեն ևս 3 գործիք, որոնք կանչվում են զուգահեռաբար, yield-երի թիվը կլինի 2։ Գործիքային yield-երը լատենտության ավելի լավ ցուցիչ են, քան գործիքների կանչերը, քանի որ դրանք արտացոլում են զուգահեռացման առավելությունները։

Հապաղման զգայուն կիրառման դեպքերի համար, որտեղ հիմնավորման ջանքերի None-ը նախընտրելի է, GPT‑5.4‑ը հետագայում բարելավում է իր նախորդներին։

In τ2-bench⁠(բացվում է նոր պատուհանում), a model must use tools to accomplish a customer service task, where there may be a simulated user who can communicate and take actions on the world state. Reasoning effort was set to None.

Բարելավված վեբ որոնում

GPT‑5.4‑ը ավելի լավ է աgենտային վեբ որոնման մեջ. BrowseComp-ում, որը չափում է, թե որքանով են արհեստական բանականության գործակալները կարողանում մշտապես զննել համացանցը՝ դժվար գտնվող տեղեկատվությունը գտնելու համար, GPT‑5.4‑ը 17%-ով ավելի է, քան GPT‑5.2‑ը, իսկ GPT‑5.4 Pro-ն սահմանում է 89,3% նոր մակարդակի ցուցանիշ։

Գործնականում սա նշանակում է, որ GPT‑5.4 Thinking-ը ավելի ուժեղ է այն հարցերին պատասխանելիս, որոնք պահանջում են համացանցում բազմաթիվ աղբյուրներից տեղեկատվություն համախմբել։ Այն կարող է ավելի համառորեն որոնել բազմաթիվ փուլերով՝ առավել համապատասխան աղբյուրները բացահայտելու համար, մասնավորապես՝ «ասեղը խոտի մեջ» տիպի հարցերի համար, և դրանք սինթեզել պարզ, լավ հիմնավորված պատասխանի մեջ։

BrowseComp-ում մենք օգտագործեցինք որոնման արգելափակման ցուցակ՝ գնահատումից բացառելով այն կայքերը, որոնք պարունակում են չափորոշիչների պատասխաններ, որպեսզի կանխենք աղտոտումը և ապահովենք արդյունավետության արդար չափումը։ GPT‑5.4‑ը չափվել է GPT‑5.2‑ից ավելի ուշ ամսաթվով, այսպիսով, գնահատականները արտացոլում են մոդելի, մեր որոնողական համակարգի և ինտերնետի վիճակի փոփոխությունները։ GPT‑5.4‑ը փորձարկվել է ավելի երկար, թարմացված արգելափակման ցուցակով։ Մոդելները օգտագործում են ChatGPT որոնման գործիքը, որը կարող է փոքր տարբերություններ ունենալ API որոնումից։

«GPT-5.4 xhigh-ը բազմափուլ գործիքների օգտագործման նորագույն տեխնոլոգիան է»։ Zapier-ը ոլորտում գործիքների օգտագործման ամենախիստ չափանիշներից մի քանիսն է կիրառում՝ մոդելները փորձարկելով հարյուրավոր առաջադեմ իրական աշխարհի աշխատանքային հոսքերի շրջանակում։ GPT-5.4-ը ավարտեց աշխատանքը այնտեղ, որտեղ նախորդ մոդելները հանձնվեցին՝ մինչ օրս ամենահամառ մոդելը»։
— Ուեյդ, Zapier-ի գործադիր տնօրեն

Կառավարելիություն

Նմանապես, ինչպես Codex-ը ուրվագծում է իր մոտեցումը աշխատանքի սկզբում, GPT‑5.4 Thinking-ը ChatGPT‑ում այժմ ուրվագծելու է իր աշխատանքը նախաբանով՝ ավելի երկար, ավելի բարդ հարցումների համար։ Դուք կարող եք նաև ավելացնել ցուցումներ կամ պատասխանի ընթացքում հարմարեցնել դրա ուղղությունը։ Սա հեշտացնում է մոդելը ուղղորդելը դեպի հենց այն արդյունքը, որը ցանկանում եք՝ առանց նորից սկսելու կամ մի քանի լրացուցիչ հերթափոխ պահանջելու։ Այս գործառույթն այժմ հասանելի է chatgpt.com(բացվում է նոր պատուհանում) -ում և Android հավելվածում, իսկ iOS հավելվածում շուտով հասանելի կլինի։

Մոդելը կարող է նաև ավելի երկար մտածել դժվար առաջադրանքների վրա՝ միաժամանակ պահպանելով զրույցի ավելի վաղ քայլերի ավելի ուժեղ գիտակցումը։ Սա թույլ է տալիս այն կառավարել ավելի երկար աշխատանքային հոսքեր և ավելի բարդ հարցումներ՝ միաժամանակ պահպանելով պատասխանների համահունչությունն ու համապատասխանությունը ամբողջ ընթացքում։

Այս տեսանյութը արագացվել է՝ ցուցադրական նպատակներով։

Անվտանգություն

Վերջին ամիսների ընթացքում մենք շարունակել ենք բարելավել GPT‑5.3‑Codex‑ի հետ ներդրված պաշտպանական միջոցները՝ միաժամանակ պատրաստելով GPT‑5.4‑ը տեղակայման համար։ GPT‑5.3‑Codex‑ի նման, մենք GPT‑5.4‑ը մեր Պատրաստվածության շրջանակի ներքո դիտարկում ենք որպես կիբեր կարողությունների «բարձր» մակարդակ, և այն ներդնում ենք համապատասխան պաշտպանական միջոցներով՝ ինչպես փաստագրված է համակարգի քարտում։ Դրանք ներառում են ընդլայնված կիբերանվտանգության պաշտպանությունների փաթեթ, ներառյալ մոնիթորինգի համակարգեր, վստահելի մուտքի վերահսկողություններ և ավելի բարձր ռիսկ ունեցող հարցումների համար՝ ասինխրոն արգելափակում՝ ոչ մի պահվող տվյալ (ZDR) մակերեսների վրա գտնվող հաճախորդների համար՝ անվտանգության ավելի լայն էկոհամակարգում շարունակական ներդրումների հետ մեկտեղ։

Քանի որ կիբերանվտանգության հնարավորությունները բնույթով երկակի օգտագործման համար են նախատեսված, մենք պահպանում ենք նախազգուշական մոտեցում՝ ներդրման հարցում՝ միաժամանակ շարունակելով կարգավորել մեր քաղաքականությունները և դասակարգիչները։ ZDR surfaces-ի որոշ հաճախորդների համար հարցման մակարդակով արգելափակումը շարունակում է մնալ մեր կիբեր ռիսկի մեղմացման փաթեթի մաս. քանի որ դասակարգիչները դեռ բարելավվում են, որոշ կեղծ դրականներ կարող են առաջանալ, մինչ մենք շարունակում ենք կատարելագործել այս պաշտպանական միջոցները։ Այս թարմացումները նպատակ ունեն բարելավել, թե ինչպես են պաշտպանիչ միջոցները գործում գործնականում, այդ թվում՝ նվազեցնելով ավելորդ հրաժարումները և չափազանց վերապահումներով պատասխանները՝ միաժամանակ պահպանելով չարաշահումների դեմ ուժեղ պաշտպանությունները։

Մենք շարունակել ենք մեր անվտանգության հետազոտությունը մտքերի շղթա (CoT) մոնիտորինգի հնարավորության վերաբերյալ՝ ավելի լավ հասկանալու համար, թե ինչպես են մոդելները հիմնավորում և օգնելու հայտնաբերել հնարավոր սխալ վարքագիծը։ Այս աշխատանքի շրջանակում մենք ներկայացնում ենք նոր բաց կոդով գնահատում՝ CoT վերահսկելիություն,  որը չափում է, թե արդյոք մոդելները կարող են միտումնավոր քողարկել իրենց հիմնավորումը՝ մոնիտորինգից խուսափելու համար։ Մենք գտնում ենք, որ GPT‑5.4 Thinking-ի՝ իր CoT-ը վերահսկելու կարողությունը ցածր է, ինչը անվտանգության տեսանկյունից դրական հատկություն է՝ ենթադրելով, որ մոդելը չունի իր հիմնավորումը թաքցնելու կարողություն, և որ CoT մոնիտորինգը շարունակում է մնալ արդյունավետ անվտանգության գործիք։

Հասանելիություն և գներ

GPT‑5.4‑ն այսօր աստիճանաբար հասանելի է դառնում ChatGPT‑ում և Codex-ում. API-ում GPT‑5.4‑ն այժմ հասանելի է որպես gpt-5.4։ GPT‑5.4 Pro-ն նաև հասանելի է API-ում որպես gpt-5.4-pro առավելագույն կատարողականության կարիք ունեցող մշակողների համար՝ ամենաբարդ առաջադրանքների դեպքում։

ChatGPT‑ում GPT‑5.4 Thinking-ը հասանելի է այսօրվանից ChatGPT Plus, Team և Pro օգտատերերի համար՝ փոխարինելով GPT‑5.2 Thinking-ը։ GPT‑5.2 Thinking-ը վճարովի օգտատերերի համար հասանելի կմնա երեք ամիս՝ «Ժառանգական մոդելներ» բաժնի մոդելների ընտրիչում, որից հետո այն կդադարեցվի 2026 թվականի հունիսի 5-ին։ Enterprise և Edu պլաններում գտնվողները կարող են միացնել վաղ հասանելիությունը ադմինիստրատիվ կարգավորումների միջոցով. GPT‑5.4 Pro-ն հասանելի է Pro և Enterprise պլաններում։ Համատեքստային պատուհաններ(բացվում է նոր պատուհանում) ChatGPT‑ում GPT‑5.4‑ի համար Thinking-ը մնում է անփոփոխ՝ ինչպես GPT‑5.2 Thinking-ում։

GPT‑5.4‑ը մեր առաջին հիմնական գծի հիմնավորման մոդելն է, որը ներառում է GPT‑5.3‑codex‑ի առաջադեմ կոդավորման հնարավորությունները և որը սկսում է հասանելի դառնալ ChatGPT‑ում, API-ում և Codex-ում։ Մենք այն անվանում ենք GPT‑5.4՝ այդ անցումը արտացոլելու և Codex-ն օգտագործելիս մոդելների միջև ընտրությունը պարզեցնելու համար։ Ժամանակի ընթացքում կարող եք ակնկալել, որ մեր Instant մոդելները և Thinking մոդելները կզարգանան տարբեր արագությամբ։

Codex-ում GPT‑5.4‑ը ներառում է փորձարարական աջակցություն 1M համատեքստի պատուհանի համար. Ծրագրավորողները կարող են սա փորձել՝ կարգավորելով model_context_window և model_auto_compact_token_limit։ Ստանդարտ 272K համատեքստի պատուհանը գերազանցող հարցումները օգտագործման սահմանաչափերի մեջ կհաշվարկվեն 2x՝ սովորականից բարձր արագությամբ։

API-ում GPT‑5.4‑ի գինը մեկ թոքենի համար ավելի բարձր է, քան GPT‑5.2‑ի, որպեսզի արտացոլի դրա բարելավված հնարավորությունները, մինչդեռ դրա ավելի բարձր թոքենային արդյունավետությունը օգնում է նվազեցնել շատ առաջադրանքների համար պահանջվող թոքենների ընդհանուր քանակը։ Batch և Flex գնագոյացումը հասանելի են ստանդարտ API սակագնի կեսով, մինչդեռ Priority մշակումը հասանելի է ստանդարտ API սակագնի կրկնապատիկով։

API մոդել

Մուտքային գին

Պահված մուտքագրման գինը

Արտածման գին

gpt-5.2

$1.75 / M թոքեններ

$0.175 / M թոքեններ

$14 / M թոքեններ

gpt-5.4

$2.50 / M թոքեններ

0,25 ԱՄՆ դոլար / M թոքեններ

$15 / M թոքեններ

gpt-5.2-pro

21 ԱՄՆ դոլար / M թոքեն

-

168 ԱՄՆ դոլար / M թոքեններ

gpt-5.4-pro

$30 / M թոքեններ

-

$180 / M թոքեններ

Գնահատումներ

Մասնագիտական

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

GDPval

83,0%

82.0%

70,9%

70,9%

74.1%

FinanceAgent v1.1

56.0%

61.5%

54.0%

59.5%

Ներդրումային բանկային մոդելավորման առաջադրանքներ (Ներքին)

87,3%

83.6%

79.3%

68.4%

71.7%

OfficeQA

68.1%

65.1%

63.1%

Կոդավորում

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

SWE-Bench Pro (Public)

57,7%

56,8%

55,6%

Terminal-Bench 2.0

75.1%

77,3%

62,2%

Համակարգչի օգտագործում և տեսողություն

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

OSWorld հաստատված

75,0%

74,0%

47,3%

MMMU Pro (առանց գործիքների)

81.2%

79,5%

MMMU Pro (գործիքներով)

82.1%

80.4%

Գործիքների օգտագործում

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

BrowseComp

82,7%

89.3%

77,3%

65,8%

77,9%

MCP Atlas

67.2%

60.6%

Toolathlon

54.6%

51,9%

45.7%

Tau2-bench Telecom

98.9%

98.7%

Ակադեմիական

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Առաջադեմ գիտական հետազոտություն

33.0%

36,7%

25.2%

FrontierMath 1–3 մակարդակ

47.6%

40.7%

FrontierMath 4-րդ մակարդակ

27.1%

38,0%

18.8%

31.3%

GPQA Diamond

92.8%

94.4%

92.6%

92,4%

93,2%

Մարդկության վերջին քննությունը (առանց գործիքների)

39.8%

42.7%

34.5%

36.6%

Մարդկության վերջին քննությունը (գործիքներով)

52.1%

58.7%

45.5%

50.0%

Երկար համատեքստ

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

Graphwalks BFS 0K–128K

93.0%

94,0%

Graphwalks BFS 256K–1M

21.4%

Graphwalks-ի ծնողները 0–128K (ճշգրտություն)

89.8%

89.0%

Graphwalks ծնողներ 256K–1M (ճշգրտություն)

32.4%

OpenAI MRCR v2 8-ասեղանի 4K–8K

97.3%

98.2%

OpenAI MRCR v2 8 ասեղանի 8K–16K

91.4%

89.3%

OpenAI MRCR v2 8 ասեղանի 16K–32K

97,2%

95.3%

OpenAI MRCR v2 8 ասեղանի 32K–64K

90.5%

92.0%

OpenAI MRCR v2 8 ասեղանի 64K–128K

86.0%

85.6%

OpenAI MRCR v2 8 ասեղանի 128K–256K

79.3%

77.0%

OpenAI MRCR v2 8 ասեղային 256K–512K

57.5%

OpenAI MRCR v2 8 ասեղ 512K–1M

36.6%

Աբստրակտ մտածողություն

գնահատում

GPT‑5.4

GPT‑5.4
Pro

GPT‑5.3-Codex

GPT‑5.2

GPT‑5.2
Pro

ARC-AGI-1 (Հաստատված)

93.7%

94.5%

86,2%

90.5%

ARC-AGI-2 (Verified)

73.3%

83.3%

52,9%

54.2% (բարձր)

Evals առանց հիմնավորման

գնահատում

GPT‑5.4
(չկա)

GPT‑5.2
(չկա)

GPT‑4.1

OmniDocBench (նորմալացված խմբագրման հեռավորություն)

0.109

0.140

Tau2-bench Telecom

64.3%

57.2%

43,6%

Գնահատումները գործարկվել են՝ հիմնավորման ջանքերը սահմանված xhigh, բացառությամբ այն դեպքերի, որտեղ նշված է այլ կերպ։ Հետազոտական միջավայրում կատարվել են փորձարկումներ, որոնք որոշ դեպքերում կարող են տալ մի փոքր այլ արդյունքներ, քան արտադրական ChatGPT‑ը։

Հեղինակ

OpenAI