Անցնել հիմնական բովանդակությանը
OpenAI

Ներկայացնում ենք GPT‑5.4 mini-ն և nano-ն

Արագ և արդյունավետ մոդելներ՝ օպտիմալացված կոդավորման և ենթաագենտների համար

Բեռնվում է…

Այսօր մենք թողարկում ենք GPT‑5.4 mini-ն և nano-ն, որոնք հանդիսանում են մինչ օրս մեր ամենահզոր փոքր մոդելները։ Դրանք GPT‑5.4‑ի բազմաթիվ ուժեղ կողմերը փոխանցում են ավելի արագ, ավելի արդյունավետ մոդելների՝ նախատեսված մեծ ծավալի աշխատանքային բեռնվածությունների համար։

GPT‑5.4 mini-ն զգալիորեն բարելավում է GPT‑5 mini-ն՝ կոդավորման, հիմնավորման, բազմամոդալ ըմբռնման և գործիքների օգտագործման ոլորտներում, միաժամանակ աշխատելով ավելի քան 2 անգամ ավելի արագ։ Այն նաև մի քանի գնահատումների համաձայն մոտենում է ավելի մեծ GPT‑5.4 մոդելի կատարողականին, այդ թվում՝ SWE-Bench Pro-ում և OSWorld-Verified-ում։

GPT‑5.4 nano-ն GPT‑5.4‑ի ամենափոքր, ամենամատչելի տարբերակն է այն առաջադրանքների համար, որտեղ արագությունն ու արժեքն ամենակարևորն են։ Սա նաև զգալի արդիականացում է GPT‑5 nano-ի համեմատ։ Մենք այն խորհուրդ ենք տալիս դասակարգման, տվյալների արտահանման, վարկանիշավորման և կոդավորման ենթաագենտների համար, որոնք կատարում են ավելի պարզ օժանդակ առաջադրանքներ։

Այս մոդելները նախատեսված են այնպիսի աշխատանքային բեռնվածությունների համար, որտեղ հապաղումը անմիջականորեն ազդում է պրոդուկտի փորձի վրա՝ կոդավորման օգնականներ, որոնք պետք է լինեն արձագանքող, ենթաագենտներ, որոնք արագորեն կատարում են օժանդակ առաջադրանքները, համակարգչային համակարգեր, որոնք որսում և մեկնաբանում են սքրինշոթները, և բազմամոդալ կիրառություններ, որոնք կարող են իրական ժամանակում տրամաբանել պատկերների շուրջ։ Այս կարգավորումներում լավագույն մոդելը հաճախ ամենամեծը չէ, այլ այն, որը կարող է արագ պատասխանել, հուսալիորեն օգտագործել գործիքներ և միաժամանակ լավ կատարել բարդ մասնագիտական առաջադրանքներ։

GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-Bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Toolathlon54.6%42.9%35.5%26.9%
GPQA Diamond93.0%88.0%82.8%81.6%
OSWorld-Verified75.0%72.1%39.0%42.0%

1 GPT‑5 mini-ի համար հասանելի ամենաբարձր տրամաբանական ջանքն «բարձր» է։

Ահա թե ինչ են մտածում մեր հաճախորդները՝ իրենց աշխատանքային հոսքերում GPT‑5.4 mini և nano մոդելները փորձարկելուց հետո․

«GPT-5.4 mini-ն ապահովում է ամբողջական հզոր կատարողականություն այս դասի մոդելի համար։ Մեր գնահատումների համաձայն այն մի շարք ելքային առաջադրանքներում և հղումների հիշողության մեջ համապատասխանել է կամ գերազանցել մրցակցային մոդելներին՝ զգալիորեն ավելի ցածր արժեքով։ Այն նաև ապահովեց ավելի բարձր ամբողջական անցման ցուցանիշներ և աղբյուրի ավելի ուժեղ վերագրում, քան ավելի մեծ GPT-5.4 մոդելը»։
— Աաբհաս Շարմա, Hebbia-ի տեխնիկական տնօրեն

Կոդավորում

GPT‑5.4 mini-ն և nano-ն հատկապես արդյունավետ են կոդավորման աշխատանքային հոսքերում, որոնք օգտվում են արագ կրկնվող փորձարկումներից։ Մոդելները կատարում են թիրախային խմբագրումներ, կոդային բազայի նավիգացիա, առջևի մասի գեներացում և վրիպազերծման ցիկլեր՝ ցածր ուշացմամբ, ինչը դրանք դարձնում է հիանալի ընտրություն կոդավորման առաջադրանքների համար, որոնք պետք է իրականացվեն ավելի արագ և ավելի ցածր արժեքներով։

Համեմատական փորձարկումներում GPT‑5.4 mini-ն հետևողականորեն գերազանցում է GPT‑5‑mini‑ին նմանատիպ ուշացման պայմաններում և մոտենում է GPT‑5.4 մակարդակի անցման ցուցանիշներին՝ միաժամանակ աշխատելով շատ ավելի արագ և ապահովելով կոդավորման աշխատանքային հոսքերի համար ամենաուժեղ արտադրողականության և ուշացման հարաբերակցություններից մեկը։

Մենք գնահատում ենք հապաղումը՝ դիտարկելով մեր մոդելների արտադրական վարքագիծը և սա օֆլայն սիմուլյացիայի ենթարկելով։ Ուշացման գնահատականը հաշվի է առնում գործիքի կանչի տևողությունը (կոդի կատարման ժամանակը), նմուշառված թոքենները և մուտքային թոքենները։ Իրական աշխարհում ուշացումը կարող է զգալիորեն տարբերվել և կախված է բազմաթիվ գործոններից, որոնք մեր սիմուլյացիայում չեն արտացոլվում։ Նմանապես, ծախսերը գնահատվում են՝ հիմնվելով այս մոդելների API-ի գների վրա՝ գրման պահին։ Ծախսերը ապագայում կարող են փոխվել։ Հիմնավորման ջանքերը բարձրացվեցին «ցածր»-ից մինչև շատ «բարձր»-ի։

Ենթաագենտներ

GPT‑5.4 mini-ն նաև լավ է համապատասխանում տարբեր չափերի մոդելներ համադրող համակարգերի համար։ Codex-ում, օրինակ, GPT‑5.4‑ի նման ավելի մեծ մոդելը կարող է զբաղվել պլանավորմամբ, համակարգմամբ և վերջնական գնահատմամբ, մինչդեռ ավելի նեղ ենթաառաջադրանքները հանձնարարում է GPT‑5.4 mini ենթաագենտներին, որոնք դրանք կատարում են զուգահեռ՝ օրինակ կոդային բազայում որոնում կատարելով, մեծ ֆայլ վերանայելով կամ օժանդակ փաստաթղթերը մշակելով։ Իմացեք, թե ինչպես են Codex-ում աշխատում ենթաագենտները փաստաթղթերում(բացվում է նոր պատուհանում)։

Այս օրինաչափությունը դառնում է ավելի օգտակար, քանի որ ավելի փոքր մոդելները դառնում են ավելի արագ և ավելի ունակ։ Ամեն ինչի համար մեկ մոդել օգտագործելու փոխարեն, ծրագրավորողները կարող են կազմել համակարգեր, որտեղ ավելի մեծ մոդելները որոշում են, թե ինչ անել, իսկ ավելի փոքր մոդելները արագ են իրականացնում մեծ մասշտաբով։ GPT‑5.4 mini-ն մեր մինչ օրս ամենահզոր mini մոդելն է այդ ոճի աշխատանքային հոսքերի համար։

Համակարգչի օգտագործում

GPT‑5.4 mini-ն նաև ուժեղ է բազմաձև (մուլտիմոդալ) առաջադրանքներում, հատկապես՝ համակարգչի օգտագործման հետ կապված։ Մոդելը կարող է արագ մեկնաբանել բարդ օգտատիրոջ ինտերֆեյսերի էկրանի նկարները՝ համակարգչի օգտագործման առաջադրանքներն արագությամբ կատարելու համար։ OSWorld-Verified-ում GPT‑5.4 mini-ն մոտենում է GPT‑5.4‑ին՝ միաժամանակ զգալիորեն գերազանցելով GPT‑5 mini-ին։

Հասանելիություն և գներ

GPT‑5.4 mini-ն այսօր հասանելի է API-ում, Codex-ում և ChatGPT‑ում։

API-ում GPT‑5.4 mini-ն աջակցում է տեքստային և պատկերային մուտքերին, գործիքների օգտագործմանը, գործառույթի կանչին, վեբ որոնմանը, ֆայլերի որոնմանը, համակարգչի օգտագործմանը և հմտություններին։ Այն ունի 400k կոնտեքստի պատուհան և արժե 0,75 ԱՄՆ դոլար յուրաքանչյուր 1M մուտքային թոքենների համար և 4,50 ԱՄՆ դոլար յուրաքանչյուր 1M ելքային թոքենների համար։

Codex-ում GPT‑5.4 mini-ն հասանելի է Codex հավելվածում, CLI-ում, IDE ընդլայնման և վեբում։ Այն օգտագործում է GPT‑5.4‑ի միայն 30% քվոտա՝ թույլ տալով ծրագրավորողներին Codex-ում արագորեն կատարել ավելի պարզ կոդավորման առաջադրանքներ՝ մոտավորապես մեկ երրորդ արժեքով։ Codex-ը կարող է նաև հանձնարարել GPT‑5.4 mini ենթաագենտներին, որպեսզի ավելի քիչ հիմնավորում պահանջող աշխատանքը գործարկվի ավելի էժան մոդելի վրա։

ChatGPT‑ում GPT‑5.4 mini-ն հասանելի է Free և Go օգտատերերի համար՝ + ընտրացանկում առկա «Thinking» գործառույթի միջոցով։ Բոլոր մյուս օգտատերերի համար GPT‑5.4 mini-ն հասանելի է որպես արագության սահմանաչափի պահուստային տարբերակ GPT‑5.4‑ի համար Thinking։

GPT‑5.4 nano-ն հասանելի է միայն API-ում և արժե 0,20 ԱՄՆ դոլար յուրաքանչյուր 1M մուտքային թոքենների և 1,25 ԱՄՆ դոլար յուրաքանչյուր 1M արտածման թոքենների համար։

Մոդելների պաշտպանական միջոցների մասին ավելի մանրամասն տեղեկությունների համար խնդրում ենք այցելել մեր «Տեղակայման անվտանգության կենտրոն»՝ համակարգի քարտի հավելվածը(բացվում է նոր պատուհանում) դիտելու համար։

Coding
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
SWE-bench Pro (Public)57.7%54.4%52.4%45.7%
Terminal-Bench 2.075.1%60.0%46.3%38.2%
Tool-calling
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
MCP Atlas67.2%57.7%56.1%47.6%
Toolathlon54.6%42.9%35.5%26.9%
τ2-bench (telecom)98.9%93.4%92.5%74.1%
Intelligence
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
GPQA Diamond93.0%88.0%82.8%81.6%
HLE w/ tool52.1%41.5%37.7%31.6%
HLE w/o tools39.8%28.2%24.3%18.3%
MM / Vision / CUA
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OSWorld-Verified75.0%72.1%39.0%42.0%
MMMUPro w/ Python81.5%78.0%69.5%74.1%
MMMUPro81.2%76.6%66.1%67.5%
OmniDocBench 1.5 (no tools)² — lower is better0.1090.12630.24190.1791
Long context
GPT-5.4 (xhigh)GPT-5.4 mini (xhigh)GPT-5.4 nano (xhigh)GPT-5 mini (high¹)
OpenAI MRCR v2 8-needle 64K–128K86.0%47.7%44.2%35.1%
OpenAI MRCR v2 8-needle 128K–256K79.3%33.6%33.1%19.4%
Graphwalks BFS 0K–128K93.1%76.3%73.4%73.4%
Graphwalks parents 0–128K (accuracy)89.8%71.5%50.8%64.3%

1 GPT‑5 mini-ի համար հասանելի ամենաբարձր տրամաբանական ջանքն «բարձր» է։

2 Ընդհանուր խմբագրման հեռավորություն։ OmniDocBench-ը գործարկվել է՝ հիմնավորման ջանքերը սահմանված none արժեքով, որպեսզի արտացոլի ցածր ծախսով, ցածր հապաղմամբ կատարողականությունը։

Հեղինակ

OpenAI